あいまい検索(類似検索)とは?
あいまい検索とは、表記揺れや同義語を吸収して検索したり、類似文を柔軟に解釈して検索したりすることの総称です。完全一致検索とは違い、検索条件(キーワードまたは自然文で入力された質問文)と完全に一致しなくても検索できます。ここでは、具体例を交えつつ、あいまい検索をわかりやすく解説します。また、あいまい検索は業務効率化やナレッジ活用に有効な手段とも言われており、その理由についてもお伝えします。
目次
あいまい検索とは?
このページの冒頭でも触れましたが、あいまい検索とは、検索キーワードと完全一致していなくても、表記揺れや同義語を吸収して検索したり、類似文を柔軟に解釈して検索したりすることの総称です。あいまい検索は検索エンジンなどに搭載される機能の一つですが、その仕組みや定義は製品ごとに異なります。ここでは具体的にどのような検索をあいまい検索と呼ぶのかご紹介します。
【あいまい検索①】文字の全角/半角、大文字/小文字などを区別せず検索
例:「FUZZY SEARCH」で検索
→「fuzzy search」が含まれるファイルもヒット
【あいまい検索②】表記揺れを吸収して検索
例:「ナレッジマネジメント」で検索
→「ナレッジマネージメント」や「ナレッジ・マネージメント」が含まれるファイルもヒット
例:「TE4525CV」(型番)で検索
→「E4525C」や「TE-4525-CV」などの同意義の型番が含まれるファイルもヒット
【あいまい検索③】スペルミスをカバーして検索
上述の表記揺れを吸収して検索に似ていますが、スペルミスをカバーして検索することができます。
例:「インタネット」で検索
→「インターネット」が含まれるファイルもヒット
【あいまい検索④】同義語を吸収して検索
例:「会社」で検索
→「企業」や「カンパニー」が含まれるファイルもヒット
【あいまい検索⑤】質問文に類似する文を検索(類似検索)
ここで紹介する類似検索はあいまい検索の中で最も高度な処理を要する検索です。
次項で特徴と処理フローについて詳しく説明しています。
例:「デジタルカメラの画像をプリンターで印刷する方法は?」で検索
→「デジカメ画像をプリンターで印刷するには」などの同意義の文が含まれるファイルもヒット
ここで紹介した例は検索キーワードと完全一致しなくても検索できるため、あいまい検索と呼ばれます。上記のような検索に一つでも対応していれば、あいまい検索と呼ぶことを覚えておきましょう。
住友電工情報システムが20年以上にわたって提供するエンタープライズサーチ QuickSolutionはここで紹介しているすべてのあいまい検索を利用可能です。エンタープライズサーチは、企業のデジタルデータを保管場所(社内のサーバやクラウドサービスなど)を気にすることなく、横断検索するための企業内検索システムであり、業務効率化、ナレッジ活用、DX推進に欠かせないツールとして広く利用されています。
類似検索とは?
次に前項で【あいまい検索⑤】として説明した類似検索について説明します。
類似検索はあいまい検索の一種で、ドキュメント群の中から、自然文で入力された質問文と類似するドキュメントを検索できます。あいまい検索の中で最も高度な処理を要する検索技術です。特徴と処理フローについてご紹介します。
例)検索質問が「デジタルカメラの画像をプリンターで印刷する方法は?」の場合
- 「デジタルカメラ」と「デジカメ」、「プリンター」と「プリンタ」等、表記の揺れを吸収
- キーワードやフレーズでもあいまい検索(類似検索)が可能
- キーワード検索を圧倒する回答力を実現
- 検索精度は維持されておりノイズが少ない
- キーワード検索、属性検索との組み合わせも可能
類似検索の処理フロー
全文検索における、類似検索の処理は、大きく次の2ステップからなります。
ステップ1:部分文字列の選別
質問文から出現頻度をもとに検索に有効な部分文字列を高速に選別します。検索精度を維持して検索処理を高速化しているため、質問文が長文であっても問題ありません。
ステップ2:スコアの算出
各部分文字列の「出現頻度」および「出現集中度」を考慮したスコアを算出します。たとえば、部分文字列が出現するドキュメント数が少ない場合は「出現頻度」が低いためスコアが高くなります。また、部分文字列が同じドキュメントに繰り返し出現している場合は「出現集中度」が大きくなりスコアが高くなります。
あいまい検索で業務効率化やナレッジ活用を実現
近年、ITシステムやサービスでファイルを管理して、業務効率化やナレッジ活用を推進している企業が増えています。
ITシステムやサービスに用意されている完全一致検索は検索キーワードが明確である場合は便利です。
一方で探している情報にぴったり一致する言葉で検索する必要があり、検索キーワードとドキュメント内の文字が一文字違うだけで必要な情報を見つけられない場合があります。
特に古い情報を探すときには、記憶があいまいで完全一致するような適切な検索キーワードが思い浮かばずにうまく情報を探せないといったことが起こります。
仮に何度か検索して最終的に求めていた情報を探せたとしても、検索しなおす行為は非効率的であり、必要な情報がなかなか見つからずにイライラするといった経験に覚えがある方もいるのではないでしょうか?
ここで役に立つのがあいまい検索です。
あいまい検索は検索キーワードと完全に一致していなくても、表記揺れや同義語を吸収して検索したり、類似文を柔軟に解釈して検索したりすることが可能です。
検索キーワードが明確でない場合に何度も検索しなおすといったことが減るため業務効率化に貢献します。古い情報も効率的に見つけやすくなり、組織全体のナレッジ活用もますます促進されるでしょう。
あいまい検索の活用・導入事例
エンタープライズサーチ QuickSolutionはファイルサーバやWebサイト、その他各種社内システム、クラウドサービスなどに点在する情報を横断的にあいまい検索できます。導入された企業の多くが業務効率化やナレッジ活用を体感しています。
あいまい検索は、例えば次のような場面で大きな効果を発揮します。
株式会社イシダ
電子化したファイルの、OCR誤認識を吸収した検索
質問文から過去の類似する内容を検索して回答を効率化