検索アルゴリズム・多言語対応
すでに検索エンジンを導入されている企業さまで、担当者の頭を悩ませている作業のひとつにシステム辞書登録があります。一般的には検索漏れを防ぐために必要な作業ですが、QuickSolutionはシステム辞書登録の手間をかけずに、高精度な検索を実現できます。
このページではその理由とグローバル企業を支援する多言語対応についてご紹介します。
QuickSolutionの検索アルゴリズムについて
全文検索では、検索を高速化するために検索対象となる文書群からあらかじめ索引情報を準備しておくのが一般的です。この索引情報をインデックスと呼びます。検索時にはインデックスのデータを検索アルゴリズムで解析し、検索結果に表示します。
インデックス生成時の文字列の抽出方法には、主に形態素解析方式、N-gram方式、さらにその2つを組み合わせたハイブリッド方式があります。QuickSolutionは形態素解析方式、N-gram方式を併用した「QSハイブリッド方式」を採用。それにより、システム辞書の更新作業が不要になります。
※インデックス生成については大容量データに強い高速検索をご覧くださいQSハイブリッド方式のメリット
システムへの辞書登録・更新作業が不要
検索エンジン導入の際には、検索漏れを防ぐためにシステムへ辞書を登録・更新する作業が必要になります。しかし「QSハイブリッド方式」を採用したQuickSolutionでは、面倒なシステムへの辞書登録は不要です。辞書の更新作業やメンテナンスも必要ないため、新語や複合語もすぐに検索できます。
独自のアルゴリズムと拡張機能で検索漏れを防ぐ
QuickSolutionでは、「QSハイブリッド方式」に加え、検索機能を補完・拡張する機能を搭載しています。関連語辞書(同義語・類義語登録)、シソーラス辞書、単語重み付け辞書(重要語・不要語の登録)などを使用することで、検索漏れを防ぎ、さらに高精度な検索を実現しています。
QSハイブリッド方式を活用した高度な検索機能
QuickSolutionでは「QSハイブリッド方式」で生成したインデックスを活用して、位置考慮検索・あいまい検索・セマンティック検索などの高度な検索が可能です。
位置考慮検索
検索条件に含まれる複数のキーワードが文書の特定の範囲に出現する度合、あるいは文書の先頭に出現する度合を考慮して検索結果のランキングを行うアルゴリズムです。
位置考慮検索(拡張検索機能)を詳しく見るあいまい検索
表記揺れや同義語を吸収した検索や、類似文を柔軟に解釈した検索が可能です。完全一致検索とは違い、検索条件(キーワードまたは自然文で入力された質問文)と完全に一致しなくても検索ができます。
あいまい検索を詳しく見るセマンティック検索
検索エンジンが検索(自然言語)の意味を理解し、その意味に沿った検索結果を提供する検索機能です。利用者の意図・目的に合った検索結果を提供できます。
セマンティック検索を詳しく見る検索精度を高めるその他関連機能
検索機能の精度をさらに高めることができる、関連機能を紹介します。
キーワード・関連語抽出機能
検索結果に含まれるキーワードを自動抽出し、次の絞り込み候補として使用することができます。辞書を必要としないため、新語や複合語もキーワードとして抽出可能です。これらの機能を利用して、検索条件を適切に表現できない場合でも、抽出されたキーワードや関連語を利用して、連想的に検索結果を絞り込めます(連想検索)。
シソーラス辞書(一部オプション)
QuickSolutionには、エヌ・ティ・ティ・アドバンステクノロジ株式会社が開発したシソーラス基本語辞書が標準搭載されています。シソーラス辞書とは、同じ意味の用語(シソーラス)を同義語集としてまとめた辞書です。その他オプションとして、さまざまな業種のシソーラス辞書(14種類)があり、それらと連携可能です。
シソーラス基本語辞書:収録語数21万語以上(以下例)
たんぱく質 プロティン |
プラスチック 合成樹脂 |
モーター エンジン |
石油 オイル |
シソーラス用途・分野別辞書(オプション)
企業名称 | 団体名称 | 企業正式名称 | 団体正式名称 |
経済・法律・公共 | 放送・時事 | 石油・化学 | 電力・エネルギー |
非鉄・金属 | 自動車 | 機械 | 土木・建築 |
情報通信・コンピュータ | 医療・薬学 |
多言語対応(一部オプション)
日本語はもちろん、英語や中国語のデータも全文検索可能。韓国語にも対応。日本語以外の言語や特殊文字が文字化けしないなど、グローバル企業にも最適な企業向け全文検索エンジンです。