Googleが、自社に蓄積されている膨大な日本語文書データからn-gramデータを作成して公開しました。
英語版は既に公開されているものの日本語対応だということですが、n-gramに対する説明や「日本語独自の処理」のあたりが、どうにも腑に落ちません。
自分は言語学的に全くの素人でよく判らないのですが、例えば3-gramとはこのblogで例示されているような「3つの単語の関連から次の単語を予測する」ようなものではなく「3文字の連続を単語として分解し、それらをインデックスする」ようなことではないのでしょうか。
MeCabを使った単語分割と紹介されていますが、それでは形態素解析のような。
どなたか言語学に詳しい方、ご教授いただけると嬉しいです。


コメント