« AdSenseユーザの皆様へ:あなたの成功談を聴かせて下さい | メイン | AdWordsの品質スコアを左右する新要素 »

Googleが大規模日本語n-gramデータを公開。でも、これって...?

Googleが、自社に蓄積されている膨大な日本語文書データからn-gramデータを作成して公開しました。

大規模日本語 n-gram データの公開

英語版は既に公開されているものの日本語対応だということですが、n-gramに対する説明や「日本語独自の処理」のあたりが、どうにも腑に落ちません。

自分は言語学的に全くの素人でよく判らないのですが、例えば3-gramとはこのblogで例示されているような「3つの単語の関連から次の単語を予測する」ようなものではなく「3文字の連続を単語として分解し、それらをインデックスする」ようなことではないのでしょうか。

MeCabを使った単語分割と紹介されていますが、それでは形態素解析のような。

どなたか言語学に詳しい方、ご教授いただけると嬉しいです。

Social Flares:

add to はてなブックマーク add to ECナビ add to livedoorクリップ add to Newsing add to Nifty Clip add to del.icio.us add to digg! add to FC2 add to Pookmark add to Furl add to technorati add to Ma.gnolia add to Google Bookmark add to Yahoo! my web add to reddit add to PingKing add to ROOTACE add to simpy add to spurl add to BuddyMarks

トラックバック

このエントリーのトラックバックURL:
http://dendrocacalia.com/mt/mt-tb.cgi/131

コメント

About

2007年11月02日 15:30に投稿されたエントリーのページです。

ひとつ前の投稿は「AdSenseユーザの皆様へ:あなたの成功談を聴かせて下さい」です。

次の投稿は「AdWordsの品質スコアを左右する新要素」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

他のサイト

アーカイブ

あわせて読みたい

あわせて読みたい

なかのひと