Irohabook
エッセイ ブログ

Word2vecの類語辞典で嵐のメンバーを入力したら「二宮和也」だけが意外な結果に

広告

機械学習の類語辞典Serif Thesaurusで大野智、櫻井翔、二宮和也を調べると、「二宮和也」だけがまったく異なる結果になりました。

まずは大野智の類義語から。

0.684 櫻井翔
0.648 相葉雅紀
0.645 二宮和也
0.639 松本潤
0.581 松岡昌宏
0.568 山田涼介
0.565 村上信五
0.556 A・RA・SHI

大野智の類義語一覧

嵐のメンバーが全員入っています。櫻井翔、相葉雅紀、二宮和也、松本潤という順番ですが、この順番はほとんど誤差です。この類語辞典は1に近いほど言葉の類似度が高いことを示しています。

続いて櫻井翔の類義語。

櫻井翔の類義語一覧

櫻井翔の類義語にも全員嵐のメンバーが登場します。では二宮和也はどうでしょうか?

二宮和也の類義語一覧

どういうことでしょうか?小城パーキングエリアってなんでしょうか?生田斗真はありますが、ほとんどは駅名です。

これには理由があります。この類語辞典はWikipediaの全文を学習に用いていますが、日本には「二宮」という地名が非常にたくさんあります。機械学習で二宮和也と二宮を区別することは、実はとても難しいのです。

雑誌やマスコミの記事を見るとわかりますが、二宮和也という名字+名前で紹介することはほとんどありませんね。「二宮」や「ニノ」と呼ばれることがほとんどです。機械学習は当然、二宮和也を表す「二宮」と地名の「二宮」を区別できないため、二宮和也だけが地名の「二宮」に関連する単語を類義語に持ってしまうのです。

機械学習の開発者はここをどうにかしないといけません。打開策の一つはカテゴリーごとの機械学習ですが、単語のカテゴリーそのものが曖昧で、結局は恣意的な曖昧さが辞書に含まれてしまいます。

嵐のメンバー以外にも課題があります。それは「藤岡弘、」「キンタロー。」「モーニング娘。」などの点丸がついた言葉です。日本語を解析する前に、機械学習のソフトウェアは必ず文書の前処理を行います。ここで無駄な記号と数字を省きますが、「藤岡弘、」の点はここで除去されてしまうのです。

広告

コンピューター コンピューター
プログラミング プログラミング
数学 数学
英語 英語
国語 国語
理科 理科
社会 社会