Word2vecの類語辞典で嵐のメンバーを入力したら「二宮和也」だけが意外な結果に
機械学習の類語辞典Serif Thesaurusで大野智、櫻井翔、二宮和也を調べると、「二宮和也」だけがまったく異なる結果になりました。
まずは大野智の類義語から。
0.684 櫻井翔
0.648 相葉雅紀
0.645 二宮和也
0.639 松本潤
0.581 松岡昌宏
0.568 山田涼介
0.565 村上信五
0.556 A・RA・SHI
嵐のメンバーが全員入っています。櫻井翔、相葉雅紀、二宮和也、松本潤という順番ですが、この順番はほとんど誤差です。この類語辞典は1に近いほど言葉の類似度が高いことを示しています。
続いて櫻井翔の類義語。
櫻井翔の類義語にも全員嵐のメンバーが登場します。では二宮和也はどうでしょうか?
どういうことでしょうか?小城パーキングエリアってなんでしょうか?生田斗真はありますが、ほとんどは駅名です。
これには理由があります。この類語辞典はWikipediaの全文を学習に用いていますが、日本には「二宮」という地名が非常にたくさんあります。機械学習で二宮和也と二宮を区別することは、実はとても難しいのです。
雑誌やマスコミの記事を見るとわかりますが、二宮和也という名字+名前で紹介することはほとんどありませんね。「二宮」や「ニノ」と呼ばれることがほとんどです。機械学習は当然、二宮和也を表す「二宮」と地名の「二宮」を区別できないため、二宮和也だけが地名の「二宮」に関連する単語を類義語に持ってしまうのです。
機械学習の開発者はここをどうにかしないといけません。打開策の一つはカテゴリーごとの機械学習ですが、単語のカテゴリーそのものが曖昧で、結局は恣意的な曖昧さが辞書に含まれてしまいます。
嵐のメンバー以外にも課題があります。それは「藤岡弘、」「キンタロー。」「モーニング娘。」などの点丸がついた言葉です。日本語を解析する前に、機械学習のソフトウェアは必ず文書の前処理を行います。ここで無駄な記号と数字を省きますが、「藤岡弘、」の点はここで除去されてしまうのです。
ブログ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
テスラ大暴落じゃないかよ…
0
42
-
-
Appleの決算は良くなかった
0
44
-
-
-
-
-
-
-
-
-
-
テスラ株をとりあえず400万円くらい買った
0
162
-
-
-
-
どこに家を買うか…
0
134
-
-
-
-
マレー語の月曜日から日曜日までのスペルと読み方
0
510
-
クレジットカードと運転免許証のサイズ
0
924
-
A3、A4、B4、B5と年賀状のサイズ(縦と横の長さ)
0
1505
-
東京大学はどんな大学で、どんな学生がいるのか?
0
632
-
-
-
理想の間取りは東西に伸びるプール付きの家で間違いない
0
1149
-
-
-
-
-
都合のいい男女平等で損する人間(エッセイ)
0
1726
-
-
方角の言葉(東西南北と八方位)
0
33169
-
今年の国民休日一覧
0
88
-
今年と来年の干支(2023年と2024年の干支)|十干十二支早見表
0
1241367
-
-
-
-
-
-
-
-
-
-
-
-
-
-
30代から役立つ教養と思想シリーズ
0
497
-
塾や予備校に行く前に読んでほしい記事(家族編)
0
409
-
-
大学生は校門前や駅前にいる新興宗教の勧誘に注意しよう
0
1084