Gephi,Rを用いた邦楽有名アーティストの歌詞類似度可視化
概要
日本で最も売れた邦楽アーティストの歌詞を対象に、頻出単語をランク付けしました。また、アーティスト間の類似度を求め、可視化してみました。
検証動機
- 売れているアーティストの歌詞の特徴を知りたい
- 歌詞の類似度が高いアーティストを知りたい
データ収集・類似度評価
http://chanz.jp/nitoru/artist.php?name=Mr.Children
ここで保存したデータを参照できます(例:Mr.Children)
- 各アーティスト間において、名詞列に対するコサイン類似度を求める
相関係数・COS類似度 - メモ帳の日記
コサイン類似度の詳細については上記参照
得られた結果
CD総売上Top100邦楽アーティストにおける総頻出単語 Top10
順位 | 単語 | 回数 |
---|---|---|
1 | 君 | 15630 |
2 | あなた | 10192 |
3 | 人 | 8977 |
4 | 僕 | 7831 |
5 | 今 | 6104 |
6 | 心 | 6068 |
7 | 夢 | 6033 |
8 | 愛 | 5834 |
9 | 日 | 5612 |
10 | 何 | 5515 |
これ以降の詳細
http://chanz.jp/open_data/word_count_top
頻出ワードを使えば僕にも作詞ができる気がしてきた(できません)
類似度が高いアーティストTop 10
順位 | アーティスト | アーティスト | コサイン類似度 |
---|---|---|---|
1 | v6 | 嵐 | 0.9650725424622 |
2 | TOKIO | 関ジャニ∞ | 0.96329616863073 |
3 | 中森明菜 | 工藤静香 | 0.96068893943338 |
4 | TOKIO | v6 | 0.95958524728511 |
5 | breakerz | 東方神起 | 0.95955742979729 |
6 | w-inds. | 山下智久 | 0.95897504543606 |
7 | CHEMISTRY | 嵐 | 0.95868950581346 |
8 | Lead | 嵐 | 0.95867019240138 |
9 | w-inds. | 東方神起 | 0.95831674701062 |
10 | v6 | 関ジャニ∞ | 0.95696708090147 |
J事務所の歌詞はだいぶ似通っている模様
これ以降の詳細
http://chanz.jp/open_data/cos_top
あるアーティストに似ているアーティストを検索できるようにしました
コサイン類似度検索
感想その他
名詞とコサイン類似度だけに頼って可視化したものの、アーティスト間の傾向がある程度把握できたかと思う。感覚を定量化して可視化するのはやっぱり面白い。あと、見せるデータを作るのは難しい。クラスタ分析はfuture work