Gephi,Rを用いた邦楽有名アーティストの歌詞類似度可視化

f:id:zer4:20150203230057p:plain

概要

日本で最も売れた邦楽アーティストの歌詞を対象に、頻出単語をランク付けしました。また、アーティスト間の類似度を求め、可視化してみました。

対象アーティスト

  • CD総売上Top100邦楽アーティスト(2011年)

http://chanz.jp/open_data/top_artist

  • 主要アーティスト700超(2015年)

http://chanz.jp/open_data/artist

検証動機

  • 売れているアーティストの歌詞の特徴を知りたい
  • 歌詞の類似度が高いアーティストを知りたい

データ収集・類似度評価

http://chanz.jp/nitoru/artist.php?name=Mr.Children
ここで保存したデータを参照できます(例:Mr.Children)

  • 各アーティスト間において、名詞列に対するコサイン類似度を求める

相関係数・COS類似度 - メモ帳の日記
コサイン類似度の詳細については上記参照

得られた結果

CD総売上Top100邦楽アーティストにおける総頻出単語 Top10

順位 単語 回数
1 15630
2 あなた 10192
3 8977
4 7831
5 6104
6 6068
7 6033
8 5834
9 5612
10 5515

これ以降の詳細
http://chanz.jp/open_data/word_count_top

頻出ワードを使えば僕にも作詞ができる気がしてきた(できません)

類似度が高いアーティストTop 10

順位 アーティスト アーティスト コサイン類似度
1 v6 0.9650725424622
2 TOKIO 関ジャニ∞ 0.96329616863073
3 中森明菜 工藤静香 0.96068893943338
4 TOKIO v6 0.95958524728511
5 breakerz 東方神起 0.95955742979729
6 w-inds. 山下智久 0.95897504543606
7 CHEMISTRY 0.95868950581346
8 Lead 0.95867019240138
9 w-inds. 東方神起 0.95831674701062
10 v6 関ジャニ∞ 0.95696708090147

J事務所の歌詞はだいぶ似通っている模様
これ以降の詳細
http://chanz.jp/open_data/cos_top
あるアーティストに似ているアーティストを検索できるようにしました
コサイン類似度検索

アーティスト間の類似度を可視化

グラフ構造

コサイン類似度の上位0.1%のアーティスト間に辺を張りGephiにより出力
全体像。中心に大きい島があり、周囲に小さい島がいくつかある
f:id:zer4:20150204000939p:plain
中心の島
f:id:zer4:20150203234948p:plain
周りの島。秋元康
f:id:zer4:20150203235003p:plain
周りの島。アニメソング島
f:id:zer4:20150203235040p:plain
周りの島。昭和アイドル島
f:id:zer4:20150203235456p:plain

多次元尺度構成法

Rを用いてコサイン類似度の上位0.1%のアーティストを二次元にマッピング
f:id:zer4:20150203235237p:plain
さすがにちょっと見にくい

感想その他

名詞とコサイン類似度だけに頼って可視化したものの、アーティスト間の傾向がある程度把握できたかと思う。感覚を定量化して可視化するのはやっぱり面白い。あと、見せるデータを作るのは難しい。クラスタ分析はfuture work