myaun’s blog

ブログ解析による日向坂46メンバの相関図作成

はじめに

本日2019/7/28 25:05-より放送予定の日向坂46の冠番組「日向坂で会いましょう」にてメンバーの関係性を確認する企画が放送されます。 この企画は、以前欅坂46の番組でも同じ企画が放送されたことがあるファン注目の人気企画です。

www.tv-tokyo.co.jp

様々なエピソードをもとに、最新の日向坂46メンバーの関係性を確認! 謎のユニット名が続々登場で、メンバー同士の新たな関係性が明らかに! 珍エピソードの数々に、オードリーも巻きこまれる!?

今回は、メンバーのブログを解析することにより、 その放送に先駆けてメンバー間の関係性や番組MCとの関係性を明らかにします。

本記事でやったこと

解析方法

以下の4つの手順で解析しました。

解析に使用したコード

github.com

1. ブログを収集

  • 公式サイトからスクレイピングすることにより取得
    • 収集方法はこちらの記事の通りです。
    • qiita.com
  • 今回は日向坂メンバ21名の記事を対象としました。
    • 収集期間: 2016/8/2 - 2019/7/24
    • 総記事数: 8529

収集したブログの一部

f:id:myaun:20190728142852p:plain

2. 各メンバのブログ文章から他メンバへの言及を抽出

下の画像のように、各メンバのブログの文章からメンバの名前を抽出します。

f:id:myaun:20190728204802p:plain

ブログではメンバの名前を愛称で呼ぶことが多いため、通常のMeCab等の形態素解析ツールの辞書ではメンバの言及を抽出することができません。これを解決するため、MeCabの辞書へメンバの愛称を追加語彙として追加します。

追加したメンバの愛称の語彙は以下に例示します。

佐々木美玲の場合 f:id:myaun:20190728144323p:plain

河田陽菜の場合 f:id:myaun:20190728144130p:plain

3. メンバ間の関係を可視化

[2. 各メンバのブログ文章から他メンバへの言及を抽出]の処理を全8529件のブログへ適用しました。 fromメンバ toメンバの回数を行列にし、ヒートマップにしました。

f:id:myaun:20190728145318p:plain

ただし、以下のグラフのようにメンバ毎に投稿してる記事の本数が大きくことなるため、そのままの値では、メンバの関係が観測しづらい場合があります。

f:id:myaun:20190728145511p:plain

メンバ毎に言及数で正規化(min-max normalization)した場合は、ヒートマップは以下のようになります。これによりメンバ間の関係が観測しやすくなりました。

f:id:myaun:20190728154850p:plain

より直観的に全体の関係を確認するために、グラフによる可視化を試しました。ノード間エッジの太さが関係の強さ(言及数の多さ)を表しています。

f:id:myaun:20190728150940p:plain

可視化のためにツールはCytoscapeを使いました。

cytoscape.org

考察

これらの可視化により以下の点が確認できました。

4. メンバーから番組MCオードリーへの関係を可視化

同様の方法により、各メンバのブログから番組MCであるオードリーへの言及数を確認した。オードリーというコンビ名への言及と若林、春日それぞれへの言及は別々に集計した。

f:id:myaun:20190728153357p:plain

f:id:myaun:20190728151549p:plain

考察

これらの可視化により以下の点が確認できました。

  • ブログでのオードリーへの言及が最も多く愛が強いのは、「高瀬愛奈
  • 全メンバが「若林」に比べて「春日」への言及が多い
    • 番組では「高瀬愛奈」「富田鈴花」を除く全てのメンバがオードリーの「若林派」を公言していたが、今回の解析結果では「若林派」が一人もいないという、真逆の結果が得られた。
    • 若林が春日に比べて、イジりどころが無いため言及され辛い?

終わりに