ブログ解析による日向坂46メンバの相関図作成
はじめに
本日2019/7/28 25:05-より放送予定の日向坂46の冠番組「日向坂で会いましょう」にてメンバーの関係性を確認する企画が放送されます。 この企画は、以前欅坂46の番組でも同じ企画が放送されたことがあるファン注目の人気企画です。
様々なエピソードをもとに、最新の日向坂46メンバーの関係性を確認! 謎のユニット名が続々登場で、メンバー同士の新たな関係性が明らかに! 珍エピソードの数々に、オードリーも巻きこまれる!?
今回は、メンバーのブログを解析することにより、 その放送に先駆けてメンバー間の関係性や番組MCとの関係性を明らかにします。
本記事でやったこと
- 日向坂46メンバのブログを解析し、メンバ間の関係を抽出して相関図を作成しました。
- 日向坂メンバと番組MCオードリー間の関係を可視化しました。
- 本記事は、以前の記事 ブログ解析による欅坂46メンバの相関図作成 - myaun’s blog の日向坂46verです。
解析方法
以下の4つの手順で解析しました。
解析に使用したコード
1. ブログを収集
- 公式サイトからスクレイピングすることにより取得
- 収集方法はこちらの記事の通りです。
- qiita.com
- 今回は日向坂メンバ21名の記事を対象としました。
- 収集期間: 2016/8/2 - 2019/7/24
- 総記事数: 8529
収集したブログの一部
2. 各メンバのブログ文章から他メンバへの言及を抽出
下の画像のように、各メンバのブログの文章からメンバの名前を抽出します。
ブログではメンバの名前を愛称で呼ぶことが多いため、通常のMeCab等の形態素解析ツールの辞書ではメンバの言及を抽出することができません。これを解決するため、MeCabの辞書へメンバの愛称を追加語彙として追加します。
追加したメンバの愛称の語彙は以下に例示します。
佐々木美玲の場合
河田陽菜の場合
3. メンバ間の関係を可視化
[2. 各メンバのブログ文章から他メンバへの言及を抽出]の処理を全8529件のブログへ適用しました。 fromメンバ toメンバの回数を行列にし、ヒートマップにしました。
ただし、以下のグラフのようにメンバ毎に投稿してる記事の本数が大きくことなるため、そのままの値では、メンバの関係が観測しづらい場合があります。
メンバ毎に言及数で正規化(min-max normalization)した場合は、ヒートマップは以下のようになります。これによりメンバ間の関係が観測しやすくなりました。
より直観的に全体の関係を確認するために、グラフによる可視化を試しました。ノード間エッジの太さが関係の強さ(言及数の多さ)を表しています。
可視化のためにツールはCytoscapeを使いました。
考察
これらの可視化により以下の点が確認できました。
- 1期生内、2期生内の繋がりが強い。ただし、以下のように一部のメンバは1期-2期間であっても強い繋がりがある
- 代表的な仲良しコンビが観測された
- 1期生で多くのメンバからバランスよく言及されているのは「加藤史帆」、2期生は「渡邉美穂」
- 3期生の上村ひなのは、比較的2期生から多く言及されており、最も愛でているのは「渡邉美穂」
4. メンバーから番組MCオードリーへの関係を可視化
同様の方法により、各メンバのブログから番組MCであるオードリーへの言及数を確認した。オードリーというコンビ名への言及と若林、春日それぞれへの言及は別々に集計した。
考察
これらの可視化により以下の点が確認できました。
- ブログでのオードリーへの言及が最も多く愛が強いのは、「高瀬愛奈」
- 全メンバが「若林」に比べて「春日」への言及が多い
終わりに
- 「メンバ間の関係」は、1ファンの感覚として腑に落ちる結果が得られ、番組の予告映像で公開されていた相関図と比較しても似ているところが多かったです。
- 「メンバーからオードリーへの関係」は番組で語られる内容と異なる意外な結果でした。
- ブログのみでの解析が不十分であった可能性があるので、TV番組やネット番組などその他メディアでの言及を考慮した追解析をしてみたいと思いました。