myaun’s blog

アイドルブログの文体的特徴に基づく著者分類

1. はじめに

本記事では、アイドルブログの文体的特徴に基づく著者分類の紹介をします。

1-1. 「文体的特徴」とは

簡単に言うと、文章に現れる著者の癖に注目した特徴量です。計量文体学、計量分析学と呼ばれる領域にて研究されているみたいです。 文体という言葉は、ブリタニカ百科事典では以下の様に定義されており、これを統計的に扱うための指標のようなものかなと思っています。

ある特定の個人,時代,流派などの言語表現を特徴づける様式

文体的特徴および計量文体分析に関しては、以下の記事で紹介した犯罪捜査のためのテキストマイニング: 文章の指紋を探り,サイバー犯罪に挑む計量的文体分析の手法が詳しいです。

例えば、ある男性著者が女性になりすまして書いた文章や同著者が別名義で書いた文章であっても、その癖は文体的特徴に現れるようです。 具体的に、本記事では、以下の文体的特徴を使いました。

  • 非内容語の使用率
  • 品詞のn-gram
  • 助詞のn-gram
  • 読点前の単語
  • 漢字・ひらがな・カタカナ・数字・ローマ字の使用率

1-2. なぜやったか

アイドルのブログは、名前や決まった挨拶などがあり、そのまま単語を使うと簡単なルールベースで分類できてしまいそうだったので、それらを使わない方法でやってみたかった。文体的特徴では、「名詞」「動詞」「形容詞」などの内容語をそのまま使わず、話題に依存しないので面白いかも!みたいな気持ち。

2. データセットについて

アイドルブログとして、女性アイドルグループ「欅坂46」「日向坂46」のメンバ38名のブログを使用しました。 最も記事数が少ないメンバに合わせて、各メンバから98本のブログをサンプリングしました。

したがって、以下のようなデータセットとなります。

  • 著者数: 38
  • 記事数: 3724 (著者数 × 98)

3. 文体的特徴に基づく著者分類

今回の著者分類は、以下のような設定です。

  • 入力: ブログの本文
  • 出力: いずれかの著者名 (38クラス分類)

3-1. 文体的特徴抽出

以下のコードで文体的特徴を算出しました。*1

# 非内容語の使用率 (非内容語のunigramらしい?)
def get_noncontent_rate( texts_pos, n, cut_off_num ):
    content_pos = ['名詞','動詞','形容詞'] # 内容語   
    novels_pos_str = []
    for token_pos in texts_pos:
        text = ' '.join( [ t[0] for t in token_pos if not t[1] in content_pos ] )
        novels_pos_str.append( text )

    vectorizer = CountVectorizer(
        min_df = cut_off_num,
        ngram_range = (n, n),
    )
    X = vectorizer.fit_transform( novels_pos_str )
    
    return X.toarray()

# 品詞のn-gram
def get_pos_ngram( texts_pos, n, cut_off_num ):
    novels_pos_str = []
    for token_pos in texts_pos:
        text = ' '.join( [t[1] for t in token_pos] )
        novels_pos_str.append( text )

    vectorizer = CountVectorizer(
        min_df = cut_off_num,
        ngram_range = (n, n),
    )
    X = vectorizer.fit_transform( novels_pos_str )
    return X.toarray()

# 助詞のn-gram
def get_adp_ngram( texts_pos, n, cut_off_num ):
    novels_pos_str = []
    for token_pos in texts_pos:
        text = ' '.join( [ t[0] for t in token_pos if t[1] == "助詞" ] )
        novels_pos_str.append( text )

    vectorizer = CountVectorizer(
        min_df = cut_off_num,
        ngram_range = (n, n),
    )
    X = vectorizer.fit_transform( novels_pos_str )
    return X.toarray()

# ひらがな、カタカナ、漢字、数字, 英数字, の使用率
def get_char_kind_rate( texts_pos ):
    re_hiragana = re.compile(r'[\u3041-\u3093]')
    re_katakana = re.compile(r'[\u30A1-\u30F4]+')
    re_kanji = re.compile('[\u4E00-\u9FD0]')
    re_number = re.compile(r'\d') # 全角も含む
    re_alpha = re.compile(r'^[a-zA-Z]+$')
    
    char_kind_rates = []
    for tokens_pos in texts_pos:
        char_num = 1
        char_kind_count = [1,1,1,1,1]
        for i in tokens_pos:
            if len( i[0] ) < 1: continue
            for c in i[0]:
                if re_hiragana.fullmatch(c): char_kind_count[0] += 1
                if re_katakana.fullmatch(c):char_kind_count[1] += 1
                if re_kanji.fullmatch(c): char_kind_count[2] += 1
                if re_number.fullmatch(c): char_kind_count[3] += 1
                if re_alpha.fullmatch(c): char_kind_count[4] += 1
                char_num += 1
        char_kind_rates.append( [ i / float( char_num ) for i in char_kind_count] )
    X = np.array( char_kind_rates )
    return X

# 読点前の単語
def get_comma_before_word( texts_pos, cut_off_num  ):
    novels_pos_str = []
    for token_pos in texts_pos:
        text = ''
        for t in token_pos:
            if t[0] == '、': text += '%s ' % t_prev[0]
            t_prev = t
        novels_pos_str.append( text )

    vectorizer = CountVectorizer(
        min_df = cut_off_num,
    )
    X = vectorizer.fit_transform( novels_pos_str )
    return X.toarray()

3-2. 著者分類

分類器は、Random ForestとLightGBMで実験をしました。(どちらもハイパーパラメータはデフォルト)
評価値は、5分割交差検証(Stratified k-fold)における各分類正解率の平均値です。

コードは以下のような感じ。

def cv_randomforest( X, y ):
    # 5-fold cv
    acc_score_cv = []
    kf = StratifiedKFold(n_splits=5, random_state=777, shuffle=True)
    for idx, (train, val) in enumerate( kf.split(X, y) ):
        # learn model
        clf = RandomForestClassifier(n_estimators=100, n_jobs=7)
        # clf = lgb.LGBMClassifier(n_estimators=100, objective="multiclass")
        clf.fit(X[train], y[train])

        # predict validation and score
        preds = clf.predict(X[val])
        acc_cv = accuracy_score( preds, y[val] )
        acc_score_cv.append( acc_cv )
        
    # cv score
    mean = sum( acc_score_cv ) / len( acc_score_cv )
    return mean

4. 分類結果

4-1. 各特徴量による精度および全特徴量による精度

Random Forest LightGBM
非内容語の使用率 0.5239 0.5499
品詞のn-gram 0.7300 0.7849
助詞のn-gram 0.1315 0.1227
読点前の単語 0.1549 0.1554
漢字・ひらがな・カタカナ・数字・ローマ字の使用率 0.1165 0.1094
ALL 0.7700 0.8351

全体としては、精度が8割程度と38クラス分類の割には結構高い精度となりました。

「非内容語の使用率」「品詞のn-gram」は単独でも高精度でした、これは犯罪捜査のためのテキストマイニング: 文章の指紋を探り,サイバー犯罪に挑む計量的文体分析の手法で行っていた、調査研究の結果とも近い傾向かなと思います。

「助詞のn-gram」「読点前の単語」「漢字・ひらがな・カタカナ・数字・ローマ字の使用率」は、上の2つに比べるとかなり小さいですが、38クラス分類のランダムは3%以下なので、いくらかは文体を表現する効果があるようです。

4-2. いずれかの特徴量を抜いたときの精度

Random Forest LightGBM
ALL - [非内容語の使用率] 0.7340 0.8019
ALL - [品詞のn-gram] 0.5662 0.6157
ALL - [助詞のn-gram] 0.7720 0.8370
ALL - [読点前の単語] 0.7715 0.8346
ALL - [漢字・ひらがな・カタカナ・数字・ローマ字の使用率] 0.7627 0.8307
ALL 0.7700 0.8351

こちらの表は、各特徴量の貢献を確認するために、いずれかの特徴量のみ抜いた際の精度です。 (例えば、「ALL - [非内容語の使用率]」は「非内容語の使用率」のみ抜いた精度)

値を確認すると、今回の実験では、「読点前の単語」「助詞のn-gram」は精度への貢献が確認できませんでした。例えば、「助詞のn-gram」はbi-gramでカットオフ値を5に設定していたので、こちらを変えたりするとまた結果は変わるかもしれません。

4-3. 混同行列

f:id:myaun:20190225205833p:plain

小さくて見にくいですが、メンバによって精度にブレがあるのが確認できます。 具体的には、「守屋茜」は31/98で最も低く、「土生瑞穂」「佐藤詩織」も50/98程度で低いです。文体に一貫性が無いのかもしれません。 また、「丹生明里」「原田葵」「宮田愛萌」は95/98程度で精度が高かったです。自分らしい文章を持っているのかもしれません。

4-4. ブログ文章の例

実際にブログの文章を確認しました。

(正直詳細にはわかりませんが一応考察すると、) 精度が低い「守屋茜」は、確かに文体にばらつきがあるように見えます。例えば、ブログの文末だけ見ても、「あかねん(⑉• •⑉)(⑉• •⑉)❤︎ 」「またねん!あかねん。」「Byeねん❀あかねん❀ 」と結構違うように見えます。 一方で、精度が高い「丹生明里」は、顔文字や絵文字、記号のリズムが一定で(?)、文体に一貫性があるように見えます。

誤分類が多いメンバ (守屋茜)
2016/01/2318:09 ぐらふたぬーん(´。✪ω✪。 ` )ぬーん。ぬんぬんファンレター第3弾!!いただいた日に家に帰ってすぐに読みました。1回読み出したら嬉しくて嬉しくて次も!次も…!!と読んでしまいました( ˊᵕˋ )♡読みながら、私にファンレターを書くためにレターセットを選びに行ってくれたり、私の好きそうなデザインのもので書いてくれたり… 本当にありがとうございます。ファンレターってすごいです。元気いっぱいパワーアップ出来そうです(੭ˊ꒳​ˋ)੭✧いつでも読み返せるように専用のボックスに綺麗に収納しています( ^ω^)いつか私もファンの方々に恩返しできるように頑張ります。オフショッーーーーーと!ヤングマガジン、samurai ELOみなさんみていただけましたか~今日本屋さんでみてきました。あとCancam3月号が今日発売だったので購入しました。愛読しています( ˶˙ᴗ˙˶ )\♥︎/samurai ELOの方は二号連続で出させていただいています(ˊo̶̶̷ᴗo̶̶̷`)次回もおたのしみに♡バレンタインカード、気合いをいれてがんばって可愛くデザインしたのでどうかご応募よろしくお願いします(*ˊ˘ˋ*)。♪:*°ヤングマガジン٩( ü )و❅:*.。 。.*:❅セーラー服着れてハッピー!ハッピー!ハッピー!でした⍤⃝♡ 7人のいつもとは違った表情がご覧いただけけると思いますのでぜひGETしてください❤︎次のブログで個人のオフショット載せます(灬ꈍ ꈍ灬)そして!スカパー音楽祭2016に出演させていただきますT^T☆*。☆*。!!みなさんの心に響くパフォーマンスができるように頑張ります。2/28日曜日の生放送です。ご視聴お願いします!またね〜ん。あかねん(⑉• •⑉)(⑉• •⑉)❤︎  
-------------------------------
2016/05/2518:18 いぇええええええい!!着々と入場時間が迫ってますね♡盛り上がる準備は満タンですか?コラボTシャツ!!♡これすっごく欲しくてなんと!なんと頂きました〜〜うれしい٩(๑˃̵ᴗ˂̵๑)۶ °٩(๑˃̵ᴗ˂̵๑)۶ °ファンのみなさんもGETして、おそろっぴしましょぉおお♪さっそく頂いてからすぐに着ちゃった¨̮♡それでは!!イベントでお会いしましょっ\♥︎/またねん!あかねん。  
-------------------------------
2015/11/2221:58  こんばんは(*^◯^*)はやくも日曜日が終わってシマッターーーー!と思いきや明日もホリデイd('∀'*)ですね´`* 皆さんはどんな休日をお過ごしですか? 今日の写真は  一緒に帰ったメンです♪♪初めてだ!!みんな冬の格好~*:。✡いつの間にかコート着ないと寒い時期になっちゃった(><)でも冬は可愛い服がいーーーっぱいあるので好きです、でも寒いの苦手です… - - - - - - - - - -- - - - - - - - - -- - - - - - - - -  そしてそして今夜は24:35~欅って、書けない?です(*ˊ˘ˋ*)♡私の体力測定VTRも流れますのでぜひぜひ見て頂けると嬉しいです☆彡私はリアルタイムで見ます!!今日はテキパキと終わらせないといけないことはもう片付けました、だからもう寝る準備も出来てま~す´ω` それでは欅って、書けない?でお会いしましょう\(  ˆoˆ )/\( ˆoˆ  )/ Byeねん❀あかねん❀ 
誤分類が少ないメンバ (丹生明里)
2018/05/2600:52 みなさんこんにちは〜٩( ᐛ )و٩( ᐛ )و٩( ᐛ )وけやき坂46 2期生 丹生明里です🐸🥕ベンチコート〜squint🙂最近、こんにゃくにハマろうとしました!お友達からもこんにゃくをオススメされたので、夜に食べようᐠ( ᐝ̱ )ᐟと頑張ったのですが…元からあまりこんにゃくを好んで食べなかったので、味にも慣れなくて、こんにゃくを好きになりたい!沢山食べたい!と思ってもどうしても味があまり受けつけられなくて、~こんにゃくを食べようଘ( ᐛ ) ଓ生活~があっけなく終了しました… 笑これは私の味付けの問題なのでしょうか…?🤔いや違うよ!こんにゃくの味だ!あっ、でも味を少し濃くすれば、なんとなーくカモフラージュされて食べれますかね!やっぱりもう一回がんばろうかな〜あ、私よく一人で解決しちゃう人です(ちっちゃいことだけね!)あと、私はよくサラダチキンを食べます!肉の脂身がそんなに得意ではなくて…あの絶妙なパサつき感がたまりません😳もっと沢山食べたい!というのと、最近味に飽きてきたのもあって此間、ササミを自分で茹でました〜🐓何も味をつけずに食べたら、ただのパサパサササミちゃんでした😂でも自分で茹でると安心なので、オススメです✔︎〜*〜☆〜†〜☆〜†〜☆〜†〜*〜今週の、ひらがな推し!春日さんと"真剣白刃取り"で対決させていただきました〜⚔春日さんは、凄く身体能力が高いので、大丈夫かなぁ🤔と、不安でした、 でも、本気で ということでストレートに打ちにいかせていただきました!ありがとうこざいました!けやき坂46 2期生に合格してから剣道を続けていないので動きが衰えていて…こんなにも落ちるものだと痛感しました😖これからの夏の稽古は辛いと思います…剣道をしているみなさん、本当に頑張ってください!応援しています📣剣道に限らず部活動や学校、お仕事、頑張りましょうね☺️次回のひらがな推しも春日さんとの対決の続きです!お楽しみに♪そして今週の、KEYABINGO!4は、演技力バトルでした!わたしは実際に足ツボを押してもらいました👣痛かったところと、痛くない時もありました!冷え性のツボのアキレス腱を押された時は本当に痛かったです😱でもまたいつか足ツボをしたい!次回のKEYABINGO!4も、お楽しみに♪ps サンドウィッチマンの富澤さんのお誕生日が4月30日でした💫改めて、おめでとうございます!先日の収録で、ひらがなけやきから富澤さんへの、お祝いのお誕生日アルバムのお返しにと、サンドウィッチマンさんの石鹸を頂きました!!!本当にありがとうこざいます😭話は変わりまして、けやき坂46 1stアルバム 特設サイトがホームページにオープン致しました〜👏随時更新していくので、みなさんお楽しみにしていて下さいね😉そしてなんと!!アルバムタイトルが決定致しました👏「走り出す瞬間」🏃‍♀️🏃‍♀️🏃‍♀️ストレートで、凄く好きです!また、アルバムの特典映像(Blu-ray)の内容が決定いたしました!TYPE-A☞ひらがなけやき武道館公演 Special Selection(千秋楽の公演)TYPE-B☞ひらがなけやき全国ツアー Live & Documentaryです🙌まさかライブ映像とは思いませんでした😳すごく嬉しいです😆Blu-rayなので、画質も良く最高だと思います!早く見たいです👀更に!!本日5月25日(金)24:20〜「欅坂46こちら有楽町星空放送局」では6月20日発売のけやき坂461stアルバム 「走り出す瞬間」に収録されている「期待していない自分」銀河系初オンエアします😆😆ドキドキします(ノ*´>ω<)ノみなさん、お楽しみにしていて下さい!また、けやき坂46 1stアルバム発売記念として個別握手会が開催されますが、一会場、一部ずつ追加枠が出ました!驚きました…!みなさんに感謝しかありません本当にありがとうこざいます😭皆さんとお会いする時間が増えてとっても嬉しいです!握手しにきてくださる方が、また来たいなぁ〜って、すごく楽しかった!って思っていただけるような時間にしたいです☺️本当にありがとうこざいます!宜しくお願いします🙇‍♀️〜*〜☆〜†〜☆〜†〜☆〜†〜*〜お写真コーナー↓↓↓右奥 すずか〜(富田鈴花)🧢私髪の毛ボサボサだ 笑今回はまなもん(宮田愛萌)の生誕Tシャツ着てる!すずかは最近、レッスンの時に生誕Tシャツを着ていることが多いです!すずかのノリノリスイッチが入った時が面白いです🤣この前私に口を ンパッ ってしてきました!💋あの時可愛かった!写真撮れば良かったー😭右 このちゃん!(松田好花)これはKEYABINGO!4の男装デートの時😁このかはね、本当に面白くて私のツボで…いつも笑かしてくるんです 笑このかが履いている、空気がプスプス抜けたり入れたりできるシューズ👟が凄くて!!まなもんと2人でボタンを押して遊びました🌟そうそう!この間まなもんとランチしたよ〜🍽猫耳した〜🐱まなものその口、プクゥはなんだ!可愛い😭この日は大爆笑しました!!まなもんと話していて楽しくて幸せで…あと、東京のスポットとかオススメの場所を教えてくれるので嬉しい🤩ありがとう〜!〜*〜☆〜†〜☆〜†〜☆〜†〜*〜先日のGirls Award さん、二期生から小坂菜緒が出演しました🌻すっっっごく可愛くて!!!見ているこちら側が緊張しましたウィンクされた時は心臓止まるかと…見事にハートを捕まれました💝あ、元から掴まれているのですが、更にギュギュッと!!こさなか!お疲れ様✨そして、ご出演されたみなさん、本当にお疲れ様でした🙇‍♀️左 小坂菜緒そしてなんといっても!!!Seventeenの専属モデル決定!本当にびっくり!知った時は目が思いっきり覚めました!本当に凄い!!!本当に嬉しいよ😭😭心からおめでとう🙌なおが一生懸命頑張っているから、わたしも頑張る💪明日のブログはひよたん🐤おまけ↓ホームページにて、衣装が公開されました◎また、個人アーティスト写真もアップされたので、是非ご覧になってみて下さいね٩( ᐛ )( ᐖ )۶衣装、とっても可愛い♡デニム生地で、スカートがまわるとゆらゆら広がって、ラインが素敵です✨エンブレムも青でけやき坂と入っています!カッコいい〜😸読んでいただきありがとうございました#20もう20回もブログを…時間の流れが速い…!これからも初心を忘れず、頑張ります宜しくお願いします
-------------------------------
2018/03/0520:59 みなさんこんにちは〜🐸🥕けやき坂46 2期生の 丹生明里です٩( ᐛ )و兄に借りて腹筋ローラーをしたのですが、三日間程筋肉痛が治らなくて…笑うたんびにお腹が痛かったです😅それほど鍛えられたって証拠なのかな🧐それとも今まで全然鍛えられてなかったから痛くなったのかー。もうちょっと頑張ります💪〜*〜☆〜†〜☆〜†〜☆〜†〜*〜今回のブログは前回に引き続き、二期生とのお写真を載せたいと思います✌️(6thのアーティスト写真に変わったので!)右 濱岸ひよりひよたんは甘えん坊さんです 笑 溢れ出す中3感がたまりません😁ツインテールにしてさらにきゃわいい😋(伝わりますか〜?笑)左 松田好花このかとはよく写真撮ります!このアーティスト写真撮影の時はわちゃわちゃ写真と動画を沢山撮りました😂ノリが良くて凄く楽しいです♪右 宮田愛萌可愛すぎる。髪の毛下ろしてから凄く印象変わってお姉さん感が凄くて、なんか、もう嬉しいです!!笑優しくて、頼れるのですが、少し抜けるところが好き😳右 渡邉美穂わたし的に美穂はムードメーカーさんだと思います!場を明るくしてくれて、話も上手くて面白いのです😂帰りに一緒になる埼玉三人組のバスではわちゃちゃ話してます!電話が楽しいです📞(メッセージの機能です)二期生みんなそれぞれ個性があってとっても賑やかで明るくて素敵だなぁと思います☺️💫そんな2期生9人が6枚目シングル で 歌わさせて頂きました「半分の記憶」出来上がって聞いた時は、自分達が歌ってるって分かってるけど本当に歌ってるか分からなくて…でも、この部分は誰々の声が聞こえるねっ!と話していました🌷パフォーマンスが楽しみです😁ドキドキ=͟͟͞͞٩(๑☉ᴗ☉)੭ु⁾⁾そうそう!本日の16:40〜18:00までのNHK-FM ゆうがたパラダイスに、小坂菜緒と渡邉美穂が出演します!ぜひお聞きください〜👂👂そして、特典映像の予告編が公開されました!!!今回は2期生それぞれペアを作って、相手の自己紹介ポエムを作りました!最後には夏らしいことをしてとっても楽しかったです🌟是非ご覧になってみてください👀〜*〜☆〜†〜☆〜†〜☆〜†〜*〜最近花粉症が酷いです😢メッセージでも何度も言っちゃいました 笑お友達と折角お出かけしたのにくしゃみやら目のかゆみで🤧🤧花粉症の人に良い食べ物とかあるのかな〜と思って調べてみたら、一番 れんこん が多く出てきました!炎症を抑える働き、止血作用、喉の痛みや鼻水を抑える働きのある、タンニン抗酸化作用のある色素成分の、 ポリフェノールが豊富に含まれてるそうです!!アレルギー症状の原因となる抗体の過剰摂取を抑える働きが他の野菜より多い!!れんこん 以外にもあるけど沢山食べようと思います🤤ここまで書いてきて、私は何を言いたいのかよくわからなくなって来ました 笑たまには訳のわからないブログもいいですよね〜?(無理矢理感 笑)久しぶりのツインテール👧少しだけハマってます🗣でも多分また波が過ぎ去ると思います🤨あ、海行きたい🏖でもこの時期だと寒いか〜🤧こたつ入ろ〜🌀三つ編みと、おまけのぴょこにん🐸🥕花粉症なので目が充血気味です😢明日はひよたんのブログです🐥読んでいただきありがとうございます#11  
-------------------------------
2018/11/0106:27 みなさんこんにちは٩( ᐛ )وけやき坂46 2期生 丹生明里(にぶ あかり)です🐸🥕モコモコです!パーカーの時期になりましたね〜!🌟モコモコしているので、とってもあったかいですよ!この間とっても可愛らしい帽子を見つけました!可愛くて可愛くて、動物の柄で、これは買おう!!!と思ったのですが、自分が普通の帽子が前から欲しくて買うつもりでいたことを思い出したので、普通の帽子から買おう!と思って探したら、いい感じの可愛らしい帽子を見つけたので買いましたそしたらそれだけで満足して最初にみた可愛らしい帽子はもういいや!となってしまって買いませんでした絶対に!!というか、なんだろう、強い気持ち?じゃなかったら、冷める気持ちって早いんだなぁと感じた1日でした 笑 でも今はもう欲しいものがなくなったので、次に出会った時は買ってしまうかもしれません 笑また可愛らしい帽子に出会えますように〜!!!でも最近ハマっているのは靴下です!🧦(誰得〜っていう情報ですね 笑)告知です📣10月31日発売 BUBKAさん 12月号にひらがなけやきから金村美玖、河田陽菜、丹生明里が登場しております!制服です!🌟久しぶりの制服での撮影だったのでドキドキでした!学生気分です!(高校三年生ですが…笑)みく!おろしているのが可愛かった!♡ひな!笑顔がキュートすぎて、きゅうううってなります 笑部屋着です!ツインテールになりました!3人バージョン。3人のお互いのイメージや今までの活動のことなどインタビューも掲載されております撮影地が、実は一番最初の撮影地でもあった学校だったので、とても懐かしくてなんだか不思議な気持ちになりました!!わたしはバスケットボール🏀を使った撮影をしたのですが、ボールでたくさん遊べて楽しかったです!ありがとうございました!みなさん是非お手にとってみて下さいね♪読んでいただきありがとうございました#99次で100個目のブログだ〜!ブログが始まったのは12月なので、約11ヶ月経ったのですね!と思うと早いようで短いような。1年じゃ経験できないくらいの沢山のことを経験した1年だったので、不思議な感覚ですもう1年!時の流れ早いなぁ!という気持ちと、1年しか経ってないのにこんなにも色んなことがあったんだなぁ〜という気持ちこんな感覚は初めてなので、経験できて嬉しいなぁありがとう!今回は文章の おまけ でした 笑最後まで読んでいただきありがとうございます😊  

5. 終わりに

文体的特徴を用いたアイドルブログの著者分類をしました。 結果、文書の話題に依存しない文体的特徴であっても、ある程度の精度で著者分類ができることが確認できました。

今後の課題とか

  • 文体的特徴を算出するためのパラメータ(n-gramやカットオフ数)に関して考察、検証していない。
  • 別の応用として、以下のようなタスクもうまく問題設計ができれば面白そう。
    • 「文体変化に基づくアイドルのキャラ変検出」
    • ゴーストライター検出 (本人 or 運営など)」

*1:コードがこれで良いかどうか正直不明です...