myaun’s blog

「犯罪捜査のためのテキストマイニング」読みました

読んだ本

どんな本

  • 近年増加しているインターネット上が舞台となる犯罪(2012年の「パソコン遠隔操作事件」など)に計量文体分析で挑むために、調査研究してきた著者らがその有効性について解説する。
  • 紹介する手法は、犯罪捜査のためのテキストマイニング技術の応用
    • 書き手を特定する「著者識別」
    • 書き手の性別や年齢層を推定する「著者プロファイリング」
    • など...
  • 手法の解説では、PCA, SVM, ランダムフォレストなども紹介されているが、数式は非常に少なく、身近な実例を多く用いて説明しているので、数学などの背景知識がほとんど無くても読める。

所感

私自身、特定のドメインにおいて自然言語処理の技術を応用していることに興味があったので本書を読みました。 本書は期待通り、文体分析手法等による沢山の調査研究が行われており、「実際に事件で用いられた文章での著者識別」「性別を偽装した文章の文体的特徴の変化」「殺人事件の犯罪動機の分類」など具体的な内容が多くて面白かった。*1 あと単純に、国内国外におけるサイバー犯罪の歴史や近年の動向についても詳しいので読み物として楽しめました。

以下、印象に残っている部分やメモってたことをたらたら書きます。

  • 本書の目的として、捜査機関・法曹関係者・裁判員になりうる一般市民への(計量的文体分析の)周知みたいなことを書いていて、確かにと思った。
  • 2016年に著者識別に関する判定書が裁判所に採用されたらしい。(一方で、まだ活用は数えるほどらしいが)
  • 今まで、文章の内容に注目する「名詞」「動詞」「形容詞」を主に扱う解析をすることが多かったので、文章中に現れる著者の癖などに注目する文体的特徴は新鮮で面白かった。(「読点の前に使う単語の頻度」とかへぇ〜ってなった)
  • 殺人動機の分類は面白かった、けど悲しいので分析結果が犯罪抑止につながるといいな〜って思う
  • 多くの調査、分析例があって、著書のドメイン(犯罪調査)以外であってもNLPの実務応用のアイデアにつながる可能性は大いにあると思った

*1:こういうnlp系の応用話すごい好きなのでおすすめ本あれば読みたい