done is better than perfect

自分が学んだことや、作成したプログラムの記事を書きます。すべての記載は他に定める場合を除き個人的なものです。

論文紹介: "Determining an Author's Native Language by Mining a Text for Errors"

Moshe Koppel, Jonathan Schler Kfir ZigdonらによるKDD 2005の論文です。

論文の概要

  • あるテキストを書いた著者のプロフィールを推定したら色々便利
  • その一環で、テキストを書いた著者の母国語を判定してみた
  • 80%くらいの精度

使った手法の説明

  • 英語のテキストをみて、そのテキストの母国語を判定
  • 主に、文法のエラーを特徴量として機械学習(SVM)
  • エラーの主な種類
    • Orthography(綴り)

      • 例えば、"commit"を"comit"としてしまったり、"friend"を"frend"とするなど
    • Syntax(文法)
      • 時制の間違えなど
  • その他の特徴量
    • Neologisoms(新しい表現)
    • POS bigrams
  • エラーの解釈はMicrosoft Wordに突っ込んで判定
  • 使ったデータセットInternational Corpus of Learner English

感想

割りと単純な手法で高い精度が出ることにびっくりしました。これからの時代はオンラインのテキストが増えると思うし、その過程で少なくとも綴りの間違えは少なくなっていくと思うので、別の手法を考えるのが鍵な気がします。