done is better than perfect

自分が学んだことや、作成したプログラムの記事を書きます。すべての記載は他に定める場合を除き個人的なものです。

論文紹介: "Determining an Author's Native Language by Mining a Text for Errors"

論文紹介

Moshe Koppel, Jonathan Schler Kfir ZigdonらによるKDD 2005の論文です。

論文の概要

あるテキストを書いた著者のプロフィールを推定したら色々便利
その一環で、テキストを書いた著者の母国語を判定してみた
80%くらいの精度

使った手法の説明

英語のテキストをみて、そのテキストの母国語を判定
主に、文法のエラーを特徴量として機械学習(SVM)
エラーの主な種類
- Orthography(綴り)
  - 例えば、"commit"を"comit"としてしまったり、"friend"を"frend"とするなど
- Syntax(文法)
  - 時制の間違えなど
その他の特徴量
- Neologisoms(新しい表現)
- POS bigrams
エラーの解釈はMicrosoft Wordに突っ込んで判定
使ったデータセットはInternational Corpus of Learner English

感想

割りと単純な手法で高い精度が出ることにびっくりしました。これからの時代はオンラインのテキストが増えると思うし、その過程で少なくとも綴りの間違えは少なくなっていくと思うので、別の手法を考えるのが鍵な気がします。