質的研究を変える(？)トピックモデル

こんにちは。

今回はテキストマイニングの手法の中のトピックモデルというのをご紹介します。

トピックモデルをご紹介する前にテキストマイニングってなんぞや？という疑問を解決する必要があるかもしれません。

テキストマイニングは文字通り、Text(文書)からMining(採掘)する分析方法です。文書を細かく分解し、グループに分けたり、言葉同士のつながりの強さを分析したりなど、統計学や機械学習を駆使して文書を解析します。

テキストマイニングは主に、GoogleやYahooなどの検索エンジンや、企業におけるアンケート分析なんかに使われています。

研究の領域では質的研究で用いられることがあります。あまり多くはありませんが、作業療法界隈では、東京工業大学の澤田辰徳先生がクラスター分析という手法で使って研究をしています。看護分野では作業療法よりも比較的多く、ちらほら見かけるようになりました。

さて、本題のトピックモデルです。

このモデルは最近できたばっかりの手法で、テキストマイニングの業界では結構ホットみたいです。

ざっくりとこのトピックモデルを説明しますと、文書というのは複数潜在的に存在するトピック(話題)から確率的に作られるものであると考えるというものです。

…さっぱりわからんって感じだと思います(笑)

もう少し掘り下げてみましょう。

「サッカー日本代表、ワールドカップ初戦突破！一夜にして渋谷の経済効果が例年の2倍に。」

こんな感じの文章があったとします。この中には、サッカー/日本代表/ワールドカップ/初戦/突破/一夜/し/渋谷/経済効果/例年/2倍 といった単語があります。

これらをよく見てみると、「サッカー」というトピックと「経済」というトピックの2つ潜在的な話題からできているのがわかると思います。

トピックモデルでは、この文書を、サッカーと経済というトピックから確率的に作られた単語を使って構成されていると考えます。

このように、トピックモデルは「文書における単語の出現確率」を「文書から導出したトピック」で推定し分析をするという手法であるということがわかります。

もっと詳しく仕組みを知りたい方は「トピックモデル」や「LDA」みたいな感じで検索すればOKです。書籍に関しては、僕は持っていますが、完全にその業界の人向けに作られているので、数学の知識が高2で止まっている人にはオススメできません。

トピックモデルを今までご紹介してきましたので、次はこれが何で質的研究に使えるかという点についてです。

トピックを用いると何がいいかというと、関連のある単語同士を統計学的にカテゴライズできるということです。

GTAやKJ法など質的研究において、カテゴリを作成時にはバイアスがかかりやすく、しっかりとやるのには熟練の技術が必要と言われてきました。しかし、トピックモデルがあればその工程が丸々統計学的に処理されます。つまり、かなり再現性の高いカテゴライズができるということになります。

また，大量の単語を、低次元のトピックとして圧縮できるというのも強みなので、いろんな分析でも使えそうですね(笑)

ここまでトピックモデルをご紹介してきましたが、僕の力量ではこれを説明するのはかーなーり難しいです…(泣) 何せやってることめっちゃ難しいんですよ…

テキストマイニングの研究が発達していけば、トピックモデルだけじゃなくとも、質的研究のスタンダードとして普及していきそうな感じがしました。

今日はここまで！

トピックモデルは今後も取り上げますので、やってほしいことあれば僕のツイッターの質問箱に要望をお願いします。

ありがとうございました！

てっちゃんの考え方