【文章分析】テキストマイニングの紹介と使い方について

分析しているイメージ

皆さんこんにちは。今日もご来訪感謝です。

6月に入り、急に暑くなってきましたね。とうとうクーラーをつけてしまいました。

外出自粛が少しずつ解禁され、徐々に外出しようかなと思ったとたん、

急に昼間は暑くなるので、人生はなかなかうまくいかないなぁと思います。

さて、今日は久しぶりに最新技術の紹介として、「テキストマイニング」を

紹介させていただきます。

「ビッグデータ」という考え方が浸透してきつつある世の中で、

大量のデータを高速に処理できるようになり、注目されてきている技術です。

テキストマイニングを使えるようになると、

商品のモニター試験やアンケートから得られる貴重な顧客の意見を

有効に引き出すことができると思いますので、ぜひ参考にしてください。

テキストマイニングは、これまで定量的な分析が難しかった、文章という一種のビッグデータを扱う技術になります

テキストマイニングとは?

テキストマイニングとは、文章を分析して、文章の中にある書き手の意図や気持ちを

読み解く技術です。※少しかみ砕いて表現しています。

アンケートなどによくある自由記述の欄から、

何かお客様の気持ちなどを抽出したいというのはよくあると思いますが、

アンケートの数が少なければすべてに目を通すことも可能でしょう。

しかし、100枚、1,000枚、10,000枚・・・と数が多くなれば、

いくら貴重なデータが得られると言っても、データの入力から・・・となると

膨大な手間と、コストがかかってしまいます。

時間と手間をそこまでかけられないとなると、有意義な情報が得られるとは言え、

手が止まってしまうのもうなづけます。

キューモニター

そこでアンケートの全データを効率的に集計して、顧客の声を

分析できるのが、テキストマイニングです。

定量的に文章を分析できますので、アナリストの経験の有無にかかわらず、安定した分析を行えるのもありがたいですよね。

品詞分解をして文章から単語を抽出・集計

テキストマイニングで重要な技術となっているのが「形態素解析」という技術です。

形態素解析とは、簡単に言えば、文章中の言葉を文節・単語ごとに区切り、

意味のある単語ごとにうまく分解してくれる技術です。

例えば「うらにわにはにわとりがいる」という文章があるとします。

これを単語に分解すると

「裏庭/には/二羽/鳥/が/いる」という分け方もできますし、

「裏庭/には/ニワトリ/が/いる」という分け方もできます。

最近はAI技術が進んでいますので、蓄積した文章データの法則と、

分析している文章の前後の意味もある程度類推することで、

かなり正確に文章の意図を読み取って単語の分解をしてくれます。

しかも、文章を解析すればするほどAIもその学習データを取り込んでいくので、

だんだん読み取りの精度が上がっていきます。

「固有名詞をあらかじめ拾ってくれるように

辞書登録するというテクニックもあります。」

この形態素解析のアルゴリズムはフリーで使えるものも多く、

有名なもので「Chasen」や「Mecab」といったツールがあります。

テキストマイニングツールは世の中にいっぱいありますが、こういった

無料のツールを元に作られているマイニングツールが多いです。

テキストマイニングは形態素解析が重要な要素になります。

文章にある感情も読み取ってくれる

このように、形態素解析という技術を使って、

文章を単語ごとに区切ってくれるテキストマイニングですが、

さらに単語から文章の意味を類推してくれます。

例えば「この化粧水はべとべとして使い心地が悪い」という感想があれば

「この/化粧水/は/べとべと/して/使い心地/が/悪い」という風に分解され、

「べとべと」という感情を表す言葉と「悪い」という形容詞が。ネガティブな意味に

取られると、AI技術の中で学習されていれば、

その化粧水についてアンケートで答えた人は、

ネガティブな感情を持っているという事になります。

このように文章がポジティブなのかネガティブなのか分析することを

「ポジネガ」分析と言います。

しかし、「涙を流した」というような文章があったときに、

「嬉しくて」涙を流したのか、

「悲しくて」涙を流したか、でポジティブな意味なのか、ネガティブな涙なのか

分からないですよね。前後の文章があればうまく分析してくれることも多いですが、

シンプルな文章しかない場合、うまく分析できない場合があります。

(人間でも文章が少ない場合はうまく読み解けないと思いますので

仕方がないですが・・・)

形態素解析がうまくいけば、分解した単語ごとの意味・解釈は一般的な用法や前後の文脈から使われている意味を解釈可能です。しかし日本語は英語に比べて表現が複雑なようで、マイニングツールも日本語は別で開発しているという事が多いですね。

アンケートやヒアリングの分析に有効

このテキストマイニングですが、上記の例でも用いた通りアンケートや

制度・商品に関するヒアリングといった、文章に対する分析に有効です。

多くの文章データをテキストマイニングにインプットし、分析することで

アンケートなどに記載くださったお客さまがその商品に関して

どんな感情を、どれくらいの割合で抱いているかわかるので、

商品・サービスの改善に役立ちます。

家電製品やお菓子のメーカーなどはアンケートの文章などをよく分析されていて、

商品改善のヒントを探しているみたいですし、

会員の解約予兆などを分析ために使っている企業もあるようですね。

また、消費者側の意見をうかがうために分析するだけではなく、

融資担当者が適切な判断で融資をしたのか、

コールセンターがお客さまとの対話ログをテキスト化して、

適切なトークをしているかどうか、改善点を探すというように、

従業員側のスキルアップに役立てている企業もあるようです。

まとめ:既存のデータやツールと組み合わせると幅広い分析が得られそう

以上、テキストマイニングの紹介とその意義についてでした。

テキストマイニングは、分析対象の文章そのものの意味を見つけだすことだけでも

かなり有効になりますが、既存のデータなどを組み合わせることでより

分析の幅が広がり、有意義な分析・示唆が得られると思います。

例えば、会員の年代・性別などが分かった状態でアンケートを集計すると

アンケートのテキストマイニング結果と顧客のセグメントごとでの抱く印象を

組み合わせてみることができます。

(例えば20代男性は良い印象、30代女性はネガティブ、など)

より商品やサービスの改善の方向性が見えてくると思いますね。

テキストマイニングは、年齢とか性別とか、これまでの定型的なデータではなく、

感情や抱く印象をいみするような非定型なデータを扱う技術です。

定型的データを組み合わせることで、これまでよりさらに分析の幅が広がり、

より深く、より詳細に商品・サービスの改善を検討することができます。

ぜひ、皆様もテキストマイニングを分析に取り入れ、より深く

商品の改善を進めてみてください。

タイトルとURLをコピーしました