最近、電話対応のデータ分析を行っていたので、周辺分野と思える書籍や記事を乱読していました。
結論から言うと、最近のクラウド上の汎用の自然言語処理エンジン(LUISやapi.ai)を使えば、もう少し発展させてシステム化するときも汎用の検索エンジンを組み合わせれば済みそうだったので、それぞれのサービスのドキュメントを読むだけで解決できそうでした。
ですので、勉強しようと思っていたことがほとんど無駄になってしまったのですが、折角なのでメモとして残しておきますw
これらのサービスはチャットボット用途でよく使われていますが、
インテントはその発言が、どういった意図を持っているのか をカテゴリー分けしていく概念です。
エンティティはその発言のなかにある、意味のある単語 をカテゴリー分けしていく概念です。 (※2)
私の仕事の要件では『自然言語処理の本を探しています』という会話文から「商品を探している」というインテントと「探している商品: 自然言語処理」のエンティティと紐付けて、どのような商品が多く探されているか集計すればOKでした(もちろん、多少の表記ゆれの名寄せや試行錯誤は必要でしたが)。
各サービスの比較などは次の記事を、利用方法は公式ドキュメントを読めば充分だと思います。
自然言語処理がどんな分野か概観する
自然言語処理というか、「日本語の入力に対して動作するアプリケーションにどんなものがあるか」という部分を知る必要がありました。
そこで、知り合いから「自然言語処理で有名な研究室がおすすめの書籍一覧を公開している」と教えてもらった記事から数冊流し読みしました。
自然言語処理を学ぶ推薦書籍 - 首都大学東京 自然言語処理研究室(小町研)
私は言語処理というと統計寄りの部分(クラスタリングや評判分析)の部分に発想が偏ってしまいがちだったので、情報検索や日本語入力(IME)もまとめてあるのが個人的には少し驚きました。そのおかげで、今回の仕事では「情報抽出をしたい」→「汎用のクラウドサービスを使うのが一番サクッと作れて、システム化も楽そう」という順でやり方を調べることができました。
特に以下の2冊が(研究者ではなく)エンジニアの立場である私には良かったです。
- 作者: グラム・ニュービッグ,萩原正人
- 出版社/メーカー: 翔泳社
- 発売日: 2016/03/02
- メディア: Kindle版
- この商品を含むブログ (1件) を見る
- 作者: 黒橋禎夫
- 出版社/メーカー: 放送大学教育振興会
- 発売日: 2015/03/01
- メディア: 単行本
- この商品を含むブログ (1件) を見る
電話対応業務について学ぶ
IBMの那須川哲哉さんが2000年代からコールセンター向けのデータ分析の研究で有名だそうです。
やや古いですが、実際に次の本が自分がやりたいことに近い事例が多く、もっと細かい分析が必要になった場合にはこの本や彼の論文が参考になるかもしれません。もう一冊、ビッグデータを活かす 技術戦略としてのテキストマイニングという本もあったのですが、こちらは技術ドキュメントの解析の話だったので私の欲しい知識ではありませんでした。
テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法
- 作者: 那須川哲哉
- 出版社/メーカー: 東京電機大学出版局
- 発売日: 2006/11/01
- メディア: 単行本
- 購入: 4人 クリック: 146回
- この商品を含むブログ (11件) を見る
また、ちょうど秋葉原の書泉に立ち寄ったとき、ちょうどCALL CENTER JAPANのAI特集の号が売られており、こちらでも各会社の苦労話が聞けて良かったです。
また、コールセンター向けのソリューションを提供している会社のセミナーに同席させてもらったりもしていました。
もちろん電話対応を行っているオペレーターの方に話を聞くことも大事なのですが、自分のヒアリング能力が乏しいせいか、毎回「あ、これ知らなかった!メモしとこw」って話がポロッと出て来るのでまだまだ精進が足りないなあと思っています。
その他で読んだ本
「顧客の声分析」みたいなことができるんじゃないかと思って流し読みしたのですが、直接は役に立てられそうにありませんでした。KH Coderというテキストマイニングソフトの説明も非常に丁寧だったのですが、私は一応プログラマーでPythonでゴリゴリ書くつもりだったので、そういう点にあまり魅力を感じなかったということもありそうです。
社会調査のための計量テキスト分析―内容分析の継承と発展を目指して
- 作者: 樋口耕一
- 出版社/メーカー: ナカニシヤ出版
- 発売日: 2014/03
- メディア: 単行本
- この商品を含むブログ (4件) を見る
次の本は(仕事と関係なく)めちゃめちゃ面白かったです。
例えば文字コードなどからページで利用されている言語を同定する手法を作ったり、クローラーを数秒おき(日本の一般的なサーバーなら充分すぎるほど捌ける量)に動かしていたところ、アフリカのサーバー管理者から「我々の国はネットのインフラが貧弱なので数秒おきでもつらいのでなんとかしてくれ」と苦情が入ってしまったことなど、『Googleを支える技術』をもう少し社会科学寄り・現場寄りにしたような本です。
- 作者: 三上喜貴,中平勝子,児玉茂昭
- 出版社/メーカー: 慶應義塾大学出版会
- 発売日: 2014/10/21
- メディア: 単行本
- この商品を含むブログ (2件) を見る
Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)
- 作者: 西田圭介
- 出版社/メーカー: 技術評論社
- 発売日: 2008/03/28
- メディア: 単行本(ソフトカバー)
- 購入: 47人 クリック: 1,166回
- この商品を含むブログ (374件) を見る