ミン・スン
投稿日: 2019年8月7日

ディープラーニングが自然言語処理に適している理由

自然言語処理(NLP)は、人間が日常的に使っている自然言語をコンピューターに処理させる一連の技術であり、人工知能(AI)の一分野です。この分野においてディープラーニングは、AIが人間の行動を理解する方法を劇的に変化させようとしています。

自然言語処理の過程で、複雑な人間の心をAIがうまく理解できないことはよくあります。しかし今、複雑な人間の心から来る曖昧な言葉をAIが理解できるように技術開発がなされています。

壁の上塗りなどに使われる「しっくい」は英語で「plaster」といい、「絆創膏」は「plasters」といいます。この2つの英単語は似ているため、AIはうまく区別することができません。しかし、絆創膏という言葉が出てくると想定される文脈を数多くAIに学習させることで「修繕に使う材料」を探しているのか、「絆創膏」を探しているのかを特定することができます。

AppierのチーフAIサイエンティストであるミン・スンは「各単語の意味と単語間の関係を明確にするのは人間の役目」であり、従来の効果的な自然言語処理の作業であるといいます。例外を定義するためには、ある一定の人間の介入が必要なのが現状です。

この従来の手法は、AIが言語の意味を学習するのに似ていて、簡単な言語処理においては結果を出すことができます。しかしながら、事前に数多くの文脈をAIに認識させる必要があり、人間の介入が不可欠であることから、言語処理を広くビジネス化する妨げになっています。

人間同士の会話や文章をAIに理解させることは、さらに複雑です。

たとえば文章となると、文脈から単語が特定された意味を超えたものになることがあります。また作家の語彙や単語の選択、構文、スペル、句読点を、その熱烈なるファンである読者は、特有のニュアンスで捉えるものです。

「言語は何年にもわたって進化しており、正式な文書やオンラインで言語を使用する方法とはまったく異なります。

もし、効率的な自然言語処理をするために従来の手法を適用したければ、正式な英語、米語、オーストラリアの英語に関する充実した知識ベースをもたなければなりません。

さらにアメリカ最大級のソーシャルニュースサイトRedditで使われているような英語に関する知識ベースが必要になります。これは拡張性がありません。」

ー Appier チーフAIサイエンティスト ミン スン

 
 

目次

1.自然言語処理とディープラーニングの関係

2.自然言語処理の限界

 
 

1. 自然言語処理と
ディープラーニングの関係

ディープラーニングはこうした限界を変えました。
ディープラーニングによってパラグラフの中でどのように使われているかを観察することによって、AIは言葉やフレーズの意味を学習することが可能になりました。

その結果、事前に特定した文脈の中の単語の意味の明確化や単語間の関係の定義を人間が行わなくても、なにも手を加えられていないパラグラフからでもAIは、単語やフレーズの意味や関係を学習します。

たとえば人が「クリアなプラスター」と検索した場合、自然言語処理が人間の学習者レベルとほぼ同様の理解度があるため、AIは修繕材料ではなく傷口を塞ぐものと理解します。
ディープラーニングは大量のテキスト(全集)を必要としません。

コンピュータは「個々のトークンごとにベクトル表現を学習」する前にニュースサイト、Wikipedia、Redditに掲載されているコメントなどの情報源からデータを入手します。
ベクトルとは、同じ文脈の単語が意味を共有する可能性が高いことを示すために、類似した単語を互いに近接してマッピングする場所です。(英文資料

ディープラーニングとベクトルマッピングにより、人間の介在なしでAIの言語処理をより正確にすることができ、キーワードを使うマーケティング活動において、より精度の高い感情分析の可能性を切り開くことができます。

人間のマーケターはターゲティングのためのキーワードリストを作成しなければなりませんが、ディープラーニングがあれば、AIに「シード(学習すべき言葉)」を入力するだけです。それからベクトル空間内で類似のキーワードを見つけることができます。

たとえば、潜在顧客をターゲットするためのキーワードリストを作っている旅行会社が「バケーション」、「休日」、「フライト」、「クルーズ」、「旅行先」といった言葉をいれたキーワードリストを作るとします。

しかし自然言語処理を搭載しているAIは、文脈を理解するため、「セブ」や「フィリピン」を検索しているユーザーが旅行に興味があることを理解します。次にディープラーニングを基盤とする自然言語処理によって、より精度の高い感情分析が可能になります。

ユーザーがあるキーワードに対して好意的なのか否定的なのかを正確に理解することができるのです。たとえばあるユーザーが、「セブ」と「ダイビング」ではなく「セブ」と「地震」を検索していたら、AIはこのユーザーは旅行商品のターゲットでないことを認識します。(英文資料

さらに強力なのは、ディープラーニングを基盤とする自然言語処理によって価値あるインサイトを抽出できるため、マーケターはユーザーの詳細を理解する事が可能になります。
マーケティング活動でターゲットとする特定のユーザーグループを拡張できるだけでなく、そのグループに対して最も関連性のあるオファーを提示することが可能になります。

もしターゲットオーディエンスを抽出するために「旅行」というキーワードだけしか使っていなければ、「セブ」と「ダイビング」を検索した人は先の旅行会社のターゲットに含まれることはなかったでしょう。自然言語処理を適用すれば、オーディエンスの抽出精度が高くなります。それに具体的な旅行地域のオファーをするか、東南アジアにある他のダイビングスポットを勧めることもできるでしょう。

 

 

2. 自然言語処理の限界

説明文を生成するときなど、自然言語処理は依然として内容がズレることがあり、修正が必要な場面があります。

「生成機能は理解テストの結果と比較して安定性は低くなる」とスンは説明します。想定外の結果がでるケースがあることから人間によるダブルチェックは必須です。それ以外の課題は、AIに学習させるために使う「情報源」が重要となります。

リスクとなるのは、既存の保有するデータを使って学習してしまうことです。既存データの内容が的を得ていなかったり間違っていた場合、本末転倒となってしまいます。

これは、今日でも情報源の良し悪しに関して人の判断が必要だということです。しかしながらスンは、次世代のディープラーニングを基盤とする自然言語処理は、人間の介在の必要性は低下し続けると確信しており、「人による業務フローは削減され、マーケティングの拡張性は高まりました」と話しています。

今後数年で、チャットボットは複雑な質問への対応が可能になるばかりでなく、マーケティング活動の自動化が進むと予想されます。ディープラーニングを基盤とする自然言語処理によって、ビジネスに費用対効果の高い成果を提供できるようになりました。これまで以上に幅広いターゲットオーディエンスを正確に特定し、彼らの趣味嗜好に関連性の高いオファーを提示することが可能になったからです。

AIへの期待は高まるばかりです。

https://drive.google.com/file/d/1nXB8ym8Jb91DhfZUrZc66DmdQz6e07HN/view