📚

自然言語処理入門

2024/6/10 14:322024/6/10 14:32

自然言語処理（Natural Language Processing: NLP）入門

目的

非エンジニアの人でも何となく自然言語処理の雰囲気を感じ取ってもらう

お手軽に使えるツールの存在を知ってもらう

前置き

自然言語とは

人間が意思疎通のために日常的に用いる言語であり、文化的背景を持っておのずから発展してきた言語
人工言語（プログラミング言語、手話）と対比される
https://ja.wikipedia.org/wiki/自然言語

NLP100本ノックの紹介

言語処理100本ノック 2020 (Rev 2)

言語処理100本ノックは，実用的でワクワクするような課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です．詳細

https://nlp100.github.io/ja/

NLP100本ノック

自然言語処理を体系的に学べる100個の演習

東工大岡崎研の勉強会で使われている

他のNLP系の研究室でも新入生の勉強用に使われる

2020年にアプデされてニューラル多めになった

形態素解析

形態素とは？

言語で意味を持つ最小単位

もっと細かい単位だと音素とか（意味は持たない）

吾輩は猫である。→ 吾輩 / は / 猫 / で / ある / 。

形態素解析器

MeCab

辞書：IPADic（IPAコーパス）、JumanDic（京大コーパス）、Unidic（BCCWJコーパス、細かい）、Neologd（ウェブクロール、現代語向き）

文を入力すると以下のようなフォーマットに分割してくれる

係り受け解析

係り受けとは？

言葉と言葉の関係性
以下のような有効グラフで表せる

https://qiita.com/segavvy/items/d1a9a8d87d8dc10a8f15#実行結果

係り受け解析器

CaboCha/南瓜

毎日新聞記事データを使ってSVMを学習済み

単語ベクトル

単語ベクトルとは？

イメージ

米国 = アメリカ
王様 - 男 + 女 = 女王

単語ベクトルの種類

one-hot

n次元のベクトルのうち、当てはまる1箇所にだけ数値が入るようなベクトルをone-hot vectorという
1-gramイメージ図

n-gram (2-gram)イメージ図

word2vec系

word2vec

Word2Vecを理解する - Qiita

今や自然言語処理の定番手法となっているWord2Vecについて勉強したことをまとめました。そのアルゴリズムの概要を整理しライブラリを用いてモデルを作成しています。 Word2Vecを理解するに当たって下記を参考にさせていただきました。下記ではWord2Vecの前提となっている自然言語処理の考え方について記載しています。 ...

https://qiita.com/g-k/items/69afa87c73654af49d36

絵で理解するWord2vecの仕組み - Qiita

皆さん、Word2vec の仕組みはご存知ですか？ Word2vec は gensim や TensorFlow で簡単に試せるので使ったことのある方は多いと思います。しかし、仕組みまで理解している方はそう多くないのではないでしょうか。そもそも本家の論文でも内部の詳細については詳しく解説しておらず、解説論文が書かれているくらいです。本記事では Word2vec のモデルの一つである Skip-Gram について絵を用いて説明し、概要を理解することを目指します。まずは Skip-Gram がどのようなモデルなのかについて説明します。 ※ 対象読者はニューラルネットワークの基礎を理解しているものとします。 Skip-Gram はニューラルネットワークのモデルの一つです。Skip-Gram は２層のニューラルネットワークであり隠れ層は一つだけです。隣接する層のユニットは全結合しています。Skip-Gram のアーキテクチャは以下の図のようになっています。このニューラルネットワークはを実行するために学習されますが、実際には学習したタスクに対してニューラルネットワークを使うことはありません。実際の目的は隠れ層の重みを学習することにあります。この隠れ層の重みのことを単語ベクトルと呼び、私たちが真に必要とするものなのです。では Skip-Gram が行うタスクについて説明します。繰り返しますが、このタスクの結果を使うことはありません。あくまでも重みの学習が目的です。ではあらためて Skip-Gram で行うタスクについて説明します。Skip-gramでは、ある単語を入力した時、その周辺にどのような単語が現れやすいか予測することをモデル化します。以下の例文を使って考えてみましょう。ここで、ある単語が "eat" だったとします。この単語に注目すると、周辺語には食べ物の名前である "apple" や "orange" が現れそうです。つまり、ある単語の周辺語としてどういった単語が出現しやすいかという確率を考えることができます。例えば、訓練済みのネットワークに "eat" という単語を与えるとします。その時、"apple" や "orange" のような関連性の高い単語は周辺に現れる確率が高く、"tank" や "network" のような関連の低い単語は低い確率を取るようにします。この確率をボキャブラリ内のすべての単語に対して計算します。ここで周辺語として何単語まで考えるのかというのをウィンドウサイズ $C$ として与えます。ウィンドウサイズと周辺語の関係は以下の図のようにするとわかりやすいですね。さて、以降ではモデルの詳細について入力層、隠れ層、出力層ごとに見ていきましょう。説明する際は、話を簡単にするために周辺語の数を1つと仮定して説明していきます。さて、では入力層の詳細について見ていきましょう。単語のような可変長の文字列をニューラルネットワークに与えることはできません。そのため、固定長形式で単語を表す必要があります。そのためにまず、学習データからボキャブラリを構築します。ボキャブラリというのは重複のない単語集合のことです。例を挙げてみてみましょう。以下のような学習データがあったとします。この時、この学習データからボキャブラリを構築すると以下のようになります。重複のない単語集合になっていることがわかるでしょうか？この場合ボキャブラリ数は 7 でした。ボキャブラリを構築したら、"apple" のような入力語を one-hotベクトルとして表します。このベクトルはボキャブラリ数と同じサイズの要素を持ちます。上記ボキャブラリの場合は 7 要素を持ちます。この各要素がボキャブラリ内のすべての単語に対応します。そして "apple" に対応する場所に1を、その他の場所に0を入れます。たとえば上記のボキャブラリで単語 "apple" を入力する場合、入力層には以下のベクトルが入力されます。この重み行列の各行が実は単語ベクトルになっています。そのため、最終目標は隠れ層の重み行列を学習することなのです。ニューラルネットワークの学習が終わったら出力層は必要ありません。さて、では入力層と隠れ層の間でどのような計算が行われるかみてみましょう。もし 1 x 10000 のone-hotベクトルを 10000 x 300 の行列にかけると、one-hotベクトルの1に対応する箇所の行列の行を効率的に抽出することができます。以下がその例です。先のボキャブラリでいうと "eat" の単語ベクトルを抽出していることになります。 ...

https://qiita.com/Hironsan/items/11b388575a058dc8a46a

Doc2Vec

単語ではなく文・文書をベクトル化する
記事間の類似度を測定するのとかに使える

Universal Sentence Encoder

多言語を一つのモデルでベクトル化

Universal Sentence Encoderを日本語で試す - Qiita

Why not register and get more from Qiita? 研究員、機械学習エンジニア。東芝、リクルート、クックパッドを経て、現在はグロービスAI経営教育研究所で機械学習、自然言語処理の研究開発に従事。グロービスは 1992 年の創業以来、社会人を対象とした MBA、人材育成の領域で Ed-Tech サービスを提供し、現在は日本 No.1 の実績があります。これらの資産と、さらに IT や AI を活用することで、アジア No.1 を目指しています。

https://qiita.com/kenta1984/items/9613da23766a2578a27a

埋め込みベクトル（embedding）

ニューラルネットの最終層付近のベクトルを引っ張ってきて使用する

実際は可変長なので下図はイメージ

ニューラルネット

RNN (Long Short Term Memory: LSTM)

ニューラル初期に使用された手法
可変長の入力に対応できる

BERT (Transformer)

作って理解する Transformer / Attention - Qiita

こんにちは。ミクシィ AI ロボット事業部でしゃべるロボットを作っているインコです。この記事はミクシィグループ Advent Calendar 2018 の5日目の記事です。この記事では2018年現在 DeepLearning における自然言語処理のデファクトスタンダードとなりつつある Transformer を作ることで、 Attention ベースのネットワークを理解することを目的とします。機械翻訳などの Transformer, 自然言語理解の BERT やその他多くの現在 SoTA となっている自然言語処理のモデルは Attention ベースのモデルです。 Attention を理解することが今後の自然言語処理 x Deep Learning の必須になってくるのではないでしょうか。この記事にかかれているコード (Github) かつて自然言語処理 x Deep Learning と言えば、 LSTM や GRU といった RNN (Recurrent Neural Network) でした。参考：

https://qiita.com/halhorn/items/c91497522be27bde17ce

BERTは2018年に登場し、それまでのモデルを大幅に上回った

近年の研究はこれをどう改良するかばかり（3年で引用数16,000以上）
最近では画像処理もTransformerで良いのでは？という流れ

そして世は混沌の時代へ（all you needではないだけで必要ではあるらし）

まとめ

以下のツールを覚えて帰って欲しい

MeCab: 日本語を単語（形態素）区切りにできる
CaboCha: 日本語の係り受け解析ができる
word2vec: 単語の足し引きができる

NLP100本ノックはいいぞ

Python入門にも良い
NLPのアルゴリズム実装ならNLPチュートリアルも良い