Please enable JavaScript.
Coggle requires JavaScript to display documents.
形態素解析 (日本語の形態素解析 (単語ラティス (解の優先順位付けを行う (優先順位をつける理由 (構文解析の入力の数を絞り込むため…
形態素解析
日本語の形態素解析
品詞
自立語
動詞,形容詞,形容動詞(活用語)
名詞,副詞,連体詞,接続詞,感動詞
付属語
助動詞(活用語)
助詞
単語辞書
単語のデータベース
この授業では品詞のみを扱う
接続表
品詞の接続可能性を示した行列
左から右へ見る
単語ラティス
形態素解析結果を表すグラフ構造
単語辞書・接続表をもとに作成
複数の解がある
解の優先順位付けを行う
優先順位をつける理由
構文解析の入力の数を絞り込むため
構文解析・意味解析を必要としない場合は
形態素解析だけで最良の解を決める必要がある
形態素解析を単独で行うため
形態素解析が構文解析の前処理である場合
優先規則
縦型探索型
すべての候補を探索しない
完全な単語ラティスをつくらない
最長一致法
長い形態素を優先
2文節最長一致法
2文節の長さの和が最長の解を優先
全解探索型
コスト最小法
単語とリンクにコストを与える
人間が試行錯誤によって決める
学習によって決める
コストの和が最小になるパスを見つける
まとめ
隠れマルコフモデルを利用した優先順位付け
自動的に学習可能
最大確率の解はヴィテルビアルゴリズムで
効率よく求められる
計算量:O(nc^2)
変形規則学習による品詞付
品詞の誤りを修正する変形規則を自動的に学習
英語の形態素解析では品詞タギングが重要
英語の形態素解析
英語は多品詞語が多い
品詞の決定が重要な問題
品詞付
品詞タギング
単語辞書をもとに書く単語に品詞の候補を与える
優先順位付けを行う
品詞の出現のしやすさに関する優先度
breakfast(名詞or動詞)
名詞と動詞なら名詞の方が多い
品詞並びに関する優先度
the(冠詞) + breakfast(名詞 or 動詞)
冠詞のあとには名詞が出現しやすい
優先度の与え方
自動
機械学習
隠れマルコフモデル
2 more items...
品詞付きコーパスから学習
変形規則学習
4 more items...
手動
計算量
ヴィテルビアルゴリズム
すべてのパスよりはるかに高速
O(nc^2)
すべてのパス
O(c^n)
形態素に分ける
HMM vs 変形規則学習(TBL)
モデル
HMM
パラメタの数が非常に多い
大きなメモリ空間を必要とする
TBL
規則の数は少ない
品詞決定の手がかり
出現のしやすさに関する優先度
HMM:多くの単語について学習
TBL:語彙化された変形規則(規則の数は少ない)
品詞並びに関する優先度
HMM:直前の単語の品詞のみ考慮
TBL:変形規則(前後の単語の品詞も考慮)
周辺に出現する品詞や単語
TBL:様々なテンプレートによる変形規則