Please enable JavaScript.
Coggle requires JavaScript to display documents.
構文解析(3) (統計的構文解析 (確率文脈自由文法 (問題点 (単語の情報を考慮していない (規則の確率は文脈中の単語に依存しない,…
構文解析(3)
統計的構文解析
構文木の曖昧性解消
コーパスから得られる統計情報によって
構文木の候補に優先順位をつける
確率文脈自由文法
PCFG
規則に確率が与えられた文脈自由文法
P(T)
構文木Tの生成確率
曖昧性解消
P(T)の一番高い構文木をひとつ選択すること
問題点
文脈自由であること
規則の確率は完全に文脈に依存しない
NP→pronは主語で使われることが多いはずなのに,
目的語の位置にあることもある.
単語の情報を考慮していない
規則の確率は文脈中の単語に依存しない
例えば動詞の場合,自動詞,他動詞,giveみたいな
よく取る文法があるはず
確率文脈自由文法の拡張
文脈依存性
P(T)の正確な定義
このモデルを学習することは現実的には不可能
推定パラメタ数を減らすために履歴を
何らかの方法で近似する必要がある
しかし過度の近似はP(T)の推測を誤ることにつながる
既に生成した部分構造の上での条件付き確率を考える
履歴の近似
語彙化
非終端記号を主辞によって細分化する
主辞
句の統計的性質を決定する
中心となる要素
名詞句NPならばNP
動詞句VPならばVP
特徴
個々の単語毎に特有の統計情報をモデルに反映できる
そのかわり規則の数は組み合わせ的に増大する.
より多くの訓練データがほしい
構文解析のまとめ
構文解析
文の構文木を得る処理
文脈自由文法を用いる
構文解析アルゴリズム
高分岐を効率的に探索するアルゴリズム
CKY法
ボトムアップ
アーリー法
トップダウン
統計的構文解析
統計的構文解析
候補の中から正しい構文木を選択する
確率文脈自由文法
拡張が存在
文脈依存性
語彙化
構文解析の曖昧性
一つの入力文に対して,複数の構文木が与えられる
思ったより多いぞ 100万とか