Please enable JavaScript.
Coggle requires JavaScript to display documents.
Feature Inference Based on Label Propagation on Wikidata Graph for DST -…
Feature Inference Based on Label Propagation on Wikidata Graph for DST
大綱
對話狀態跟踪(DST)
問題
用戶意圖空間大,因此統計模型的數據準備很困難。
提出了一種基於知識圖譜的創建和圖譜特徵推斷來估計話語可靠特徵的方法
知識圖譜
維基數據
一個由概念及其在網絡上的關係組成的大型知識庫,用於構建任務域相關的圖結構
創建的圖
標籤傳播算法用於推斷特徵
該推理算法從用戶話語中觀察到的單詞傳播未觀察到的單詞節點
前幾輪的對話歷史詞被視為標籤傳播的輸入
使用推理算法創建一個大向量,並將其用作機器學習模型的特徵
採用多層感知器作為對話狀態跟踪器的機器學習模型,用於預測用戶意圖
實驗結果表明,所提出的方法獲得了各種穩定的特徵,並且結果比不使用知識圖譜推斷特徵的準備好的基線跟踪器獲得了更高的分數
介紹
對話狀態跟踪(DST)
是口語理解的一項重要任務
跟踪輸入話語和幾個對話歷史的用戶意圖(對話狀態)的任務
問題
用戶意圖空間大用戶意圖空間的大小,該空間由任務或域上的所有可能意圖組成
很難收集足夠的訓練數據,涵蓋測試數據中的每個用戶意圖
用戶意圖主要取決於任務和領域,這也是大規模數據準備困難的主要原因之一
本論文
通過知識圖譜的推理將用戶話語中的單詞擴展和鬆弛為廣義類單詞
知識圖已被廣泛用作口語對話系統的資源
特別是在對話狀態的貝葉斯更新
手工或無監督的方式從網絡搜索查詢中構建圖形
知識圖的推理可用於特徵,從而改進了基於機器學習的對話狀態跟踪器
我們提出的方法採用維基數據和標籤傳播,分別用作圖和推理算法
維基數據
免費開放的知識庫
包含大量項目及其屬性
項目表示概念的名稱
其屬性表示項目之間的關係
根據數據結構的特徵,以項目為節點,屬性為鏈接,創建無向圖
Bag-of-words (BoW) 是一個基本特徵
通常用作統計對話狀態跟踪器的基線特徵
然而單詞特徵的向量空間將是稀疏的
因為訓練數據通常不足以用於統計學習
這個問題的一個解決方案是使用從大規模數據中訓練出來的詞的嵌入式表達
通過使用上下文中周圍單詞的分佈來隱式表示單詞的含義,將每個單詞的向量壓縮為固定長度的維度
相反,在我們提出的方法中,子圖被構造為通過推斷鄰居來捕獲話語的含義
一旦在話語中觀察到一些詞,標籤傳播就會通過使用節點區分來推斷子圖上的特徵,該方法實現了對稀疏詞向量的一些改道的給定值
標籤傳播算法是節點判別方法之一
將標籤從觀察到的節點(在用戶話語中看到的詞)傳播到鄰居
估計標籤的組合可以用作話語的特徵
第一步中,看到的節點的標籤被標記為已知類(=1)
其他節點被標記為未知類(=0)
一旦在圖上執行標籤傳播,每個節點的標籤就會傳播到鄰居
方法的優點是維基數據的子圖易於創建,標籤傳播適用於任何圖
相關工作
我們構建了只有實體(維基數據中的項目)的無向圖,其中它的邊代表關係,我們提出的方法用標籤傳播算法推斷特定節點
啟發
其他論文嘗試將知識庫轉換為圖形模型的推理知識圖(IKG)
IKG通過推斷每個節點的置信度來預測對話狀態
馬爾可夫隨機場(MRF)用於尋找最合適的節點作為對話狀態
實體節點之間始終存在屬性節點,當在 MRF 上執行推理方法時,屬性節點可以是因式節點
他們的方法可以利用任何推理方法,該方法從話語中提取因素來推斷一些未知的實體類。 選擇具有最高置信度的節點作為當前對話狀態
維基數據圖上的特徵推斷
從維基數據創建子圖
維基數據由用於創建圖形的項目和屬性組成
項目成為圖形上的節點
屬性成為圖形上的邊
圖上,標籤傳播算法提取特徵用於基於機器學習的跟踪器的輸入
然而,維基數據項目眾多,因此標籤傳播在維基數據圖的推理過程中會消耗大量的計算時間
由於計算時間的關係,用數據集的話語中的詞創建一個子圖,並將這些詞與維基數據中的項目名稱進行匹配。
圖創建過程
每個話語都由 NLTK1 分詞器進行分詞,並清除與 NLTK 停用詞“!”、“?”等匹配的詞
未清除的詞在子圖上作為初始節點添加
初始節點的所有相關項目在子圖上作為鄰居節點添加
最後,所有節點都被賦予唯一的 id,因為某些項目之間存在名稱重複
範例 Fig1
由“新加坡”的相應節點組成。 在子圖上添加了“新加坡”節點及其相鄰節點(“亞洲”、“城市”、“島國”、“國家”和“馬來西亞”)。 還添加了 1hop 關係上的節點(“區域”和“大陸”)。 此外,我們假設在話語中也觀察到馬來西亞,並且維基數據中的相關節點連接到“馬來西亞”(“國家”和“亞洲”)的節點。
子圖上的標籤傳播
當給定一些觀察到的節點的標籤時,標籤傳播預測未觀察到的節點的類標籤,該算法假設圖網絡中的相鄰節點可能具有相同的類標籤
我們提出的方法從話語中定義了觀察到的類節點和未觀察到的類節點,並推斷出未觀察到的節點的類標籤以提取機器學習模型的特徵
在我們的例子中,y 表示對當前話語中單詞的觀察
標籤傳播算法中
節點鏈接表示為 W,W 是一個 N × N 矩陣
N 是圖中節點的數量
W 中的每個元素代表鍊接的存在
y 是一個向量,包含每個節點的類標籤
標籤 1 表示該節點被觀察到,0 表示該節點在話語中未被觀察到
f 是每個節點的預測類標籤的向量
最小化的標籤傳播的目標函數 (1)
等式 (1) 中的
第二項近似於相鄰節點的預測值
第一項將預測向量 f 近似為接近輸入向量 y
λ 是一個常數值,以保持第一項和第二項之間的平衡
的公式變形是(2)
拉普拉斯矩陣是L ≡ D−W
D 是每行對角線分量的和
我們實現了等式 (3),其中觀察到的話語中的單詞被向量化為 y,f 是由維基數據圖推斷出的鬆弛類節點的預測值的向量
如果在輸入話語中觀察到單詞,則 y 的元素最初是一個元素
y 的先前值還添加了折扣值 γ
該值介於 0 ≤ d ≤ 1 之間以考慮對話序列
一旦折扣值被分解為之前的值,y 將替換為分解值並在當前話語中添加標籤
通過等式(4)計算f,並將其作為當前話語的特徵向量返回
使用 γ 的標籤傳播顯示在算法 1 中
實驗評估
數據集和描述
我們在 DSTC4 主要任務上評估了所提出的方法
跟踪每個話語級別的對話狀態
該語料庫由新加坡旅遊信息的對話組成
包含 3 位導遊和 35 位遊客的 35 次對話
包含 31,034 條話語和 273,580 個單詞
這些都是人工轉錄和註釋的
分為訓練集、開發集和測試集
每個數據集有14、6、9個對話
每個對話框都分為帶有開始/內部/其他 (BIO) 標記註釋的子對話框
“B”註釋代表子對話會話的開始
“I”註釋代表子對話會話內部
'O' 被註釋到話語中
每個子對話會話都標註了五個類別的主題和對話狀態
它們指定了子對話的內容。 對話狀態屬於整個子對話會話的主題之一
可能的對話狀態數約為 5,000
每個話語都有多個狀態
我們將主要任務的問題定義為機器學習方法的多標籤分類
實驗比較
以一種基線方法,模糊字符串與本體匹配
匹配話語和本體條目的某些部分
本體被構造為樹結構,並且在其葉子上具有所有可能的對話狀態
DSTC4 的最佳得分方法以不同的方法提供
BoW、BoW with Word2Vec (W2V) 以及我們提出的公平比較方法
準確率和 F-measure 分數用於評估指標
準確率是跟踪器成功識別所有時隙的準確率和召回率的調和平均值
f-measure 分數是跟踪器成功識別的槽的比率
schedule1在每次發聲時計算分數
schedule2 在子對話框的每一端計算分數
評估設置
採用前饋神經網絡(FF-NN)模型作為基於機器學習的分類器
激活函數 : sigmoid
學習率=0.000025
優化方法 : Adam
dropout=0.2
分類器的輸入定義了三種類型的特徵
BoW
是用戶話語中觀察到的詞的稀疏向量
BoW with W2V
W2V 是詞向量的總和,由 W2V 對用戶話語中所有觀察到的詞進行計算
我們提出的方法
建議方法的參數
標籤傳播的輸入包括具有折扣值 γ 的對話歷史
γ=0 表示系統不考慮任何歷史記錄
γ=1 表示系統永遠不會忘記用戶之前說過的話
我們假設較小的 γ 對預測更有效。 需要確定在標籤傳播中平衡兩項的 λ
將平衡值λ設置在 0.5 到 8 之間
閾值 τ 來決定神經網絡的輸出。 一般使用0.5
將 τ 設置得更小會導致召回率的增加和精度的降低
只需在0.1 和 0.9 之間將步幅設置為 0.1
表 1 顯示了實驗中使用的候選參數。 我們嘗試了網格搜索來找到實現更高準確率的最佳組合
實驗結果
表2、3顯示了使用 BoW 作為特徵的結果,通過改變閾值 τ 得到結果
表格中的所有結果仍低於基線方法的得分。 這可能是因為使用 BoW 對於多標籤預測的 NN 來說太稀疏了,它具有高維輸出層
表4、5
我們提出的方法特徵的結果
表 6 和表 7 顯示了具有 5 個最佳參數條件的每個計劃的 f 度量
根據結果,(γ)=1 獲得更高的結果
所有沒有折扣的歷史都貢獻了更好的結果
較低的 λ 和閾值 (τ) 要求更高的準確度分數
f-measure 的所有前 5 個結果的閾值 τ=0.2,並且 F-measure 的 λ 值不穩定
圖 4 和圖 5 分別顯示了表 1 和表 2 上 f-measures 隨折扣因子 γ 的變化而變化的情況
λ 固定為 0.5,其中該值在表 4-6 上取得了最佳結果
圖 6 和圖 7 分別顯示了閾值 τ 與兩個時間表上的分數(精度、召回率和 F 度量)之間的關係
在折扣 γ=1.0 和閾值 τ=0.2 下實現最高 F-measure
較低的閾值允許 FF-NN 分類器輸出更多的候選輸出,從而提高召回率 並降低精度
表 8 顯示了基線、建議方法和黃金標準標籤之間差異的示例
與基線相比,建議方法預測了“INFO”的值“Fee”
在話語中沒有觀察到“費用”這個詞,但是,所提出的方法可以通過特徵成功地預測標籤,這可能是從用戶話語中的“免費進入”推斷出來的
表 9 和表 10 顯示了 5 種方法在 schedule1 和 schedule2 上的所有分數
新結果是 BoW 以 W2V 作為 NN 模型的輸入以及 DSTC4 的最佳結果
然而,DSTC4 的最佳結果比 f-measure 高 0.2 以上
最佳結果優於所有其他結果的原因之一是該方法使用了多種具有精心手工製作的基於規則的特徵的特徵
該方法需要努力模仿。 與我們提出的方法的最大區別在於,我們的方法使用了全自動和無監督的特徵創建
結論
維基數據圖上的標籤傳播理想地推斷出神經網絡模型的特徵
我們提出的方法自動為大用戶意圖空間創建特徵,並提高了準確性和 f-measure
fmeasure 的前 5 個結果的折扣和閾值是靜態的。 使用數據集中的單詞節點創建的子圖上的推斷特徵,儘管子圖不被視為多詞表達式
該圖是用距離節點 1 跳的節點創建的,這個限製表示節點之間的關係(屬性)較少
我們還將考慮多詞表達和與用戶話語中觀察到的詞更遠的節點,因此這些改進將為現有節點帶來各種屬性以供未來工作。 因此,我們將專注於改進圖的創建