Please enable JavaScript.
Coggle requires JavaScript to display documents.
WSD using a Bidirectional LSTM (Mô hình (Input cho BLTSM từ thứ n trong…
WSD using a Bidirectional LSTM
Tổng quan
Giới thiệu một mô hình WSD rõ ràng và hiệu quả
Cách tiếp cận: sử dụng LSTM 2 chiều (BLSTM) cho all-word
Đánh giá: sử dụng 2 bộ database chuẩn (SensEval 2 và SensEval 3), sử dụng các tham số được cài đặt các giá trị giống nhau.
Đóng góp của công trình
Chia sẻ tham số cho các từ khác nhau sử dụng hiệu quả hơn các các dữ liệu gán nhãn và giúp ít cho việc mở rộng từ vựng mà không làm tăng thêm các tham số.
Từ thực nghiệm cho thấy tầm quan trọng của trật tự từ trong WSD
Cách tiếp cận WSD cũng cho kết quả tương đương với các hệ thống lớn hiện tại, vd: g. knowledge graphs, parsers, part-of-speech tagging, etc.
Hệ thống WSD cho phép kết hợp các tham số toàn cục và tham số cục bộ khi thực hiện dự đoán các sense.
Background
Bidirectional LSTM
là 1 biến thể của RNN (recurrent neural network)
Được giới thiệu bởi Hochreiter and Schmidhuber (1997)
Cho phép RNN nắm bắt các mô hình tốt hơn khi sử dụng các mô hình tuần tự. Cho phép sao chéo các trạng thái tại mỗi thời điểm thông qua hàm phi tuyến. Các thông tin được điều chỉnh bằng các cổng nhân để bảo vệ các giá trị gradient được tốt hơn, vd: hàm logic
BLSTM (Graves and Schmidhuber, 2005) Tại các cổng (gate) ở từng thời điểm có 2 trạng thái (một đi sang trái và 1 đi sang phải), Đối với WSD có nghĩa là xét ngữ cảnh bên trái và ngữ cảnh bên phải của 1 từ.
đặt vấn đề: nếu chúng ta nghĩ về 1 câu như 1 chuỗi thời gian hay một cấu trúc thời gian: điều này có nghĩa là, khi chúng ta xem xét nghĩa của một từ nào đó, chúng ta "nhớ" từ trước đó là gì, đồng thời chúng ta có 1 số "bộ nhớ" các từ có thể xuất hiện nhiều trước đó trong câu.
Word embeddings
Các biểu diễn 1 từ thông qua 1 vector có giá trị thực trong 1 không gian ngữ nghĩa.
Các vector thường được dùng để làm lớp input cho các mô hình mạng nơ ron hoặc một số mô hình NLP khác.
Mô hình
Cho document với các từ nhập nhằng (target word), mô hình tính toán sự phân bố xác suất cho các sense của các từ đó
Kiến trúc của mô hình: một lớp softmax, một lớp ẩn, và một BLSTM
Các BLTSM và lớp ẩn sử dụng tham số trên tất cả các từ và các sense của từ đó.
softmax được về dạng tham số bởi các từ (giống như kiểu W2V) và chọn ma trận trọng số tương ứng và bias vector (vector tuyến tính ?) tương ứng cho mỗi từ.
Input cho BLTSM từ thứ n trong document:
xn thực chất là lựa chọn 1 dòng của Wx
Wx là ma trận trọng số (được khởi tạo bằng các sử dụng word embedding được được huấn luyên trước đó, để khai thác số lượng lớn các dữ liệu chưa được gán nhãn)
v(xn) one-hit của từ wn (các giá trị khác wn = 0, tại vị trí wn =1 )
vd:
output
W và b là trọng số và độ lệch cho lướp softmax tương ứng với wn. Do đó, mỗi từ có có tham số softmax riêng, kích thước tùy thuộc và số lượng các sense.
hidden layer
hL và hR là output của của LSTM tại từ wn.
W và b là trọng số và độ lệch tại lớp ẩn
Kết luận
Mô hình khai thác hiệu quả các từ và đạt được kết quả như hiện tại (các mô hình khác), mà không sử dụng các nguồn tài nguyên bên ngoài hoặc các đặc trưng thủ công.
Các ngôn ngữ độc lập, có thể thực hiện trên các ngôn ngữ nghèo tài nguyên.
Hệ thống thiết kế để tổng quá hóa all-word WSD bằng cách share các tham số giữa các từ.