Please enable JavaScript.
Coggle requires JavaScript to display documents.
Bilingual Bootstrapping for WSD (Các hướng nghiên cứu (Bootstrapping đơn…
Bilingual Bootstrapping for WSD
tổng quan
WSD song ngữ
Các nghiên cứu gần đây, một ngôn ngữ nghèo tài nguyên (L1) được gán nhãn từ ngôn ngữ giàu tài nguyên (L2) thông qua phép chiếu (parameter projection)
vấn đề
Phương pháp này phải cần 1 ngôn ngữ giàu tài nguyên đã được gán nhãn đầy đủ
Tuy nhiên, tuy nhiên thực tế không phải như vậy
Bài toán
Cho 2 ngôn ngữ nghèo tài nguyên đã được gán nhãn trên một số lượng nhỏ tập dữ liệu, và một số lượng lớn chưa được gán nhãn.
Sử dụng bootstrapping song ngữ, mô hình huấn luyện các dữ liệu đã gán nhãn của L1 dùng để gán nhãn cho dữ liệu chưa được gán nhãn của L2, và ngược lại, bằng cách sữ dụng parameter projection.
Dữ liệu chưa được gán nhãn của L1 và L2 sẽ được gán nhãn với độ tin cậy cao sẽ thêm vào dữ liệu hạt giống (seed data). Lặp lại quá trình trên.
Giới thiệu
vấn đề
Chi phí cao trong việc gán nhãn bằng phương pháp có giám sát luôn là vấn đề đối với các ngôn ngữ nghèo tài nguyên.
Hướng giải quyết
Học không giám sát (unsupervised)
Độ chính xác không cao
Bán giám sát (Semi-supervised)
Đầy hứa hẹn mặc dù còn 1 số hạn chế.
Giải quyết câu hỏi
Trong trường hợp không có ngôn ngữ giàu tài nguyên làm trọng tâm thì có khả năng hai ngôn nghèo tài nguyên tự hưởng lợi từ việc gãn cho nhau không?
Ý tưởng
Gán nhãn các dữ liệu chưa được gán nhãn bằng cách sử dụng bootstrapping song ngữ
Các dữ liệu đã gán nhãn của 2 ngôn ngữ sẽ được training thành mô hình ban đầu, sau đó lặp lại quá trình training trên các dữ liệu đã được mở rộng.
Nói cách khác, tham số học được từ các dữ liệu đã gán nhãn của L1 được chiếu sang L2 và phương pháp chiếu (projected model) được sử dụng để gán nhãn cho dữ liệu chưa được gán nhãn và ngược lại.
Các hướng nghiên cứu
Bootstrapping đơn ngữ cho WSD
Yarowsky đề xuất 1995,
Từ số lượng nhỏ các dữ liệu hạt giống ban đâu tạo ra danh sách quyết đinh (decision list-DL). DL được dùng để gán nhãn cho các dữ liệu chưa được gán nhãn sau đó thêm vào dữ liệu hạt giống.
Phương pháp hứa hẹn khi được thử trên tập từ được giới hạn, chưa được thực hiện trên tất cả các từ.
Động lực
Thất bại của bootstrapping đơn ngữ
Ng and Lee, 1996; Lee et al., 2004; Lesk, 1986; Walker and Amsler, 1986; Agirre and Rigau, 1996; McCarthy et al., 2004; Mihalcea, 2005
Để khử nhập nhằng (WSD) với độ chính xác cao và chi phí thấp cần quan tâm đến các phương pháp song ngữ nhằm giảm các giảm chi phí gán nhãn.
Khapra et al. (2009)
mục đích
Giảm chi phí gán nhãn trên nhiều ngôn ngữ bằng cách tận dụng các tài nguyên hiện có trên ngôn ngữ trung tâm (giàu tài nguyên)
Động lực
Việc chiếu tham số đã được học từ ngôn ngữ này sang ngôn ngữ khác kết hợp với WordNet cho 2 ngôn ngữ đã được sẵn sàng
Hạn chế
Không thể giải quyết các tình huống mà 2 ngôn ngữ nghèo tài nguyên liên kết với WordNet nhưng không đủ dữ liệu gán nhãn
Bootstrapping song ngữ cho WTD
Li and Li (2004)
Cách tiếp cận này không cần ngữ liệu song ngữ, mà chỉ dựa vào ngữ liệu nội bộ của 2 ngôn ngữ
Chỉ được dánh giá trên số lượng nhỏ các từ (9 nouns)
Synset Aligned Multilingual Dictionary
Theo từ điển truyền thống
Các synset được liên kết, sau đó các từ bên trong các synset được liên kết.
Multilingual Dictionary
Bảng trên là cấu trức của MultiDict,
Mô tả
Cột đầu tiên, là khái niệm của từ "boy", trong đó hàng đầu là ID trong đầu
những cột tiếp theo khái niệm về các ngôn ngữ tương ứng (Anh, Hindi và Marathi)
Bilingual Bootstrapping
Thuật toán
Bắt đầu với lượng nhỏ data gốc (seed data) đã gán nhãn LD1, LD2 của 2 ngôn ngữ.
Sử dụng dữ liệu để học các tham số.
Đánh giá
Hiệu xuất
Dữ liệu hạt giống nhỏ, BiBoot luôn tốt hơn các phương pháp khác, kể cả bootstrapping đơn ngữ.