Please enable JavaScript.
Coggle requires JavaScript to display documents.
Bilingual Bootstrapping for WSD (Thuật ngữ (Projection (Wordnet…
Bilingual Bootstrapping for WSD
Vấn đề
Nghiên cứu về WSD gần đây cho thấy: Ngôn ngữ nghèo tài nguyên (L1) được hưởng lợi từ việc gán nhãn cho ngôn ngữ giàu tài nguyên(L2) thông qua việc chiếu tham số.
Bất lợi
Ngôn ngữ L2 phải có ngữ liệu được gán nhãn đầy đủ
Trong trường hợp, L2 cũng là ngôn ngữ nghèo tài nguyên, dữ liệu được gán nhãn ban đầu sẽ rất ít, có số lượng lớn ngữ liệu đã được gán nhãn.
Việc gán nhãn bằng phương pháp có giám sát tốn chi phí cao
Hướng giải quyết
Học không giám sát và knowledge-based
Lesk, 1986; Walker and Amsler, 1986; Agirre and Rigau, 1996; McCarthy et al., 2004; Mihalcea, 2005
Độ chính xác không được cao
Học bán giám sát (Yarowsky, 1995)
Cho thấy triển vọng mặc dù có giới hạn các từ đích (word target)
Bào toán
Giả thiết
Cho 2 ngôn ngữ nguồn (L1) và đích (L2)
Số lượng ngữ liệu hạt giống được gán nhãn cho 2 ngôn ngữ rất ít, số lượng chưa được gán nhãn lớn
Gán nhãn cho toàn bộ ngữ liệu chưa được gán nhãn
Ý tưởng
Sử dụng dữ liệu đã gán nhãn (L1) để train => tham số, dùng tham số này để gán nhãn cho L2. Ngược lại gán nhãn cho L1. Các dữ liệu được gán nhãn với độ tin cậy cao. Các dữ liệu mới được gán nhãn được thêm vào dữ liệu hạt giống cho ngôn ngữ tương ứng, và được thực hiện train ngữ liệu còn lại.
Ưu diểm
Một ngôn ngữ có thể được hưởng lợi từ dữ liệu hạt giống của các ngôn ngữ khác
Cho độ chính xác cao hơn
Thực hiện
liên kết các synset từ điiển đa ngôn ngữ
minh họa trong bài báo
Các synset được liên kết với nhau, sau đó các từ của synset liên kết với các từ trong senset của ngôn ngữ khác.
Các tham số cho WSD
Wordnet-dependent parameter
Dựa trên cấu trúc của Wordnet
conceptual-distance
semantic-distance
belongingness-to-dominant-concept
Corpus-dependent parameters
Dựa vào thống kê từ 1 sense đã được đánh dấu trong ngữ liệu
sense distributions
corpus co-occurrence.
Thuật ngữ
Parameter Projection
projecting relations
projecting
corpus statistics
projecting relations
projecting corpus statistics
Projection
Wordnet
belongingness-to-dominant-concept
conceptual distance
semantic distance
Corpus
sense distributions
corpus co-occurrence