LA43.009_Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Nội dung đề tài: “Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở”
Thực thể có tên là những thực thể có thể được tham khảo đến bằng tên riêng, như con
người, tổ chức, hoặc nơi chốn. Phân giải nhập nhằng thực thể có tên là nhằm ánh xạ mỗi
tên trong một văn bản vào một thực thể trong một nguồn tri thức cho trước. Nổi lên gần
đây như là một bài toán đầy thách thức, nhưng có nhiều ý nghĩa trong việc hiện thực hóa
Web có ngữ nghĩa, cũng như phát triển nâng cao các ứng dụng xử lý ngôn ngữ tự nhiên,
phân giải nhập nhằng thực thể có tên đã thu hút sự quan tâm của nhiều nhóm nghiên cứu
khắp thế giới. Luận án đề xuất ba phương pháp cho bài toán này, trong đó nghiên cứu sâu
ba yếu tố quan trọng ảnh hưởng đến hiệu quả phân giải nhập nhằng là các nguồn tri thức sử
dụng, đặc trưng biểu diễn thực thể, và mô hình phân giải nhập nhằng.
Các nguồn tri thức được khai thác là các ontology đóng và Wikipedia. Các ontology
đóng được xây dựng bởi các chuyên gia theo hướng tiếp cận từ trên xuống, với các khái
niệm có quan hệ thứ bậc dựa trên một tập từ vựng có kiểm soát và các ràng buộc chặt chẽ.
Wikipedia, xem như một ontology mở, được xây dựng bởi những người tình nguyện theo
hướng tiếp cận từ dưới lên, với các khái niệm được hình thành từ một tập từ vựng tự do và
các thoả thuận mang tính cộng đồng. Các đặc trưng được nghiên cứu là tên của các thực
thể đồng xuất hiện, định danh của các thực thể đã được xác định, và các từ cùng với các
cụm từ xuất hiện xung quanh tên đang được xem xét và xung quanh các tên là đồng tham
chiếu với tên đó trong văn bản. Ngoài ra luận án cũng khai thác vị trí xuất hiện, chiều dài
của các tên, và tên thường dùng của các thực thể. Luận án đề xuất ba mô hình phân giải
nhập nhằng tương ứng với ba phương pháp nói trên là: (i) mô hình dựa trên heuristic; (ii)
mô hình dựa trên thống kê; và (iii) mô hình lai – kết hợp heuristic và thống kê.
Điểm mới chung của ba phương pháp là phân giải nhập nhằng theo một quá trình lặp
cải thiện dần, trong đó bao gồm một số bước lặp. Thực thể được xác định tại mỗi bước lặp
sẽ được sử dụng để phân giải nhập nhằng thực thể còn lại ở các bước lặp tiếp theo. Các
thí nghiệm được thực hiện để đánh giá và chứng tỏ tính hiệu quả của các phương pháp
được đề xuất. Luận án cũng nghiên cứu xử lý các trường hợp khi mà các tên trong văn bản
chỉ được nhận ra bán phần và thực thể được đề cập đến trong văn bản nằm ngoài nguồn tri thức sử dụng, đồng thời đề xuất các độ đo hiệu quả phân giải nhập nhằng mới tương ứng