ThS37.109_Xây dựng hệ thống truy xuất thông tin
Ngày nay, sự phát triển mạnh mẽ của công nghệ thông tin dẫn tới dung lượng dữ liệu được lưu trên máy tính gia tăng nhanh chóng. Trong những tập dữ liệu khổng lồ đó ẩn chứa hàm lượng thông tin vô cùng lớn. Vấn đề đặt ra là làm thế nào khai thác được khối thông tin đó để nó trở nên có ích đối với người dùng. Những tiến bộ đạt được về lý thuyết và công nghệ trong lĩnh vực xử lý thông tin đã giải quyết được phần nào nhu cầu nêu trên, chẳng hạn, các bài toán trong xử lý văn bản như tìm kiếm, phân loại, phân cụm văn bản.
Information Retrieval (tạm dịch là truy xuất thông tin) là một trong số các vấn đề rất được quan tâm hiện nay. Đây là vấn đề khó, ngay cả với những hệ thống tìm kiếm phổ biến trên mạng Internet như Google, Altavista, Yahoo thì vẫn còn nhiều hạn chế. Có thể liệt kê các hạn chế thường gặp như sau: thứ nhất là với mỗi truy vấn, hệ thống thường trả về tập kết quả gồm hàng nghìn tài liệu, thậm chí còn lớn hơn nhiều, khiến người dùng phải mất nhiều thời gian để đọc nội dung của từng tài liệu nhằm tìm thông tin mà họ quan tâm; thứ hai là vấn đề tìm kiếm theo trọng số của từ khoá, ví dụ nếu người dùng đưa ra truy vấn “software engineering” với mong muốn rằng từ “software” có
ưu tiên cao hơn từ “engineering” thì nhiều khi không nhận được kết quả như ý; thứ ba là vấn đề sắp xếp các tài liệu trả về theo độ liên quan với truy vấn. Ngày càng nhiều tổ chức và cá nhân có nhu cầu tìm kiếm thông tin trong tập dữ liệu đặt trên một máy tính hoặc một mạng máy tính. Yêu cầu đặt ra là cần có những hệ thống truy xuất thông tin chạy trên Desktop với hiệu quả và độ chính xác cao. Trong luận văn này, chúng tôi tập trung nghiên cứu cơ sở lý thuyết truy xuất thông tin và xây dựng thử nghiệm một hệ thống truy xuất thông tin cho phép tìm kiếm các tài liệu mang nội dung tiếng Anh chứa trong một máy tính. Hệ thống được xây dựng dựa trên thư viện mã nguồn mở truy xuất thông tin Lucene.
Nội dung luận văn gồm 5 chương :
• Chương 1: trình bày tổng quan về truy xuất thông tin, các bước cần thực hiện trong quá trình truy xuất thông tin, các phương pháp đánh giá hiệu quả truy xuất thông tin và so sánh một số hệ thống truy xuất thông tin trên thế giới.
• Chương 2: trình bày các công cụ truy xuất thông tin quan trọng là lập chỉ mục và sắp xếp kết quả tìm kiếm.
• Chương 3: giới thiệu và trình bày cơ chế lập chỉ mục và tìm kiếm của thư viện mã nguồn mở Lucene.
• Chương 4: trình bày kiến trúc hoạt động của chương trình và kết quả thực nghiệm.
• Chương 5: kết luận và hướng phát triển tiếp theo của luận văn