ThS37.106_Đối sánh tự động lược đồ XML
Đối sánh tự động lược đồ XML: Một vấn đề rất quan trọng trong các hệ thống xử lý thông tin là trao đổi và sử dụng lại dữ liệu giữa các hệ thống có dữ liệu không đồng nhất. Tính không đồng nhất của dữ liệu là do các tổ chức hoặc ứng dụng thường tạo ra dữ liệu cho chính mình dựa trên các yêu cầu riêng biệt. Các yêu cầu này hầu hết thường được đặc tả trong các mô hình dữ liệu trừu tượng, còn gọi là các lược đồ (chẳng hạn như lược đồ quan hệ, lược đồ hướng đối tượng và gần đây là lược đồ XML). Trong những năm gần đây, sự phát triển mạnh mẽ của các nguồn dữ liệu Web với rất nhiều mô hình thông tin và cú pháp mã hóa khác nhau đã dẫn đến nhu cầu ngày càng cấp thiết của việc phát triển các phương pháp và công cụ hỗ trợ cho việc trao đổi và sử dụng lại dữ liệu, do vậy đã có rất nhiều nghiên cứu quan tâm đến vấn đề này. Như ta biết, đối sánh lược đồ là vấn đề trung tâm trong hầu hết các nghiên cứu đó. Bài toán đối sánh lược đồ có thể được định nghĩa một cách phi hình thức như sau: [6], [11] “Cho hai lược đồ S1 và S2 trên mô hình dữ liệu bất kỳ, có thể có thêm thông tin phụ trợ và một ánh xạ khởi đầu, hãy tìm ánh xạ giữa các phần tử lược đồ thỏa mãn yêu cầu người dùng”. Nói cách khác, đây là vấn đề tìm kiếm sự tương đồng giữa các phần tử của S1 và S2 (hay là việc xác định các thành phần tương đương nhau giữa hai lược đồ nguồn và đích đã cho) bằng cách khai thác các thông tin tồn tại trong lược đồ, dữ liệu và các nguồn thông tin phụ trợ.
Thực tế cho thấy, các thách thức gặp phải khi tìm kiếm giải pháp cho bài toán đối sánh lược đồ là rất lớn. Thứ nhất, quá trình này cần đến sự phân tích ngữ nghĩa trong các lược đồ đó, hay nói cách khác ta cần suy diễn được nhận thức về lược đồ của người tạo ra nó. Tuy vậy, các lược đồ thường được thiết kế bởi những con người khác nhau với những nhận thức khác nhau về thế giới thực cho các mục đích khác nhau. Thứ hai, việc khai thác thông tin cho bài toán đối sánh lược đồ gặp rất nhiều khó khăn vì ta phải khai thác một lượng lớn thông tin hỗn tạp và không chắc chắn, ví dụ như tài liệu đặc tả lược đồ, các nguồn dữ liệu của lược đồ… Từ các phân tích trên, có thể thấy rằng việc
đối sánh lược đồ bằng tay thường khá tốn kém và dễ gây lỗi. Điều đó cho thấy việc phát triển các kỹ thuật nhằm tự động hóa một cách tối đa tiến trình đối sánh lược đồ là rất quan trọng.
Hiện nay, XML (eXtended Markup Language – ngôn ngữ đánh dấu mở rộng) [24] đã trở thành chuẩn ngôn ngữ hiệu quả và thích hợp cho việc biểu diễn dữ liệu trên Web. Nhu cầu sử dụng XML như là chuẩn biểu diễn và trao đổi dữ liệu ngày càng tăng của cộng đồng Web đã tạo nên một lượng dữ liệu XML ngày càng lớn. Gắn liền với sự gia tăng đó, một lượng lớn các lược đồ XML [25], [26], [27] đã được phát triển với rất nhiều đặc tả khác nhau, dẫn đến một lượng lớn dữ liệu XML không đồng nhất. Thêm vào đó, hiện tại lại có khá nhiều ngôn ngữ lược đồ khác nhau được đưa ra, dẫn đến sự không đồng nhất về mặt cú pháp ở các ngôn ngữ lược đồ. Với sự phát triển nhanh chóng và sự tăng trưởng mạnh mẽ về mặt quy mô của các ứng dụng Web, đặc biệt là sự phổ dụng của Internet và công nghệ XML, đã có rất nhiều nghiên cứu quan tâm đến vấn đề trao đổi và sử dụng lại dữ liệu XML. Vấn đề đối sánh lược đồ XML do vậy ngày càng trở nên quan trọng. Nhằm góp phần tìm hiểu và giải quyết vấn đề đó một cách hiệu quả hơn, luận văn này sẽ tổng hợp lại cũng như đưa ra các đóng góp thêm cho bài toán đối sánh lược đồ XML