ThS37.125_Kĩ thuật Dịch Ứng dụng Hàng không Tài liệu
Kĩ thuật Dịch Ứng dụng Hàng không Tài liệu: Chế tạo ra một loại máy có khả năng dịch tự động để giúp cho con người vượt qua rào cản ngôn ngữ là một mơ ước của loài người đã có từ thế kỷ XVII, rất lâu trước khi máy tính điện tử ra đời. Khi khoa học công nghệ phát triển mạnh, yêu cầu nắm bắt thông tin về kỹ thuật nhanh và chính xác trở nên cần thiết. Đa số các tài liệu kỹ thuật đều được viết bằng tiếng Anh.
Chẳng bao lâu sau khi máy tính điện tử đầu tiên ra đời, bên cạnh những ứng dụng tính toán trong lĩnh vực toán học và vật lý, con người nghĩ ngay đến việc sử dụng “não bộ của máy tính” cho những ứng dụng thực tiễn, trong đó có vấn đề dịch máy. Lần đầu tiên, việc sử dụng máy tính điện tử để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác được đề cập đến trong những cuộc thảo luận giữa Andrew D. Booth và Warren Weaver vào năm 1946. Vượt qua nhiều trở ngại về lý thuyết và công nghệ, Booth đã cho ra mắt “hệ dịch dựa trên từ điển” đầu tiên tại hội nghị của MIT vào năm 1952. [16] [17] [18].
Trôi chảy với thời gian, trong sự phát triển nhanh chóng của mạng máy tính và công nghệ truyền thông, con người ngày càng có điều kiện tiếp xúc với nguồn tri thức rất phong phú ở nhiều dạng khác nhau (chữ viết, hình ảnh, âm thanh, .v.v.), được thể hiện ở nhiều ngôn ngữ khác nhau. Nhu cầu đọc hiểu và trao đổi thông tin trở nên cần thiết hơn bao giờ, thế nhưng, nhu cầu này đã gặp phải một rào cản – sự khác biệt về mặt ngôn ngữ. Và, ngôn ngữ, tự thân nó đã vốn rất phức tạp.
Con người đã tìm cách vượt qua rào cản ngôn ngữ theo nhiều cách khác nhau, từ việc xây dựng các bộ từ điển song ngữ, các nghiên cứu về dịch thuật liên ngữ, phương pháp học ngoại ngữ nhanh chóng, cho đến cả việc tạo ra một ngôn ngữ chung cho loài người – quốc tế ngữ Esperanto. Vào thời điểm sức mạnh của máy tính đã được khẳng định, bài toán sử dụng máy tính để chuyển đổi tri thức được viết bằng ngôn ngữ này sang một ngôn ngữ khác được đặt ra. Trong khoảng 50 năm, có rất nhiều phương pháp dịch máy đã được giới thiệu và triển khai. Hiện nay, đã có nhiều hệ dịch tự động được thương mại hóa ở dạng các chương trình máy tính hoặc các dịch vụ web.
Sự nhìn nhận về vấn đề dịch máy (Machine Translation) đã nhiều lần thay đổi trong hơn năm mươi năm qua, từ chỗ hình dung rằng dịch thuật là công việc đơn giản, máy sẽ dịch mọi loại văn bản không kém gì con người, như một bộ máy vạn năng, cho đến chỗ khẳng định rằng dịch máy tự động, chất lượng cao là hoàn toàn không khả thi. Ngày hôm nay, hầu hết các chuyên gia về dịch máy đều có chung quan điểm rằng máy tính chỉ có thể biên dịch văn bản chất lượng chấp nhận được trong một lĩnh vực chuyên môn
hẹp, hoặc chỉ có thể hỗ trợ dịch thô để đọc hiểu. Phương pháp dịch máy dựa hoàn toàn vào kho ngữ liệu như Dịch máy dựa trên Thống kê (Statistical Machine Translation) hay Dịch máy dựa trên mẫu ví dụ (Example-based Machine Translation) được xem là chỉ có ích để dịch với chất lượng tương đối thấp cho mọi loại văn bản. [16] [17] [18]
Nguyên nhân chính có lẽ do sự khác biệt lớn giữa hai thế giới: người và máy. Ngoài ra, không thể không kể đến tính nhập nhằng – vốn là bản chất của ngôn ngữ tự nhiên.
Ngôn ngữ tự nhiên là một thực thể phức tạp. Kết xuất của ứng dụng dịch máy (câu đích) thường không diễn đạt được trôi chảy như một lời nói, một câu viết của thế giới thực, hoặc tệ hơn, dưới một hình thức phi lý, trái ngược hẳn với trực cảm của con người. Đối với tiếng Việt, vấn đề xây dựng một hệ dịch máy để tự động dịch từ tiếng Anh sang tiếng Việt đã được đặt ra từ lâu. Điều kiện tiên quyết trong việc xây dựng một chương trình dịch là việc xây dựng cơ sở tri thức về ngôn ngữ cho hệ dịch. Chất lượng dịch phụ thuộc vào việc cập nhật dữ liệu cho cơ sở tri thức, mà công việc này đòi hỏi đầu tư rất lớn và thời gian thực hiện công việc là lâu dài.
Ngày hôm nay, chương trình được ứng dụng trên thực tế và được biết đến nhiều nhất là chương trình dịch tự động Anh-Việt EVTran 3.0 của TS. Lê Khánh Hùng, ngoài ra có một số các chương trình khác nhưng mới chỉ đang được thử nghiệm trong phạm vi hẹp chứ chưa được đưa ra thị trường. Với mong muốn học hỏi, chúng tôi mạnh dạn chọn đề tài “Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không” cho luận văn của mình.
Kết xuất của luận văn là một thử nghiệm dịch tự động dựa trên việc rút trích các tri thức (ngữ nghĩa) từ các ấn phẩm từ điển hàng không đã có và áp dụng kỹ thuật học máy. Mặc dầu kết xuất này chưa tối ưu, nhưng trên một miền xác định (tài liệu hàng không), trong quá trình xây dựng cơ sở dữ liệu tri thức (dựa vào máy học) có sự tham gia từ phía người dùng cuối (CB-CNV ngành hàng không, nắm vững kiến thức căn bản hàng không), sẽ là tiền đề cho các nghiên cứu về sau của chúng tôi và có thể góp phần phục vụ cho cộng đồng.
Luận văn được trình bày trong 5 chương, khái quát như sau:
Chương 1: Tổng quan về dịch máy
Trình bày về định nghĩa, vai trò, phân loại và lịch sử của dịch máy.
Chương 2: Các phương pháp dịch máy
Khái quát căn bản lý thuyết về ngôn ngữ học áp dụng trong dịch máy.
Giới thiệu tổng quan về bài toán dịch tự động và các phương pháp giải quyết bài toán này trong những năm qua. Trong đó cũng đã đưa ra một số đánh giá về ưu điểm và nhược điểm của các hướng tiếp cận.
Chương 3: Từ điển hàng không
Một cách hình thức, có thể ví dữ liệu trong từ điển như thành phần xương sống của thử nghiệm dịch máy áp dụng trên tài liệu hàng không.
Trong chương này, chúng tôi trình bày chi tiết về chức năng, cách thức hoạt động, các kỹ thuật được sử dụng cơ bản để tạo nên phần mềm từ điển và một thử nghiệm dịch tự động.
Chương 4: Cài đặt chương trình thử nghiệm và đánh giá
Sau lý thuyết là thực nghiệm; với mong muốn áp dụng kiến thức đã học vào thực tế, chương 4 sẽ trình bày các kết quả thu được từ dữ liệu thực.
Do miền xác định của luận văn: “Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không”, nên các dữ liệu này được trích xuất các web site ngành hàng không (ICAO, Boeing và Airbus).
Chương 5: Phần kết luận
Tổng kết các kết quả đạt được và nêu hướng phát triển của luận văn