ThS37.072_Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh: Nhận dạng và xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Ở Việt Nam Nhận dạng và xử lý ảnh là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh. Sự ra đời của nó đã tạo ra các kỹ thuật quan trọng ảnh hưởng trực tiếp đến các lĩnh vực như: Tivi, truyền thông, kỹ xảo đồ hoạ…
Cùng với sự phát triên đo co nhưng nhu câu thưc tê đăt ra thách thức các nhà khoa học máy tính càng nhiều . Nhưng công viêc , nhưng bai toan đươc xư ly theo lôi cô truyên không theo kip tôc đô phat triên cua công nghê ngày nay . Một trong nhưng bai toan đo chinh la các tài liệu đươc lưu trư trên các chất liệu cổ truyền như giây, gô, vải vơi khôi lương không lô , chưa đưng rât nhiêu tri thưc cua nhân loai nhưng lai không co đô bên vinh cưu , khó xử lý và lưu trữ . Môt bai toan khac la ngay nay công viêc văn phong liên quan nhiêu đên cac tai liêu không đơn thuân la tai liêu chư ma tai liêu co nhiêu thành phần như bảng biểu , ảnh. Tât ca cac tai liêu đo nêu tiêp tuc lưu trư theo phương phap cô truyên thi rât phưc tap va kho xư ly . Vây lam thê nao đê chuyên đôi nhưng kho tang tri thưc trên vao may tinh đê lưu trư , xư ly dê dàng, thuân tiên va nhanh gon . Môt linh vưc của khoa học nhâ n dang la Phân tích tài liệu ảnh đã ra đơi nhăm biêu diên thông tin trong cac tai liêu anh dươi dạng có cấu trúc .
Hệ phân tích và nhận dạng tài liệu ảnh có mục đích là chuyển đổi tự động những thông tin lưu trữ trong tài liệu giấy thành biểu diễn dưới dạng những cấu trúc mà có thể truy xuất, thay đổi được bằng máy tính. Quy trình xử lý của một hệ phân tích tài liệu bắt đầu bằng việc lấy dữ liệu, các tài liệu từ giấy in sẽ được quét qua máy quét để lưu trữ trong máy tính dưới dạng các tệp dữ liệu ảnh.
Một tài liệu ảnh là một cách biểu diễn trực quan của các trang tài liệu được in như một bài tạp chí, một lá thư, một trang báo, một mẩu thư hay một bản vẽ kỹ thuật, .v.v.. Một tài liệu ảnh có thể bao gồm các chuỗi ký tự, các hình vẽ, các bức ảnh, .v.v.. Bên cạnh việc chuyển toàn bộ nội dung của tài liệu sang tài liệu điện tử cũng cần phải bảo toàn cấu trúc và định dạng của tài liệu. Mục tiêu cơ bản của một hệ phân tích tài liệu ảnh hoàn chỉnh đó là chuyển một tài liệu lưu trữ bằng giấy sang dạng biểu diễn có thứ tự cấu trúc
và nội dung của nó. Tài liệu được chuyển sang phải có khả năng thay đổi, soạn thảo và lưu trữ bởi vì nội dung của tài liệu có thể truy cập bởi cấu trúc của nó thay vì phải truy cập dưới dạng những mẫu ảnh. Có một số lượng lớn ứng dụng của hệ phân tích tài liệu ảnh được ứng dụng trong các lĩnh vực như: dịch vụ bưu chính, Chính phủ, chăm sóc y tế, thư viện, …v.v.
Mục đích của luận văn là nghiên cưu ky thuât nhân dang bang va trich chọn ra đối tượng của tài liệu ảnh. Kỹ thuật “Phân tích bảng – T-Recs” là nghiên cưu chinh . Với tư tưởng chính của “Phương pháp phân tích bảng” đó là không xem xét đến bất cứ một loại đường phân cách nào để xác định cấu trúc bảng. Thay vào đó phương pháp sẽ tập trung vào việc nhận biết các từ trong cùng một khối logic (chẳng hạn các từ trong cùng một cột dữ liệu sẽ được cho vào trong cùng một khối). Phương pháp sẽ không đi tìm những đặc trưng để phân biệt hai vùng dữ liệu (hai cột) khác nhau mà tìm những đặc trưng để tìm ra các từ trong cùng một khối logic và từ đó xây dựng cấu trúc riêng theo
phương pháp tiếp cận bottom – up