Từ khóa -tìm kiếm, chỉ mục, xếp hạng, toán học.
I. GIỚI THIỆUCùng với sự phổ biến và phát triển nhanh chóng của CNTT và mạng Internet, thông tin được chia sẻ và nhu cầu tìm kiếm trên mạng Internet ngày càng phong phú đa dạng hơn. Cũng như các lĩnh vực khác, ngày càng có nhiều người chia sẻ các tài liệu toán học và tìm kiếm thông tin để giải quyết các vấn đề thông qua mạng Internet. Tuy nhiên, một vấn đề đặt ra là làm sao có thể tìm kiếm được các nội dung toán học cần thiết trong một kho tài liệu khổng lồ trên mạng Internet. Các máy tìm kiếm phổ biến hiện nay như Google Search, Yahoo Search, Live Search của Microsofts chưa cho phép cung cấp và nhận diện được các công thức theo cách tự nhiên, do đó việc tìm kiếm thường không trả về kết quả khớp với yêu cầu người dùng. Chính vì vậy cần có một bộ máy tìm kiếm công thức toán học chuyên dụng cho phép tìm kiếm các công thức toán học trên các tài liệu và Website được chia sẻ trên mạng Internet [5][6].Hiện nay trên thế giới đã phát triển một số công cụ tìm kiếm công thức toán học cho phép tìm theo nội dung hiển thị của công thức hoặc theo ngữ nghĩa của nó tuy nhiên phạm vi ứng dụng của các công cụ này còn bó hẹp, chẳng hạn như EgoMath cho phép tìm kiếm công thức toán học trên Wikipedia.org, Website LatexSearch có hỗ trợ tìm kiếm các công thức toán học được soạn thảo bằng ngôn ngữ đánh dấu LaTeX, đây là bản quyền của MPS Technologies (Mathematical Programming System), nhưng những kết quả tìm thấy chỉ giới hạn trên những tài liệu điện tử lưu trữ trên máy chủ SpringerLink,... [3] Đặc biệt, hiện nay chưa có hệ thống nào tìm kiếm chuyên dụng cho các tài liệu toán học dành cho tiếng Việt. Vì vậy, việc nghiên cứu phát triển một công cụ tìm kiếm dựa trên các công thức toán học là cần thiết và có ý nghĩa thực tiễn cao [1].Trong bài báo này, chúng tôi giới thiệu kết quả nghiên cứu và triển khai thử nghiệm của chúng tôi trên hệ thống VNMathSearch. Hệ thống này nhằm hỗ trợ tìm kiếm các tài liệu toán học (có thể tìm kiếm trực tiếp qua các công thức hoặc các từ khóa tiếng Việt) nhằm thúc đẩy việc học tập, nghiên cứu và ứng dụng khoa học tư nhiên tại Việt Nam. Bài báo được tổ chức thành 4 phần chính. Phần 2 trình bày kết quả nghiên cứu tổng quan về các văn bản toán học, phương thức biểu diễn công thức toán học trong tài liệu và Website và một số kết quả nghiên cứu liên quan. Phần tiếp theo mô tả ứng dụng, xây dựng mô hình tổng quát và giới thiệu giải pháp lưu trữ công thức toán học trên văn bản, giải pháp tạo chỉ mục cho các tài liệu toán học và giải pháp tìm kiếm công thức toán học cũng như tích hợp công cụ hỗ trợ người dùng trong quá trình tìm kiếm. Phần cuối trình bày việc triển khai xây dựng công cụ tìm kiếm công thức toán học trên văn bản và thử nghiệm đánh giá những kết quả đã đạt được.
II. MỘT SỐ NGHIÊN CỨU LIÊN QUAN
Đặc tả công thức toán trên tài liệuCông thức toán học trên tài liệu có thể được đặc tả bằng nhiều ngôn ngữ khác nhau được gọi là ngôn ngữ đánh dấu toán học. Các ngôn ngữ đánh dấu toán học phổ biến nhất hiện nay là TeX/LaTeX [8], MathML [13], OMDoc [10] và OpenMath...