kết quả do tổ chức SemEval đánh giá và công bố, hiệu quả của hệ thống đạt độ chính xác (precision) là 0.720, độ bao phủ (recall) là 0.690 và độ hài hòa (F-score) là 0.704.Từ khóa: Rút trích thông tin lâm sàng; Rút trích khái niệm y tế; Xử lý ngôn ngữ tự nhiên.
I. GIỚI THIỆUNhững khái niệm trong lĩnh vực y học thường đề cập đến các đối tượng như: bệnh, rối loạn, thuốc (tên thuốc, liều lượng, phương thức quản lý, tần xuất quản lý …), điều trị (thủ tục, biện pháp điều trị, thuốc điều trị …), các vấn đề y tế, xét nghiệm, protein, di truyền (gien) ... Các mối quan hệ cho biết sự liên quan giữa các khái niệm như: điều trị giải quyết được vấn đề y tế, điều trị làm xấu đi vấn đề y tế, xét nghiệm phát hiện ra vấn đề y tế… Việc nhận diện khái niệm là tiền đề để xác định mối quan hệ giữa chúng, các khái niệm và mối quan hệ có ý nghĩa rất quan trọng đối với người dùng trong lĩnh vực y tế như: bác sĩ, nhà nghiên cứu, sinh viên y khoa, nhân viên y tế, bệnh nhân cũng như thân nhân, ... kể cả ngoài lĩnh vực như: công ty bảo hiểm, … Một số trường hợp cụ thể cho thấy ý nghĩa của khái niệm và mối quan hệ đối với người dùng như sau: các bác sĩ muốn biết mối quan hệ giữa các khái niệm điều trị và vấn đề y tế để giúp họ đưa ra quyết định điều trị hiệu quả và hạn chế những sai sót, các nhà nghiên cứu muốn tìm hiểu về mối quan hệ giữa các khái niệm di truyền (gien) và bệnh nhằm giải thích những căn bệnh liên quan đến yếu tố di truyền, và còn rất nhiều trường hợp khác nữa.Nhiều khái niệm và mối quan hệ đang nằm trong các dữ liệu y tế như: các tóm tắt xuất viện, các kết quả xét nghiệm, các công trình nghiên cứu khoa học… Những dữ liệu này được tạo ra liên tục hằng ngày và đang lưu trữ với nhiều dạng khác nhau như: âm thanh, hình ảnh và văn bản. Cụ thể, văn bản tường thuật (clinical narratives) chứa nhiều khái niệm đề cập đến các điều kiện lâm sàng, các vị trí giải phẫu trên cơ thể, các loại thuốc được sử dụng trong quá trình điều trị và những thủ tục (thủ thuật). Việc rút trích các khái niệm và mối quan hệ giữa chúng là cơ sở nền tảng để phát triển các ứng dụng như: tìm kiếm thông tin, hỏi đáp, tóm tắt văn bản và hệ thống hỗ trợ ra quyết định. Nhiều hình thức mặt chữ (surface forms) biểu diễn cùng khái niệm, cho nên việc rút trích và ánh xạ những khái niệm xuất hiện trong tài liệu văn bản đến những thuật ngữ đã được định nghĩa trong các từ vựng hoặc ontology (hay gọi là chuẩn hóa) nhằm giúp cho người dùng dễ dàng nhận biết và hiểu được các khái niệm và mối quan hệ một cách dễ dàng.Trong lĩnh vực y học có nhiều nguồn tài nguyên từ vựng và ontology phong phú, có thể được tận dụng để nhận diện các khái niệm và liên kết các khái niệm hoặc chuẩn hóa. Một trong những nguồn tài nguyên đó là UMLS (Unified Medical Language System), nó chứa trên 130 từ vựng (lexicons/thesauri) với các thuật ngữ từ nhiều ngôn ngữ khác nhau, trong đó UMLS Metathesaurus tích hợp những nguồn tài nguyên chuẩn như: SNOMED-CT, ICD9 và RxNORM được sử dụng rộng rãi trên thế giới trong chăm sóc lâm sàng, y tế cộng đồng và dịch tể học. Ngoài ra, UMLS cũng cung cấp một mạng ng...