I. GIỚI THIỆUNhững tài liệu lâm sàng (clinical documents) như tóm tắt xuất viện (discharge summary), các báo cáo xét nghiệm (x-quang, siêu âm, điện tim) được viết bởi các y tá, bác sĩ hay những người chăm sóc bệnh nhân nhằm ghi lại những thông tin quan trọng trong quá trình điều trị của bệnh nhân. Đặc biệt là các tóm tắt xuất viện, nó mô tả quá trình điều trị, tình trạng bệnh nhân và kế hoạch chăm sóc. Mục đích chính của nó là hỗ trợ quá trình chăm sóc bệnh nhân cũng như là những ghi chú bàn giao giữa các bác sĩ [1]. Cùng với sự phát triển của công nghệ thông tin, các tài liệu y khoa này dần được số hóa, nguồn dữ liệu này ngày càng lớn và chứa đựng rất nhiều thông tin có giá trị. Việc rút trích thông tin cần thiết từ tài liệu lâm sàng đang được cộng đồng nghiên cứu rất quan tâm thông qua các tổ chức nghiên cứu như: I2B2 1 (Informatics for Integrating Biology and Bedside) và ShARe/CLEF eHealth 2 .Rút trích thông tin thời gian (Temporal Information Extraction -TIE) là một thách thức lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing -NLP) và nó là một thành phần quan trọng trong nhiều hệ thống NLP, chẳng hạn như hệ thống Hỏi -Đáp (Question -Answering), tóm tắt tài liệu (Document Summarization), dịch máy (Machine Translation) [5]. Trong lĩnh vực y khoa, việc rút trích thông tin thời gian có thể được ứng dụng để xây dựng biểu đồ thông tin quá trình điều trị bệnh nhân (timeline) hoặc tạo ra các tóm tắt điều trị, nó cũng có thể được áp dụng trong các hệ thống suy luận từ việc khai thác dữ liệu y khoa nhằm tìm ra các thông tin hữu ích, từ đó nâng cao hiệu quả điều trị bệnh nhân cũng như phục vụ cho các công tác nghiên cứu xa hơn.Một hệ thống rút trích thông tin thời gian trong y khoa thường bao gồm các thành phần: Nhận diện các sự kiện (các rối loạn, các điều trị…) Nhận diện các biểu thức thời gian (Temporal expression) Phân lớp mối quan hệ giữa thời gian và các sự kiện. Hình 1. Lược đồ thể hiện tất cả khả năng mà Bệnh/rối loạn có thể được phân lớp so với thời gian viết tài liệu (Document time).Rút trích mối quan hệ thời gian (Temporal relation) thường bao gồm: quan hệ thời gian giữa sự kiện và sự kiện, quan hệ thời gian giữa sự kiện và các mốc thời gian, quan hệ thời gian giữa sự kiện và thời gian viết tài liệu, trong đó, loại quan hệ thứ ba giữ một vai trò khá quan trọng. Chẳng hạn, khi nghiên cứu tài liệu lâm sàng, các bác sĩ, các nhà nghiên cứu hay những người chăm sóc bệnh nhân muốn biết nhanh một rối loạn (disorder) xảy ra vào thời gian nào 1 https://www.i2b2.org/NLP/HeartDisease 2
Một sô định nghĩa 1. Quan hệ tồ n g quát R gồm tập các thuộc tinh dR+ và tập các ràng buộc phụ thuộc F. Ta viết R = < R+, F >. 2. X em hai tập A, B Ç R+. N êu B phụ thuộc hàm vào A ta kv hiệu .4-D G F " , với F** là bao đóng của F suy từ hệ luật dẫn Armstrong. 3. Cho hai tập .4, B Ç R+: ta ghi Ả V B là hội của liai tâp A vk ầ, A A B là giao cùa hai tập này. 4. Xem A Ç R+. T ập hợp: C lH '1) = { b e R + : 3.4' e .4 : A'-b e F**} đirợc gọi là bao đóng của. tập /1 ựng với tập fth (phụ thuộc hàm) F. 5. Cho A, B € R+ và A-B F**. Ta nói .4-> • tì là một fth nguyên tố nếu và chỉ nru: mọi Ä c A, nếu A-B e F** thi A = A!. 6. Xem tập K Ç R + ■ K được gọi là cilia, khóa rủa quan hệ R =< R + , F > nếu K-Il+ nguvên tố tro n g F**. 7. Một fth A-B e F** đư ợ c gọi là fth nội bộ cùa m ột quan hệ < , Fị > 11CU .4 V ß Ç Tt v à .4 là m ột chia k h óa củ a < Tt+. Fị >. 2. Cách mã hóa hợp lý trên tệp cách biệt các thuộc tính Xem quan hệ tổn g quát R-< R+, F >. Ta gọi m ột phân hoạch (p artition) M(R+) trên tập R+ là m ột cách mà hóa hợp lý trôn quan hệ R nếu M(R+) th ỏa màn các đ iều kiện sau:
kết quả do tổ chức SemEval đánh giá và công bố, hiệu quả của hệ thống đạt độ chính xác (precision) là 0.720, độ bao phủ (recall) là 0.690 và độ hài hòa (F-score) là 0.704.Từ khóa: Rút trích thông tin lâm sàng; Rút trích khái niệm y tế; Xử lý ngôn ngữ tự nhiên. I. GIỚI THIỆUNhững khái niệm trong lĩnh vực y học thường đề cập đến các đối tượng như: bệnh, rối loạn, thuốc (tên thuốc, liều lượng, phương thức quản lý, tần xuất quản lý …), điều trị (thủ tục, biện pháp điều trị, thuốc điều trị …), các vấn đề y tế, xét nghiệm, protein, di truyền (gien) ... Các mối quan hệ cho biết sự liên quan giữa các khái niệm như: điều trị giải quyết được vấn đề y tế, điều trị làm xấu đi vấn đề y tế, xét nghiệm phát hiện ra vấn đề y tế… Việc nhận diện khái niệm là tiền đề để xác định mối quan hệ giữa chúng, các khái niệm và mối quan hệ có ý nghĩa rất quan trọng đối với người dùng trong lĩnh vực y tế như: bác sĩ, nhà nghiên cứu, sinh viên y khoa, nhân viên y tế, bệnh nhân cũng như thân nhân, ... kể cả ngoài lĩnh vực như: công ty bảo hiểm, … Một số trường hợp cụ thể cho thấy ý nghĩa của khái niệm và mối quan hệ đối với người dùng như sau: các bác sĩ muốn biết mối quan hệ giữa các khái niệm điều trị và vấn đề y tế để giúp họ đưa ra quyết định điều trị hiệu quả và hạn chế những sai sót, các nhà nghiên cứu muốn tìm hiểu về mối quan hệ giữa các khái niệm di truyền (gien) và bệnh nhằm giải thích những căn bệnh liên quan đến yếu tố di truyền, và còn rất nhiều trường hợp khác nữa.Nhiều khái niệm và mối quan hệ đang nằm trong các dữ liệu y tế như: các tóm tắt xuất viện, các kết quả xét nghiệm, các công trình nghiên cứu khoa học… Những dữ liệu này được tạo ra liên tục hằng ngày và đang lưu trữ với nhiều dạng khác nhau như: âm thanh, hình ảnh và văn bản. Cụ thể, văn bản tường thuật (clinical narratives) chứa nhiều khái niệm đề cập đến các điều kiện lâm sàng, các vị trí giải phẫu trên cơ thể, các loại thuốc được sử dụng trong quá trình điều trị và những thủ tục (thủ thuật). Việc rút trích các khái niệm và mối quan hệ giữa chúng là cơ sở nền tảng để phát triển các ứng dụng như: tìm kiếm thông tin, hỏi đáp, tóm tắt văn bản và hệ thống hỗ trợ ra quyết định. Nhiều hình thức mặt chữ (surface forms) biểu diễn cùng khái niệm, cho nên việc rút trích và ánh xạ những khái niệm xuất hiện trong tài liệu văn bản đến những thuật ngữ đã được định nghĩa trong các từ vựng hoặc ontology (hay gọi là chuẩn hóa) nhằm giúp cho người dùng dễ dàng nhận biết và hiểu được các khái niệm và mối quan hệ một cách dễ dàng.Trong lĩnh vực y học có nhiều nguồn tài nguyên từ vựng và ontology phong phú, có thể được tận dụng để nhận diện các khái niệm và liên kết các khái niệm hoặc chuẩn hóa. Một trong những nguồn tài nguyên đó là UMLS (Unified Medical Language System), nó chứa trên 130 từ vựng (lexicons/thesauri) với các thuật ngữ từ nhiều ngôn ngữ khác nhau, trong đó UMLS Metathesaurus tích hợp những nguồn tài nguyên chuẩn như: SNOMED-CT, ICD9 và RxNORM được sử dụng rộng rãi trên thế giới trong chăm sóc lâm sàng, y tế cộng đồng và dịch tể học. Ngoài ra, UMLS cũng cung cấp một mạng ng...
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.