Sự phát triển của Internet làm cho thông tin lưu trữ trực tuyến hàng ngày gia tăng nhanh chóng. Do vậy, để tìm đúng thông tin mà chúng ta cần quan tâm thì mất khá nhiều thời gian nên cần phải dùng những kỹ thuật tổ chức và xử lý dữ liệu về văn bản. Kỹ thuật này được gọi là phân lớp văn bản hay nói cách khác là phân loại văn bản. Đã có rất nhiều phương pháp nghiên cứu về phân loại văn bản nhưng trong bài viết này chúng tôi tìm hiểu và áp dụng phương pháp Support Vector Machine và so sánh hiệu quả của nó với phương pháp phân loại theo xác suất Naïve Bayes. Ngoài ra, trước khi thực hiện phân lớp chúng tôi thực hiện các bước tiền xử lý bằng cách trích xuất các từ khóa đặc trưng với kỹ thuật giảm chiều tập huấn luyện nhằm làm giảm thời gian trong quá trình phân lớp.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.