2021
DOI: 10.28995/2075-7182-2021-20-692-697
|View full text |Cite
|
Sign up to set email alerts
|

Russian News Similarity Detection with SBERT: pre-training and fine-tuning

Abstract: Computation of text similarity is one of the most challenging tasks in NLP as it implies understanding of semantics beyond the meaning of individual words (tokens). Due to the lack of labelled data this task is often accomplished by means of unsupervised methods such as clustering. Within the DE2021: "Russian News Clustering and Headline Selection" we propose a method of building robust text embeddings based on Sentence Transformers architecture, pretrained on a large dataset of in-domain data and then fine-tu… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1

Citation Types

0
0
0
1

Year Published

2022
2022
2024
2024

Publication Types

Select...
2

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(1 citation statement)
references
References 7 publications
0
0
0
1
Order By: Relevance
“…Kedua string tersebut dimasukkan ke dalam fungsi matematis tertentu untuk mengetahui jarak antara keduanya [3]. Menghitung jumlah kemiripan kata adalah tugas umum, namun memberikan peran yang sangat penting dalam berbagai aplikasi Natural Language Processing (NLP), seperti mesin pencari, detektor plagiarisme, sistem penjawab pertanyaan, dan lainnya [4]. Tentu saja menghitung jumlah kemiripan kata sangat bisa digunakan untuk mendeteksi tingkat plagiat pada artikel ilmiah, mengingat karya ilmiah merupakan hasil pemikiran seseorang yang dituangkan dalam belum teks.…”
Section: Pendahuluanunclassified
“…Kedua string tersebut dimasukkan ke dalam fungsi matematis tertentu untuk mengetahui jarak antara keduanya [3]. Menghitung jumlah kemiripan kata adalah tugas umum, namun memberikan peran yang sangat penting dalam berbagai aplikasi Natural Language Processing (NLP), seperti mesin pencari, detektor plagiarisme, sistem penjawab pertanyaan, dan lainnya [4]. Tentu saja menghitung jumlah kemiripan kata sangat bisa digunakan untuk mendeteksi tingkat plagiat pada artikel ilmiah, mengingat karya ilmiah merupakan hasil pemikiran seseorang yang dituangkan dalam belum teks.…”
Section: Pendahuluanunclassified