2018
DOI: 10.1186/s13673-018-0133-x
|View full text |Cite
|
Sign up to set email alerts
|

Enhancing recurrent neural network-based language models by word tokenization

Abstract: Statistical language models estimate the probability for a given sequence of words. Given a sentence s with n words such as s = (w 1 , w 2. .. w n), the language model assigns P(s). Statistical language models assess good word sequence estimations based on the sequence probability estimation. Building robust, fast and accurate language models is one of the main factors in the success of building systems such as machine translation systems and automatic speech recognition systems. Statistical language models ca… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1
1

Citation Types

0
8
0
2

Year Published

2018
2018
2024
2024

Publication Types

Select...
8
1
1

Relationship

0
10

Authors

Journals

citations
Cited by 16 publications
(10 citation statements)
references
References 18 publications
0
8
0
2
Order By: Relevance
“…Tokenisasi kata-kata tersebut menjadi tiga bagian: bagian awalan, bagian batang, dan bagian akhiran. Model pada penelitian ini akan diuji dengan menggunakan dataset pengenal ucapan AMI bahasa Inggris serta melebihi model n-gram awal (Noaman, 2018) 2. Case Folding Pada tahap ini hasil dari tokenisasi diubah menjadi huruf kecil atau tidak huruf besar semua.…”
Section: Tokenizingunclassified
“…Tokenisasi kata-kata tersebut menjadi tiga bagian: bagian awalan, bagian batang, dan bagian akhiran. Model pada penelitian ini akan diuji dengan menggunakan dataset pengenal ucapan AMI bahasa Inggris serta melebihi model n-gram awal (Noaman, 2018) 2. Case Folding Pada tahap ini hasil dari tokenisasi diubah menjadi huruf kecil atau tidak huruf besar semua.…”
Section: Tokenizingunclassified
“…Social media texts are normally unstructured, noisy and inconsistent. 29 The tweets are cleaned of non-English words or sentences, abbreviations and emoticons and stop words after input. Tokenization and transformation of the texts into lower case is also done to split the sentences into separable words.…”
Section: Sentence Text Data Input and Preprocessingmentioning
confidence: 99%
“…Sebelum proses pengukuran jarak, kata-kata atau kalimat pengguna diolah pada tahap preprocessing terlebih dahulu Mendeteksi token dan batas kalimat adalah langkah preprocessing penting dalam aplikasi pemrosesan bahasa alami karena sebagian besar beroperasi baik pada tingkat kata (misalnya, silabus, analisis morfologi) atau kalimat (misalnya pemberian tag bagian-pidato, parsing, terjemahan mesin). Beberapa penelitian tentang pemrosesan bahasa menyertakan proses tokenizing pada tahap preprocessing, (Omar, 2018) melakukan tonizing pada tahap preprocessing untuk memperoleh token bahasa arab, (Noaman, Sarhan dan Rashwan, 2018) menyajikan model bahasa jaringan saraf berdasarkan tokenisasi kata-kata menjadi tiga bagian: awalan, batang, dan akhiran. Model yang diusulkan diuji dengan dataset pengenal ucapan AMI bahasa Inggris dan melebihi model n-gram awal.…”
Section: Penulisan Kode Programunclassified