Enhancing recurrent neural network-based language models by word tokenization

Noaman, Hatem M.; Sarhan, Shahenda; Rashwan, Mohsen

doi:10.1186/s13673-018-0133-x

Cited by 16 publications

(10 citation statements)

References 18 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Tokenisasi kata-kata tersebut menjadi tiga bagian: bagian awalan, bagian batang, dan bagian akhiran. Model pada penelitian ini akan diuji dengan menggunakan dataset pengenal ucapan AMI bahasa Inggris serta melebihi model n-gram awal (Noaman, 2018) 2. Case Folding Pada tahap ini hasil dari tokenisasi diubah menjadi huruf kecil atau tidak huruf besar semua.…”

Section: Tokenizingunclassified

Aplikasi Pendeteksi Kesamaan Dokumen Dengan Menggunakan Algoritma Jarak Jaro Winkler Dan Levenshtein

Salim

Septian

Suhartini

et al. 2021

Sebatik

View full text Add to dashboard Cite

Peranan teknologi di era revolusi 4.0 membuat penggunaan teknologi informasi dan komunikasi semakin luas. Peranan ini juga mencakup segala bidang, salah satunya untuk mempermudah pengguna dalam mendapatkan informasi yang tersedia secara bebas dan tanpa biaya. Akan tetapi hal ini memungkinkan terjadinya pengambilan informasi tertulis (karya tulis, penulisan ilmiah, dokumen dan lain sebagainya) tanpa mencantumkan referensi (menjiplak) yang biasa dikenal sebagai tindakan plagiarism. Teknologi informasi pengukur tingkat plagiat suatu dokumen teks berhubungan dengan pencarian informasi dari data yang ada. Dokumen teks merupakan sesuatu yang tertulis atau tercetak yang dapat digunakan sebagai keterangan. Untuk membuat suatu informasi tertentu dibutuhkan waktu yang lama untuk memproses hasil kemiripan dari seluruh isi dokumen teks. Pemrosesan text mining menggunakan beberapa algoritma. Salah satunya adalah algoritma Jarak Jaro Winkler dan Jarak Levenshtein . Jarak Jaro Winkler adalah sebuah algoritma menghitung panjang kata dalam dokumen, kata yang sama, dan jumlah transposisi. Sedangkan algoritma Jarak Levenshtein digunakan untuk menghitung jarak yang dibutuhkan untuk mengubah satu kata menjadi kata lain. Untuk itu dibuat aplikasi pendeteksi untuk melihat kemiripan dokumen teks dengan menerapkan Algoritma jarak Jaro Winkler dan jarak Levenshtein. Kedua algoritma ini diimplementasikan dan menampilkan hasil dari perhitungan antara Jaro Winkler dan jarak Levenshtein dalam sebuah aplikasi. Dengan melihat perbandingan kedua algoritma ini pengguna dapat mengetahui algoritma mana yang akan menghasilkan keluaran yang lebih baik jika dibandingkan dengan pencarian kemiripan secara manual.

show abstract

Section: Tokenizingunclassified

Aplikasi Pendeteksi Kesamaan Dokumen Dengan Menggunakan Algoritma Jarak Jaro Winkler Dan Levenshtein

Salim

Septian

Suhartini

et al. 2021

Sebatik

View full text Add to dashboard Cite

show abstract

“…Social media texts are normally unstructured, noisy and inconsistent. 29 The tweets are cleaned of non-English words or sentences, abbreviations and emoticons and stop words after input. Tokenization and transformation of the texts into lower case is also done to split the sentences into separable words.…”

Section: Sentence Text Data Input and Preprocessingmentioning

confidence: 99%

Lexicon - pointed hybrid N-gram Features Extraction Model (LeNFEM) for Sentence Level Sentiment Analysis.

Mutinda¹,

Mwangi²,

Okeyo³

2020

Preprint

View full text Add to dashboard Cite

Sentiment analysis of social media textual posts can provide information and knowledge that is applicable in social settings, business intelligence, evaluation of citizens' opinions in governance, and in mood triggered devices in the Internet of Things. Feature extraction and selection is a key determinant of accuracy and computational cost of machine learning models for such analysis. Most feature extraction and selection techniques utilize bag of words, N-grams, and frequency-based algorithms especially Term Frequency-Inverse Document Frequency. However, these approaches do not consider relationships between words, they ignore words' characteristics and they suffer high feature dimensionality. In this paper we propose and evaluate a feature extraction and selection approach that utilizes a fixed hybrid N-gram window for feature extraction and minimum redundancy maximum relevance feature selection algorithm for sentence level sentiment analysis. The approach improves the existing features extraction techniques, specifically the N-gram by generating a hybrid vector from words, Part of Speech (POS) tags, and word semantic orientation. The vector is extracted by using a static trigram window identified by a lexicon where a sentiment word appears in a sentence. A blend of the words, POS tags, and the sentiment orientations of the static trigram are used to build the feature vector. The optimal features from the vector are then selected using minimum redundancy maximum relevance (MRMR) algorithm. Experiments were carried out using the public Yelp dataset to compare the performance of the proposed model and existing feature extraction models (BOW, normal N-grams and lexicon-based bag of words semantic orientations). Using supervised machine learning classifiers the experimental results showed that the proposed model had the highest F-measure (88.64%) compared to the highest (83.55%) from baseline approaches. Wilcoxon test carried out ascertained that the proposed approach performed significantly better than the baseline approaches. Comparative performance analysis with other datasets further affirmed that the proposed approach is generalizable.

show abstract

“…Sebelum proses pengukuran jarak, kata-kata atau kalimat pengguna diolah pada tahap preprocessing terlebih dahulu Mendeteksi token dan batas kalimat adalah langkah preprocessing penting dalam aplikasi pemrosesan bahasa alami karena sebagian besar beroperasi baik pada tingkat kata (misalnya, silabus, analisis morfologi) atau kalimat (misalnya pemberian tag bagian-pidato, parsing, terjemahan mesin). Beberapa penelitian tentang pemrosesan bahasa menyertakan proses tokenizing pada tahap preprocessing, (Omar, 2018) melakukan tonizing pada tahap preprocessing untuk memperoleh token bahasa arab, (Noaman, Sarhan dan Rashwan, 2018) menyajikan model bahasa jaringan saraf berdasarkan tokenisasi kata-kata menjadi tiga bagian: awalan, batang, dan akhiran. Model yang diusulkan diuji dengan dataset pengenal ucapan AMI bahasa Inggris dan melebihi model n-gram awal.…”

Section: Penulisan Kode Programunclassified

Algoritma Jaro-Winkler Distance: Fitur Autocorrect dan Spelling Suggestion pada Penulisan Naskah Bahasa Indonesia di BMS TV

Prasetyo

Baihaqi

Had

2018

JTIIK

View full text Add to dashboard Cite

Autocorrect adalah suatu sistem yang dapat memeriksa dan memperbaiki kesalahan penulisan kata secara otomatis. Dewasa ini fitur autocorrect memang sering ditemui pada berbagai perangkat dan aplikasi, misalkan pada papan ketik smartphone dan aplikasi misalkan sebut saja Microsoft Word. Sistem autocorrect tersebut langsung mengganti kata yang dianggap salah oleh sistem secara otomatis tanpa memberi tahu pengguna sehingga pengguna seringkali tidak sadar tulisannya berubah sedangkan kata penggantinya tidak selalu benar sesuai dengan yang dimaksud pengguna. Pengetahuan Microsoft Word pada fitur autocorrect-nya berbahasa Inggris sehingga tidak dapat diterapkan pada penulisan naskah berita di BMS TV. Setiap harinya News Director BMS TV memeriksa naskah yang akan diberitakan dimana termasuk diantaranya adalah pemeriksaan ejaan. Dengan fitur autocorrect dan spelling suggestion bahasa Indonesia diharapkan dapat membantu News Director BMS TV untuk memeriksa dan memperbaiki kesalahan penulisan kata secara otomatis serta memberi saran penulisan ejaan kata yang benar dalam bahasa Indonesia. Metode pengembangan perangkat lunak yang digunakan adalah Extreme Programming dan algoritme Jaro-Winkler Distance. Jaro-Winkler adalah algoritme untuk menghitung nilai jarak kedekatan antara dua teks. Hasil dari penelitian ini adalah sebuah sistem yang dapat membantu News Director BMS TV dalam pemeriksaan kesalahan penulisan ejaan kata pada naskah bahasa Indonesia dan mempermudah News Director pusat dalam penghimpunan naskah dari berbagai kontributor BMS TV. Dapat disimpulkan bahwa fitur autocorrect dan spelling suggestion dapat menengani kesalahan penulisan ejaan kata dengan pengujian 60 kata yang terdiri dari berbagai skenario kesalahan penulisan kata fitur ini dapat memperbaiki sepuluh kata secara otomatis dengan benar dan memunculkan saran ejaan kata pada 39 kata dengan tepat. AbstractAutocorrect is a software system that automatically identifies and correct misspelled words. Nowadays autocorrect feature is often encountered in various devices dan applications, like on the smartphone keyboard dan Microsoft Word application. The autocorrect system instantly replaces the word that is considered wrong by the system automatically without notifying the user so that users are often not aware of writing changes while the replacement word is not always true in accordance with the intended user. The Autocorrect feature of Microsoft Word uses English so it can’t be applied on writing news script in BMS TV. Every day News Director of BMS TV checks the script that would be reported where there is a spell checking included. By using bahasa in autocorrect dan spelling suggestion, it is expected to help News Director BMS TV to check dan fix the misspelled word automatically dan give suggestion for the right words spelling in bahasa. The development software method that is used is Extreme Programming dan Jaro-Winkler Distance algorithm. Jaro-Winkler is an algorithm that is applied to calculate the distance of proximity between two texts. The results of this study is a system that could help News Director BMS TV in identifying misspelled words on script in bahasa dan to make it easier for News Director center in collecting of manuscripts from various contributors of BMS TV. It can be concluded that the autocorrect dan spelling suggestion features can compound the misspelled words with a 60-word test consisting of various error scenarios. This feature can correct ten words automatically dan show correct spelling suggestion word on 39 words.

show abstract

Enhancing recurrent neural network-based language models by word tokenization

Cited by 16 publications

References 18 publications

Aplikasi Pendeteksi Kesamaan Dokumen Dengan Menggunakan Algoritma Jarak Jaro Winkler Dan Levenshtein

Aplikasi Pendeteksi Kesamaan Dokumen Dengan Menggunakan Algoritma Jarak Jaro Winkler Dan Levenshtein

Lexicon - pointed hybrid N-gram Features Extraction Model (LeNFEM) for Sentence Level Sentiment Analysis.

Algoritma Jaro-Winkler Distance: Fitur Autocorrect dan Spelling Suggestion pada Penulisan Naskah Bahasa Indonesia di BMS TV

Contact Info

Product

Resources

About