Web Scraping with HTML DOM Method for Data Collection of Scientific Articles from Google Scholar

Rahmatulloh, Alam; Gunawan, Rohmat

doi:10.24002/ijis.v2i2.3029

Cited by 17 publications

(12 citation statements)

References 7 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Teknik mendapatkan informasi dari website secara otomatis tanpa harus menyalinnya secara manual. Web scraping berfokus dalam mendapatkan data dan informasi dapat berupa, teks, tautan dengan cara pengambilan dan ekstraksi untuk diambil data tertentu dari halaman tersebut agar bisa digunakan kembali oleh sistem lain maupun di analisis lebih lanjut (Arisandi et al, 2021;Flores et al, 2020;Rahmatulloh & Gunawan, 2020). Umumnya data yang diperoleh berupa laman web dokumen HTML dengan memilih bagian tertentu, kemudian di transformasi dari bentuk yang tidak terstruktur dalam format HTML menjadi format data terstruktur dan disimpan dalam format data tertentu (Priyanto & Ma'arif, 2018;Satriajati et al, 2021).…”

Section: Web Scraperunclassified

Web Scraping Situs Berita Menggunakan Bahasa Pemograman Python

Fikri¹,

Handayanto²,

Irwan³

2022

JSRCS

View full text Add to dashboard Cite

Currently, the rapid development of technology provides innovation, one of which is the technique of obtaining information from portal websites, termed web scrapers. This application provides data needs in the form of information where the process of retrieving information from sites will later be taken to observe behavior and perceptions to get the right market segmentation. Most data collection is currently still done manually, as a result, this method has several system limitations, namely the length of the data collection process so that it slows down the performance of market segment analysis. The risk is not getting the right market segmentation. To solve this problem, a web scraping news site is needed. In this study, web scraping news sites were created using the python programming language and the flask library to display web scraping. In addition, the Selenium library is used to simplify application creation, facilitate interaction with the Web and provide facilities to control a web browser. This program can retrieve data based on keywords, where the results are in the form of the title, posting date, summary, then collect the data that has been taken into a csv file extension automatically. Keywords: Internet, News, Python, Scraping, Website Abstrak Saat ini, perkembangan pesat teknologi memberikan inovasi, salah satunya adalah teknik memperoleh informasi dari situs web portal, yaitu web scraper. Aplikasi ini menyediakan kebutuhan data berupa informasi dimana proses pengambilan informasi dari situs-situs nantinya diambil untuk diamati perilaku dan persepsi untuk mendapatkan segmentasi pasar yang tepat. Kebanyakan pengambilan data saat ini masih dilakukan secara manual, akibatnya cara ini memiliki beberapa keterbatasan system yaitu lamanya proses pengumpulkan data sehingga memperlambat kinerja analisa segmen pasar. Resikonya adalah tidak mendapatkannya segementasi pasar yang tepat. Untuk mengatasi masalah tersebut diperlukan web scraping situs berita. Pada penelitian ini, web scraping situs berita dibuat dengan menggunakan bahasa pemrograman python dan library flask untuk tampilan web scraping. Selain itu, library Selenium digunakan untuk mempermudah pembuatan aplikasi, mempermudah interaksi dengan Web dan menyediakan fasilitas untuk mengontrol suatu peramban web. Program ini dapat mengambil data berdasarkan kata kunci, dimana hasilnya berupa judul, tanggal postingnya, rangkuman, lalu mengumpulkan data yang telah di ambil ke file berekstensi csv secara otomatis. Kata kunci: Berita, Internet, Python, Scraping, Website

show abstract

Section: Web Scraperunclassified

Web Scraping Situs Berita Menggunakan Bahasa Pemograman Python

Fikri¹,

Handayanto²,

Irwan³

2022

JSRCS

View full text Add to dashboard Cite

show abstract

“…Tidak seperti kegiatan web crawling yang mengunjungi seluruh situs yang berhubungan dengan situs utamanya, kegiatan web scraping hanya melakukan ekstraksi data tertentu saja dari situs yang dituju sesuai dengan kebutuhan (Setiawan et al, 2020). Hasil dari web scraping sendiri dapat dimanfaatkan kembali oleh sistem lain maupun dianalisis lebih lanjut (Rahmatulloh & Gunawan, 2020).…”

Section: Pendahuluanunclassified

Implementasi Web Scraping Dalam Pengumpulan Berita Kriminal Pada Masa Pandemi Covid-19

Satriajati¹,

Panuntun

Pramana³

2021

semnasoffstat

View full text Add to dashboard Cite

Saat ini telah banyak situs berita yang menyediakan informasi terkait kejadian maupun fenomena. Di sisi lain, pandemi Covid-19 memunculkan krisis dan masalah multidimensi. Salah satunya adalah timbulnya kriminalitas di tengah masyarakat. Penelitian ini bertujuan untuk mengumpulkan berita kriminal yang terjadi pada masa pandemi Covid-19 dari situs berita. Adapun pengumpulan informasi dari situs berita menggunakan teknik web scraping. Web scraping adalah suatu teknik penggalian informasi dari situs web. Berita yang berhasil dikumpulkan, kemudian dapat dianalisis mengenai adanya kemungkinan tren kejadian kriminal beriringan dengan tren pandemi Covid-19 di Indonesia. Situs berita yang digunakan pada penelitian ini adalah detik.com. Berdasarkan situs Alexa Internet (alexa.com), detik.com menjadi salah satu situs berita yang paling sering diakses dan masuk ke dalam 10 besar situs web dengan traffic tertinggi di Indonesia. Sedangkan data Covid-19 di Indonesia bersumber dari situs KawalCOVID19.id. Hasil penelitian menunjukkan bahwa jumlah berita kriminal dan jumlah kasus terkonfirmasi Covid-19 memiliki tren harian yang sama, yakni makin meningkat. Berdasarkan penelitian ini, dapat disimpulkan bahwa Web scraping dapat diimplementasikan untuk mengumpulkan berita. Hasil dari web scraping selanjutnya dapat digunakan untuk mengetahui tren jumlah berita kriminal harian yang kemudian dibandingkan dengan tren harian jumlah kasus terkonfirmasi Covid-19 di Indonesia.

show abstract

“…Web Scraping adalah proses pengambilan sebuah dokumen semi-terstruktur dari internet, umumnya berupa halaman-halaman web dalam bahasa markup seperti HTML atau XHTML, dan menganalisis dokumen tersebut untuk diambil data tertentu dari halaman tersebut untuk digunakan bagi kepentingan lain [4]. Hasil dari web scraping dapat dimanfaatkan kembali oleh sistem lain dan dianalisis lebih lanjut [16].…”

Section: Definisi 221 Web Scrapingunclassified

Deteksi Hoaks Pada Berita Berbahasa Indonesia Seputar COVID-19

Panjaitan¹,

Santoso²

2021

FORMAT

View full text Add to dashboard Cite

Perkembangan teknologi yang semakin maju tentu mendatangkan banyak kemudahan bagi para penggunanya namun di lain sisi juga mempercepat penyebaran berita bohong pada internet. Berita bohong atau dikenal dengan hoaks adalah informasi sesat dan berbahaya karena menyesatkan persepsi manusia dengan menyampaikan informasi palsu sebagai kebenaran. Hoaks sendiri dapat bertujuan untuk mempengaruhi pembaca dengan informasi palsu sehingga pembaca mengambil tindakan sesuai dengan isi hoaks. Oleh karena itu, diperlukan sistem cerdas yang mampu mengklasifikasi sebuah berita dengan cepat yang menyebar melalui internet agar tidak menyesatkan para pembacanya. Penelitian ini dimulai dengan melakukan scraping berita yang sudah diberi kategori hoaks atau valid. Dataset tersebut dibagi dua menjadi data latih dan data uji. Dilakukan pre-processing mulai dari case folding, tokenizing, filtering dan stemming. Pada penelitian ini dilakukan perbandingan terhadap pengaruh penerapan feature engineering. Dari hasil akurasi, dapat dilihat bahwa dengan diterapkannya feature engineering mampu meningkatkan akurasi kelima metode klasifikasi. Metode random forest dengan penerapan feature engineering menghasilkan tingkat akurasi sebesar 96,05%.

show abstract

Web Scraping with HTML DOM Method for Data Collection of Scientific Articles from Google Scholar

Cited by 17 publications

References 7 publications

Web Scraping Situs Berita Menggunakan Bahasa Pemograman Python

Web Scraping Situs Berita Menggunakan Bahasa Pemograman Python

Implementasi Web Scraping Dalam Pengumpulan Berita Kriminal Pada Masa Pandemi Covid-19

Deteksi Hoaks Pada Berita Berbahasa Indonesia Seputar COVID-19

Contact Info

Product

Resources

About