2016
DOI: 10.1007/978-3-319-43997-6_11
|View full text |Cite
|
Sign up to set email alerts
|

Comparing Topic Coverage in Breadth-First and Depth-First Crawls Using Anchor Texts

Abstract: Abstract. Web archives preserve the fast changing Web by repeatedly crawling its content. The crawling strategy has an influence on the data that is archived. We use link anchor text of two Web crawls created with different crawling strategies in order to compare their coverage of past popular topics. One of our crawls was collected by the National Library of the Netherlands (KB ) using a depth-first strategy on manually selected websites from the .nl domain, with the goal to crawl websites as completes as pos… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1

Citation Types

0
1
0
1

Year Published

2018
2018
2020
2020

Publication Types

Select...
2

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(2 citation statements)
references
References 23 publications
(23 reference statements)
0
1
0
1
Order By: Relevance
“…Teknik Breadth First Search dapat digunakan dalam pencarian record dengan menelusuri URL utama hingga ke bagian terdalam link pada halaman artikel yang dilakukan pada media online, dari hasil penelitian menunjukan detik.com merupakan media online yang lebih banyak menghasilkan data yang relevan [8]. Breadth First Search juga lebih unggul daripada Depth First Search dalam mengumpulkan penjelajahan topik popular baik di tingkat global (seluruh Web) dan ditingkat nasional (domain.nl): Google Trends, WikiStats, dan Kueri dikumpulkan dari pengguna arsip surat kabar bersejarah Belanda [9]. Breadth First Search memiliki efisiensi yang baik untuk sisi penjelajahan link URL [10].…”
Section: Penelitian Yadav Dengan Judul Design Of a Novelunclassified
“…Teknik Breadth First Search dapat digunakan dalam pencarian record dengan menelusuri URL utama hingga ke bagian terdalam link pada halaman artikel yang dilakukan pada media online, dari hasil penelitian menunjukan detik.com merupakan media online yang lebih banyak menghasilkan data yang relevan [8]. Breadth First Search juga lebih unggul daripada Depth First Search dalam mengumpulkan penjelajahan topik popular baik di tingkat global (seluruh Web) dan ditingkat nasional (domain.nl): Google Trends, WikiStats, dan Kueri dikumpulkan dari pengguna arsip surat kabar bersejarah Belanda [9]. Breadth First Search memiliki efisiensi yang baik untuk sisi penjelajahan link URL [10].…”
Section: Penelitian Yadav Dengan Judul Design Of a Novelunclassified
“…For example, Brügger (2013a) considers the coverage of material relating to Danish parliamentary elections by comparing historical network graphs available from the Danish Netarkivet collection and the Internet Archive. Samar et al (2016) analyze coverage of trending topics for the Netherlands in 2014 by comparing the National Library of the Netherlands' web archive to the Common Crawl dataset. Milligan et al (2016) use a case study of Canadian federal elections, comparing collections resulting from three different crawling strategies: starting with curated seed lists, collecting URLs from public tweets for a given hashtag, and broad crawls by the Internet Archive.…”
Section: Challenge 2: Critically Examining Collected Materialsmentioning
confidence: 99%