Proceedings of the 5th ACM/SPEC International Conference on Performance Engineering 2014
DOI: 10.1145/2568088.2576800
|View full text |Cite
|
Sign up to set email alerts
|

Run-time performance optimization of a BigData query language

Abstract: JAQL is a query language for large-scale data that connects BigData analytics and MapReduce framework together. Also an IBM product, JAQL's performance is critical for IBM InfoSphere BigInsights, a BigData analytics platform. In this paper, we report our work on improving JAQL performance from multiple perspectives. We explore the parallelism of JAQL, profile JAQL for performance analysis, identify I/O as the dominant performance bottleneck, and improve JAQL performance with an emphasis on reducing I/O data si… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1

Citation Types

0
0
0
2

Publication Types

Select...
1
1

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(2 citation statements)
references
References 10 publications
0
0
0
2
Order By: Relevance
“…A quantidade de dados imensa tanto em escala, quanto em complexidade, escopo, distribuição e/ou heterogeneidade produzidos por tais sistemas vem sendo referenciada como big data (CUZZOCREA;DAVIS, 2011;WANG et al, 2016;DUBE;GRAY, 2014;MOISE et al, 2013). Desse modo, é cada vez mais necessário desenvolver novas técnicas para tratar de maneira eficiente e eficaz tipos de dados complexos armazenados em escalas que vão à ordem dos milhares de Petabytes -um petabyte (PB) é 2 50 bytes, o que corresponde à ordem de grandeza de 10 15 bytes.…”
Section: Abreviaturas E Siglasunclassified
See 1 more Smart Citation
“…A quantidade de dados imensa tanto em escala, quanto em complexidade, escopo, distribuição e/ou heterogeneidade produzidos por tais sistemas vem sendo referenciada como big data (CUZZOCREA;DAVIS, 2011;WANG et al, 2016;DUBE;GRAY, 2014;MOISE et al, 2013). Desse modo, é cada vez mais necessário desenvolver novas técnicas para tratar de maneira eficiente e eficaz tipos de dados complexos armazenados em escalas que vão à ordem dos milhares de Petabytes -um petabyte (PB) é 2 50 bytes, o que corresponde à ordem de grandeza de 10 15 bytes.…”
Section: Abreviaturas E Siglasunclassified
“…Por exemplo, os trabalhos existentes sobre outros critérios de comparação por similaridade (k-vizinhos reversos mais próximos e diversidade) fornecem operadores de busca baseados em algoritmos polinomiais de ordem elevada ou mesmo np-completos, portanto inviáveis para tratar big data. Por outro lado, os trabalhos recentes em big data têm o foco principalmente na eficiência e buscam aprimorar o desempenho da indexação e recuperação, em geral trabalhando com arquiteturas paralelas (BORKAR; CAREY; LI, 2012; PAPADIMITRIOU; SUN, 2008;MOISE et al, 2013;FEGARAS;GUPTA, 2012;SCHADT et al, 2010;VERNICA;LI, 2010;REED, 2012;HALL et al, 2013;DUBE;GRAY, 2014;WANG et al, 2016), mas sem abordar a raiz do problema, que é o aumento da densidade do espaço de busca. De fato, apesar do rápido crescimento do volume de dados, o modelo de busca por similaridade utilizado sempre tem permanecido o mesmo, isto é, utilizam-se sempre os mesmos operadores fundamentais que consideram os dados em espaços "esparsos" (SKOPAL et al, 2009).…”
Section: Motivaçãounclassified