2020
DOI: 10.1002/cpe.5972
|View full text |Cite
|
Sign up to set email alerts
|

Towards optimizing the execution of spark scientific workflows using machine learning‐based parameter tuning

Abstract: Summary In the last few years, Apache Spark has become a de facto the standard framework for big data systems on both industry and academy projects. Spark is used to execute compute‐ and data‐intensive workflows in distinct areas like biology and astronomy. Although Spark is an easy‐to‐install framework, it has more than one hundred parameters to be set, besides domain‐specific parameters of each workflow. In this way, to execute Spark‐based workflows efficiently, the user has to fine‐tune a myriad of Spark an… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
4
1

Citation Types

0
5
0
5

Year Published

2021
2021
2024
2024

Publication Types

Select...
5
1

Relationship

2
4

Authors

Journals

citations
Cited by 10 publications
(10 citation statements)
references
References 66 publications
0
5
0
5
Order By: Relevance
“…O problemaé formalmente definido em relação aos aspectos relevantes relacionados com a estrutura do dataflow, dados de entrada, parâmetros de configuração e o ambiente DISC, seguindo o formalismo de [de Oliveira et al 2021]. Nesse artigo, um dataflowé modelado como um grafo acíclico dirigido (DAG) W = (A, Dep), onde A são as atividades representadas pelos vértices, e Dep o conjunto de dependências de dados entre as atividades.…”
Section: Definição Do Problemaunclassified
See 4 more Smart Citations
“…O problemaé formalmente definido em relação aos aspectos relevantes relacionados com a estrutura do dataflow, dados de entrada, parâmetros de configuração e o ambiente DISC, seguindo o formalismo de [de Oliveira et al 2021]. Nesse artigo, um dataflowé modelado como um grafo acíclico dirigido (DAG) W = (A, Dep), onde A são as atividades representadas pelos vértices, e Dep o conjunto de dependências de dados entre as atividades.…”
Section: Definição Do Problemaunclassified
“…Esse parâmetro pode variar de 1 a 32, (v) Quantidade de Memória por Executor: define a quantidade máxima de memória disponível para cada executor, variando entre 1 e 64 GB, (vi) Número Máximo de Tarefas: define a quantidade máxima de tarefas a ser executada em paralelo por cada executor no Spark, (vii) Tamanho dos Dados de Entrada: esse atributo define o tamanho dos dados de entrada do dataflow, variando de 1 a 24 GB. A escolha dos parâmetros se deu em linha com o trabalho anterior [de Oliveira et al 2021].…”
Section: Definição Do Problemaunclassified
See 3 more Smart Citations