Towards optimizing the execution of spark scientific workflows using machine learning‐based parameter tuning

Oliveira, Douglas E. M. de; Porto, Fábio; Boeres, Cristina; Oliveira, Daniel de

doi:10.1002/cpe.5972

Cited by 10 publications

(10 citation statements)

References 66 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…O problemaé formalmente definido em relação aos aspectos relevantes relacionados com a estrutura do dataflow, dados de entrada, parâmetros de configuração e o ambiente DISC, seguindo o formalismo de [de Oliveira et al 2021]. Nesse artigo, um dataflowé modelado como um grafo acíclico dirigido (DAG) W = (A, Dep), onde A são as atividades representadas pelos vértices, e Dep o conjunto de dependências de dados entre as atividades.…”

Section: Definição Do Problemaunclassified

“…Esse parâmetro pode variar de 1 a 32, (v) Quantidade de Memória por Executor: define a quantidade máxima de memória disponível para cada executor, variando entre 1 e 64 GB, (vi) Número Máximo de Tarefas: define a quantidade máxima de tarefas a ser executada em paralelo por cada executor no Spark, (vii) Tamanho dos Dados de Entrada: esse atributo define o tamanho dos dados de entrada do dataflow, variando de 1 a 24 GB. A escolha dos parâmetros se deu em linha com o trabalho anterior [de Oliveira et al 2021].…”

Section: Definição Do Problemaunclassified

“…Utilizamos os seguintes métodos no experimento: KNN, Naive Bayes, Redes Neurais Artificiais e Máquina de Vetor de Suporte (SVM). Os resultados foram comparados com o baseline (Árvores de Decisão) utilizado anteriormente em [de Oliveira et al 2021]. A primeira análise realizada foi verificar quais atributos oferecem o maior ganho de informação.…”

Section: Definição Do Problemaunclassified

“…Isso se dá uma vez que a utilização do programa Spatial Catalog FRAgmeNter (FRANCE) para gerar particionamento Equi-Depth sempre gerou tempos de execução baixos ou médios. O FRANCEé uma aplicação iterativa que particiona os dados em histogramas de mesma profundidade [de Oliveira et al 2021]. Além disso, o número máximo de tarefas define a concorrência em um mesmo executor.…”

Section: Definição Do Problemaunclassified

“…Tais parâmetros podem ser configurados manualmente, por meio de tentativa e erro, mas esteé um processo entediante e pouco eficiente [Wang et al 2016]. Em um trabalho anterior [de Oliveira et al 2021] utilizamos técnicas de aprendizado de máquina para criar um modelo preditivo que fosse capaz de definir as combinações de valores de parâmetros do Spark, em conjunto com parâmetros específicos do domínio da aplicação, que levassem aos menores tempos de execução. Tal modelo foi treinado a partir de um dataset de dados de proveniência [Freire et al 2008] com dados de mais de 500 execuções de experimentos, e acoplado a uma ferramenta chamada SpaCE [de Oliveira et al 2021] (ferramenta para recomendação de parâmetros no Spark).…”

Section: Introductionunclassified

See 4 more Smart Citations

Definição de Parâmetros do Spark por meio de Aprendizado de Máquina: um Estudo com Dataflows de Astronomia

Oliveira¹,

Boeres²,

Oliveira³

2021

Anais Do XV Brazilian E-Science Workshop (BRESCI 2021)

Self Cite

View full text Add to dashboard Cite

O Apache Spark tem se mostrado um framework promissor para auxiliar na execução de experimentos científicos baseados em simulação e que demandam execuções em ambientes de alto desempenho. Entretanto, o Spark possui mais de 180 parâmetros para serem configurados, o que torna a tarefa de configuração entediante e propensa a erros, se realizada manualmente. O presente artigo explora a utilização de múltiplos métodos de aprendizado de máquina para auxiliar na configuração dos parâmetros do Spark. Tais modelos foram treinados na plataforma Orange e posteriormente incorporados a ferramenta SpaCE, desenvolvida em um trabalho anterior. Os modelos foram treinados a partir de um dataset com dados de proveniência de mais de 500 execuções de dataflows de astronomia. Os resultados mostraram que o uso de métodos de aprendizado de máquina nesse contexto é promissor. Além disso, os resultados mostraram que a estratégia de partição dos dados de entrada do dataflow é o atributo que que tem maior relevância na obtenção de menores tempos de execução e que as Redes Neurais Artificiais são o método de aprendizado de máquina que traz os melhores resultados.

show abstract

Section: Definição Do Problemaunclassified

Section: Introductionunclassified

See 3 more Smart Citations

Definição de Parâmetros do Spark por meio de Aprendizado de Máquina: um Estudo com Dataflows de Astronomia

Oliveira¹,

Boeres²,

Oliveira³

2021

Anais Do XV Brazilian E-Science Workshop (BRESCI 2021)

Self Cite

View full text Add to dashboard Cite

show abstract

Optimizing computational costs of Spark for SARS‐CoV‐2 sequences comparisons on a commercial cloud

Nunes

Melo

Tadonki

et al. 2023

Concurrency and Computation

Self Cite

View full text Add to dashboard Cite

Cloud computing is currently one of the prime choices in the computing infrastructure landscape. In addition to advantages such as the pay-per-use bill model and resource elasticity, there are technical benefits regarding heterogeneity and large-scale configuration. Alongside the classical need for performance, for example, time, space, and energy, there is an interest in the financial cost that might come from budget constraints. Based on scalability considerations and the pricing model of traditional public clouds, a reasonable optimization strategy output could be the most suitable configuration of virtual machines to run a specific workload. From the perspective of runtime and monetary cost optimizations, we provide the adaptation of a Hadoop applications execution cost model extracted from the literature aiming at Spark applications modeled with the MapReduce paradigm. We evaluate our optimizer model executing an improved version of the Diff Sequences Spark application to perform SARS-CoV-2 coronavirus pairwise sequence comparisons using the AWS EC2's virtual machine instances. The experimental results with our model outperformed 80% of the random resource selection scenarios. By only employing spot worker nodes exposed to revocation scenarios rather than on-demand workers, we obtained an average monetary cost reduction of 35.66% with a slight runtime increase of 3.36%.

show abstract

Tuning parameters of Apache Spark with Gauss–Pareto-based multi-objective optimization

Öztürk

2023

Knowl Inf Syst

View full text Add to dashboard Cite

Towards optimizing the execution of spark scientific workflows using machine learning‐based parameter tuning

Cited by 10 publications

References 66 publications

Definição de Parâmetros do Spark por meio de Aprendizado de Máquina: um Estudo com Dataflows de Astronomia

Definição de Parâmetros do Spark por meio de Aprendizado de Máquina: um Estudo com Dataflows de Astronomia

Optimizing computational costs of Spark for SARS‐CoV‐2 sequences comparisons on a commercial cloud

Tuning parameters of Apache Spark with Gauss–Pareto-based multi-objective optimization

Contact Info

Product

Resources

About