Experimentos científicos em larga escala são considerados complexos devido à modelagem de suas atividades, execução e análises de grandes volumes de dados. Na bioinformática esses experimentos são modelados como workflows científicos utilizando conceitos de computação de alto desempenho e ciência de dados. Neste artigo apresentamos o workflow ParslRNA-Seq para experimentos de RNA-Seq e análises de desempenho das execuções realizadas no supercomputador Santos Dumont usando dados reais. Os resultados mostram uma melhora no desempenho, quando comparado às execuções realizadas da forma tradicional sem paralelização e via Web, de 3 dias para 11 horas, com reproducibilidade de resultados de dados biológicos sensíveis. A execução multithreading do workflow indica também que a parametrização é dependente do Parsl e da atividade bowtie.
O artigo traz discussões sobre a eleição de modificações no formato de execução do workflow ParslRNA-Seq, que levam a melhora do desempenho e escalabilidade computacional, baseado em redução de gastos com operações de E/S com o uso de SSD em relação ao sistema de arquivos paralelos Lustre no supercomputador Santos Dumont.
Apresentamos uma versão do workflow científico ParslRNA-Seq para análises de experimentos de Expressão Diferencial de Genes, acoplada a ambientes de Computação de Alto Desempenho, que mostrou melhoras no tempo total de execução de até 70%. O desempenho ParslRNA-Seq foi validado por meio de uma análise comparativa de dados da EDG em cardiomiócitos de um experimento real de RNA-Seq. Finalmente, o artigo traz discussões sobre a eleição de quais modificações na modelagem do workflow levam à melhora do desempenho e escalabilidade computacional, baseadas em dados de proveniência. ParslRNA-Seq está disponível em https://github.com/lucruzz/rna-seq.
Gateways científicos trazem enormes benefícios para usuários finais, simplificando o acesso e ocultando a complexidade da infraestrutura de computação distribuída subjacente. O gateway científico de bioinformática, BioinfoPortal, por meio do seu middleware CSGrid, usufrui dos recursos heterogêneos do Santos Dumont. No entanto, a submissão de tarefas ainda exige um esforço significativo, no que tange à decisão da melhor configuração que leve a uma execução eficiente. O framework de aprendizado de máquina, em desenvolvimento, ao ser integrado ao gateway, viabilizará essa decisão. No presente trabalho apresentamos um estudo de desempenho com caso de estudo da bioinformática visando analisar o comportamento de variáveis de saída do slurm/sacct dado valores das variáveis de entrada obtidas da configuração de tarefas do SDumont, o que pôde ser realizado pela modelagem deste cenário como uma tarefa de classificação binária. Os nossos resultados indicam ser possível extrair regras e avaliar a influência das variáveis de entrada Bootstrap, Nó e Thread, sendo Bootstrap a mais significativa e aquela com mais peso para o sistema de recomendação de alocação de recursos no BioinfoPortal.
Este artigo apresenta uma análise comparativa de desempenho do workflow científico ParslRNA-Seq, sobre a parametrização multithreading do Parsl e do Bowtie, respectivamente. A fim de garantir o uso racional e alocação eficiente dos recursos computacionais no Supercomputador Santos Dumont.
Este trabalho apresenta um estudo sobre o ganho de desempenho gerado com o aumento do nível de paralelismo de execução de um algoritmo de contabilização de k-mers de dados de amostras genômicas e metagenômicas. O algoritmo foi originalmente desenvolvido para permitir a execução em paralelo da contabilização de k-mers em uma arquitetura manycores de uma GPU. Neste trabalho apresentamos o ganho de desempenho ao implementarmos paralelismo para a execução paralela de módulos do algoritmo em múltiplos núcleos de uma CPU, em múltiplas GPU’s e em múltiplos nós de processamento de uma cluster híbrida.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.