Parallelized Training of Deep NN

Jäger, Sebastian; Zorn, Hans-Péter; Igel, Stefan; Zirpins, Christian

doi:10.1145/3286490.3286561

Cited by 6 publications

(4 citation statements)

References 6 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…No entanto, a eficiência do paralelismo de modelo depende da arquitetura e da forma como o modelo é dividido. Redes neurais totalmente conectadas são extremamente difíceis de ter seu modelo paralelizado já que cada camada depende do resultado da camada anterior para computar seus parâmetros, já redes mais esparsas, como redes neurais convolucionais, têm maior facilidade de paralelização do modelo (Jäger et al 2018). Como ilustrado na Figura 4.1, a rede neural é dividida verticalmente e cada unidade de processamento atualiza um conjunto de parâmetros.…”

Section: Paralelismo De Modelounclassified

“…Para que essa abordagem funcione, é necessário que a rede neural caiba na memória, e há duas vantagens interessantes em relação ao paralelismo de modelo. Esse método é independente da arquitetura da rede, podendo ser aplicado com sucesso em redes totalmente conectadas, e tem a possibilidade de ocultar os custos de comunicação quando um modelo assíncrono é adotado (Jäger et al 2018).…”

Section: Paralelismo De Dadosunclassified

“…DOI: 10.5753/sbc.11938.7 parâmetros. Já para o modelo de atualizações assíncronas, para cada mensagem recebida, o PS calcula as atualizações de parâmetros (Jäger et al 2018, Li et al 2014.…”

Section: Paralelismo De Dadosunclassified

“…Também quanto à estrutura adotada para o caso de modelos de paralelismo de dados existem diferentes abordagens. Como exemplo, o TensorFlow utiliza uma abordagem centralizada, enquanto o MXNet utiliza uma abordagem descentralizada (Jäger et al 2018). Este capítulo não tem como objetivo trazer uma lista completa dos frameworks utilizados, mas abordará três dos mais utilizados.…”

Section: Framework Para MLunclassified

See 3 more Smart Citations

Aprendizado de Máquina e Computação de Alto Desempenho

Binelo

Padoin

2023

Minicursos Da XXIII Escola Regional De Alto Desempenho Da Região Sul

View full text Add to dashboard Cite

Section: Paralelismo De Modelounclassified

Section: Paralelismo De Dadosunclassified

Section: Framework Para MLunclassified

See 2 more Smart Citations

Aprendizado de Máquina e Computação de Alto Desempenho

Binelo

Padoin

2023

Minicursos Da XXIII Escola Regional De Alto Desempenho Da Região Sul

View full text Add to dashboard Cite

Batch Size Influence on Performance of Graphic and Tensor Processing Units During Training and Inference Phases

Kochura

Gordienko

Taran

et al. 2019

Advances in Computer Science for Engineering and Education II

View full text Add to dashboard Cite

The impact of the maximally possible batch size (for the better runtime) on performance of graphic processing units (GPU) and tensor processing units (TPU) during training and inference phases is investigated. The numerous runs of the selected deep neural network (DNN) were performed on the standard MNIST and Fashion-MNIST datasets. The significant speedup was obtained even for extremely low-scale usage of Google TPUv2 units (8 cores only) in comparison to the quite powerful GPU NVIDIA Tesla K80 card with the speedup up to 10x for training stage (without taking into account the overheads) and speedup up to 2x for prediction stage (with and without taking into account overheads). The precise speedup values depend on the utilization level of TPUv2 units and increase with the increase of the data volume under processing, but for the datasets used in this work (MNIST and Fashion-MNIST with images of sizes 28x28) the speedup was observed for batch sizes >512 images for training phase and >40 000 images for prediction phase. It should be noted that these results were obtained without detriment to the prediction accuracy and loss that were equal for both GPU and TPU runs up to the 3rd significant digit for MNIST dataset, and up to the 2nd significant digit for Fashion-MNIST dataset.

show abstract