With the advance of technologies, machines are closer to people. Thus, it is necessary to develop interfaces, like gestures, capable of providing an intuitive way of interaction. Therefore, this work proposes a modification of the Star RGB technique, which condenses the temporal information of a video in just one RGB image. The proposal, called Star RGB+, applies the Star RGB technique over the channels of a video. So, rather than only one RGB image, this proposes yields three images as a condensed representation of a gesture in an RGB video clip. As complement, still is proposed an ensemble-like architecture using 3 VGG16, as feature extractor, one for each image, and a fully connected architecture as classifier that recieves the fused information came out from the extractors. The main experiments were carried out on GRIT (Gesture Commands for Robot inTeracton) dataset, used for human-robot interaction, and achieve more than 97% of accuracy, precision, recall and f1-score, outperforming the author's original results in more than 5% for every metric. In order to compare results with the original propose of Star RGB, a secondary experiment was carried out on Montalbano dataset, achieving 92.34% of accuracy, outperforming the autor's results in more than 9%. This shows the contribution of this work for dynamic gesture recognition field, mainly for those ones used for human-robot interaction. Resumo: Com o avanço das tecnologias, as máquinas estão cada vez mais próximas das pessoas. Assim,é necessário desenvolver interfaces, como gestos, que forneçam uma maneira intuitiva de interação entre humano e robôs. Neste sentido, este trabalho visa propor uma modificação na técnica Star RGB, que condensa a informação temporal de um vídeo em apenas uma imagem RGB. A proposta aqui apresentada, chamada Star RGB+, aplica a técnica Star RGB nos canais de cor de um vídeo. Sendo assim, ao invés de apenas uma imagem RGB, esta proposta produz três imagens como representação condensada de um gesto presente em um vídeo colorido. Como complemento,é proposta também uma arquitetura do tipo ensemble utilizando para isso três redes VGG16 pretreinadas, uma para cada imagem, como extrator de características e uma arquitetura totalmente conectada como classificador que recebe a combinação das características extraídas por cada VGG16. Os principais experimentos foram realizados na base de dados GRIT (Gesture Commands for Robot inTeracton), usada para interação homem-robô, e atingiram mais de 97% em todas as métricas, acurácia, precisão, recall e F1-score, superando os resultados originais dos autores em mais de 5% em todas elas. A fim de comparar a melhora da proposta em relaçãoà original, um experimento secundário foi realizado na base de dados Montalbano, alcançando 92, 4% de taxa de reconhecimento, superando os resultados dos autores em mais de 9%. Isso mostra a contribuição deste trabalho para o reconhecimento de gestos dinâmicos, principalmente para aqueles destinadosà interação humano-robô.