Эффективный расчет двумерного БПФ на однородном или гетерогенном вычислительном кластереАннотация. Рассмотрена задача осуществления двумерного БПФ матри-цы на суперкомпьютере. Исследована зависимость времени выполнения БПФ от размера матрицы для суперкомпьютеров МВС-100К, МВС-10П и HybriLIT. Описан метод балансировки вычислительной нагрузки между вычислениями на процессоре и видеокарте при использовании гетероген-ного кластера. На примере видеокарты TESLA K40 показано, что время, необходимое для перемещения данных, близко времени, требуемому для осуществления двумерного БПФ на графическом вычислителе, а само время расчета в 48 раз меньше времени счета на двухпроцессорном узле.Ключевые слова и фразы: HPC-вычисления, суперкомпьютерные вычисления, быстрое преобразование Фурье, вычисления на графических процессорах.
ВведениеАлгоритм быстрого преобразования Фурье широко применяется в области обработки сигналов, различных вычислительных методах и приложениях -практически везде, где используется преобразование Фурье, по сравнению с которым он позволяет снизить количество тре-буемых арифметических операций с 2 до log( ) [1,2]. В настоящей работе изучается вопрос быстродействия алгоритма двумерного быст-рого преобразования Фурье (БПФ) при изменении размера матрицы от небольшого (по сравнению с доступной для вычислительного ядра памяти) до такого размера, когда эта матрица занимает оперативную память всех доступных для счета узлов суперкомпьютера. При этом считается, что в случае, если на узел помещается более одной матрицы интересующего нас размера, обработка таких матриц происходит одно-временно, причем требуется оптимизировать эффективность расчета, а не время работы алгоритма. Выполнение последнего условия дает Работа выполнена при поддержке РФФИ, проект №16-31-60096 мол-а-дк.