Метод оценки качества сборки генома на основе частот k-меров Достаточно распространена ситуация, когда результаты применения геномных сборщиков или одного сборщика с разными параметрами существенно отличаются для одних и тех же входных данных, при этом в настоящее время не существует единой методики выбора наилучшей сборки. В данной работе предложен новый метод оценки качества геномной сборки организмов, для которых использование уже собранных геномов невозможно, с помощью анализа частот k-меров на основе программного средства Jellyfish. Предложенный метод устанавливает соответствие между набором коротких чтений, полученных в результате секвенирования, и собранным геномом, позволяя более точно оценивать результат геномной сборки. В результате проверки метода на различных сборках организма Encephalitozoon cuniculi fungus было установлено, что в большинстве случаев предложенная методика коррелирует с референс-зависимыми метриками и позволяет корректно определять лучшую сборку. При этом не была выявлена взаимосвязь между качеством сборки и стандартными метриками.
Ключевые слова: частоты k-меров, сравнение геномных сборок, оценка качества геномной сборки, Encephalitozoon cuniculi fungus
Kirill Vladimirovich RomanenkovA new method of evaluating genome assemblies based on kmers frequencies Running different genome assemblers or one genome assembler with different parameters on the same input data commonly leads to a great variety of results. However, there is no generally recognized method for choosing the best assembly. This article introduces a new reference-free method based on Jellyfish software for evaluating genome assembly by kmers frequencies analysis. The proposed method sets up a correspondence between short reads obtained from sequencer and assembled genome, which allows a more accurate genome assembly assessing. The method was validated on different assemblies of Encephalitozoon cuniculi fungus organism. It was found that in most cases it correlates with reference-dependent metrics and could correctly identify the best assembly. Furthermore, an interconnection between assembly quality and standard reference-free metrics was not observed.