Аннотация. В настоящей работе был разработан математический метод для поиска парных сдвигов фазы триплетной периодичности, которые могут представлять собой потенциальные сдвиги рамки считывания в генах, возникающие при вставках сравнительно больших фрагментов ДНК. Был разработан программный комплекс на основе предложенного математического метода и проверено присутствие парных точек сдвига фазы триплетной периодичности в генах из 17 бактериальных геномов. Наши результаты показывают, что примерно 1% бактериальных генов в 17 изученных геномах имеет такой парный сдвиг фазы триплетной периодичности. В статье разработан метод визуализации парных сдвигов фазы триплетной периодичности и приведены примеры таких парных сдвигов. Результаты работы нашли частичное подтверждение при поиске подобий аминокислотных последовательностей, созданных по альтернативным рамкам считывания. Обсуждается связь парных сдвигов фазы триплетной периодичности со сдвигами рамки считывания в генах.
Ключевые слова: триплетная периодичность, рамка считывания, сдвиги, фаза.
ВВЕДЕНИЕНебольшие вставки фрагментов ДНК могут сравнительно часто осуществляться в генах [1,2]. Если длины таких вставок не кратны трем основаниям ДНК, то такие события приводят также к сдвигу рамки считывания после окончания района вставки. Такие вставки могут значительным образом изменить аминокислотную последовательность гена, и важно понять их вклад в осуществление сдвигов рамки считывания [3][4][5]. В настоящее время используемые математические методы для поиска сдвигов рамки считывания можно разделить на две группы. Обе эти группы объединяет то, что, кроме анализируемой последовательности оснований ДНК, требуется еще и некоторая дополнительная информация. Первая группа методов использует внешние данные в виде банка данных аминокислотных последовательностей и программные комплексы для поиска подобий [6][7][8][9]. В этих алгоритмах создаются аминокислотные последовательности, соответствующие альтернативным рамкам считывания, и для них производится поиск подобий в базе данных. Если такое подобие будет найдено, то можно говорить о том, что в анализируемом гене был сдвиг рамки считывания. В этой группе методов роль необходимой дополнительной информации играет банк данных аминокислотных последовательностей.Вторая группа методов использует нуклеотидную последовательность анализируемого гена для поиска сдвигов рамки считывания. В качестве дополнительной информации выступает выборка генов, для которых уже известно, что в них существует сдвиг рамки считывания [10][11][12][13][14]. В результате в *