Аннотация. Изучены закономерности распределения длин интронов в геномах 17 организмов, принадлежащих к различным таксонам (насекомые, рыбы, земноводные, пресмыкающиеся, птицы, млекопитающие). Показано, что доля интронов, имеющих фазу 1, растет с ростом длины интрона. Кроме того, показано, что короткие и длинные интроны имеют тенденцию образовывать серии, например, доля коротких (длинных) интронов среди тех интронов, которые следуют за коротким (длинным) интроном, существенно выше, чем доля коротких (длинных) интронов в геноме. Эти закономерности показаны для всех рассмотренных геномов.
Ключевые слова: интрон, экзон, фаза интрона, длина интрона.
ВВЕДЕНИЕПроблема функционирования и эволюции генов эукариот, включая экзон-интронную структуру генов -одна из важнейших задач современной молекулярной биологии. С ростом объемов доступных данных возрастает роль биоинформатических подходов при изучении этой проблемы.Изучение генов эукариот ведется, начиная с 80-х годов XX века. В это время большинство исследований были связаны с распознаванием белок-кодирующих участков ДНК. Обзор результатов первого периода исследований содержится в работах [1,2]. К основным результатам этого периода можно отнести построение моделей сайтов сплайсинга в виде позиционных весовых матриц (ПВМ, англ. термин -PWSM), введение понятия кодирующего потенциала участка и постановку задачи распознавания белок-кодирующих участков как задачи выделения «оптимальных» путей в графах. В это же время был разработан ряд программных систем (GRAIL, GeneMark др.), которые обеспечивали точность распознавания на уровне около 70%. В последующие годы (конец девяностых -начало двухтысячных) в распознавании генов был достигнут существенный прогресс, и с практической точки зрения задачу распознавания белок-кодирующих областей можно считать решенной. Основными причинами такого прогресса являются использование сведений об экзон-интронной структуре уже известных генов, использование методов машинного обучения и построение скрытых марковских моделей для различных участков генов.Изучение экзон-интронной структуры генов в качестве самостоятельного направления исследований, не связанного непосредственно с распознаванием генов,