Предсказание оперонной структуры прокариотических геномов

Как уже упоминалось, у бактерий структура генома имеет оперонную организацию, суть которой состоит в том, что единый транскрипт часто содержит несколько кодирующих белковые продукты фрагментов. Функционально гены, располагающиеся на одном транскрипте, как правило, либо участвуют в одном метаболическом пути, либо взаимодействуют друг с другом. Таким образом, решение проблемы предсказания оперонной структуры прокариотических геномов может оказать существенную помощь в функциональном аннотировании белковых продуктов, кодируемых открытыми рамками считывания в отсеквенированных геномах различных прокариот.

Рассмотрим модель предсказания оперонной структуры генома, основанной на байесовом выводе.

Первое, от чего отталкивались авторы модели, — это статистика количества генов, входящих в оперон. На рис. 3.21 показано, что величина количества генов на оперон хорошо аппроксимируется геометрическим распределением и описывается следующей формулой:

Иными словами, модель подразумевает, что сами опероны являются порождением процесса Бернулли с вероятностью р (рис. 3.22). Процесс Бернулли выбран потому, что является дискретным вариантом распределения Пуассона и не обладает памятью состояний. С биологической точки зрения это означает, что для каждого межгенного интервала существует априорная, не зависящая от длины интервала вероятность ) того, что эта последовательность будет содержать сигнал терминации оперона. На основании уравнения (3.26) и информации о средней длине оперона (п) можно рассчитать базовую вероятность р:

Аппроксимация числа генов на оперой геометрическим распределением

Рис. 3.21. Аппроксимация числа генов на оперой геометрическим распределением:

  • ? — оценка на основании известных оперонов;
  • ? — геометрическое распределение
Схема процесса Бернулли, описывающего создание оперона, используемая в данной модели

Рис. 3.22. Схема процесса Бернулли, описывающего создание оперона, используемая в данной модели

Второй компонент модели — расстояние между соседними генами, входящими в один оперон (Jop) и входящими в разные опероны (Jnop). Для применения в модели распределение реальных расстояний было трансформировано (с помощью функций ядра Епанечникова[1]) в распределение плотности вероятности (рис. 3.23).

Наконец, в качестве третьего компонента использовались данные о коэкс- прессии ряда генов. Коэкспрессия анализировалась для пар и не-пар (gop и gnop). Оценка производилась с помощью коэффициента корреляции Пирсона (рис. 3.24).

Расстояние между соседними генами, входящими в один оперой (f) и входящими в разные опероны (f)

Рис. 3.23. Расстояние между соседними генами, входящими в один оперой (fop) и входящими в разные опероны (fnop)

Коэкспрессия генов, входящих и не входящих в один оперон

Рис. 3.24. Коэкспрессия генов, входящих и не входящих в один оперон

(&ор и Snap)

В итоге на основании функций плотности распределений (fop(d) и fnop(d)) для межгенных расстояний d, оперонных пар (ОР) и не оперон- ных пар (NOP), а также на основании функций плотности распределений

(g0l,(D) и g„op(0)) — различий в профилях экспрессии Д была сконструирована формула для байесова вывода

Априорное значение p рассчитывалось по формуле (3.27). Для классификации пары генов как оперонной использовались различные коэффициенты отсечения (pD) для апостериорной вероятности. Зависимость точно- сти/покрытия алгоритма от этого параметра приведена на рис. 3.25.

Зависимость точности предсказания от коэффициента p

Рис. 3.25. Зависимость точности предсказания от коэффициента pD

Данные анализа для генома Bacillus subtilis доступны в специализированной базе данных (DBTBS) по адресу http://dbtbs.hgc.jp.

  • [1] Данный подход производит усреднение исходных данных, позволяя сохранить свойствараспределения (иптерграл по всей области определения равен 1) и обладает рядом дополнительных преимуществ.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >