Предсказание вторичной структуры белков

Предсказание вторичной структуры белка является достаточно сильно развитым направлением в моделировании структуры белка по его аминокислотной последовательности, при этом исторически появившимся раньше моделирования пространственной структуры. Первые экспериментальные ЗО-структуры гемоглобина и миоглобина были опубликованы в 1960 г., однако почти десятилетием ранее Паулинг и Кори[1] предложили объяснения формирования локальных конфирмационных образований, таких как а-спирали и (5-слои. Вскоре после этого, но все равно до опубликования первых структур, были предприняты первые попытки соотнести содержание определенных аминокислот, например аминокислоты пролина с количественным содержанием а-спирали.

Дальнейшим развитием этой идеи явились попытки скоррелировать содержание всех типов аминокислотных остатков с содержанием а-спиралей и p-структур. Эти попытки можно смело назвать предшественниками направления в моделировании структуры белков по их аминокислотным последовательностям — предсказанию вторичных структур. Большинство методов предсказания вторичных структур являются статистическими по своей природе, и, следовательно, возможность использования более изощренных моделей связана с накоплением баз данных известных структур. Эта тенденция прекрасно отслеживается на протяжении всей истории развития данного направления.

Первому поколению методов, развивавшемуся в 1970-е гг., были доступны лишь очень маленькие базы данных, поэтому данные методы основывались на статистике, связанной с одиночными остатками. Типичным представителем методов данного поколения является метод Чоу - Фасмана.

Метод Чоу — Фасмана оперировал специальными параметрами (табл. 3.3), рассчитанными на основании репрезентативного набора белков. Данные параметры отражали склонность отдельных аминокислотных остатков к формированию вторичных структур определенного типа: а-спираль, p-структура и р-поворот.

Таблица 33

Параметры аминокислотных остатков, используемые в методе Чоу — Фасмана

Код

P(a)

p( p)

P(nоворот)

/(« + о

/(< + 2)

fa + 3)

A

142

83

66

0,06

0,076

0,035

0,058

R

98

93

95

0,07

0,106

0,099

0,085

D

101

54

146

0,147

0,11

0,179

0,081

N

67

89

156

0,161

0,083

0,191

0,091

C

70

119

119

0,149

0,05

0,117

0,128

E

151

137

74

0,056

0,06

0,077

0,064

Код

Р(а)

рф)

Р( поворот)

до

/0+1)

/(« + 2)

/0 + 3)

Q

111

110

98

0,074

0,098

0,037

0,098

G

57

75

156

0,102

0,085

0,19

0,152

Н

100

87

95

0,14

0,047

0,093

0,054

I

108

160

47

0,043

0,034

0,013

0,056

L

121

130

59

0,061

0,025

0,036

0,07

К

114

74

101

0,055

0,115

0,072

0,095

М

145

105

60

0,068

0,082

0,014

0,055

F

113

138

60

0,059

0,041

0,065

0,065

Р

57

55

152

0,102

0,301

0,034

0,068

S

77

75

143

0,12

0,139

0,125

0,106

т

83

119

96

0,086

0,108

0,065

0,079

W

108

137

96

0,077

0,013

0,064

0,167

Y

69

147

114

0,082

0,065

0,114

0,125

V

106

170

50

0,062

0,048

0,028

0,053

Опишем данный алгоритм:

  • 1) каждому остатку последовательности приписывались параметры Р(а) и Р((3), взятые из таблицы. После этого алгоритм сканировал значения в поисках «сайтов нуклеации» — участков длиной в шесть остатков, четыре из которых имели параметр а-спирали (Р(а)) более 100, участков длиной в пять остатков, три из которых имели параметр p-структуры (Р(р)) также более 100;
  • 2) сайты нуклеации расширяются до тех пор, пока четыре последовательно идущих остатка не будут иметь среднее значение соответствующего параметра менее 100;
  • 3) если пересекаются два сегмента разного типа, то сегмент с меньшим средним значением соответствующего параметра сокращается. Если сокращающийся сегмент становится короче пяти остатков, то данный сегмент совсем удаляется;
  • 4) для предсказания p-поворотов применялась несколько иная процедура:
    • • значение p(t) = f(i) • f(i + 1) • f(i + 2) • f(i + 3) > 0,000075;
    • • среднее значение P (поворот) для тех же четырех остатков более 100 и больше средних значений Р(а) и Р((3);
  • 5) все неотмеченные остатки считались относящимися к неструктурированному типу.

Несколько позже стали понятны ограничения, связанные с подобными подходами, предел точности которых находился в районе 55—60%. В настоящий момент такие методы предсказания вторичной структуры не применяются.

В 1980-х гг. появилось второе поколение методов моделирования вторичной структуры. Принципиальные улучшения, привнесенные этими подходами, были вызваны в первую очередь ростом баз данных экспериментально определенных структур. Эта информация позволила оценивать статистическую информацию, связанную с участками последовательно расположенных остатков. Обычно рассматривались остатки в пределах некоторого «окна» из 10—20 остатков и статистически оценивалось их влияние на конформацию центрального остатка или использовались физикохимические свойства остатков в пределах «окна».

С развитием компьютеров и направлений, связанных с системами искусственного интеллекта, в конце 1980-х и начале 1990-х гг. к анализу остатков, находящихся в пределах «окна», стали применять более сложные алгоритмы: выделение паттернов аминокислотных последовательностей, многослойные нейронные сети, элементы теории графов, многомерную статистику и экспертные правила. В среднем точность этих методов не превышала 65%.

В качестве примера метода данного поколения можно привести метод GORIV. Данный метод собирает статистику о влиянии остатков в пределах 17-го позиционного окна (+8, -8 остатков от центрального) на конформацию центрального остатка.

GORIV оперирует понятиями теории информации, в частности информацией о наступлении совместного события X, Y, выраженной в терминах условной вероятности р(х у) = р(х, у) / р(у):

при этом событие X — это тип вторичной структуры, принимаемой остатком (Я — а-спираль, Е — p-структура; С — все остальные типы структур и неструктурированные участки), а событие Y — сложное событие, состоящее в появлении в определенных позициях рассматриваемого окна конкретных аминокислотных остатков.

Само сложное событие Y в связи с аддитивностью совместной информации раскладывается на более простые, описывающие комбинирование отдельных остатков в разных позициях окна:

Также данный метод вводит новую функцию:

где событие X состоит из двух взаимоисключающих исходов 1 и 2.

Применительно к моделированию вторичной структуры этими исходами является принятие остатком определенной конформащш (jj(H)}p(E), р(С)) и, соответственно, дополняющие их события (Р(Н)> Р(Е), Р(С)).

Последовательное применение формул (3.38) и (3.39) к 17-му позиционному окну, дает следующее суммирование:

где X — один из трех типов вторичной структуры (Я, Е, С); Sj — принятие j-м остатком соответствующей конформации; R;+m типы аминокислотных остатков и их позиция в пределах окна.

Функция (3.40) называется склонностью центрального остатка к принятию определенной конформации (вторичной структуры).

Непосредственно в методе GOR4 использовалось упрощение формулы (3.40), вызванное недостаточным количеством исходных данных, необходимых для оценки всех относительных вероятностей:

При предсказании вторичной структуры на основании формулы (3.41) и аминокислотной последовательности для каждого остатка рассчитываются индексы, характеризующие склонность к формированию того или иного типа структуры. Остатку приписывался тот тип структуры, индекс склонности к которому был максимален. Результат предсказания включает как вторичную структуру в виде однобуквенного трехсимвольного кода (Я — а-спираль, Е — p-структура и С — неупорядоченная структура), так и распределение предпочтений к формированию разных типов вторичной структуры в виде графика (рис. 3.33).

Третьим этапом в развитии методов моделирования вторичной структуры белка, начало которого можно датировать серединой 1990-х гг., было применение «эволюционной информации». Иными словами, банки данных белковых структур, определенных экспериментальным путем, выросли настолько, что появились мощные классификации белковых структур, а увеличение вычислительных мощностей компьютеров позволило применить методы, развитые в начале 1990-х гг., к целым семействам белков со сходной структурой.

В целом хотя данный этап развития и позволил повысить среднюю точность предсказания до 70—75%, однако близость этих подходов к методам сравнительного моделирования, а точнее их зависимость от этих методов, привела к тому, что предсказание вторичной структуры практически перестало развиваться как отдельное направление и объединилось со сравнительным моделированием пространственной структуры белков. Например, последний раз такая категория, как «предсказание вторичной структуры», присутствовала в проводимых каждые два года независимых оценках методов моделирования белковых структур но аминокислотной последовательности (CASP) в 2002 г.

Puc. 3.33. Пример результата предсказания вторичной структуры

методом GOR4:

в верхней части рисунка приведено соответствие исходной аминокислотной последовательности и предсказанной вторичной структуры, а в нижней части рисунка — распределение предпочтений к формированию различных типов структуры (Helix — а-спираль, Sheet — p-структура,

Coil — неупорядоченная структура)

Примером методов третьего поколения может служить программа PHDsec из комплекса программ PHD и сервер PSIPRED. Оба метода производят поиск в базах данных последовательностей, для которых известна вторичная структура, после чего производят множественное выравнивание обнаруженных совпадений. Множественное выравнивание анализируется искусственной нейронной сетью, в результате чего происходят предсказание вторичной структуры и оценка надежности этого предсказания. Отличия методов состоят в механизмах поиска похожих последовательностей (поиск в SWISS_PROT и поиск с помощью PSI-PLAST, соответственно), а также в архитектуре используемой нейронной сети.

Рассмотрим в качестве примера ставшую уже классической реализацию сети для метода предсказания вторичной структуры PHD. Данная сеть включает последовательно расположенные три отдельных подсети, где выход одной из сетей подается на вход другой сети.

Первая подсеть похожа на сеть, представленную на рис. 2.22. Слой входных нейронов способен анализировать 13 позиций 24-мерных векторов, из них 20 измерений используются для кодирования аминокислот профиля, одно измерение — для указания выхода за пределы конца белка, одно измерение является счетчиком количества делеций в позиции профиля, одно измерение применяется для учета количества вставок и последнее измерение является указателем степени консервативности позиции последовательности. Иными словами, входной слой состоит из 312 узлов. Три выходных узла предсказывают конформацию центрального остатка.

Вторая сеть принимала результаты 17 позиций предсказания вторичной структуры от первой сети, т.е. вход включал 17 • 3 = 35 узлов, и также предсказывала конформацию центрального остатка.

Наконец, третьим этапом был выбор наиболее общего предсказания для 3—12 (в зависимости от реализации) нейронных сетей первого-второго типов.

  • [1] Pauling L., Corey R. В., Branson Н. R. The structure of proteins; two hydrogen-bonded helicalconfigurations of the polypeptide chain // Proc Natl Acad Sci USA. 1951 Apr; 37 (4):205—11;Pauling L., Corey R. В The pleated sheet, a new layer configuration of polypeptide chains // ProcNatl Acad Sci USA. 1951 May; 37 (5):251-6.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >