Подходы к решению проблемы моделирования пространственной структуры белка. Задача сравнительного моделирования структуры белка ио его аминокислотной последовательности
Исторически способы решения проблемы моделирования пространственной структуры белка по его аминокислотной последовательности разделяют на две группы: ab гшйо-предсказание и сравнительное моделирование.
АЬ шгйо-методы пытаются моделировать пространственную структуру белка на основании исключительно физико-химических свойств аминокислотных остатков и свойств растворителя. При этом предсказание пространственной структуры белков происходит через поиск наилучшей структуры посредством оптимизации некоторой функции свободной энергии системы, которая описывает либо физические свойства, либо статистические предпочтения аминокислот. На данный момент результаты подобных предсказаний являются ненадежными, несмотря на многолетние усилия по созданию новых методов. Как правило, низкую надежность данных методов связывают с необходимостью использования различного рода «упрощений» модели аминокислот, растворителя и самого процесса сворачивания ввиду высокой вычислительной сложности проблемы (парадокс Левинталя).
Подходы сравнительного моделирования отталкиваются от того факта, что белки, имеющие «похожие» аминокислотные последовательности, формируют «похожие» структуры, т.е. имеют одинаковую укладку молекулы. Данный подпараграф посвящен именно рассмотрению методов сравнительного моделирования как представляющих наибольший практический интерес со стороны молекулярных биологов и биохимиков.
Общий протокол процесса сравнительного моделирования. Как уже упоминалось, подход сравнительного моделирования основан на наблюдении, что похожие аминокислотные последовательности имеют сходные пространственные структуры. Таким образом, процесс сравнительного моделирование состоит из нескольких этапов:
- 1) поиск в базе данных известных белковых структур некоторой матричной структуры (или нескольких структур), или аминокислотных последовательностей с известной структурой, предположительно родственных, или структурно близких по отношению к исследуемой последовательности;
- 2) комбинирование обнаруженных соответствий (matches) в некоторую промежуточную структуру;
- 3) оптимизация и исправление (refinement) промежуточной структуры с целью получения окончательной структуры, наиболее близкой к нативной для исследуемой последовательности.
К сожалению, в настоящее время проведение сравнительного моделирования не поддается полной автоматизации. В большинстве случаев результаты полностью автоматического предсказания уступают по качеству результатам, полученным с вмешательством человека. Особенно ярко это проявляется в ситуациях низкой гомологии между аминокислотной последовательностью матричной структуры и исследуемой аминокислотной последовательностью.
Следует иметь в виду, что полностью автоматические методы часто не позволяют учитывать дополнительную информацию, имеющуюся об исследуемой последовательности, если таковая есть у исследователей, а именно: специфика объекта исследования, предполагаемая масса белка, содержание вторичных структур, предполагаемая функция и г.д. Таким образом, в настоящий момент сравнительное моделирование позиционируется в большей степени как дополнительный инструмент в помощь классическим методам исследования белков. В любом случае, используя компьютерное моделирование, следует учитывать, что модель всегда имеет ограничения относительно реального объекта и хорошей практикой считается проверка результатов моделирования на реальном объекте.
Подробное описание процесса сравнительного моделирования обычно включает семь этапов:
- 1) поиск матричной структуры (структур). Получение начального выравнивания (выравниваний) аминокислотных последовательностей;
- 2) коррекция выравниваний, построение множественного выравнивания;
- 3) построение основной цепи молекулы (остова полипептидной цепи);
- 4) моделирование петель, т.е. вставок/делеций относительно матричной структуры, вариабельных фрагментов;
- 5) моделирование боковых цепей аминокислотных остатков;
- 6) оптимизация модели;
- 7) проверка модели.
Практически на каждом этапе сравнительного моделирования возможно экспертное вмешательство, при этом возможности вмешательства варьируют от изменения настроек по умолчанию для автоматических методов до «ручного» выбора конкретных методов для проведения каждого этапа и даже экспертного внесения изменений в выравнивание (пункт 2) или модель (пункты 3—7).
Поиск матричных структур. Коррекция выравнивания, построение множественного выравнивания. Наиболее простым случаем для поиска матричных структур является применение парного выравнивания или методов быстрого поиска в базах. Стандартом де-факто для проведения подобного поиска является применение метода BLAST, также довольно известны методы FASTA и SSEARCH. В случае если простой поиск не дает достоверных результатов, можно попробовать PSI-BLAST, позволяющий находить более отдаленную гомологию. Вне зависимости от метода поиска матричной структуры в качестве дополнительной проверки достоверности данных можно пользоваться следующим простым графиком (рис. 3.38).

Рис. 3.38. График, позволяющий грубо оценить значимость соответствий, обнаруженных в ходе поиска в базе последовательностей, для процесса сравнительного (гомологичного) моделирования:
если точка, соответствующая длине выравнивания и коэффициенту идентичности последовательностей, составляющих выравнивание, находится в зоне надежного сравнительного моделирования, полученное выравнивание можно использовать для сравнительного моделирования
Когда обнаруженные соответствия не попадают в «безопасную зону» или достоверные результаты не были обнаружены, требуется применение более изощренных методов распознавания укладки, однако при таком варианте, скорее всего, удастся получить лишь довольно грубую модель исследуемого белка.
Если используемый метод поиска в базе не производит множественного выравнивания исследуемой последовательности и обнаруженных соответствий, то следует это сделать с помощью отдельной программы или сервера, например CLUSTALW. Множественное выравнивание полезно, так как позволяет подробнее распланировать последующие этапы за счет:
- 1) выявления консервативных остатков, возможно, являющихся критичными для поддержания структуры/функции белка;
- 2) определения того, какие фрагменты матричных структур для получения полипептидного остова можно брать с минимальными изменениями, а какие требуют глубокого моделирования методами молекулярной динамики, т.е. вариабельных фрагментов.
Построение основной цени белковой молекулы. Построение основной цепи молекулы подразумевает создание предварительной структуры будущей модели путем заимствования координат из найденных в ходе первых двух этапов соответствий.
В самом простом случае, если аминокислотная последовательность одной из найденных матричных структур практически без пропусков выравнивается с исследуемой аминокислотной последовательностью, мы можем просто взять координаты N-, Са-, С- и О-атомов, составляющих основную цепь, в качестве каркаса новой структуры. При этом если аминокислотные остатки в одной позиции выравнивания идентичны, мы также можем заимствовать конфигурацию боковой цепи соответствующих остатков.
Если исследуемая последовательность имеет вставки относительно матричной структуры или участки низкой гомологии, то разумно взять координаты консервативных фрагментов и произвести моделирование вариабельных (петлевых) фрагментов. Обнаружить подобные участки помогает множественное выравнивание и изучение мест расположения слабоструктурированпых областей в матричной структуре.
Возможны ситуации, когда:
- • аминокислотные последовательности матричных структур, обнаруженных в ходе поиска, имеют высокую гомологию к различным участкам исследуемой последовательности;
- • в силу каких-то иных причин, например наличия ошибок в пространственных структурах либо низкого качества фрагмента матричной структуры, использование только одной из обнаруженных структур в качестве матричной не представляется разумным.
В этих случаях возможна компоновка полипептидного остова из нескольких матричных структур (рис. 3.39). Однако некоторые авторы считают, что подобная компоновка редко приводит к улучшению результатов моделирования.

Рис. 339. Пример сборки модели молекулы (справа) из фрагментов трех матричных структур (слева)
Важно отметить, что способ компоновки матричных структур в создаваемую модель, судя по всему, является наиболее критичным этапом сравнительного моделирования. Так, если какой-либо фрагмент будущей модели представляет особый интерес, то предпочтительно в качестве единственной матричной структуры или в качестве основной матричной структуры, если их несколько, использовать ту структуру, у которой выше гомология в интересующем исследователя фрагменте, чем матричную структуру, обладающую большей средней гомологией.
Моделирование вариабельных петель. Существует два принципиальных подхода к моделированию фрагментов исследуемой последовательности, для которых координаты полипептидного остова невозможно взять из матричной структуры: методы, основанные на библиотеках фрагментов, встречаемых в реальных пространственных структурах, в общем случае даже не родственных исследуемым последовательностям, и методы, использующие конформационный поиск оптимальной структуры.
Первоначально методы, оперирующие библиотеками фрагментов, использовали в качестве ограничений для выбора подходящей конформации координаты и ориентацию в пространстве остатков, окружающих область, подлежащую моделированию, а также количество остатков в моделируемом фрагменте. Постепенно, с увеличением количества пространственных структур в PDB (база данных белковых структур, см. параграф 4.2), начали развиваться методы, использующие классы похожих петлевых фрагментов (структурных мотивов), учитывая при моделировании сходство последовательностей моделируемого фрагмента и информации из библиотеки структур. Однако попытка учитывать состав аминокислотной последовательности ограничивает длину моделируемых фрагментов 7—8 остатками.
Методы, производящие конформационный поиск, как правило, используют энергетическую функцию, с помощью которой характеризуют каждую конформацию для моделируемого фрагмента, отбирая наиболее энергетически выгодные варианты. Для ограничения пространства возможного поиска используют либо фиксированные изменения для углов ср и |/ (например, 15°) (рис. 3.40), либо ограничивают возможные пары значений этих углов на основе карт Рамачандрана, либо генерируют углы (р и |/ на основе статистики распределения их в структурах PDB. Альтернативные подходы используют не случайный перебор конформаций, а направленный поиск с элементами молекулярной динамики. Слабым местом методов конфор- мационного поиска считается энергетическая функция, лишь приблизительно описывающая реальные взаимодействия.
Дополнительная сложность моделирования петель заключается в том, что петли, расположенные на поверхности белка, часто участвуют в межсубъединичных контактах в белковых комплексах, а также в контактах, формирующих белковые кристаллы для структур, полученных методом рентгеноструктурного анализа, и, таким образом, структура петлевых фрагментов может зависеть от непредсказуемых внешних факторов.
Моделирование боковых цепей аминокислотных остатков. Моделирование боковых цепей аминокислотных остатков является важным этапом сравнительного моделирования, так как именно боковые цепи обусловливают специфичность активных центров. Как уже упоминалось ранее, для консервативных участков приемлемо использование боковых цепей остатков матричной структуры, однако при низких коэффициентах гомологии (около 35%) до половины остатков могут иметь конформации боковых цепей, отличные от конформаций в матричных структурах.

Рис. 3.40. Углы, обусловливающие конформацию полипептидной цепи:
остов цепи сформирован углами со, ср и vp. Угол со обычно фиксирован, таким образом, изменение конформации обеспечивается соответствующим изменением углов ср и р. Углы, обеспечивающие конформацию боковой цени остатков, обозначаются буквой х и индексом, характеризующим удаление химической связи от остова полипептидной цепи (/t, хъ Хз* Х и т.д.)
На настоящий момент существует ряд методов, осуществляющих решение данной задачи. К сожалению, поскольку проверялись эти методы только в режиме «ремоделирования» боковых цепей для белка с известной структурой, их эффективность в условиях реального сравнительного моделирования остается под вопросом. Стоит упомянуть, что хотя автоматические инструменты сравнительного моделирования, такие как Modeller, также включают алгоритмы, производящие оптимизацию боковых цепей остатков, имеет смысл произвести дополнительное моделирование боковых цепей остатков в специально предназначенной для этого программе.
Практически все методы моделирования боковых цепей остатков принимают в качестве входных параметров координаты остова иолипептидной цепи и координаты атомов боковых цепей, например, если их удалось перенести из матричных структур. При этом, как правило, остов полипептид- ной цепи считается неподвижным, а конфигурации боковых цепей в тех случаях, когда они известны, могут как оставаться фиксированными, так и меняться в ходе конформационного поиска. Некоторые методы пытаются использовать частичную информацию о конфигурации боковой цепи, например, замены Phe и Туг требуют добавления/удаления ОН-группы, однако этот подход не всегда себя оправдывает, так как даже небольшие корректировки состава боковой цепи могут приводить к серьезному изменению физико-химических свойств.
Поскольку вследствие стерических причин свободное вращение вдоль С—С связи ограничено, в практике моделирования боковых цепей остатков широкое распространение получило понятие ротамеров (рис. 3.41). Так, для химической связи между атомами, находящимися в состоянии зр3-8р3-гибридизации орбиталей оптимальная конфигурация возникает при значениях двугранного угла (см. рис. 3.40) в 60, 180 и -60°. Для sp3-sp2-CBH3H возможные углы центрируются в районе значений 90 и -90° в случае ароматической связи, либо более широко распределены около значений 0 и 180° для карбоксильных и амидных групп. Из-за этих ограничений возможные конформации боковой цепи удобно описать серией конформационных изомеров — ротамеров.

Рис. 3.41. Ротамеры аминокислоты фенилаланина, взятые из структур реальных белков:
отмечены атомы основной цепи N, СА, С, О и атом СВ боковой цепи. Хорошо видно, что в силу стерических ограничений двугранные углы СА-СВ связи представлены тремя группами значений. Также наблюдается небольшое колебание вокруг CB-CG-связи (колебание плоскости кольца)
Обычно методы моделирования боковых цепей различаются тем, как происходит перебор возможных значений двугранных углов: случайное комбинирование либо использование предварительно скомпилированных библиотек ротамеров. Еще один источник различий — используемая энергетическая функция для отбора оптимальных конфигураций.
В целом точность подобных методов достигает 90% при условии корректности конфигурации основной цепи молекулы, т.е. к оценкам точности, приводимым в статьях, описывающих методы, следует относиться как к максимально возможным для данного метода. Реальная же точность предсказания будет зависеть как от ошибок, внесенных на предыдущих этапах сравнительного моделирования, так и от различий между используемой матричной структурой и реальной структурой исследуемого белка.
Оптимизация и проверка модели. Вопросы моделирования вариабельных петель и моделирования боковых цепей остатков достаточно тесно связаны. Так, оценка энергетической функцией выгодности той или иной конформации остова полипептидной цепи зависит в том числе и от конфигураций боковых цепей остатков, достижимых в каждом варианте. Обычно решением данной задачи является последовательное проведение нескольких итераций моделирования остова полипептидной цепи с последующей оптимизацией конформаций боковых цепей остатков.
С ростом вычислительной мощности компьютеров стал развиваться подход применения одновременной симуляции молекулярной динамики для всего белка. Однако на данный момент проблема улучшения модели (model refinement) не имеет общего решения и определяется задачами исследования и возможностями исследователя. Например, иногда стоит произвести детальную симуляцию активного центра фермента с использованием квантово-химических расчетов вместо более грубой симуляции всей молекулы с использованием приближенных эмпирических потенциалов.
Проверка полученной модели может быть произведена несколькими способами. Обычно модель проверяется на наличие грубых ошибок в длинах связей, отсутствие стерических нестыковок и соблюдение ряда других ограничений, присущих реальным белковым структурам. В качестве примера подобных программ можно назвать ProCheck и WhatCheck. Следует оговориться, что корректная геометрия модели не может гарантировать корректность по отношению к реальной пространственной структуре для данного белка.