Поздняков М.А.,
Подколодный Н.Л., Колчанов Н.А.
Лаборатория теоретической генетики,
Институт цитологии и генетики СО РАН, Новосибирск
Витяев Е.Е.
Институт математики СО РАН, Новосибирск
Разработан комплексный подход к распознаванию сайтов связывания транскрипционных факторов, основанный на четырех методах: (i) весовой матрицы, (ii) информационной меры, (iii) многомерного выравнивания, (iv) парного выравнивания с наиболее похожим представителем известных сайтов. Показано, что среди рассмотренных методов нет оптимального для сайтов всех типов, поэтому в каждом случае необходимо выбирать наиболее подходящий способ распознавания. Предложенный подход позволил снизить ошибки распознавания сайтов связывания транскрипционных факторов. Создана доступная через Интернет программа (http://www.sgi.sscc.ru/mgs/programs/multalig/), предназначенная для поиска потенциальных сайтов связывания факторов транскрипции в нуклеотидных последовательностях, заданных пользователем.
Ключевые слова: транскрипция, распознавание, сайты связывания, транскрипционные факторы, множественное выравнивание, промотор.
ВВЕДЕНИЕ
Разработка методов распознавания сайтов связывания транскрипционных факторов (ССТФ) важна для компьютерной аннотации геномной ДНК. К числу распространенных подходов к распознаванию ССТФ относятся методы построения консенсуса [1-4], весовых матриц [1], олигонуклеотидных матриц [5], оценки физико-химических свойств [6], построения информационной меры [7,8], а также нейронные сети [9], различные статистические модели [10] и др. Несмотря на разнообразие подходов, проблема построения точных методов распознавания ССТФ в настоящее время не может считаться окончательно решенной.
Причина этого состоит в большом разнообразии контекстных, физико-химических и конформационных особенностей ССТФ; механизмов ДНК-белковых взаимодействий между ССТФ и транскрипциоными факторами; специфичности контекста, окружающего ССТФ, в регуляторных районах различного типа (промоторах, энхансерах, сайленсерах, локусконтролирующих районах и т.д.); степени консервативности нуклеотидного контекста и др. Поэтому представляется перспективным применять методы, основанные на различных способах учета и выявления значимых особенностей их контекстной и структурной организации.
Мы применили комплексный подход к распознаванию ССТФ, в основу которого положены как известные ранее, так и предложенные нами методы (i) весовой матрицы, (ii) информационной меры, (iii) многомерного выравнивания, (iv) парного выравнивания с наиболее похожим представителем известных сайтов связывания 24 транскрипционных факторов. Методы (i) и (ii) хорошо известны [16]. Методы (iii) и (iv) применяются нами впервые. В методе (iii) проводят выравнивание потенциального ССТФ с выборкой выровненных реальных ССТФ, а в (iv) - выравнивание потенциального ССТФ с каждым из реальных ССТФ с последующим выбором лучшего из этих выравниваний.
Выборки экспериментально подтвержденных ССТФ были составлены на основе базы данных TRRD [11].
Многомерное множественное выравнивание нуклеотидных
последовательностей.
Известно, что для СТТФ характерна сложная организация первичной структуры, в
которой могут иметь место один или более консервативных участков,
разделенных вариабельными. Поэтому для анализа ССТФ представлялось
целесообразным разработать метод, по возможности независимый от
предположений об их первичной структуре. Мы разработали метод распознавания
ССТФ, основанный на многомерном выравнивании нуклеотидных
последовательностей. Многомерное выравнивание является обобщением
традиционного двумерного выравнивания [12-15], которое выполняется в четыре
шага.
Для выравнивания последовательностей длины и строится двумерная матрица , размером ( + 1)( + 1). В случае локального выравнивания элементы первого столбца и первой строки матрицы заполняются нулями.
Для заполнения внутреннего элемента согласно (1) определяют максимум из трех
значений: (i) значения верхнего элемента минус штраф за делецию; (ii)
значения левого элемента минус штраф за делецию; (iii) значения
диагонального (верхнего левого) элемента плюс величина сходства оснований:
(1) |
После заполнения всей матрицы в случае локального выравнивания выбирают элемент с наибольшим весом , 0 < , .
Из выбранного элемента восстановлением хода выравнивания получают искомое выравнивание [12-15].
Многомерное выравнивание по аналогии с парным также выполняется в четыре шага. Для выравнивания последовательностей длиной , ...L строится многомерная матрица размером + 1)...(L. В случае локального выравнивания все элементы, расположенные на гранях матрицы, заполняются нулями.
При заполнении внутреннего элемента матрицы рассматривают соседние элементы, число которых равно (поскольку в колонке выравнивания может быть от до делеций) и определяют максимум из значений, вычисляемых как при двумерном выравнивании.
В случае локального выравнивания в матрице выбирают элемент с наибольшим
весом
согласно (2):
(2) |
Разработанная нами программа многомерного множественного выравнивания MMSite запрашивает параметр - число последовательностей, которые нужно выравнивать одновременно (, где - число всех сайтов). Если , то выравнивание производят пошагово c многомерным выравниванием из последовательностей. Таким образом, программа MMSite может реализовать как режим многомерного множественного выравнивания, так и обычного.
Построение методов распознавания ССТФ.
При построении решающих правил для каждого из методов проводилось обучение
метода на реальных ССТФ против случайных последовательностей, полученных
перемешиванием последовательностей ССТФ. Для ССТФ каждого типа строили
матрицу , содержащую относительные частоты оснований в каждой позиции
сайта, используя выборку выровненных ССТФ. Для нуклеотидной
последовательности процедура распознавания методами весовой матрицы и
информационной меры состояла из следующих шагов:
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
Распознавание ССТФ, опиcанных в TRRD.
Ошибки первого и второго рода рассмотренных методов распознавания сайтов
связывания 25 транскрипционных факторов, полученные на контрольных выборках
ССТФ и случайных последовательностей, которые не использовались в обучении,
приведены в таблице. Можно видеть, что в большинстве случаев различные
методы дают различные ошибки распознавания. Например, для ССТФ USF метод
весовой матрицы дает ошибки и 5 и 1% соответственно. Ошибки
распознавания в случае метода информационной меры равны 0 и 24% ,
многомерного выравнивания - 0 и 11% , а при выравнивании с наиболее
похожим представителем эти ошибки равны 0 и 15% соответственно.
В последних четырех колонках таблицы для каждого ССТФ указаны методы с наименьшей ошибкой первого и второго рода - М( и M( , а также значения этих ошибок и . Например, в случае ССТФ CDP наименьшую ошибку распознавания первого рода обеспечивают методы М3 и M4 (многомерное выравнивание, выравнивание с наиболее похожим представителем), а наименьшую ошибку второго рода - М4 (выравнивание с наиболее похожим представителем).
Можно видеть, что среди этих методов нет такого, который обеспечивает наименьшую ошибку, и , для всех рассмотренных ССТФ.
Если же требуется в одной нуклеотидной последовательности одновременно распознать с минимальной ошибкой второго рода ССТФ разных типов, следует применять набор методов, приведенный в колонке М таблицы. При таком подходе средняя ошибка составляет 7% , что существенно ниже каждого метода в отдельности.
Распределение потенциальных ССТФ вдоль промоторов
С помощью разработанных методов распознавания ССТФ мы изучали содержащиеся в
базе TRRD промоторы генов в интервале -300...+200 относительно точки
инициации транскрипции. Всего проанализировали 516 промоторов, в которых
методом многомерного выравнивания провели распознавание 24 типов
ССТФ. Результаты анализа приведены на рис. 3. Распределение
реальных ССТФ из TRRD в промоторных районах представлено на рис. 4. Из рис.
3 и рис. 4 можно видеть, что распределение потенциальных ССТФ, предсказанных
методом многомерного выравнивания, и реальных ССТФ, аннотированных в TRRD,
качественно похожи друг на друга в районе -300...-1 и существенно
различаются в районе +1...+200 относительно точки инициации
транскрипции. Сходство этих распределений выше точки инициации транскрипции
говорит о точности разработанных нами методов, которые хорошо предсказывают
аннотированные ССТФ и о том, что существенная часть реальных ССТФ в
промоторах генов уже выявлена экспериментально.
В то же время, согласно результатам предсказания, количество потенциальных ССТФ в районах генов ниже точки инициации транскрипции значительно больше, чем выявленных экспериментально и представленных в TRRD. Можно предполагать, что это различие обусловлено недостаточной изученностью регуляторных районов генов ниже точек инициации транскрипции. Следовательно, изучение этих районов, которые, согласно результатам компьютерного анализа, должны содержать много новых ССТФ, представляет большой интерес.
Литература
Фактор | M | M | M | 1 | M(1 | 2 | M(2 | ||||||||
E | E | E | E | E | E | E | E | ||||||||
USF | 5 | 1 | 0 | 24 | 0 | 11 | 0 | 15 | 0 | M2, M3, M4 | 1 | M1 | |||
CDP | 33 | 27 | 33 | 27 | 0 | 42 | 0 | 4 | 0 | M3, M4 | 4 | M4 | |||
c-Fos/c-Jun | 0 | 19 | 25 | 17 | 25 | 29 | 0 | 52 | 0 | M1, M4 | 17 | M2 | |||
c-Myc | 25 | 6 | 0 | 32 | 0 | 3 | 0 | 21 | 0 | M2, M3, M4 | 3 | M3 | |||
CAN | 0 | 13 | 0 | 18 | 0 | 8 | 0 | 8 | 0 | M1, M2, M3, M4 | 8 | M3, M4 | |||
CIIIB1 | 0 | 12 | 0 | 12 | 0 | 11 | 0 | 11 | 0 | M1, M2, M3, M4 | 11 | M3, M4 | |||
C/EBP@ | 0 | 12 | 0 | 29 | 0 | 12 | 0 | 12 | 0 | M1, M2, M3, M4 | 12 | M1, M3, M4 | |||
E2F-1/DP-1 | 4 | 2 | 0 | 28 | 0 | 4 | 0 | 14 | 0 | M2, M3, M4 | 2 | M1 | |||
E2F | 11 | 11 | 11 | 44 | 11 | 5 | 11 | 22 | 11 | M1, M2, M3, M4 | 5 | M3 | |||
EAR-2 | 0 | 9 | 0 | 9 | 0 | 9 | 0 | 9 | 0 | M1, M2, M3, M4 | 9 | M1, M2, M3, M4 | |||
EBP-1 | 0 | 8 | 0 | 7 | 0 | 7 | 0 | 7 | 0 | M1, M2, M3, M4 | 7 | M2, M3, M4 | |||
Elf1 | 0 | 2 | 0 | 19 | 0 | 2 | 0 | 19 | 0 | M1, M2, M3, M4 | 2 | M1, M3 | |||
GATA-3 | 27 | 11 | 0 | 68 | 0 | 1 | 0 | 54 | 0 | M2, M3, M4 | 1 | M3 | |||
HNF-3@ | 0 | 14 | 0 | 13 | 0 | 14 | 0 | 13 | 0 | M1, M2, M3, M4 | 13 | M2, M4 | |||
ISGF3 | 17 | 18 | 17 | 46 | 17 | 13 | 17 | 16 | 17 | M1, M2, M3, M4 | 13 | M3 | |||
LAP | 4 | 5 | 2 | 16 | 2 | 2 | 0 | 23 | 0 | M4 | 2 | M3 | |||
NF-kB (p65) | 0 | 4 | 0 | 2 | 0 | 2 | 0 | 2 | 0 | M1, M2, M3, M4 | 2 | M2, M3, M4 | |||
NF-Atp/c | 31 | 15 | 15 | 73 | 8 | 4 | 8 | 64 | 8 | M3, M4 | 4 | M3 | |||
p53 | 17 | 48 | 67 | 44 | 17 | 1 | 17 | 34 | 17 | M1, M3, M4 | 1 | M3 | |||
Ptx1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | M1, M2, M3, M4 | 1 | M1, M2, M3, M4 | |||
STAT1 | 0 | 6 | 0 | 5 | 0 | 5 | 0 | 5 | 0 | M1, M2, M3, M4 | 5 | M2, M3, M4 | |||
TCF-1@ | 0 | 22 | 0 | 22 | 0 | 22 | 0 | 22 | 0 | M1, M2, M3, M4 | 22 | M1, M2, M3, M4 | |||
TTF-1 | 27 | 7 | 0 | 78 | 0 | 9 | 9 | 55 | 0 | M2, M3 | 7 | M1 | |||
XHSF1 | 0 | 28 | 0 | 13 | 0 | 0 | 0 | 0 | 0 | M1, M2, M3, M4 | 0 | M3, M4 | |||
Средняя ошибка | 13 | 15 | 11 | 30 | 4 | 13 | 3 | 21 | 2 | 7 |
Приложения:
Примечания к Таблице 1.
- ошибка первого рода в контроле (% ),
- ошибка второго рода в контроле (% ),
M1 - весовая матрица,
M2 - информационная мера,
M3 - метод многомерного выравнивания,
M4 - метод выравнивания с наиболее похожим представителем,
- минимальная ошибка первого рода для каждого
типа ССТФ,
M
- номер метода, обеспечивающий минимальную
ошибку первого рода,
- минимальная ошибка второго рода для каждого
типа ССТФ,
M
- номер метода, обеспечивающий минимальную
ошибку второго рода.
(a) | |
(б) |
Ваши комментарии |
[Головная страница] [Конференции] [СО РАН] |
© 2001, Сибирское отделение Российской академии наук, Новосибирск
© 2001, Объединенный институт информатики СО РАН, Новосибирск
© 2001, Институт вычислительных технологий СО РАН, Новосибирск
© 2001, Институт систем информатики СО РАН, Новосибирск
© 2001, Институт математики СО РАН, Новосибирск
© 2001, Институт цитологии и генетики СО РАН, Новосибирск
© 2001, Институт вычислительной математики и математической геофизики СО РАН, Новосибирск
© 2001, Новосибирский государственный университет
Дата последней модификации Sunday, 07-Oct-2001 16:43:01 NOVST