Сравнительный анализ методов распознавания потенциальных сайтов связывания транскрипционных факторов1

Поздняков М.А., Подколодный Н.Л., Колчанов Н.А.
Лаборатория теоретической генетики,
Институт цитологии и генетики СО РАН, Новосибирск
Витяев Е.Е.
Институт математики СО РАН, Новосибирск

Аннотация:

Complex method for recognition of transcription factor binding sites was developed based on four methods: (i) weight matrix, (ii) information content, (iii) multidimensional alignment, (iv) pair alignment with most similar representative among known sites. We show that among these methods there is no one optimal for all site groups and recommend optimal recognition method for each group separately. Due to this strategy recognition errors were decreased. The program for recognizing sites in query sequences is available through (http://www.sgi.sscc.ru/mgs/programs/multalig/).

Разработан комплексный подход к распознаванию сайтов связывания транскрипционных факторов, основанный на четырех методах: (i) весовой матрицы, (ii) информационной меры, (iii) многомерного выравнивания, (iv) парного выравнивания с наиболее похожим представителем известных сайтов. Показано, что среди рассмотренных методов нет оптимального для сайтов всех типов, поэтому в каждом случае необходимо выбирать наиболее подходящий способ распознавания. Предложенный подход позволил снизить ошибки распознавания сайтов связывания транскрипционных факторов. Создана доступная через Интернет программа (http://www.sgi.sscc.ru/mgs/programs/multalig/), предназначенная для поиска потенциальных сайтов связывания факторов транскрипции в нуклеотидных последовательностях, заданных пользователем.

Ключевые слова: транскрипция, распознавание, сайты связывания, транскрипционные факторы, множественное выравнивание, промотор.

ВВЕДЕНИЕ

Разработка методов распознавания сайтов связывания транскрипционных факторов (ССТФ) важна для компьютерной аннотации геномной ДНК. К числу распространенных подходов к распознаванию ССТФ относятся методы построения консенсуса [1-4], весовых матриц [1], олигонуклеотидных матриц [5], оценки физико-химических свойств [6], построения информационной меры [7,8], а также нейронные сети [9], различные статистические модели [10] и др. Несмотря на разнообразие подходов, проблема построения точных методов распознавания ССТФ в настоящее время не может считаться окончательно решенной.

Причина этого состоит в большом разнообразии контекстных, физико-химических и конформационных особенностей ССТФ; механизмов ДНК-белковых взаимодействий между ССТФ и транскрипциоными факторами; специфичности контекста, окружающего ССТФ, в регуляторных районах различного типа (промоторах, энхансерах, сайленсерах, локусконтролирующих районах и т.д.); степени консервативности нуклеотидного контекста и др. Поэтому представляется перспективным применять методы, основанные на различных способах учета и выявления значимых особенностей их контекстной и структурной организации.

Мы применили комплексный подход к распознаванию ССТФ, в основу которого положены как известные ранее, так и предложенные нами методы (i) весовой матрицы, (ii) информационной меры, (iii) многомерного выравнивания, (iv) парного выравнивания с наиболее похожим представителем известных сайтов связывания 24 транскрипционных факторов. Методы (i) и (ii) хорошо известны [16]. Методы (iii) и (iv) применяются нами впервые. В методе (iii) проводят выравнивание потенциального ССТФ с выборкой выровненных реальных ССТФ, а в (iv) - выравнивание потенциального ССТФ с каждым из реальных ССТФ с последующим выбором лучшего из этих выравниваний.

Выборки экспериментально подтвержденных ССТФ были составлены на основе базы данных TRRD [11].


Многомерное множественное выравнивание нуклеотидных последовательностей.


Известно, что для СТТФ характерна сложная организация первичной структуры, в которой могут иметь место один или более консервативных участков, разделенных вариабельными. Поэтому для анализа ССТФ представлялось целесообразным разработать метод, по возможности независимый от предположений об их первичной структуре. Мы разработали метод распознавания ССТФ, основанный на многомерном выравнивании нуклеотидных последовательностей. Многомерное выравнивание является обобщением традиционного двумерного выравнивания [12-15], которое выполняется в четыре шага.

Для выравнивания последовательностей длины $L_{{\rm 1}}$ и $L_{{\rm 2}}$ строится двумерная матрица $F$, размером ($L_{{\rm 1}}$ + 1)($L_{{\rm 2}}$ + 1). В случае локального выравнивания элементы первого столбца и первой строки матрицы заполняются нулями.

Для заполнения внутреннего элемента согласно (1) определяют максимум из трех значений: (i) значения верхнего элемента минус штраф за делецию; (ii) значения левого элемента минус штраф за делецию; (iii) значения диагонального (верхнего левого) элемента плюс величина сходства оснований:

\begin{displaymath}
F(i,j) = \max(F(I-1,j-1)+s(i,j), \quad F(i-1,j)+d, F(i,j-1)+d ).
\end{displaymath} (1)

Здесь $d $- штраф за делецию, $s(i,j)$- величина сходства основания первой последовательности в позиции $i$ и основания второй последовательности в позиции $j$.

После заполнения всей матрицы $F$ в случае локального выравнивания выбирают элемент с наибольшим весом $F(m_{{\rm 1}},m_{{\rm 2}})$, 0 < $m_{{\rm 1}} \le
L_{{\rm 1}}$, $0 < m_{{\rm 2}} \le L_{{\rm 2}}$.

Из выбранного элемента $F(m_{1},m_{2})$ восстановлением хода выравнивания получают искомое выравнивание [12-15].

Многомерное выравнивание по аналогии с парным также выполняется в четыре шага. Для выравнивания $N$ последовательностей длиной $L_{{\rm 1}}, L_{{\rm 2}}$, ...L$_{N}$ строится многомерная матрица $F$ размером $(L_{{\rm 1}} + 1)(L_{{\rm 2}
}$+ 1)...(L$_{N} + 1)$. В случае локального выравнивания все элементы, расположенные на гранях матрицы, заполняются нулями.

При заполнении внутреннего элемента матрицы рассматривают соседние элементы, число которых равно $2^{N}-1$ (поскольку в колонке выравнивания может быть от $0$ до $N-1$ делеций) и определяют максимум из $2^{N}-1$ значений, вычисляемых как при двумерном выравнивании.

В случае локального выравнивания в матрице $S$ выбирают элемент с наибольшим весом $S(m_{{\rm 1}}, m_{{\rm 2}}, \ldots , m_{N}), \, 0 < m_{{\rm 1}} \le L_{{\rm 1}}, \, 0 < m_{{\rm 2}} \le L_{{\rm 2},\ldots .}, 0< m_{N} \le L_{N,}$ согласно (2):

\begin{displaymath}
F(m_1,m_2,\ldots m_N) = max(F(i_1,i_2,\ldots i_N) ), \quad 0 < i_1 \le L_1,\ldots \ldots 0 <i_N \le L_N
\end{displaymath} (2)

Из выбранного элемента $F(m_{1},m_{2},\ldots m_{N})$ восстановлением хода выравнивания получаем искомое выравнивание.

Разработанная нами программа многомерного множественного выравнивания MMSite запрашивает параметр $n$ - число последовательностей, которые нужно выравнивать одновременно ($1< n \le N$, где $N$ - число всех сайтов). Если $n < N$, то выравнивание производят пошагово c многомерным выравниванием $n$ из $N$ последовательностей. Таким образом, программа MMSite может реализовать как режим многомерного множественного выравнивания, так и обычного.


Построение методов распознавания ССТФ.


При построении решающих правил для каждого из методов проводилось обучение метода на реальных ССТФ против случайных последовательностей, полученных перемешиванием последовательностей ССТФ. Для ССТФ каждого типа строили матрицу $Q$, содержащую относительные частоты оснований в каждой позиции сайта, используя выборку выровненных ССТФ. Для нуклеотидной последовательности $X$ процедура распознавания методами весовой матрицы и информационной меры состояла из следующих шагов:

Процедура распознавания методом многомерного выравнивания включала в себя На основе четырех методов распознавания разработана программа поиска потенциальных ССТФ в протяженных нуклеотидных последовательностях MMSite. Пользователь задает нуклеотидную последовательность и имя транскрипционного фактора, сайты связывания которого необходимо распознать, значение ошибки второго рода в поле "Threshold", направление введенной последовательности с помощью включения и выключения поля "Reverse Strand", способ выдачи результата - текстовый или графический, с помощью включения и выключения поля "Graphic mode".


РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ


Распознавание ССТФ, опиcанных в TRRD.


Ошибки первого и второго рода рассмотренных методов распознавания сайтов связывания 25 транскрипционных факторов, полученные на контрольных выборках ССТФ и случайных последовательностей, которые не использовались в обучении, приведены в таблице. Можно видеть, что в большинстве случаев различные методы дают различные ошибки распознавания. Например, для ССТФ USF метод весовой матрицы дает ошибки $E1$ и $E2$ 5 и 1% соответственно. Ошибки распознавания в случае метода информационной меры равны 0 и 24% , многомерного выравнивания - 0 и 11% , а при выравнивании с наиболее похожим представителем эти ошибки равны 0 и 15% соответственно.

В последних четырех колонках таблицы для каждого ССТФ указаны методы с наименьшей ошибкой первого и второго рода - М( $E1_{{\rm m}{\rm i}{\rm n}})$ и M( $E2_{{\rm m}{\rm i}{\rm n}})$, а также значения этих ошибок $E1_{{\rm m}{\rm i}{\rm n}}$ и $E2_{{\rm m}{\rm i}{\rm n}}$. Например, в случае ССТФ CDP наименьшую ошибку распознавания первого рода обеспечивают методы М3 и M4 (многомерное выравнивание, выравнивание с наиболее похожим представителем), а наименьшую ошибку второго рода - М4 (выравнивание с наиболее похожим представителем).

Можно видеть, что среди этих методов нет такого, который обеспечивает наименьшую ошибку, $E1_{{\rm m}{\rm i}{\rm n}}$ и $E2_{{\rm m}{\rm i}{\rm n}}$, для всех рассмотренных ССТФ.

  1. При поиске определенного ССТФ рекомендуется выбирать метод, обеспечивающий, в зависимости от конкретной задачи, минимальную ошибку первого или второго рода ( $E1_{{\rm m}{\rm i}{\rm n}}$ или $E2_{{\rm m}{\rm i}{\rm n}})$. Например, при аннотации длинных геномных последовательностей желательно использовать методы с минимальной ошибкой $E2_{{\rm m}{\rm i}{\rm n}}$ (чтобы избежать предсказания большого количества ложных ССТФ). С другой стороны, если необходимо получить максимальное количество информации о потенциальных ССТФ данного типа в короткой последовательности, целесообразно применять метод с минимальной ошибкой первого рода, $E1_{{\rm m}{\rm i}{\rm n}}$ (чтобы избежать возможной потери реальных ССТФ).
  2. Если необходимо в одной нуклеотидной последовательности одновременно распознавать ССТФ разного типа с минимальной ошибкой первого рода, рекомендуется использовать набор методов, приведенных в колонке М $(E1_{{\rm m}{\rm i}{\rm n}})$ таблицы. Можно видеть, что при таком подходе средняя ошибка первого рода $E1_{{\rm m}{\rm i}{\rm n}}$ составляет 2% , что существенно ниже ошибки $E1_{{\rm m}{\rm i}{\rm n}}$ каждого метода.

Если же требуется в одной нуклеотидной последовательности одновременно распознать с минимальной ошибкой второго рода ССТФ разных типов, следует применять набор методов, приведенный в колонке М $(E2_{{\rm m}{\rm i}{\rm n}}) $таблицы. При таком подходе средняя ошибка $E2_{{\rm m}{\rm i}{\rm n}}$ составляет 7% , что существенно ниже $E2_{{\rm m}{\rm i}{\rm n}}$ каждого метода в отдельности.


Распределение потенциальных ССТФ вдоль промоторов


С помощью разработанных методов распознавания ССТФ мы изучали содержащиеся в базе TRRD промоторы генов в интервале -300...+200 относительно точки инициации транскрипции. Всего проанализировали 516 промоторов, в которых методом многомерного выравнивания провели распознавание 24 типов ССТФ. Результаты анализа приведены на рис. 3. Распределение реальных ССТФ из TRRD в промоторных районах представлено на рис. 4. Из рис. 3 и рис. 4 можно видеть, что распределение потенциальных ССТФ, предсказанных методом многомерного выравнивания, и реальных ССТФ, аннотированных в TRRD, качественно похожи друг на друга в районе -300...-1 и существенно различаются в районе +1...+200 относительно точки инициации транскрипции. Сходство этих распределений выше точки инициации транскрипции говорит о точности разработанных нами методов, которые хорошо предсказывают аннотированные ССТФ и о том, что существенная часть реальных ССТФ в промоторах генов уже выявлена экспериментально.

В то же время, согласно результатам предсказания, количество потенциальных ССТФ в районах генов ниже точки инициации транскрипции значительно больше, чем выявленных экспериментально и представленных в TRRD. Можно предполагать, что это различие обусловлено недостаточной изученностью регуляторных районов генов ниже точек инициации транскрипции. Следовательно, изучение этих районов, которые, согласно результатам компьютерного анализа, должны содержать много новых ССТФ, представляет большой интерес.


Литература

  1. Schneider T., Stephens R. // Nucleic Acids Res. 1990. V. 18. P. 6097-6100.

  2. Ulyanov A., Stormo G. // Nucleic Acids Res. 1995. V. 23. P. 1434-1440.

  3. Kel A.E., Kondrakhin Y.V., Kolpakov Ph.A., Kel O.V., Romashenko A.G., Wingender E., Milanesi L., Kolchanov N.A. // Proc. Third Internat. Conf. Intelligent Systems Molec. Biol. 1995. P. 197-205.

  4. Kondrakhin Y.V., Kel A.E., Kolchanov N.A., Romashenko A.G., Milanesi L. // CABIOS. 1995. V. 9. P. 1-13.

  5. Ponomarenko M.P., Ponomarenko J.V., Frolov A.S., Podkolodnaya O.A., Vorobiev D.G., Kolchanov N.A., Overton C. // Bioinformatics. 1999. V. 15. P. 631-643.

  6. Ponomarenko J., Ponomarenko M.P., Frolov A.S., Vorobiev D.G., Overton C., Kolchanov N.A. // Bioinformatics. 1999. V. 15. P. 654-668.

  7. Schneider T., Stormo G.D., Gold L. // J. Mol. Biol. 1986. V. 188. P. 415-431.

  8. Papp P., Chattoraj D. // J Molec. Biol. 1993. V. 233. P. 219-230.

  9. Horton P., Kanehisa M. // Nucleic Acids Res. 1992. V. 20. P. 4331-4338.

  10. Sewell R., Durbin R. // J. Comput. Biol. 1995. V. 2. P. 25-31.

  11. Kolchanov N., Podkolodnaya O., Ananko E., Ignatieva E., Stepanenko I., Kel-Margoulis O., Kel A., Merkulova T., Goryachkovskaya T., Busygina T., Kolpakov F., Podkolodny N., Naumochkin A., Korostishevskaya I., Romashchenko A., Overton G. // Nucleic Acids Res. 2000. V. 28. P. 298-301.

  12. Apostolico A., Giancarlo R. // J. Comput. Biol. 1998. V 5. P. 173-196.

  13. Fernandez-Baca D., Seppalainen T., Slutzki G. // Proc. 11th Annu. Symp. Combinatorial Pattern Matching, Lecture Notes Computer Sci. Berlin: Springer-Verlag, 2000. N 1848. P. 69-83.

  14. Subbiah S., Harrison S. C. // J. Mol. Biol. 1989. V. 209. P. 539--548.

  15. Taylor W.R. // Comput. Appl. Biosci. 1987. V. 3. P. 81-87.

  16. Gelfand M.S. // J. Comput. Biol. 1995. V. 2. P. 87-115.

  17. Durbin R., Eddy S.R., Krogh A., Mitchson G. Biological sequence analysis. Cambridge Univ. Press, 1998.

  18. Zhang M.Q. // Genome Res. 1998. V. 8. P. 319-326.


Таблица: Характеристики четырех методов распознавания сайтов связывания транскрипционных факторов.
Фактор $M_1$ M$_{{\rm 2}}$ M$_{{\rm 3}}$ M$_{{\rm 4}}$ $E$1 $_{{\rm m}{\rm i}{\rm n}}$ M($E$1 $_{{\rm m}{\rm i}{\rm n}})$ $E$2 $_{{\rm m}{\rm i}{\rm n}}$ M($E$2 $_{{\rm m}{\rm i}{\rm n}})$
  E$_{{\rm 1}}$ E$_{{\rm 2}}$ E$_{{\rm 1}}$ E$_{{\rm 2}}$ E$_{{\rm 1}}$ E$_{{\rm 2}}$ E$_{{\rm 1}}$ E$_{{\rm 2}}$        
USF 5 1 0 24 0 11 0 15 0 M2, M3, M4 1 M1
CDP 33 27 33 27 0 42 0 4 0 M3, M4 4 M4
c-Fos/c-Jun 0 19 25 17 25 29 0 52 0 M1, M4 17 M2
c-Myc 25 6 0 32 0 3 0 21 0 M2, M3, M4 3 M3
CAN 0 13 0 18 0 8 0 8 0 M1, M2, M3, M4 8 M3, M4
CIIIB1 0 12 0 12 0 11 0 11 0 M1, M2, M3, M4 11 M3, M4
C/EBP@ 0 12 0 29 0 12 0 12 0 M1, M2, M3, M4 12 M1, M3, M4
E2F-1/DP-1 4 2 0 28 0 4 0 14 0 M2, M3, M4 2 M1
E2F 11 11 11 44 11 5 11 22 11 M1, M2, M3, M4 5 M3
EAR-2 0 9 0 9 0 9 0 9 0 M1, M2, M3, M4 9 M1, M2, M3, M4
EBP-1 0 8 0 7 0 7 0 7 0 M1, M2, M3, M4 7 M2, M3, M4
Elf1 0 2 0 19 0 2 0 19 0 M1, M2, M3, M4 2 M1, M3
GATA-3 27 11 0 68 0 1 0 54 0 M2, M3, M4 1 M3
HNF-3@ 0 14 0 13 0 14 0 13 0 M1, M2, M3, M4 13 M2, M4
ISGF3 17 18 17 46 17 13 17 16 17 M1, M2, M3, M4 13 M3
LAP 4 5 2 16 2 2 0 23 0 M4 2 M3
NF-kB (p65) 0 4 0 2 0 2 0 2 0 M1, M2, M3, M4 2 M2, M3, M4
NF-Atp/c 31 15 15 73 8 4 8 64 8 M3, M4 4 M3
p53 17 48 67 44 17 1 17 34 17 M1, M3, M4 1 M3
Ptx1 0 1 0 1 0 1 0 1 0 M1, M2, M3, M4 1 M1, M2, M3, M4
STAT1 0 6 0 5 0 5 0 5 0 M1, M2, M3, M4 5 M2, M3, M4
TCF-1@ 0 22 0 22 0 22 0 22 0 M1, M2, M3, M4 22 M1, M2, M3, M4
TTF-1 27 7 0 78 0 9 9 55 0 M2, M3 7 M1
XHSF1 0 28 0 13 0 0 0 0 0 M1, M2, M3, M4 0 M3, M4
Средняя ошибка 13 15 11 30 4 13 3 21 2   7  


Приложения:

Примечания к Таблице 1.

$E_{{\rm 1}}$ - ошибка первого рода в контроле (% ),
$E_{{\rm 2}}$ - ошибка второго рода в контроле (% ),
M1 - весовая матрица,
M2 - информационная мера,
M3 - метод многомерного выравнивания,
M4 - метод выравнивания с наиболее похожим представителем,
$E1_{{\rm m}{\rm i}{\rm n}}$ - минимальная ошибка первого рода для каждого типа ССТФ,
M $(E1_{{\rm m}{\rm i}{\rm n}})$ - номер метода, обеспечивающий минимальную ошибку первого рода,
$E2_{{\rm m}{\rm i}{\rm n}}$ - минимальная ошибка второго рода для каждого типа ССТФ,
M $(E2_{{\rm m}{\rm i}{\rm n}}) $ - номер метода, обеспечивающий минимальную ошибку второго рода.

Рис. 1: Схема распределений весов реальных сайтов ( $W_{{\rm s}{\rm i}{\rm t}{\rm e}})$ и случайных последовательностей ( $W_{{\rm r}{\rm n}{\rm d}})$. Способы получения распределений описаны в тексте.

Рис. 2: Интерфейс экрана Web-страницы программы MMSite (а) и пример выдачи программы поиска потенциальных сайтов MMSite (б). Пользователь может задать нуклеотидную последовательность, указать название транскрипционного фактора, сайты связывания которого нужно искать в заданной последовательности; задать любой набор из четырех методов распознавания, или же опцию "optimal method". В последнем случае программа самостоятельно определит наиболее точный метод распознавания данного типа ССТФ. В поле "Threshold" пользователь указывает значение ошибки второго рода при распознавании ССТФ данного типа.
(a)
(б)

Рис. 3: Распределение ССТФ, предсказанных методом многомерного выравнивания. Распределение получено для промоторных районов генов эукариот, с позициями -300, +200 относительно точки инициации транскрипции. По оси X отложены позиции промоторного района относительно точки инициации транскрипции (значение 1 по оси X). По оси Y отложена частота встречаемости предсказанных ССТФ в пересчете на одну последовательность промоторного района. Выборка промоторных районов создана на основании информации в TRRD и состоит из 516 последовательностей.

Рис. 4: Распределение реальных ССТФ в промоторных районах генов эукариот с позициями -300, +200 относительно точки инициации транскрипции (на основе информации из базы TRRD). По оси X отложены позиции промоторного района относительно точки инициации транскрипции (значение 1 по оси X). По оси Y отложена частота встречаемости аннотированных в TRRD ССТФ в пересчете на одну последовательность промоторного района. Выборка промоторных районов (516 последовательностей) создана на основании информации в TRRD.



Примечание

... факторов1
Работа получила поддержку Российского фонда фундаментальных исследований (00-04-49229, 00-04-49255, 00-07-90337, 01-07-90376, 99-07-90203), программ "Геном человека", Государственного комитета России по науке и технологиям и Интеграционного проекта Сибирского отделения Российской академии наук(N 65)


Ваши комментарии
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2001, Сибирское отделение Российской академии наук, Новосибирск
© 2001, Объединенный институт информатики СО РАН, Новосибирск
© 2001, Институт вычислительных технологий СО РАН, Новосибирск
© 2001, Институт систем информатики СО РАН, Новосибирск
© 2001, Институт математики СО РАН, Новосибирск
© 2001, Институт цитологии и генетики СО РАН, Новосибирск
© 2001, Институт вычислительной математики и математической геофизики СО РАН, Новосибирск
© 2001, Новосибирский государственный университет
Дата последней модификации Sunday, 07-Oct-2001 16:43:01 NOVST