Выездное заседание Координационного научного Совета СО РАН по программе "Информационно-телекоммуникационные ресурсы СО РАН".

Иркутск,
Институт динамики систем и теории управления СО РАН,
28-30 июля 2002 года.

Тезисы докладов


GeneExpress 2.1. Интегрированная электронная библиотека по пространственным структурам и функциям ДНК, РНК, белков и генных сетей.

Колчанов Н.А., Подколодный Н.Л., Ананько Е.А., Игнатьева Е.В., Подколодная О.А., Степаненко И.Л., Меркулова Т.И., , Пономаренко М.П., Пономаренко Ю.В. Лаврюшев С.В., Григорович Д.А., Кочетов А.В., Орлова Г.В., Титов И.И., Вишневский О.В., Орлов Ю.Л.,Иван

Институт цитологии и генетики СОРАН (Новосибирск)

В работе представлена новая версия интегрированной Интернет-доступной электронной библиотеки GeneExpress-2.1, предназначенной для сбора и накопления данных по пространственным структурам и функциям биологических макромолекул, визуализации молекулярно биологической информации и навигации по интегрированным ресурсам, а также анализа и распознавания функциональных элементов ДНК, РНК и белков и исследования фундаментальных молекулярно-генетических процессов и моделей функционирования генных сетей (http://wwwmgs.bionet.nsc.ru/mgs/gnw/).

Все ресурсы системы GeneExpress разделены в соответствии с естественной иерархической организацией молекулярно генетических систем на следующие уровни: (1) уровень ДНК, (2) уровень РНК, (3) уровень белка, (4) уровень генных сетей.

Каждый уровень представления информации в системе GeneExpress содержит экспериментальные данные; программы для анализа данных и продукции знаний для предсказания, распознавания и классификации; результаты автоматической и интерактивной обработки данных; базы знаний, содержащие средства для распознавания и предсказания; программы для графического представления данных и результатов анализа.

(1) Уровень “ДНК” включает 25 баз данных и баз знаний и 17 пакетов программ.
В базе данных TRRD представлено структурно-функциональное описание районов ДНК, обеспечивающих регуляцию транскрипции генов. Кроме описания регуляторных областей, база данных TRRD включает: а) описание иерархии всех регуляторных единиц, находящихся в данной регуляторной области (таких как сайты связывания транскрипционных факторов, промоторы, энхансеры, сайленсеры и т.д.); б) информацию об особенностях экспрессии генов, описанных в базе данных; в) информацию о физиологических системах, органах и типах клеток, в которых экспрессируются описываемые гены; г) информацию о транскрипционных факторах.
Реляционная версия БД TRRD реализована в среде ORACLE9i. Поиск информации осуществляется с помощью системы тезаурусов, содержащих информацию по клеточному составу, локализации, и происхождению тканей, функциям органов и их частей.
Для доступа к базе данных через Интернет используется система Sequence Retrieval System (SRS). Информация, содержащаяся в TRRD, представлена в виде 6 SRS таблиц: TRRDGENES, TRRDSITES, TRRDBIB, TRRDEXP, TRRDFACTORS, TRRDUNITS.
База данных регулярно пополняется новой информацией. Данные вносятся в базу на основании аннотирования научных статей. В настоящее время в базе содержится описание около 1500 генов, 7500 паттернов экспрессии генов, 2300 регуляторных районов (промоторов, энхансеров и сайленсеров), и около 7000 сайтов связывания транскрипционных факторов. Эта информация получена на основании реферирования около 5000 научных статей.
База данных TRRD содержит описание отдельных систем генов, важных с медико-биологической или фармакологической точки зрения. В базе данных TRRD собрана также информация о функциональных группах генов, индуцируемых интерферонами; генах, специфичных для эритроидной системы; генах, контролирующих липидный метаболизм; генах, регулируемых глюкокортикоидами; регулирующих клеточный цикл; генов эндокринной системы, теплового шока, и многих других. Способ представления информации, использующийся в базе данных TRRD, позволяет пользователю обращаться непосредственно в интересующий его раздел базы, одновременно давая возможность доступа к другим модулям TRRD.
B-DNA SITE VIDEO – база знаний предназначена для хранения информации по конформационным и физико-химическим особенностям сайтов связывания транскрипционных факторов и программ распознавания этих сайтов на основе конформационных и физико-химических особенностей.
База знаний «SELEX» по искусственным функциональным сайтам содержит выборки селектированных рандомизированных синтетических последовательностей ДНК и РНК. Такая информация необходима для разработки программ, позволяющих автоматически распознавать регуляторные участки генома. Информация, содержащаяся в «SELEX», представлена в виде 3 SRS баз данных: «SELEX_DB» (описано 3311 отобранных рандомизированных последовательностей ДНК и РНК, разделенных на выборки, каждая из которых соответствует определенному транскрипционному фактору),
«SELEX_BIB» (аннотированные публикации),
«SELEX_TOOLS» (компьютерные программы для распознавания сайтов, находящихся в базе данных «SELEX_DB»).
Activity - база знаний, предназначенная для описания, анализа и предсказания количественных характеристик специфической активности функциональных сайтов ДНК и РНК. В базе знаний описаны экспериментальные данные, содержащие описание вариантов последовательностей сайтов с количественной величиной их специфической активности, контекстно-зависимые конформационные и физико-химические свойства двойной спирали ДНК, информация о значимых контекстно-зависимых конформационных и физико-химических характеристиках функциональных сайтов и программы для распознавания этих сайтов, весовые функции, используемые при оценивании величин специфической активности сайтов и др.
Samples - база данных, содержащая выборки регуляторных геномных последовательностей различных типов предназначена для разработки и верификации программ распознавания и других молекулярно-биологических приложений.
Система «REGSCAN» - программный инструментарий, предназначенный для изучения протяженных регуляторных районов последовательностей ДНК эукариотических генов, который позволяет выявлять контекстные, конформационные и физико-химические свойства на основании анализа протяженных районов ДНК.
Система включает:
(1) программу для поиска олигонуклеотидных повторов;
(2) программы поиска вырожденных олигонуклеотидных мотивов;
(3) программу построения профилей конформационных или физико-химических свойств протяженных регуляторных районов геномной ДНК;
(4) программу построения профиля сложности;
(5) программу построения профилей частот олигонуклеотидов;
(6) программу классификации промоторов;
(7) программы распознавания промоторов РНК полимеразы II и III;
(8) программу поиска сайтов в произвольной нуклеотидной последовательности, используя информацию накопленную в TRRD;
(9) программу поиска геномных фрагментов, сходных по паттернам расположения сайтов связывания транскрипционных факторов с регуляторными районами описанными в TRRD.

«DNA NUCLEOSOMAL ORGANIZATION» - база знаний, предназначенная для хранения информации по контекстным, конформационным и физико-химическим особенностям нуклеосомных сайтов и программ распознавания этих сайтов в произвольных нуклеотидных последовательностях.
«Argo» – система распознавания регуляторных последовательностей генов, таких как коровые районы тканеспецифичных промоторов, сайты связывания транскрипционных факторов, сайты сплайсинга и сайты посадок нуклеосом.

(2) Уровень «РНК» включает 5 баз данных и знаний, в том числе - база данных трансляционных сигналов TRSIG.
«LEADER mRNA» предназначен для оценки трансляционных свойств мРНК.
База данных LEADER SQ содержит последовательности 5’ нетранслируемых районов высоко- и низкоэкспрессирующихся мРНК млекопитающих, одно- и двудольных растений (879 последовательностей, распределенных между тремя входами). Эти последовательности используются в компьютерной системе как обучающие выборки.
База знаний LEADER KN содержит:
(1) описание выявленных особенностей мРНК, которые могут быть использованы для разделения высоко и низкоэкспрессирующихся мРНК;
(2) программы для предсказания трансляционной эффективности мРНК на основе значимых контекстных и структурных характеристик 5’-нетранслируемых районов мРНК.
Модуль «FITNESS» содержит программу для предсказания вторичной структуры РНК на основе генетического алгоритма, а также программу для визуализации вторичной структуры РНК.

(3) Уровень «БЕЛКИ» включает три базы данных и модуль обрабатывающих программ.
База данных пространственных структур макромолекул EnPDB содержит 9902 записи;
база данных пространственных структур сайтов PDBsite содержит 2842 записи.

В систему GeneExpress входит база экспериментальных данных аффинной селекции пептидов ASPD (Artificial Selected Peptides/Proteins Database), которая включает информацию об аминокислотных последовательностях селектированных пептидов, об особенностях молекулы-селектора, об аффинности и условиях экспериментов, при которых эти данные были получены. Такие данные представляют большой интерес для фундаментальных исследований взаимодействий между белком и различными лигандами, а также могут быть использованы в прикладных исследованиях по конструированию разного рода лекарственных, профилактических и диагностических пептидных препаратов. База данных искусственных белков и пептидов ASPD содержит 315 записей.

«CRASP» - комплекс программ обнаружения и анализа координировано эволюционирующих позиций. Включает 2 программы по корреляционному анализу аминокислотных замен в белковых последовательностях, осуществляющие анализ корреляция пар позиций и анализ интегральных физико-химических характеристик белков. Совокупность данных по специфическим особенностям биологически активных сайтов, накапливаемых в базах данных GeneExpress 2.1. служит основой для построения методов их распознавания, а также дизайна лекарственных препаратов.

В GeneExpress включены, разработанные в рамках проекта пакеты программ анализа структурно-функциональной организации белков и распознавания функциональных элементов.

(4) Уровень «ГЕННЫЕ СЕТИ» содержит новую версию базы данных GeneNet, включающую информацию о 25 генных сетях. Система «GeneNet» предназначена для накопления информации о генных сетях (группах координировано функционирующих генов, обеспечивающих выполнение жизненно важных функций организмов) и процессов регуляции экспрессии генов; визуализации генных сетей и моделировании их динамики. Включает базу данных, подсистему ввода и редактирования генных сетей, специальные программные средства для графического отображения диаграмм генных сетей («GeneNet Viewer»).

В настоящее время база данных GeneNet содержит описание 25 генных сетей, в частности,
генная сеть антивирусного ответа;
генная сеть биосинтеза холестерина;
генная сеть эритроидной дифференцировки;
генная сеть программы белка позднего эмбриогенеза LTA;
генная сеть основных клеток кортикальных почечных канальцев;
генная сеть стероидогенеза (кора надпочечников);
генная сеть стероидогенеза (половые гормоны);
генная сеть окислительно-восстановительной регуляции;
генная сеть ответа на тепловой шок;
генная сеть системы щитовидной железы;
генные сети процессов, протекающих в растениях и т.п.

В системе GeneExpress 2.1. используются специально разработанные подходы к построению моделей, описывающих динамику генных сетей (на основе информации из базы данных GeneNet) и средства информационной поддержки моделирования.

Модуль «GENENET MODELS» представляет собой базу знаний, предназначенную для накопления информации о математических моделях генных сетей. В настоящее время содержит 3 программы для моделирования динамики генных сетей, а именно:
1) математическую модель регуляции дифференцировки эритроидной клетки;
2) математическую модель регуляции биосинтеза холестерина в клетке.
3) Модель регуляции макрофага.

Заключение Таким образом, разработанная нами электронная библиотека GeneExpress интегрирует огромное количество информационных и программных ресурсов, позволяющих пользователям решать широкий круг исследовательских и прикладных задач, соответствующих различным уровням иерархической организации молекулярно-генетических систем организмов. На уровне ДНК система позволяет решать задачи, связанные с регуляцией транскрипции генов, распознаванием функциональных сайтов и регуляторных районов, предсказанием активности функциональных сайтов. Уровень РНК обеспечивает пользователя необходимыми данными и средствами анализа для решения задач, связанных с трансляционными свойствами мРНК их вторичной структуры. Уровень БЕЛКА позволяет решать задачи, связанные с пространственной организацией белков, изучением специфических особенностей функциональных сайтов в последовательностях и третичной структуре белков. Интеграция ДНК, РНК и белкового уровней в рамках системы GeneExpress 2.1. обеспечивает продукцию знаний по регуляции экспрессии генов, позволяющих решать задачи на принципиально новом уровне организации молекулярно-генетических систем – уровне генных сетей.

Благодарности
Работа поддержана Российским фондом фундаментальных исследований, СО РАН (Интеграционный проект), Грантом Миннауки, GlaxoSK, National Institute of Health, USA.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[Конференции]

© 1996-2002, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2002, Сибирское отделение Российской академии наук, Новосибирск