Ананько Е.А.,
Игнатьева Е.В.,
Недосекина Е.А.,
Суслов В.В.,
Подколодная О.А.,
Ратушный А.В.,
Степаненко И.Л.,
Колчанов Н.А.
Институт цитологии и генетики СО РАН
Ключевые слова: регуляция транскрипции, генные сети (ГС), базы данных (БД).
Введение: Генная сеть (ГС) - это группа координировано экспрессирующихся генов, контролирующих выполнение определенной функции организма. Первые теоретические исследования ГС начались в 60-е годы [5, 17]. Но до середины 80-х годов развитие теории ГС сдерживалось недостатком экспериментальных данных. Новые экспериментальные методики сняли это ограничение. Появилось много баз данных (БД), в основном касающихся путей передачи сигналов в ГС. Например: CSNDB - пути передачи сигналов в клетках человека [4]; BRITE - данные о генах клеточного цикла и ранних этапах развития дрозофилы [3]; GeNet - ГС дрозофилы, морского ежа нематоды [13] и др..
Опыт разработки этих БД выявил необходимость создания универсальной компьютерной технологии, удовлетворяющей следующим требованиям: (а) гибкий формат для формализованного описания всей совокупности элементарных структур, событий и процессов, значимых для функционирования ГС; (б) описание в рамках единого подхода механизмов регуляции экспрессии генов и различных метаболических процессов; (в) описание ГС как про -, так и эукариот, а также их совместного функционирования; (г) удобная система ввода информации по ГС в БД; (д) автоматическая визуализация структуры ГС на основе информации в БД. Предложенная нами компьютерная технология GeneNet [1, 7, 9], основанная на формализованном описании элементарных структур (объектов) и событий, является одной из первых попыток решения подобной задачи.
Компоненты генной сети (ГС): Любая ГС имеет несколько обязательных типов структурно-функциональных компонентов: (1) ядро ГС - группа координировано экспрессирующихся генов; (2) их продукты - белки, выполняющие разнообразные функции; (3) пути передачи сигналов от клеточных мембран в ядра клеток, обеспечивающие регуляцию транскрипции генов в ответ на внешние для клетки стимулы; (4) отрицательные и положительные обратные связи, стабилизирующие параметры ГС на определенном уровне или, отклоняющие их от исходного значения, обеспечивая переход к новому функциональному состоянию; (5) низкомолекулярные компоненты, переключающие функции ГС в ответ на внешние воздействия (гормоны и др. сигнальные молекулы), энергетические компоненты, метаболиты и т.п., возникающие в ходе функционирования ГС [7].
Любая ГС связана с внешней средой, и/или с другими ГС. Поэтому в любой ГС есть компоненты, обеспечивающие либо восприятие и передачу внешних сигналов, либо способность продуцировать такие сигналы [7, 8]. Ключевой особенностью ГС является способность к саморегуляции за счет замкнутых регуляторных контуров с отрицательными и положительными обратными связями [6]. Молекулярной базой таких регуляторных контуров являются сайты-мишени в ДНК, РНК и белках, с которыми взаимодействуют различные молекулярные компоненты ГС и внешние регуляторные факторы. Благодаря этим двум типам регуляторных контуров возможно поддержание определенного функционального состояния ГС или ее переход в другой режим функционирования, в том числе и под влиянием факторов внешней среды. Кроме уровня транскрипции ГС могут регулироваться на уровне сплайсинга [10, 16], трансляции [2, 11], посттрансляционной модификации белков, в том числе и фосфорилирования [15], активного мембранного транспорта [14] и др..
Технология GeneNet.
Объектно-ориентированный подход. При создании БД GeneNet применен объектно-ориентированный подход. Основная цель объектно-ориентированной модели БД - интеграция семантических данных [12]. В основном, объектно-ориентированные БД используются для хранения данных, имеющих сложную структуру и комплексные взаимодействия, когда доступ к одному входу превалирует над доступом ко всей совокупности входов [17]. Согласно объектно-ориентированному подходу, в БД GeneNet все компоненты ГС разделены на два типа: объекты и взаимоотношения между объектами. Такая технология позволяет создавать формализованное описание ГС на любом иерархическом уровне от молекул до организма или даже нескольких организмов (беременность, симбиоз, паразитизм), учитывая пространственную разнесенность компонентов ГС. Стандартность методики позволяет автоматизировать ее - предложен подход для автоматической генерации диаграмм ГС и их формализованного описания в БД GeneNet. Основное преимущество подхода - возможность обновления диаграмм согласно вновь полученным данным, а недостаток - жесткость алгоритма, что затрудняет создание сложных диаграмм.
Элементарные объекты. Объектами являются органы, ткани, клетки, клеточные компартменты, белки, белковые комплексы, гены, РНК, небелковые вещества. Каждый класс объектов описан в отдельной таблице при помощи собственного формата представления данных, учитывающего особенности каждого класса. Технология позволяет добавлять если надо новые классы объектов. Формат для описания объектов в GeneNet базируется на нескольких информационных полях. Например, при описании белков (таблица PROTEIN, пример входа из которой приведен ниже) указывается полное и краткое название белка (поля SN, NM), синонимы названия (поле SY), функциональное состояние (поле FN - active/inactive/no data), степень мультимеризации (поле MM - monomer/homodimer/heterodimer/no data), модификация белка (поле MD - phosphorylated/non phosphorylated), ген, кодирующий данный белок (ссылка на таблицу GENE, поле GN), клетки, в которых проводился эксперимент (поле SO), ссылки на внешние БД (поле DR) и на источник информации (ссылка на таблицу LITER, поле RF).
Элементарные события. Элементарные события описываются в
терминах химико-кинетического формализма. Любое событие описывается
следующим образом.
Здесь A - объект, входящий во взаимодействие, С - объект, модулирующий ход взаимодействия и объект В - продукт взаимодействия. Согласно этой модели, мы различаем два типа взаимодействий между компонентами ГС - реакции и регуляторные события.
Реакции - это взаимодействия между объектами, ведущие к возникновению нового объекта (сборка и разборка мультимерных комплексов, экспрессия и различная модификация белков, секреция веществ и т.п., см. рис. 1). В одних случаях такие реакции соответствуют отдельным биохимическим реакциям (пример - фосфорилирование белков), а в других - сериям или каскадам сопряженных биохимических реакций (пример - синтез РНК). Взаимодействия первого типа обозначаются в базе как прямые (direct), а второго типа - как непрямые (indirect).
Регуляторные события - это влияние любого объекта (который можно расценивать как катализатор или ингибитор) на определенную реакцию (см. рис. 1). Регуляторные события 4 типов отличаются степенью воздействия на реакцию: включение (switch on), выключение (switch off), позитивный эффект (positive effect) и негативный эффект (negative effect). Комбинированный эффект нескольких объектов может отличаться от эффектов каждого из них в отдельности (например, синэргичный эффект транскрипционных факторов на экспрессию генов). Этот тип реакции назван комплексным (complex).
Взаимодействия между объектами ГС описываются в таблице RELATION. Поле ID описывает объекты, вступающие во взаимодействие. Класс объекта указывается в треугольных скобках (<gene>, <RNA>, <protein>, <substance>). Затем указывается вид организма (Hs - Homo sapiens, Mm - Mus musculus и т.д.). Далее следуют имя объекта и его локализация, разделенные значком ^. Если во взаимодействие вступает несколько объектов, их описания разделяются запятой. Исходные объекты и продукты взаимодействия разделены стрелкой ->. В поле EF дается характеристика связи между исходными объектами и объектами, возникшими в результате взаимодействия (direct/indirect). Indirect используют в тех случаях, когда неизвестны (или опущены при описании) промежуточные стадии взаимодействия. В поле AT указывается тип регуляторного влияния (increase/decrease/switch on/switch off). В поле RF - ссылка на оригинальный источник информации, в поле DT - дата создания записи и ее автор. Например, приведенная ниже запись реакции означает, что с гена олигоаденилатсинтетазы (OAS) человека, локализованного в ядре, в цитоплазму клетки эксперссируется белок. Взаимодействие непрямое, так как опущены промежуточные стадии (транскрипция, процессинг, сплайсинг и т.д.).
Компартменты и группы эквивалентности. Полное описание ГС дается в таблице SCHEME. Описание любого компартмента (см. ниже) содержит его идентификатор (compartment_id) и синонимы его названия (alias). Три опции (color, size, shape) определяют образ компартмента на данной диаграмме. Объекты, локализованные в компартменте, описываются в списке объектов (entity_list). Описание объекта (entity_description) включает образ объекта, его координаты на диаграмме (coordinate), тип объекта (entity_type), и его идентификатор (entity_id) в БД GeneNet. Дочерние компартменты (находящиеся внутри других компартментов) также описываются в этом разделе. Это обеспечивает иерархическое описание структуры ГС. Формат позволяет также обобщить гомологичные данные, полученные для разных видов. В результате диаграмма может содержать несколько эквивалентных объектов (гомологичные гены или белки разных видов). Такие эквивалентные объекты описываются как эквивалентная группа (equivalence_group) и представляются на диаграмме единичным образом. Завершает описание список взаимодействий (relation_list) между компартментами.
Ввод данных. Автоматическая трансляция. Так как вышеприведенное описание сложно, пользователь работает со специальным графическим интерфейсом (GeneNet Data Input GUI), генерирующим и интерпретирующим коды этого описания (языка) [8]. С помощью интерфейса пользователь вводит данные в GeneNet, оперируя естественными понятиями молекулярной биологии, связанными с регуляцией экспрессии генов. При этом интерфейс ввода осуществляет автоматическую трансляцию введенной информации в стандартный формат GeneNet, примеры которого рассмотрены выше.
Визуализация структурно-функциональной организации ГС. Большим достоинством созданной технологии является возможность автоматической визуализации ГС. Формализованные данные, накопленные в БД GeneNet, обрабатываются и представляются пользователю в виде графической схемы (рис. 2а) с помощью специальной программы, GeneNet Viewer, написанной на Java. Она позволяет визуализировать и работать с БД GeneNet через Internet и содержит инструменты для автоматической генерации диаграмм ГС, систему фильтров и средства навигации по БД, on-line help, интерактивные перекрестные ссылки внутри БД GeneNet и ссылки на другие БД.
Каждый компартмент ГС имеет на диаграмме собственное изображение (образ), отражающее его особенности. Например, форма белка показывает уровень его мультимеризации, цвет - функциональный статус (активный или неактивный), дополнительный красный кружок говорит, что белок фосфорилирован. Стрелки, представляющие регуляторные события, имеют разный цвет в зависимости от своего типа: красные - включение реакции, черные - выключение реакции, розовые - позитивный эффект, синие - негативный эффект. Реакциям соответствуют зеленые стрелки.
Все образы на диаграмме являются интерактивными, то есть, кликая образ, пользователь получает в специальном текстовом окне соответствующий вход в БД GeneNet. Это окно содержит форматированный текст с гипертекстовыми ссылками трех типов: on-line help, перекрестные гиперссылки внутри БД GeneNet и ссылки на другие БД: SWISS-PROT, TRRD, TRANSFAC, EPD, и MEDLINE (для показа входов этих БД через окно броузера используется SRS).
Фильтры. Статус ГС (введенные объекты, их статусы и взаимодействия между ними) зависит от типа клетки, индукторов и других факторов. Нужно описать реальную ГС во всех ее различных статусах как набор выбираемых по желанию диаграмм, каждая из которых соответствует определенному статусу. Эту задачу решает система фильтров, автоматически генерирующих ГС нужного статуса из суммарного описания ГС.
Система фильтров позволяет пользователю выбрать для визуализации лишь те объекты и связи между ними, которые были экспериментально установлены только для определенного организма или клетки, для конкретного клеточного ответа на конкретный внешний стимул. Для этой цели GeneNet обеспечена фильтрами трех типов: по видам (1), по типам клеток (2) и по типу индуктора (3). Соответствующий фильтр содержит список всех видов, типов клеток или индукторов для всех объектов в данной диаграмме. Все три фильтра могут применяться одновременно к одной и той же диаграмме. В результате на диаграмме будут показаны только те компоненты ГС, которые находятся в списках всех трех фильтров. Следует заметить, что применение фильтров не изменяет позиций объектов на диаграмме. Это облегчает визуальное сравнение диаграмм между собой. Например, диаграмма генной сети, регулирующей биосинтез белковых запасов у однодольных (рис. 2а) отфильтрована по виду (Zea mays) (рис. 2б).
Уровни представления ГС. GeneNet позволяет учитывать пространственную разнесенность компонентов ГС по различным органам, тканям, клеткам и клеточным компартментам. Как первое приближение в описании ГС рассматриваются 3 основных иерархических уровня: генно-молекулярный, клеточный и организменный.
Описание на организменном уровне позволяет отобразить пространственный порядок компонентов генной сети в организме. Объектами этого уровня являются органы, ткани, отдельные типы клеток, секретируемые белки и прочие вещества, влияющие на другие органы, ткани и клетки. Описание на клеточном уровне позволяет уяснить разброс компонентов генной сети по компартментам клетки. Объекты этого уровня - различные клеточные компартменты (цитоплазма, ядро, митохондрия и т.д.), гены, РНК, белки и вещества. На генно-молекулярном уровне описывается регуляция транскрипции генов согласно информации БД TRRD.
Информационное содержание GeneNet. В БД GeneNet формализуются и накапливаются экспериментальные данные из оригинальных статей. Сейчас в GeneNet описаны 25 ГС, контролирующих редокс-регуляцию, функции эндокринной системы, противовирусный ответ, созревание и развитие семян растений, азотфиксацию, тепловой шок, процессы липидного метаболизма, созревание эритроцитов и другие.
Заключение: В Институте цитологии и генетики СО РАН в лаборатории теоретической генетики создана уникальная, не имеющая аналогов в мировой науке Internet-доступная БД GeneNet (http://www.sgi.sscc.ru)., в которой впервые объединены в рамках единого подхода механизмы регуляции экспрессии генов, пути передачи сигналов и различные метаболические процессы. Создан гибкий формат, для формализованного описания всей совокупности элементарных структур, событий и процессов, значимых для функционирования ГС, причем отсутствуют принципиальные ограничения на типы этих структур, событий и процессов. Формат GeneNet позволяет учитывать реально существующий в природе иерархический блочно-модульный принцип организации ГС, а разработанный интерфейс позволяет наглядно отобразить его на экране. Таким образом, в рамках формата GeneNet может быть наглядно представлена ГС практически любой сложности. При этом можно учесть ее распределенность по органам, тканям и даже организмам и представить ее сразу на различных уровнях иерархии - генно-молекулярном, клеточном и организменном. Особо следует подчеркнуть, что наличие подобного интерфейса позволяет: вводить информацию в базу данных в обычных биологических терминах пользователям-биологам, имеющим минимальную компьютерную подготовку (i); работать с БД GeneNet специалистам в разных областях, в том числе и небиологам, что очень важно в условиях усиливающейся специализации в современной науке (ii).
В настоящее время дальнейшее развитие БД GeneNet осуществляется по следующим направлениям. Расширение круга ГС, описываемых в GeneNet, в первую очередь за счет ГС, контролирующих фундаментальные молекулярно-генетические процессы (1). Усовершенствование формата описания ГС, что позволило бы накапливать количественные данные по динамике процессов, а также разнесенность этих процессов по различным компартментам организма (2). Разработка методов математического моделирования динамики ГС на базе информации, накопленной в БД GeneNet (3).
Кроме этого намечены перспективные направления развития в будущем. 1) Интеграция локальных ГС в одну сверхГС целого организма. Эта интеграция может осуществляться как на базе общих для всех клеток генов и генных сетей "домашнего хозяйства", так и на базе интеграторных систем организма (эндокринной, иммунной и нервной систем). 2) Разработка динамических моделей ГС. Эти модели позволят предсказывать нарушения работы ГС, возникающие при повреждении какого-либо ее компонента, т.е. моделировать патологии. 3) Расширение формата GeneNet с целью адаптации его к описанию общебиологических сетевых систем, например экосистем, систем сложных жизненных циклов. Теоретическое изучение таких систем имеет давнюю и богатую историю, но по сей день отсутствует универсальный язык их формализованного описания.
Ваши комментарии |
[Головная страница] [Конференции] [СО РАН] |
© 2001, Сибирское отделение Российской академии наук, Новосибирск
© 2001, Объединенный институт информатики СО РАН, Новосибирск
© 2001, Институт вычислительных технологий СО РАН, Новосибирск
© 2001, Институт систем информатики СО РАН, Новосибирск
© 2001, Институт математики СО РАН, Новосибирск
© 2001, Институт цитологии и генетики СО РАН, Новосибирск
© 2001, Институт вычислительной математики и математической геофизики СО РАН, Новосибирск
© 2001, Новосибирский государственный университет
Дата последней модификации Tuesday, 25-Sep-2001 11:06:00 NOVST