Создание электронной библиотеки ГПНТБ СО РАН
Исполнители:
- Елепов Борис Степанович
- Баженов Сергей Романович
- Павлов Александр Иванович
- Алексеев Владимир Николаевич
- Лаврик Ольга Львовна
- Кондратьева Елена Сергеевна
Ключевые слова:
информатизация, научно-техническая информация, электронные
каталоги, полнотекстовые базы данных, электронные библиотеки
Аннотация
Проект направлен на решение проблем информационного сопровождения
фундаментальных научных исследований, проводимых в Сибирском регионе
и предусматривает создание и внедрение многофункциональной
автоматизированной информационной системы распределенных баз данных
для поддержки научных исследований в Сибирском отделении РАН,
обеспечивающей интегральное использование разнородных информационных
ресурсов, работающей в сетевом режиме и поддерживающей более
50 тематических баз данных с глубиной ретроспективы от
5 до 10 лет.
В качестве источников информации для создаваемой электронной
библиотеки предполагается использовать в сетевом режиме накопленные
в ГПНТБ СО РАН БД по физике, химии, механике, геологии, геофизике,
экологии, медицине и др. (общий объем более 26 млн документов).
Электронные каталоги, БД научно-технической информации регионального
характера, полные тексты изданий ГПНТБ СО РАН - сборники научных
трудов и монографии ученых библиотеки, серию аналитических обзоров
мировой литературы "Экология", коллекции фонда редких книг и
рукописей предполагается предоставлять мировому научному сообществу
через Интернет.
Содержание проекта
- Фундаментальные научные проблемы, на решение
которых направлен проект.
- Описание структуры и функциональных
характеристик создаваемой системы, методы
разработки системы; общий план работ.
- Ожидаемые к концу 1998 года результаты
- Современное состояние имеющихся ИВТР в данной
области науки, сравнение с мировым уровнем,
наличие аналогов
- Имеющийся у коллектива задел по предлагаемому
проекту
- Способы предоставления разработанных ИВТР
научной общественности
- Ресурсы, необходимые для использования
создаваемой системы
- Характеристики ИВТР
- Перечень дорогостоящего оборудования
- Ресурсы, необходимые для использования создаваемой системы
- Характеристики ИВТР
- Перечень дорогостоящих программных и аппаратных средств,
которые необходимо дополнительно приобрести для успешного выполнения проекта
Фундаментальные научные
проблемы, на решение которых направлен проект
Фундаментальные научные проблемы химии, механики, физики,
геологии, экологии, филологии, истории и другим направлениям
исследований СО РАН. Пользователи электронных каталогов, баз
данных и полнотекстовых документов - ученые более
50 научно-исследовательских учреждений СО РАН, расположенных как
в Новосибирском научном центре, так и в других городах Сибири
(Иркутск, Улан-Удэ, Красноярск, Томск, Барнаул и др.).
Через глобальную сеть Интернет пользователями информационных
ресурсов собственной генерации ГПНТБ СО РАН будут также
являться ученые из России и других стран.
К БД собственной генерации, предполагаемым к установке в
сетевой доступ относятся:
- электронный каталог ГПНТБ СО РАН,
- базы данных по основным проблемам развития регионов Сибири и
Дальнего Востока (природные ресурсы, экономика, история,
наука и т.д.).
ГПНТБ СО РАН как книжное собрание уникально, она является
самой крупной библиотекой России за пределами Москвы и
Санкт-Петербурга, это самая большая библиотека русской
провинции, которая располагает уникальным собранием
отечественных и зарубежных книг, представляющих исключительную
историко-культурную ценность не только для нашего отечества,
но и для европейской и мировой культуры.
Здесь образцы западноевропейских инкунабул, редкие книги
XVI-XIX веков, в том числе часть собрания книг XVIII века
первой в Сибири научно-технической библиотеки Колывано-Воскресенских
горных заводов на Алтае, целая коллекция прижизненных изданий
произведений классиков русской литературы - Пушкина, Достоевского,
Тургенева, Толстого и др.
Коллекция древнерусских рукописей XIII-XVII веков, которая
составляется из приобретаемых ежегодно в археографических
экспедициях книг, а также включает в себя отдельные приобретения и
уникальную, крупнейшую в свое время личную коллекцию
древних рукописей академика М.Н. Тихомирова, завещанную им
Сибирскому отделению Академии наук, является крупнейшей на
востоке России.
К коллекции древнерусских рукописей ГПНТБ СО РАН примыкает
самое полное за пределами российских столиц собрание первопечатных
книг XVI-XVII веков, включающая более десятка изданий русского
первопечатника Ивана Федорова.
Библиотеки, хранящие уникальные книжные коллекции, неминуемо должны
решать сложную проблему: с одной стороны, нужно сделать такие
фонды (как правило, старинные и находящиеся не в лучшем физическом
состоянии) максимально доступными современникам, с другой -
необходимо обеспечить их сохранность для будущих поколений.
Наиболее эффективно эта проблема может быть решена путем
создания электронной библиотеки, вобравшей в себя тематически
классифицированный фонд редких книг и рукописей.
В современных условиях, в которых находятся библиотеки российской
провинции, только форма электронной библиотеки позволит сделать
хранящиеся в Сибири материалы доступными практически в любой
точке планеты; одновременно внесение книжных памятников в
электронную библиотеку позволит осуществить получение
страховой копии оригинала.
ГПНТБ СО РАН является крупным научно-исследовательским учреждением,
разрабатывающим проблемы библиотековедения, библиографоведения,
информатики. Ежегодно издается до 6 тематических научных сборников
трудов.
ГПНТБ СО РАН с 1989 года издает серию аналитических обзоров
"Экология", в подготовке которых участвуют ведущие ученые
институтов Сибирского отделения РАН. К настоящему времени
вышло из печати около 50 обзоров отечественной и мировой литературы,
посвященных актуальнейшим проблемам загрязнения и охраны окружающей
среды.
Стратегия предоставления полных текстов документов основывается на
значимости имеющихся собраний и предполагает в первую очередь к
переводу в электронную форму прижизненных изданий А.С. Пушкина,
хранящихся в фонде редких книг и рукописей ГПНТБ СО РАН и
приуроченной к 200-летию со дня рождения поэта, аналитических
обзоров серии "Экология" за 1998 год, изданий ГПНТБ СО РАН по
проблемам информатики и библиотечного дела за 1996-1998 гг.
Описание структуры и
функциональных характеристик создаваемой
системы, методы разработки системы; общий план
работ
Настоящий проект предусматривает создание
программно-технологического комплекса для формирования и
предоставления в коллективный доступ как электронных каталогов и
БД, так и полных текстов документов на основе этих каталогов.
Электронная библиотека является содержательно расширенным
электронным каталогом и включает помимо библиографического
описания первоисточников их оглавления, полные тексты статей,
связанные с записями электронного каталога посредством адресных
ссылок. Тем самым обеспечивается возможность раскрыть
содержание того или иного первоисточника, найденного в результате
поиска в традиционном электронном каталоге и получить его полный текст.
Такая технология представляется особенно актуальной в настоящий
момент в условиях недостаточного финансирования комплектования
библиотек научных институтов.
В качестве технической базы системы формирования электронных
каталогов с обеспечением получения полных текстов предполагается
использование сканеров с достаточным разрешением и
файлового сервера большого объема с рабочими станциями,
оснащенными сканерами и соответствующим программным обеспечением
(в частности, для перевода текстовой информации из графического
вида в символьный).
Общий план работ по проекту предусматривает три этапа продолжительностью по одному году.
I этап - 1998 год.
- Приобретение, установка и запуск необходимого для первого
этапа работ оборудования:
- Три рабочие станции - Pentium 233MMX, RAM 32 Mb,
- HDD 2Gb, vRAM 4Mb, 15GLi, 100/10 Ethernet
- Два сканера планшетных HP SJ 5P
- Два принтера HP LJ 6MP
- Два накопителя на жестких дисках по 18,9 GB SCSI-3
HotSwap S.M.A.R.T.
- Устройство записи на компакт-диски CD-Writer
- Приобретение базовых программных средств распознавания текстов, представленных на различных языках.
- Тестирование программных средств, их настройка и адаптация.
- Установка в Интернет электронных каталогов и БД собственной
генерации.
- Разработка программно-технологического комплекса
предоставления полнотекстовых документов в Интернет.
- Отработка технологии формирования полнотекстовых электронных
документов в гипертекстовом виде для первоисточников, создаваемых
изначально в электронном виде.
- Отработка технологии оцифровки традиционных документов.
- Формирование начального варианта электронной библиотеки и ее
опытная эксплуатация в сети Интернет.
II этап - 1999 год.
- Приобретение, установка и запуск необходимого для второго
этапа работ оборудования:
- Сервер PII-333/RAM 256MB/SMART RAID 2
- Две рабочие станции Pentium 233MMX, RAM 32 Mb,
- HDD 2Gb, vRAM 4Mb, 15GLi, 100/10 Ethernet
- Цифровая фотокамера KODAK DC-210
- Два накопителя на жестких дисках по 18,9 GB SCSI-3
HotSwap S.M.A.R.T.
- Формирование полнотекстовой электронной библиотеки ГПНТБ СО РАН:
- сборники научных трудов и монографии ученых библиотеки
за 1999 год;
- аналитические обзоры мировой литературы по экологической
тематике ретроспективой с 1993 по 1997 гг.;
- коллекция "Пушкинская эпоха в книжных памятниках Сибирской
академической библиотеки" объемом около 15 тыс. страниц.
- Отработка технологии хранения больших массивов информации и
предоставления ее в сетевом доступе.
- Комплексная отладка и ввод в промышленную эксплуатацию системы
информационного обеспечения фундаментальных НИР СО РАН на основе сформированных
ретроспективных БД и массивов полнотекстовой информации.
- Предоставление сформированной библиотеки в сеть ИНТЕРНЕТ.
III этап - 2000 год.
- Приобретение, установка и запуск необходимого для третьего
этапа работ оборудования:
- Сканер планшетный HP SJ6100C
- Принтер HP LJ color 5
- Два накопителя на жестких дисках по 18,9 GB SCSI-3
HotSwap S.M.A.R.T.
- Доведение программного комплекса и технологии формирования и
предоставления электронной библиотеки по результатам промышленной
эксплуатации до состояния программного продукта.
- Дальнейшее расширение спектра предоставляемых источников и
пополнение имеющихся электронных каталогов, баз данных, массивов
полнотекстовой информации (около 40 тыс. страниц):
- сборники научных трудов и монографии ученых библиотеки
за 2000 год;
- аналитические обзоры мировой литературы по экологической
тематике ретроспективой с 1989 по 1992 гг.;
- коллекция "Пушкинская эпоха в книжных памятниках Сибирской
академической библиотеки" объемом около 30 тыс. страниц.
Ожидаемые к концу 1998 года результаты
Установка, запуск и освоение необходимого для первого этапа
работ оборудования.
Установка в Интернет 19 электронных каталогов и БД собственной генерации.
Сформированный начальный вариант электронной библиотеки,
состоящий из 8 сборников научных трудов ГПНТБ СО РАН, трех
монографий ученых ГПНТБ СО РАН, 10 обзоров по экологической
тематике, 30 прижизненных изданий А.С. Пушкина.
Опытная эксплуатация программно-технологического комплекса
предоставления полнотекстовых документов в Интернет.
Современное состояние имеющихся ИВТР в данной
области науки, сравнение с мировым уровнем,
наличие аналогов
В настоящее время сетевых информационных систем со сравнимыми объемами баз данных,
предоставляемых пользователям, а
также с возможностью предоставления полнотекстовой информации в больших объемах
в стране не существует.
В то же время
за рубежом использование современных информационных технологий и БД в
процессах проведения научных исследований является повседневной практикой.
Появились и первые зарубежные электронные библиотеки.
Реализация настоящего
проекта позволит создать современную информационную систему, близкую по
параметрам к зарубежным аналогам, и на примере Сибирского
региона отработать методологию и методику создания и эксплуатации электронных библиотек.
Имеющийся у коллектива задел по
предлагаемому проекту
ГПНТБ СО РАН приступила к работам по автоматизации информационного обеспечения НИР в 1981 году.
На протяжении последних 7 лет работы велись в рамках Государственных
научных программ.
К настоящему времени объемы накопленной информации
составляют более 50 Гбайт при ретроспективе от 5 до 12 лет,
количество тематических БД - свыше 130 (включая получаемые
на компакт-дисках БД всероссийских центров-генераторов -
ВИНИТИ и других, а также собственные библиографические БД с
информацией регионального характера).
В течение последних пяти лет в ГПНТБ СО РАН проводились работы по реализации
сетевых технологий обработки информации
на ПЭВМ IBM PC, включая процессы формирования, ведения и использования БД
в локальной сети NOVELL.
К настоящему времени создана типовая ИПС на базе пакета
CDS/ISIS-M.
Проводятся работы по формированию баз данных региональной информации
на ПЭВМ IBM PC.
Проведены работы по
чистке электронного каталога ГПНТБ СО РАН от ошибок ввода.
В 1995 году при финансовой поддержке фонда Сороса в Сибирском отделении РАН
проведены работы по подключению научно-исследовательских учреждений
СО РАН (в том числе и ГПНТБ СО РАН) к сети INTERNET.
В 1997 году при финансовой поддержке Миннауки России были
проведены работы по формированию Home page ГПНТБ СО РАН,
системы навигаторов по ресурсам Интернет, гипертекстовых
электронных версий некоторых печатных изданий ГПНТБ СО РАН и
адресно-справочной системы по электронным журналам, разработано
программное обеспечение и опробована первая версия автоматизированной
информационной системы предоставления
электронного каталога книг ГПНТБ СО РАН на WWW-сервере СО
РАН. В результате опытной эксплуатации разработанной системы
в течение 1997 года были выявлены достоинства и недостатки
этой пробной версии. В течение 1997 года проводились исследования по
поиску возможностей преодоления этих недостатков.
Приобретены, установлены и запущены файловый сервер и
WEB-сервер ГПНТБ СО РАН с общей дисковой дисковой памятью 24 Гб.
Приобретена, изучена и освоена программа WWW-ISIS, разработанная фирмой
BIREME, Бразилия, которая позволяет обеспечивать полный набор функций
по работе с базами данных,
поддерживаемыми информационно-поисковой системой CDS/ISIS.
Разрабатывается информационно-библиотечная системы, обеспечивающая полный
доступ к БД, разработанным в ИПС ISIS, на
основе программы WWW-ISIS.
В течение 1997 - начала 1998 гг.
проводились работы по электронной доставке документов из
отечественных (ИНИОН) и зарубежных библиотек, издательств и
информационных центров (издательство Springer, Баварская государственная
библиотека и др.) Получено через Интернет и
передано ученым Сибирского отделения через каналы связи, на
машиночитаемых носителях и твердых копиях около 2000 полных
копий статей.
Основные научные результаты работ отражены в монографии
[1] и публикациях [2 - 8].
- 1. Баженов С.Р., Бобров Л.К., Елепов Б.С., Каленов Н.Е.
Проектирование и эксплуатация региональных АСНТИ. - Новосибирск: Наука, 1991. - 174 с.
- 2. Александрова О.С., Баженов С.Р., Бобров Л.К., Каменев
В.В., Телякова Н.П. Роль сетей связи в информационной практике
крупной академической библиотеки // Автоматизация и механизация
библиотечно-библиографических процессоров. - Киев,
1989. - С. 13 - 23.
- 3. Баженов С.Р., Бобров Л.К., Медведко Л.О., Мазов Н.А.,
Соболева Е.В. Функциональное развитие АСНТИ СО АН СССР на основе
создания АРМ // Тез. докл. Международного научного симпозиума по
проблеме "Исследование эффективности информационного
обслуживания ученых на основе новых информационных технологий". -
София, 1989. - С. 107 - 115.
- 4. Баженов С.Р., Бобров Л.К., Каменев В.В., Мазов Н.А.
Архитектура и программное обеспечение системы удаленного телекоммуникационного
доступа к базам данных. // Труды 45 FID
Conference and congress. Апрель 1990, Гавана, 1990.
- 5. Новоженин А.Ф., Баженов С.Р. ввод и первичная обработка
информации при формировании электронного каталога изданий:
ГПНТБ СО РАН // Применение ЭВМ в информационно-библиотечной
технологии. - М., 1995. - с. 50-51
- 6. Артамонова Л.В., Баженов С.Р. Проблемы постобработки
результатов поиска в библиографических базах данных // Автоматизированные
библиотечно-информационные системы: YI Сиб. науч. семинар с междунар.
участием ( 1-7 июля 1996 г., г. Новосибирск ): Тез. докл. и
сообщ. - Новосибирск, 1996. - С. 149-151.
- 7. Баженов С.Р., Перегоедова Н.В., Размахнина Л.Ф., Карначук
А.В. Региональные БД ГПНТБ СО РАН по природным ресурсам и
гуманитарным проблемам // Автоматизированные библиотечно-информационные системы:
YI Сиб. науч. семинар с междунар.
участием ( 1-7 июля 1996 г., г. Новосибирск ): Тез. докл. и
сообщ . - Новосибирск, 1996. - С. 89-90.
- 8. Мазов Н.А., Жижимов О.Л., Фролов А.С., Баженов С.Р.
Создание системы открытого публичного доступа из Интернет к
распределенным библиографическим базам данных CDS/ISIS //
Библиотеки и ассоциации в меняющемся мире: новые технологии
и новые формы сотрудничества: 4-я международная конференция
"Крым-97": Материалы конференции. - Судак, 1997. - Т. 2. -
С. 482-483.
Способы предоставления разработанных
ИВТР научной общественности
Телекомуникационный доступ с использованием глобальной сети
INTERNET.
Способы предоставления информации: выходные документы могут
быть получены в электронной форме по каналам связи сразу
после завершения поиска, записаны на дискеты, компакт-диск
или пересланы по обычной почте. Кроме того, предусматривается
возможность получения твердой копии (напечатаны в режиме
Off-line и пересланы обычной почтой).
Ресурсы, необходимые для использования создаваемой системы
Предполагаемый объем информационных массивов и баз данных
суммарно достигает 150 Гбайт на жестких магнитных дисках.
Программное обеспечение предполагает использование в качестве Web-сервера
ПЭВМ типа PII-300 с ОЗУ до 256 Мбайт и НЖМД
более 100 Гбайт.
Резервное копирование будет осуществляться
на магнитоопические диски и компакт-диски.
В качестве рабочих станций планируется
использовать ПЭВМ Pentium 233MMX с ОЗУ 32 Мбайта и НЖМД 2 Гбайта.
Операционная среда - MS DOS, Windows-95, Windows NT, UNIX, сетевое программное обеспечение NOVELL,
базовый пакет прикладных программ - CDS/ISIS-M.
Программный сервер доступа к БД и информационным массивам -
WWW-ISIS.
Характеристики ИВТР
Создаваемая в рамках проекта электронная библиотека содержит
БД документального (библиографического) типа, в которых записи
по физической структуре и наполнению соответствуют принятому в стране
стандарту МЕКОФ.
В качестве обменного формата принят международный формат UNIMARC.
Записи включают полные библиографические описания, классификационные коды,
ключевые слова, рефераты и ссылки на файлы, содержащие полные
тексты документов (там где они есть).
Массивы полнотекстовой
информации состоят из файлов двух типов:
- документы,
изначально подготовленные каким-либо текстовым редактором либо
преобразованные в такой вид с помощью программ
распознавания.
- оцифрованные с помощью сканера документы, хранящиеся
в графическом виде.
Источником данных служат накопленные БД отечественных
(ВИНИТИ, ГЦНМБ и т.д.) и зарубежных (ISI, Silver Platter и
т.д.) производителей, а также электронный каталог и библиографические базы
данных собственной генерации, содержащие региональную информацию.
Суммарно предполагаемое число записей в базах данных - 26 млн.
Источником данных для полнотекстовых массивов информации служат -
сборники научных трудов и монографии ученых ГПНТБ СО РАН (объем их только за 96-98 гг.
составляет около 3000 страниц), аналитические обзоры по экологии (около 50 обзоров
общим объемом порядка 5000 страниц),
фонд Отдела редких книг и рукописей, который располагает
уникальным собранием отечественных и зарубежных книг, древнерусских рукописей,
представляющих исключительную историко-культурную ценность не только для нашего отечества, но и
для европейской и мировой культуры (около 12000 документов).
Перечень дорогостоящих программных и аппаратных средств,
которые необходимо дополнительно приобрести для успешного выполнения проекта
Сервер на базе ЭВМ PII-333/RAM 256MB/SMART RAID 2 стоимостью
30000 руб. Необходим для обеспечения одновременного доступа
к БД и полнотекстовым массивам большому количеству пользователей.
Рабочая станция - Pentium 233MMX, RAM 32 Mb, HDD 2Gb, vRAM
4Mb, 15GLi, 100/10 Ethernet (5 шт.) общей стоимостью 35000
руб. Необходимы в качестве рабочих станций при формировании
полнотекстовых массивов электронной библиотеки.
Сканер планшетный HP SJ 5P (2 шт.), сканер планшетный HP
SJ6100C, цифровая фотокамера KODAK DC-210 общей стоимостью
17800 руб. Необходимы для оцифровки изданий, не имеющих
машиночитаемых аналогов.
Накопители на жестких дисках SCSI-3 HotSwap S.M.A.R.T. (6
шт. по 18,9 GB) стоимостью 96000 руб. Необходимы для размещения баз
данных и полнотекстовых массивов информации.
Принтеры HP LJ 6MP (2 шт.) стоимостью 14000 руб. Необходимы
для изготовления твердых копий оцифрованных документов.
Принтер HP LJ color 5 стоимостью 33000 руб. Необходим для
распечатки тех документов, которые могут быть использованы
только в цветном изображении (редкие книги и древние рукописи).
Устройство записи на компакт-диски CD-Writer - 4200 руб. Необходимо
для создания резервных копий массивов полнотекстовых документов.