«База средневекового французского» (BFM) представляет собой корпус текстов французских литературных и деловых произведений XI – XV вв., основанный на их современных критических изданиях. В настоящее время BFM включает около 50 текстов общим объемом приблизительно 2700000 слов.
Работа над созданием Базы началась в 1989 г. под руководством профессора Высшей нормальной школы Франции К. Маркелло-Низья. Электронные версии основной массы текстов были получены путем сканирования современных изданий с последующим многократным вычитыванием. При этом использовался формат «TEXT DOS». На основе текстовых документов с помощью программы «Analyser» были созданы конкордансы. В нескольких текстах с использованием программы «SATO» была произведена морфологическая разметка (идентификация частеречной принадлежности и значений морфологических категорий).
На материале BFM были получены интересные научные результаты, касающиеся грамматикализации модальных слов (voir, espoir), квантификаторов (tres, beaucoup), вспомогательных и модальных глаголов, а также эволюции дейктической системы, выражения отрицания и порядка слов (работы К. Маркелло-Низья, Б. Комбетта и С. Прево и др.).
В то же время ряд лингвистических исследований требует привлечения материала более широкого «временного среза», чем тот, который представлен в рамках BFM. В этой связи в 2002 г. возник проект интеграции BFM в корпус FRANTEXT, создававшийся на протяжении нескольких десятилетий работы над «Тезаурусом французского языка» (TLF). Этот корпус включает более 3500 французских текстов (преимущественно литературных) XVI – XX вв.
Данный проект, в реализации которого мы принимаем участие, потребовал определенной модернизации BFM. В частности, было решено представить тексты в формате XML в соответствии с рекомендациями TEI. В тексте доклада рассмотрены некоторые проблемы, возникающие при оформлении электронных версий критических изданий средневековых французских текстов в системе XML-TEI, и предложены пути их решения.
Адреса в Интернете:
1. Лаборатория ICAR (разработчик BFM): http://gric.univ-lyon2.fr
2. Лаборатория ATILF (разработчик FRANTEXT): http://www.atilf.fr
Литература:
1. Heiden S., Guillot C. Capitalisation des savoirs par le web : une application de la TEI pour l'encodage et l'exploitation des textes de la Base de Francais Medieval // Ancien et moyen francais sur le Web : enjeux methodologiques, Ottawa, 2003.
Дополнительные материалы: | HTML |
Ваши комментарии Обратная связь |
[Головная страница] [Конференции] |
© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск