VIII Международная конференция по электронным публикациям "EL-Pub2003"

8 - 10 октября 2003 года, г. Новосибирск, Академгородок,
(номер государственной регистрации 0320301032)

Тезисы докладов


База средневекового французского» (BFM) и ее интеграция в корпус «Тезауруса французского языка» (FRANTEXT)

Лаврентьев А.М.

Институт филологии СО РАН (Новосибирск)

«База средневекового французского» (BFM) представляет собой корпус текстов французских литературных и деловых произведений XI – XV вв., основанный на их современных критических изданиях. В настоящее время BFM включает около 50 текстов общим объемом приблизительно 2700000 слов.

Работа над созданием Базы началась в 1989 г. под руководством профессора Высшей нормальной школы Франции К. Маркелло-Низья. Электронные версии основной массы текстов были получены путем сканирования современных изданий с последующим многократным вычитыванием. При этом использовался формат «TEXT DOS». На основе текстовых документов с помощью программы «Analyser» были созданы конкордансы. В нескольких текстах с использованием программы «SATO» была произведена морфологическая разметка (идентификация частеречной принадлежности и значений морфологических категорий).

На материале BFM были получены интересные научные результаты, касающиеся грамматикализации модальных слов (voir, espoir), квантификаторов (tres, beaucoup), вспомогательных и модальных глаголов, а также эволюции дейктической системы, выражения отрицания и порядка слов (работы К. Маркелло-Низья, Б. Комбетта и С. Прево и др.).

В то же время ряд лингвистических исследований требует привлечения материала более широкого «временного среза», чем тот, который представлен в рамках BFM. В этой связи в 2002 г. возник проект интеграции BFM в корпус FRANTEXT, создававшийся на протяжении нескольких десятилетий работы над «Тезаурусом французского языка» (TLF). Этот корпус включает более 3500 французских текстов (преимущественно литературных) XVI – XX вв.

Данный проект, в реализации которого мы принимаем участие, потребовал определенной модернизации BFM. В частности, было решено представить тексты в формате XML в соответствии с рекомендациями TEI. В тексте доклада рассмотрены некоторые проблемы, возникающие при оформлении электронных версий критических изданий средневековых французских текстов в системе XML-TEI, и предложены пути их решения.

Адреса в Интернете:

1. Лаборатория ICAR (разработчик BFM): http://gric.univ-lyon2.fr

2. Лаборатория ATILF (разработчик FRANTEXT): http://www.atilf.fr

Литература:

1. Heiden S., Guillot C. Capitalisation des savoirs par le web : une application de la TEI pour l'encodage et l'exploitation des textes de la Base de Francais Medieval // Ancien et moyen francais sur le Web : enjeux methodologiques, Ottawa, 2003.

Дополнительные материалы: HTML
Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск