VIII Международная конференция по электронным публикациям "EL-Pub2003"

8 - 10 октября 2003 года, г. Новосибирск, Академгородок,
(номер государственной регистрации 0320301032)

Тезисы докладов


Автоматический анализ и представление текста

Чанышев О.Г.

Омский филиал института математики СО РАН (ОФИМ СО РАН) (Омск)

Введение

Необходимым условием автоматического индексирования текстов в рамках "Ассоциативной модели реального текста"(АМРТ) является правильное определение границ предложений. Распознавание границ предложений контекстно зависимо и влечет за собой необходимость анализа пунктуационной структуры. С другой стороны, распознавание различных фрагментов ЕЯ-текста важно для повышения "интеллекта" текстовых редакторов и расширения возможностей автоматического индексирования.

В области автоматического анализа ЕЯ-текстов формально-синтаксические методы постепенно вытесняются методами, в явной или неявной форме использующими вероятностные оценки, которые, в свою очередь, близки к методам распознавания образов.

В докладе основное внимание уделяется правилам распознавания фрагментов текста на основе первичной классификации лексем и строк. Требования к пунктуации максимально естественны. Текст может быть написан на русском и английском языках. Никакой специальной разметки не требуется. Однако полагается, что специальная текстовая (таблицы и формулы), а таже аудивизуальная информация подготавливается с помощью специализированных редакторов и в тексте могут присутствовать операторы включения специальных файлов.

В случае использования редактора WinWord пишутся специальные макросы, реализующие:

- передачу текста для обработки программам автоматического анализа и прием результатов обработки;

- представление текста в соответствии с шаблонами, определенными для наименований различных уровней, основного текста, оформления списка литературы и т.п.

Автор набирает текст, соблюдая естественные правила пунктуации и "отлаживает" его, исправляя ошибки.

Этапы анализа текста:

1. Лексический анализ. Выделяются лексемы (базовое признаковое множество); определяется тип лексем (21 тип) и тип строк (также 21 тип)

2. Определение наличия и границ списка цитируемой литературы.

3. Определение типов и границ рубрик.

4. Определение границ и состава предложений (до списка цитируемой литературы, если таковой присутствует).

5. Анализ списка цитируемой литературы и дополнение списка предложений (в данном случае предложение - библиографическое описание одного литературного источника).

6. Анализ по АМРТ: определение независимых лексем связи и их подмножества - доминантных лексем, ключевого предложения.

7. Классификация текста по тематическим классам.

8. Генерация "Содержания"

Представление текста

Текст представляет структурированная информация, содержащая:

- тематический класс (вербальное определение предметной области),

- наименование текста,

- "Содержание"

- абзац с ключевым предложением либо только ключевое предложение, если число предложений в абзаце превышает установленный предел;

- независимые лексемы связи с указанием значения обратного ранга в качестве "веса";

- ФИО цитируемых авторов и годы публикаций.

Отмечается, что объем и структура информации, получаемой в ходе анализа, достаточны для автоматического преобразования текста и его представления в форматы, производные от SGML (HTML, XML, TEI), а также в TEX-формат.

Дополнительные материалы: HTML
Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск