Необходимым условием автоматического индексирования текстов в рамках "Ассоциативной модели реального текста"(АМРТ) является правильное определение границ предложений. Распознавание границ предложений контекстно зависимо и влечет за собой необходимость анализа пунктуационной структуры. С другой стороны, распознавание различных фрагментов ЕЯ-текста важно для повышения "интеллекта" текстовых редакторов и расширения возможностей автоматического индексирования.
В области автоматического анализа ЕЯ-текстов формально-синтаксические методы постепенно вытесняются методами, в явной или неявной форме использующими вероятностные оценки, которые, в свою очередь, близки к методам распознавания образов.
В докладе основное внимание уделяется правилам распознавания фрагментов текста на основе первичной классификации лексем и строк. Требования к пунктуации максимально естественны. Текст может быть написан на русском и английском языках. Никакой специальной разметки не требуется. Однако полагается, что специальная текстовая (таблицы и формулы), а таже аудивизуальная информация подготавливается с помощью специализированных редакторов и в тексте могут присутствовать операторы включения специальных файлов.
В случае использования редактора WinWord пишутся специальные макросы, реализующие:
- передачу текста для обработки программам автоматического анализа и прием результатов обработки;
- представление текста в соответствии с шаблонами, определенными для наименований различных уровней, основного текста, оформления списка литературы и т.п.
Автор набирает текст, соблюдая естественные правила пунктуации и "отлаживает" его, исправляя ошибки.
1. Лексический анализ. Выделяются лексемы (базовое признаковое множество); определяется тип лексем (21 тип) и тип строк (также 21 тип)
2. Определение наличия и границ списка цитируемой литературы.
3. Определение типов и границ рубрик.
4. Определение границ и состава предложений (до списка цитируемой литературы, если таковой присутствует).
5. Анализ списка цитируемой литературы и дополнение списка предложений (в данном случае предложение - библиографическое описание одного литературного источника).
6. Анализ по АМРТ: определение независимых лексем связи и их подмножества - доминантных лексем, ключевого предложения.
7. Классификация текста по тематическим классам.
8. Генерация "Содержания"
Текст представляет структурированная информация, содержащая:
- тематический класс (вербальное определение предметной области),
- наименование текста,
- "Содержание"
- абзац с ключевым предложением либо только ключевое предложение, если число предложений в абзаце превышает установленный предел;
- независимые лексемы связи с указанием значения обратного ранга в качестве "веса";
- ФИО цитируемых авторов и годы публикаций.
Отмечается, что объем и структура информации, получаемой в ходе анализа, достаточны для автоматического преобразования текста и его представления в форматы, производные от SGML (HTML, XML, TEI), а также в TEX-формат.