VIII Международная конференция по электронным публикациям "EL-Pub2003"

8 - 10 октября 2003 года, г. Новосибирск, Академгородок,
(номер государственной регистрации 0320301032)

Тезисы докладов


Распределенная модель сети Веб

Третьякевич А.А.

Алтайский государственный политехнический университет (Барнаул)

В настоящее время большой популярностью обладает группа алгоритмов информационного поиска, использующая сеть Веб в виде направленного графа. При этом вершинами графа являются Веб-страницы, а ребрами - ссылки между этими страницами. Данный граф принято называть графом Веб [1].

Алгоритмы, использующие граф Веб можно разбить на несколько групп, среди которых выделяются следующие: алгоритмы ранжирования результатов поисковых запросов; анализ графа Веб с целью выделения так называемых интернет-сообществ (группы ресурсов, связанных по какому-либо признаку); анализ графа Веб с целью оптимизации его структуры и многие другие.

Одной из основных проблем, связанных с применением данных алгоритмов, является их значительная ресурсоемкость. Типичные подграфы Веб, используемые при работе алгоритмов, имеют размеры в несколько сот миллионов страниц. Хранение и обработка таких объемов информации в рамках одной отдельной вычислительной машины крайне затруднены. В настоящее время это является основным сдерживающим фактором для использования данных алгоритмов в реальных приложениях.

Одним из вариантов решения данной проблемы является распределенная модель графа Веб. При этом каждый из ее сегментов обладает средствами по обработке, поддержанию целостности и актуальности, динамическому расширению своего содержания [2].

Формирование сегментов распределенной модели производится на основе выделения интернет-сообществ. При этом каждый сегмент содержит одну или более силносвязных компонент графа.
Данный подход к формированию сегментов обладает следующими преимуществами:

1. Поисковый запрос с большой долей вероятности будет обработан в рамках одного сегмента (или одного сегмента и сегментов, его уточняющих, что при организации действенной системы кэширования незначительно уступает первому варианту). При этом становится возможным отказаться от постоянного пересчета коэффициентов некоторых алгоритмов (как пример - алгоритм HITS). Такой подход позволяет использовать данные алгоритмы для реального ранжирования данных (за приемлемое время).

2. Динамическая балансировка загрузки сегментов. Статистика, собираемая при прохождении запросов на поиск/модификацию используется для динамического конфигурирования состава сегментов.

3. Возможность проведения анализа процессов, происходящих в графе Веб.

В докладе рассматриваются вопросы программной реализации представленной системы.

Литература

1. И. Некрестьянов, Н. Пантелеева. Системы текстового поиска для Веб. Программирование, 28(4): 207-225, 2002.

2. А. Третьякевич. Использование графа Веб для решения задач информационного поиска. Материалы конференции ИКИ-2003, 2003.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск