VIII Международная конференция по электронным публикациям "EL-Pub2003"

8 - 10 октября 2003 года, г. Новосибирск, Академгородок,
(номер государственной регистрации 0320301032)

Тезисы докладов

Файловые архивы, прокси-сервера и проблема узкого "внешнего" канала корпоративной сети

Успенский И.М.

Отдел математики(филиал,
г. Сыктывкар) ИММ УрО РАН (Сыктывкар)

В 1998 году в Коми НЦ начала работать корпоративная сеть. В тоже время был осуществлено ее подключение к глобальной сети Интернет. Быстрое развитие сети и увеличение количества пользователей довольно скоро поставило острую задачу загруженности канала.

В ходе исследования этого вопроса были выявлены следующие возможности: повысить эффективность канала можно следующими путями:

- Административный. Заключается в административном наказании в за использование сетевого соединения не по прямому назначению (CyberSlacking).

- Популяризационный. Обучение пользователей эффективному использованию служб глобальной сети и внутренних ресурсов предприятия.

- Технический. Основывается на техническом улучшении данных, передаваемых через канал.

На прикладном уровне к данному пути можно отнести

а) Удаление из запросов повторной информации. С этим справляются кэш-сервера.

б) Поиск подобной информации внутри корпоративной сети .Для этого используют файловые сервера.

в) Удаление из запросов ненужной информации или запрет доступа. Это могут быть рекламные банеры, почтовый спам, нерабочая информация и многое другое.

С целью изучения присутствия различных типов данных в общем трафике было проведено исследование[6]. В результате него было установлено, что объем архивной(т.е архивы, инсталляционные программы и т.п.). информации находиться в пределах от 50 до 200М , в неделю что составляет примерно от 4 до 16% общего трафика. Причем в основном данный трафик приходится на пик запросов пользователей, что еще больше усложняет работу канала ( с учетом пакетов, которые не доходят до пользователя из-за перегрузки канала).

Была предложена идея об использовании файловых серверов как некий внешний кэш-сервер. При этом о самих архивах должна быть накоплена информация, которая позволит пользователям самим выбирать те программы, которые им нужны или похожие. В ходе исследований была разработана общая схема структуры БД. Основой ее является список ссылок на программы. Техническая часть содержит в себе техническую информацию о файле, такие как объем, хеш-суммы, дата поступления. Информационная часть содержит сведения о файле, в понятном для человеческого восприятия , виде. Каталожная часть содержит информацию о той области знаний, который отвечает действиям этой программы. Поисковая часть позволяет соотнести локальные файлы с их копиями в Интернете и ускорить время ответа на вопрос, можно ли перенаправить внешний запрос на внутренние источники информации.

При создании системы автор столкнулся с решением следующих задач.

Первая - каким образом файлы можно идентифицироваться однозначно. Наиболее надежным способом на данный момент автор счел получение небольшой части файла и создание сигнатур. В этом случае можно использовать hash-функции, как например md5 или sha1. Эти сигнатуры сравниваются с теми, что записаны в базе данных. Возникает вопрос, каким образом определять размер такой части. Приемлемым размером части файла на загруженном канале, по-видимому будет являться пакет с объемом от 256 до 1500 байт ( с учетом размера одного пакета при передаче данных). В ходе исследования вопроса было установлено, что наилучшей часть, с которой можно брать сигнатуру, будет отрезок, начинающийся с 2/3 файла.

Вторая проблема - описание содержимого файла и классификация его. Оно необходимо как для поиска, так и предоставления пользователю как можно больше данных об архиве. Наиболее распространенный и трудоемкий способ - это описание каждого архива администратором файл-сервера. Другой вариант - дать высказаться самим пользователям. Иногда эти варианты используются совместно.

Еще одна задача - взаимодействие между файловым сервером и кэш-сервером. Первоначально для него рассматривалась возможность использования программы, перенаправляющей запросы. Указание на нее можно поместить в конфигурацию кэш-сервера, и, следовательно, не трогать саму кэш-программу. Однако, при более внимательном изучении документации, был обнаружен более функциональный способ - использования ICP +Proxy-протокола. Это дает более гибкий подход к обслуживанию запросов и их переброски с внешних ресурсов на внутренний файл-сервер и, кроме того, быть в меньшей зависимости от типа операционной системы. Данный способ позволяет использовать несколько файл-серверов независимо друг от друга.

В настоящее время схема проходит апробацию с целью накопления статистических данных с последующим изучения эффективности ее использования. Дополнительную информацию и сам программный комплекс можно найти по адресу http://storage.komisc.ru

Презентация доклада находится здесь.

Дополнительные материалы: HTML
Примечание. Тезисы докладов публикуются в авторской редакции

Ваши комментарии
Обратная связь

[Головная страница]
[Конференции]