В 1998 году в Коми НЦ начала работать корпоративная сеть. В тоже время был осуществлено ее подключение к глобальной сети Интернет. Быстрое развитие сети и увеличение количества пользователей довольно скоро поставило острую задачу загруженности канала.
В ходе исследования этого вопроса были выявлены следующие возможности: повысить эффективность канала можно следующими путями:
На прикладном уровне к данному пути можно отнести
а) Удаление из запросов повторной информации. С этим справляются кэш-сервера.
б) Поиск подобной информации внутри корпоративной сети .Для этого используют файловые сервера.
в) Удаление из запросов ненужной информации или запрет доступа. Это могут быть рекламные банеры, почтовый спам, нерабочая информация и многое другое.
С целью изучения присутствия различных типов данных в общем трафике было проведено исследование[6]. В результате него было установлено, что объем архивной(т.е архивы, инсталляционные программы и т.п.). информации находиться в пределах от 50 до 200М , в неделю что составляет примерно от 4 до 16% общего трафика. Причем в основном данный трафик приходится на пик запросов пользователей, что еще больше усложняет работу канала ( с учетом пакетов, которые не доходят до пользователя из-за перегрузки канала).
Была предложена идея об использовании файловых серверов как некий внешний кэш-сервер. При этом о самих архивах должна быть накоплена информация, которая позволит пользователям самим выбирать те программы, которые им нужны или похожие. В ходе исследований была разработана общая схема структуры БД. Основой ее является список ссылок на программы. Техническая часть содержит в себе техническую информацию о файле, такие как объем, хеш-суммы, дата поступления. Информационная часть содержит сведения о файле, в понятном для человеческого восприятия , виде. Каталожная часть содержит информацию о той области знаний, который отвечает действиям этой программы. Поисковая часть позволяет соотнести локальные файлы с их копиями в Интернете и ускорить время ответа на вопрос, можно ли перенаправить внешний запрос на внутренние источники информации.
При создании системы автор столкнулся с решением следующих задач.
Первая - каким образом файлы можно идентифицироваться однозначно. Наиболее надежным способом на данный момент автор счел получение небольшой части файла и создание сигнатур. В этом случае можно использовать hash-функции, как например md5 или sha1. Эти сигнатуры сравниваются с теми, что записаны в базе данных. Возникает вопрос, каким образом определять размер такой части. Приемлемым размером части файла на загруженном канале, по-видимому будет являться пакет с объемом от 256 до 1500 байт ( с учетом размера одного пакета при передаче данных). В ходе исследования вопроса было установлено, что наилучшей часть, с которой можно брать сигнатуру, будет отрезок, начинающийся с 2/3 файла.
Вторая проблема - описание содержимого файла и классификация его. Оно необходимо как для поиска, так и предоставления пользователю как можно больше данных об архиве. Наиболее распространенный и трудоемкий способ - это описание каждого архива администратором файл-сервера. Другой вариант - дать высказаться самим пользователям. Иногда эти варианты используются совместно.
Еще одна задача - взаимодействие между файловым сервером и кэш-сервером. Первоначально для него рассматривалась возможность использования программы, перенаправляющей запросы. Указание на нее можно поместить в конфигурацию кэш-сервера, и, следовательно, не трогать саму кэш-программу. Однако, при более внимательном изучении документации, был обнаружен более функциональный способ - использования ICP +Proxy-протокола. Это дает более гибкий подход к обслуживанию запросов и их переброски с внешних ресурсов на внутренний файл-сервер и, кроме того, быть в меньшей зависимости от типа операционной системы. Данный способ позволяет использовать несколько файл-серверов независимо друг от друга.
В настоящее время схема проходит апробацию с целью накопления статистических данных с последующим изучения эффективности ее использования. Дополнительную информацию и сам программный комплекс можно найти по адресу http://storage.komisc.ru
Презентация доклада находится здесь.
Дополнительные материалы: | HTML |
Ваши комментарии Обратная связь |
[Головная страница] [Конференции] |
© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск