Дипломная работа (ВКР) — бакалавр, специалист на тему Проектирование и реализация распределенного обхода и анализа содержимого глубокой сети.
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Введи почту и скачай архив со всеми файлами
Ссылку для скачивания пришлем
на указанный адрес электронной почты
Содержание:
Введение:
Веб-поисковые системы
и некоторые другие веб-сайты используют программное обеспечение
для обхода веб-страниц или создания пауков для обновления своего веб-контента или
индексов веб-контента других сайтов. Веб-сканеры копируют страницы для
обработки поисковой системой, которая индексирует загруженные страницы, чтобы
пользователи могли искать более эффективно.
Сканеры
потребляют ресурсы в посещаемых системах и часто посещают неперспективные
сайты. При обращении к большим коллекциям страниц возникают проблемы с
расписанием, загрузкой и "вежливостью". Для общедоступных
сайтов, не желающих обходиться обходом, существуют механизмы, позволяющие
сообщить об этом сканирующему агенту. Количество интернет-страниц
чрезвычайно велико; даже самые крупные сканеры не могут составить полный
индекс. Сегодня соответствующие результаты даются практически мгновенно.
Сканеры
могут проверять гиперссылки и HTML-код,
использоваться для очистки
веб-страниц и программирования на основе данных.
Веб-сканер
начинается со списка URL-адресов
для посещения. Эти первые URL-адреса называются семенами. Когда
искатель посещает эти URL-адреса, связываясь с веб-серверами,
которые отвечают на эти URL-адреса, он идентифицирует все гиперссылки на
извлеченных веб-страницах и добавляет их в список URL-адресов для посещения,
называемый границей
обхода. URL-адреса с границы рекурсивно посещаются
в соответствии с набором политик. Если искатель выполняет архивирование
веб-сайтов (или веб-архивирование),
он копирует и сохраняет информацию по мере ее поступления. Архивы обычно
хранятся таким образом, что их можно просматривать, читать и перемещаться по
ним, как если бы они находились в реальном времени, но сохраняются как
"моментальные снимки"[5].
Архив
известен как репозиторий и предназначен для хранения и
управления коллекцией веб-страниц. В репозитории хранятся только HTML-страницы,
и эти страницы хранятся как отдельные файлы. Репозиторий похож на любую
другую систему, которая хранит данные, например современную базу
данных. Единственное отличие состоит в том, что репозиторию не нужна вся
функциональность, предлагаемая системой баз данных. В репозитории хранится
самая последняя версия веб-страницы, полученная сканером.[6]
Большой
объем означает, что искатель может загрузить только ограниченное количество
веб-страниц в течение заданного времени, поэтому ему необходимо расставить
приоритеты- своих загрузок. Высокая скорость изменений может означать, что
страницы уже были обновлены или даже удалены.
Количество
возможных URL-адресов, генерируемых серверным программным обеспечением, также
затрудняет поиск дубликатов
контента веб-сканерами. Существуют
бесконечные комбинации параметров HTTP GET (URL-based),
из которых только небольшая выборка фактически возвращает уникальный
контент. Например, простая онлайн-фотогалерея может предложить
пользователям три варианта, как указано в параметрах HTTP GET
в URL-адресе. Если существует четыре способа сортировки изображений, то
три варианта размер миниатюр,
два формата файлов и возможность отключения пользовательского контента
позволяют получить доступ к одному и тому же набору контента с помощью 48
различных URL-адресов, все из которых могут быть связаны на
сайте. Эта математическая комбинация создает проблему
для сканеров, поскольку они должны перебирать бесконечные комбинации
относительно незначительных изменений сценария, чтобы получить уникальный
контент.
Объект исследования в работе составляют
процессы разработки и настройки веб-краулеров для анализа информации на
веб-сайтах.
Предмет исследования — процесс работы веб-краулера.
Цель исследования состоит в обзоре средств
разработки веб-краулеров, определении оптимального набора программ для
разработки и тестирования веб-краулера, практической оценке работы краулера на
реальных сайтах.
Задачи работы:
1. Выбор средства разработки веб-краулера
2. Разработка алгоритма работы веб-краулера
3. Разработка и тестирование веб-краулера
4. Сравнение
эффективности разработанного веб-краулера с существующими аналогами
Заключение:
Краулинг (сканирование) сайта – процесс, в ходе которого происходит обнаружение поисковым роботом
(краулером) новых или обновленных страниц для последующего добавления в индекс
поисковика. Это начальный этап, на котором производится сбор данных для
внутренней обработки. Однако отсканированная страница не всегда попадает в
индекс.
Поисковый робот (краулер) представляет собой программу для сбора контента в
сети. Его мощности хватает, чтобы запрашивать тысячи страниц одновременно:
Функции краулера:
· Проверка и
сравнение URL-адресов, собранных для сканирования, с теми URL-адресами, которые
уже имеются в индексе;
· Удаляет дубликаты
в очереди для предупреждения повторного скачивания страницы;
· Отправляет на
переиндексацию обновленные страницы для предоставления новых результатов.
Разный контент роботы обходят в определенной последовательности. Например,
в Google основной поисковый бот – Googlebot, сканирование новостей выполняет
Googlebot News, с изображениями работает Googlebot Images, для сканирования
видео предназначен Googlebot Video.
В
новых программах для скрытого изучения сайтов используются следующие техники:
· Распределенный
краулинг с нескольких IP и в течение нескольких сессий, отделенных друг от
друга по времени. Это делается для того, чтобы с одного IP или в течение одной
сессии не выкачивать весь сайт целиком, потому что такое поведение выглядит
ненормально.
· Краулинг
сайта не по набору ссылок, а по определенным маршрутам, как это делают люди.
· Использование
доступной статистики по сайту.
· Динамическая
генерация фальшивых заходов с Google на страницы в глубине сайта. Генерация
фальшивых заходов осуществляется на основе контента целевых страниц.
· Интеллектуальный
выбор прокси-серверов с учетом страны и типа веб-сайта.
· Случайный
выбор ссылок и перекрывание маршрутов краулинга для большей реалистичности.
· Фильтрация
ссылок по популярности.
· Эскалация
международного трафика.
Использование
всех вышеперечисленных техник позволяет практически полностью замаскировать
факт автоматического скачивания сайта. Веб-мастеру очень трудно будет
заподозрить присутствие программы. Возможная последующая хакерская атака с
использованием обнаруженных уязвимостей станет для него полной неожиданностью.
Фрагмент текста работы:
Глава 1 Глубокие
веб-данные и динамические
веб-краулеры
1.1. Концепция веб-краулеров
Учитывая
нынешний размер Интернета, даже крупные поисковые системы охватывают лишь часть
общедоступной части. Исследование показывает, что крупномасштабные поисковые системы
индексируют не более 40-70% индексируемой сети; предыдущее исследование Стива
Лоуренса и Ли
Джайлза показало, что ни одна поисковая
система не индексировала более 16%
Сети. из веб-страниц крайне
желательно, чтобы загруженная часть содержала наиболее релевантные страницы, а
не просто случайную выборку из Интернета.
Для
этого требуется метрика важности для определения приоритетов
веб-страниц. Важность страницы зависит от ее внутреннего качества,
популярности с точки зрения ссылок или посещений и даже от ее URL-адреса
(последнее относится к вертикальным
поисковым системам, ограниченным одним доменом
верхнего уровня, или к поисковым системам,
ограниченным фиксированным веб-сайтом). Разработка хорошей политики выбора
имеет дополнительную трудность: она должна работать с частичной информацией,
так как полный набор веб-страниц не известен во время обхода.
Junghoo
Cho et al. провели первое исследование политики планирования
обхода. Их набор данных представлял собой обход stanford.edu
домена на 180000 страниц, в котором имитация обхода
выполнялась с использованием различных стратегий.[11] Проверенными
метриками упорядочения были ширина,
количество обратных ссылок
и частичные вычисления PageRank. Один
из выводов состоял в том, что если искатель хочет загрузить страницы с высоким
Pagerank на ранней стадии процесса обхода, то лучше использовать стратегию
частичного Pagerank, за которой следуют ширина и количество обратных
ссылок. Однако эти результаты относятся только к одному домену. Чо
также написал свою докторскую диссертацию в Стэнфорде о ползании по Сети.[12]
Наджорк
и Винер выполнили фактический обход 328 миллионов страниц, используя порядок в
ширину.[13] Они
обнаружили, что обход в ширину захватывает страницы с высоким Pagerank в начале
обхода (но они не сравнивали эту стратегию с другими стратегиями). Авторы
объясняют этот результат тем, что "наиболее важные страницы имеют много
ссылок на них с многочисленных хостов, и эти ссылки будут найдены рано,
независимо от того, на каком хосте или странице происходит обход".
Abiteboul
разработал стратегию обхода, основанную на алгоритме OPIC
(On-line Page Importance Calculation).[14] В
OPIC каждой странице дается начальная сумма "наличных", которая
распределяется поровну между страницами, на которые она указывает. Это
похоже на вычисление PageRank, но оно быстрее и выполняется только за один
шаг. Краулер, управляемый OPIC, сначала загружает страницы на границе
сканирования с большим количеством "наличных
денег". Эксперименты проводились на 100 000-страничном синтетическом
графике со степенным распределением входящих ссылок. Однако не было
никакого сравнения ни с другими стратегиями, ни с экспериментами в реальной
Сети.
Boldi et
al. использовали моделирование на подмножествах Сети из 40 миллионов
страниц из .itдомена и 100
миллионов страниц из обхода WebBase, тестируя сначала ширину против глубины,
случайное упорядочение и всеведущую стратегию. Сравнение было основано на
том, насколько хорошо PageRank, вычисленный при частичном обходе, приближается
к истинному значению PageRank. Удивительно, но некоторые визиты, которые
накапливают PageRank очень быстро (в первую очередь, width-first и всеведущий
визит), дают очень плохие прогрессивные аппроксимации.[15][16]
Baeza-Yates et
al. использовали моделирование на двух подмножествах Web из 3
миллионов страниц из .gr.cl домена
and, протестировав несколько стратегий обхода.[17] Они
показали, что как стратегия OPIC, так и стратегия, использующая длину очередей
для каждого сайта, лучше, чем сканирование в ширину,
и что также очень эффективно использовать предыдущий обход,
когда он доступен, для руководства текущим.
Daneshpajouh
и др. разработали алгоритм на основе сообщества для
обнаружения хороших семян. [18] Их
метод сканирует веб-страницы с высоким PageRank из разных сообществ за меньшее
количество итераций по сравнению с обходом, начиная со случайных семян. С
помощью этого нового метода можно извлечь хорошее семя из ранее сканированного
веб-графика. Используя эти семена, новый обход может быть очень
эффективным.