Алгоритмы работы пауков (crawler) поисковых систем

Статус
В этой теме нельзя размещать новые ответы.

jabbaxatt

Добрый модератор
Регистрация
21 Янв 2009
Сообщения
902
Реакции
432
Есть где почитать, посмотреть, покрутить алгоритм краулера который обходит все страницы сайта, начиная с главной?

А так-же алгоритм краулера который переходит на внешние сайты по найденным ссылкам и умеет "обновлять" информацию - т.е. при повторном обходе вносить найденные изменения.

Такие вещи обычно пытаются писать в крупных универах технической направленности, но на них у меня выхода нет. Приветствуются любые примеры, ссылки, куски кода и алгоритмы.
 
Собственно возьми свой сайт и запусти обходчик типа xenu, PageWeight, програмку/сервис/скрипт для построения сайтмапов. когда пройдут сайт полностью проанализируй в логе порядок обхода, куда шли обращения и т.п.
 
Есть недетский вариант решения - Google Search Appliance. У китайцев даже можно этот мини-Гугл Для просмотра ссылки Войди или Зарегистрируйся, а Для просмотра ссылки Войди или Зарегистрируйся посмотреть пример препарирования)
 
Советую посмотреть модули для Perl, например WWW::Robot,LWP::RobotUA и т.д. (ищите на Для просмотра ссылки Войди или Зарегистрируйся по ключевику crawler). Также, в книге Тоби Сегаран "Программируем коллективный разум" было кое что на питоне на эту тему (пример кода или алгоритм).
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху