Алгоритмы работы пауков (crawler) поисковых систем

jabbaxatt · 1 Июл 2013

Есть где почитать, посмотреть, покрутить алгоритм краулера который обходит все страницы сайта, начиная с главной?

А так-же алгоритм краулера который переходит на внешние сайты по найденным ссылкам и умеет "обновлять" информацию - т.е. при повторном обходе вносить найденные изменения.

Такие вещи обычно пытаются писать в крупных универах технической направленности, но на них у меня выхода нет. Приветствуются любые примеры, ссылки, куски кода и алгоритмы.

_sergey_ · 1 Июл 2013

Собственно возьми свой сайт и запусти обходчик типа xenu, PageWeight, програмку/сервис/скрипт для построения сайтмапов. когда пройдут сайт полностью проанализируй в логе порядок обхода, куда шли обращения и т.п.

gres_18 · 1 Июл 2013

Есть недетский вариант решения - Google Search Appliance. У китайцев даже можно этот мини-Гугл Для просмотра ссылки Войди или Зарегистрируйся, а Для просмотра ссылки Войди или Зарегистрируйся посмотреть пример препарирования)

gothmog · 5 Июл 2013

Советую посмотреть модули для Perl, например WWW::Robot,LWP::RobotUA и т.д. (ищите на Для просмотра ссылки Войди или Зарегистрируйся по ключевику crawler). Также, в книге Тоби Сегаран "Программируем коллективный разум" было кое что на питоне на эту тему (пример кода или алгоритм).

Алгоритмы работы пауков (crawler) поисковых систем

jabbaxatt

Добрый модератор

_sergey_

Писатель

gres_18

Pythonобандерівець®

gothmog

Постоялец