Алгоритмы работы пауков (crawler) поисковых систем

Тема в разделе "ASM, С/С++, Delphi, Java", создана пользователем jabbaxatt, 1 июл 2013.

Статус темы:
Закрыта.
  1. jabbaxatt

    jabbaxatt Добрый модератор

    Moderator
    Регистр.:
    21 янв 2009
    Сообщения:
    879
    Симпатии:
    414
    Есть где почитать, посмотреть, покрутить алгоритм краулера который обходит все страницы сайта, начиная с главной?

    А так-же алгоритм краулера который переходит на внешние сайты по найденным ссылкам и умеет "обновлять" информацию - т.е. при повторном обходе вносить найденные изменения.

    Такие вещи обычно пытаются писать в крупных универах технической направленности, но на них у меня выхода нет. Приветствуются любые примеры, ссылки, куски кода и алгоритмы.
     
  2. _sergey_

    _sergey_ Писатель

    Регистр.:
    1 окт 2008
    Сообщения:
    1.744
    Симпатии:
    1.155
    Собственно возьми свой сайт и запусти обходчик типа xenu, PageWeight, програмку/сервис/скрипт для построения сайтмапов. когда пройдут сайт полностью проанализируй в логе порядок обхода, куда шли обращения и т.п.
     
    jabbaxatt нравится это.
  3. gres_18

    gres_18 Pythonобандерівець®

    Регистр.:
    26 апр 2009
    Сообщения:
    407
    Симпатии:
    206
    Есть недетский вариант решения - Google Search Appliance. У китайцев даже можно этот мини-Гугл скачать, а на Хабре посмотреть пример препарирования)
     
    Compressor, jabbaxatt и _sergey_ нравится это.
  4. gothmog

    gothmog Постоялец

    Регистр.:
    18 июн 2011
    Сообщения:
    60
    Симпатии:
    24
    Советую посмотреть модули для Perl, например WWW::Robot,LWP::RobotUA и т.д. (ищите на http://search.cpan.org/ по ключевику crawler). Также, в книге Тоби Сегаран "Программируем коллективный разум" было кое что на питоне на эту тему (пример кода или алгоритм).
     
    jabbaxatt нравится это.
Статус темы:
Закрыта.