yacy - децентрализованный поисковик

thoth777

Гуру форума
Регистрация
28 Ноя 2008
Сообщения
302
Реакции
98
Оказывается, давно существует и успешно развивается децентрализованный поисковичок
по статистике на их сайте, проиндексировано порядка 1.4 миллиардов документов, и число их растет.

Каждый пользователь, устанавливая себе поисковичок, участвует в индексировании и обмене информацией. Инфа распределяется по принципу децентрализованной сети.

Есть возможность указать для индексации список определенных ресурсов.

Сама софтинка писана на яве и работает под управлением разных осей - винды, никсов. Из интересностей - есть API, через него можно отправлять запросы и парсить ответы.

Кто-нить юзал сие чудо?
 
Оказывается, давно существует и успешно развивается децентрализованный поисковичок *** скрытое содержание ***
Есть возможность указать для индексации список определенных ресурсов.
 
Если честно, то я так и не понял что такое "децентрализованный поисковичок" и как его реально можно использовать.
 
Если честно, то я так и не понял что такое "децентрализованный поисковичок" и как его реально можно использовать.

децентрализованный - означает что информация, собранная пауками, хранится не на каком-то определенном сервере, а на множестве пользовательских серверов.
и сами пауки запускаются пользователями.
то есть: человек устанавливает на свой комп софтину, а далее она: гуляет по указанным пользователем сайтам и индексирует их, собирая в локальную базу.
серверы общаются друг с другом так же, как это происходит в сети Kademlia ( )

соответственно, запрос от одного из компов обрабатывается другими участниками, и на основе этого формируется выдача.

кто искал что-то в emule через kad, поймет как это работает.

вот еще годная статья на эту тему:


теперь о применении.
первое, что приходит в голову - то, что поисковики намеренно удаляют некоторые сайты из индекса - что гоша, что яша.
некоторые ресурсы фиг найдешь.
второе, следующее из принципа работы. так как пользователь сам формирует индекс, есть отличная возможность заполучить какое-то кол-во посетителей на свой сайт - просто проиндексировав его своим поисковиком.
третье, yacy может индексировать как внешние ресурсы, так и внутренние (при этом наружу информацию об этом не отдает). так можно заполучить полностью бесплатный поиск для собственных нужд.

yacy умеет индексить не только html, doc,pdf, графику, флэш, но и такие вещи как .torrent файлы, выдергивая оттуда информацию о содержимом. а это уже большое дело. к примеру, если какой-то трекер (допустим, те же пираты) проиндексирован вместе с контентом, то yacy позволит найти раздачу, в которой есть определенный файл (если я правильно понял)

Добавлено через 3 минуты
а еще в гугле есть практика удалять из результатов поиска страницы, на которые идут жалобы от правообладателей. ни разу не видели сообщения об исключенных страницах?
опять-таки, если говорите про поиск на определенном сайте: да, он есть, но, прежде чем поискать на этом сайте, надо знать о его существовании.


в сеошных целях так же можно использовать этот поисковик
к примеру, натравил робота на группу сайтов, потом дергаешь из них контент по определенным запросам. и никто не забанит по айпу, и никто не попросит ввести капчу!
с учетом того, что есть API к Yacy, эта задача решается "на ура".
 
Назад
Сверху