Minoza парсер, который использует Google и VK.
Оба проекта к сожалению умершие. Хотя DataPark Search попробую поковырять...
Sphider не умерший... Но есть там, да в самой идее нюансы. Из личного опыта...
Года полтора тому я индексил Sphider'ом чуть больше 12 000 страниц по своим сплогам и сателлитам - получилась база 121 Мб. Первичная индексация шла около 7 часов с локального апача, чтобы не грузить виртуал, где все это стояло, потом заливал всю базу на хост Dumper'ом.
Проблема в том, что сей скрипт в дефолтном варианте не позволяет делать выборочную индексацию по крону, что сводит его полезность чуть ли не к нулю... Ведь не все нужно индексировать каждый день/час/неделю... А что-то и вообще никогда не меняется. Вот если ставить в реиндекс только то, что действительно необходимо, и грамотно разнести задания в кроне, то такую нагрузку потянет даже любой нормальный виртуал с большим лимитом трафа.
Вопрос еще и о планируемой области примения. ИМХО это имеет смысл, если есть 100-200-300 своих блогов или много небольших своих ресурсов, для очень узкого тематического поиска и(или) в небольшом регионе, где будут только интересные с твоей точки зрения сайты и т.п. Тогда тут есть такие плюсы, как показ собственной рекламы, в выдаче гарантированно будет то, что тебе надо, и т.д. Хотя, конечно, ширшина охвата такого поисковика напрямую зависит от того железа, на которое готовы раскошелиться. О конкуренции с монстрами речи, естественно, не идет...