tomcat
Постоялец
- Регистрация
- 14 Сен 2006
- Сообщения
- 65
- Реакции
- 33
Самое плохое в приобретении или самостоятельном парсинге то, что большая часть урлов окажутся нерабочими или каталога статей там уже нет, или добавленные статьи не публикуются. Недавно собрал все имеющиеся базы, с этого форума, с Сеарченжинса, еще из нескольких мест, сам напарсил по признакам популярных движков... Результат, после убирания дубликатов - 1800 адресов. Проверяю каждый адрес вручную (проверил где-то четверть) - мест, где реально что-то можно опубликовать - около десяти. Вот такой нерадостный результат.
Все вышенаписанное относится к русскоязычным базам.
Все вышенаписанное относится к русскоязычным базам.