- Автор темы
- #1
Понимаю, что наверняка боян, но что поделаешь Только учусь парсить гугл на гесты, юзаю AGRESS Parser и Hkey Free. Пока юзаю для парсинга запросы однотипных гест: inurl:"gbook.php?a=sign", inurl:"guestbook.php?a=sign", для улучшения качества выдачи использую -"error", "error 404", -"warning" и т.п. Сейчас вот прочел о поиске новых гест:
Далее, по качеству самой базы. Как её нужно фильтровать, помимо чека на дубли ? Массовый чек на ПР и выбирать пиаристые, или есть ещё какие-то варианты фильтра ? Какого объема базы стоит добиваться для нормального выведения доров в топ ? Если найдется кто-то, кого не затруднит составить небольшую табличку соотношения количества гест в базе и их PR, чтобы вывести примерно одинаковую эффективность большего кол-ва гест с меньшим PR и меньшего кол-ва гест с большим PR, например, так:
200к гест PR 1-2
100к гест PR 3-4
30к гест PR 5-6
ну и т.д., надеюсь, мысль изложил ясно. Заранее лагодарю за ответы
Стоит ли искать новые типы гест для парсинга или можно ограничиться стандартными ? Как часто нужно обновлять базу ? Стоит ли парсить яху, мсн, альтависту и т.п., или можно ограничиться гуглом ?Где искать новые типы гестов? Обычно я использовал два метода :
1) В интернете часто распостраняются готовые гостевые книги, а раз они распостраняются значит они массовые, т.е. для всех, то есть многие их себе устанавливают на разные сайты и т.д. Просто качаешь эти гесты заливаешь на фришник и смотришь на что они оканчиваются, а потом это окончание смотришь в гугле, если большая выдача значит имеет место ее собирать, небольшая - значит эти книги не пользуются популярностью и собирать их нет особого смысла.
2)Можно искать новые типы гестов в бэках у конкурентов, все может и говорят типо некрасиво и т.д., но очень и очень многие так делают, хотя имхо лучше комбинировать первый и второй способы.
Далее, по качеству самой базы. Как её нужно фильтровать, помимо чека на дубли ? Массовый чек на ПР и выбирать пиаристые, или есть ещё какие-то варианты фильтра ? Какого объема базы стоит добиваться для нормального выведения доров в топ ? Если найдется кто-то, кого не затруднит составить небольшую табличку соотношения количества гест в базе и их PR, чтобы вывести примерно одинаковую эффективность большего кол-ва гест с меньшим PR и меньшего кол-ва гест с большим PR, например, так:
200к гест PR 1-2
100к гест PR 3-4
30к гест PR 5-6
ну и т.д., надеюсь, мысль изложил ясно. Заранее лагодарю за ответы