Yus
Гуру форума
- Регистрация
- 12 Янв 2008
- Сообщения
- 255
- Реакции
- 93
- Автор темы
- #1
Коллеги, возникла нестандартная проблема.
Нужно не просто удалить дубликаты (их я уже удалил).
Есть база 100к урлов. Она состоит из страниц сайтов. Страниц с одинаковым доменом второго уровня по 50-100.
Суть такая, нужно отсеить самые худые страницы и оставить базу на 3-5к. Требования: чтоб с каждого домена второго уровня бралась страница с самым большим PR + страницы, pr которых выше 2 включительно.
То есть, если базу чекать просто на дублирования доменов второго уровня, то получается всего 1,5к сайтов. Но когда чекаешь обычным чекером в agress parser то он берет первую попавшуюся страницу с домена, а не самую пиаристую, а все остальные отсеиваются. А хотелось бы, чтобы было скаждого сайта по самой сильной странице + все не ниже 2.
Кто-нибудь сталкивался с этим? Спасайте!
Нужно не просто удалить дубликаты (их я уже удалил).
Есть база 100к урлов. Она состоит из страниц сайтов. Страниц с одинаковым доменом второго уровня по 50-100.
Суть такая, нужно отсеить самые худые страницы и оставить базу на 3-5к. Требования: чтоб с каждого домена второго уровня бралась страница с самым большим PR + страницы, pr которых выше 2 включительно.
То есть, если базу чекать просто на дублирования доменов второго уровня, то получается всего 1,5к сайтов. Но когда чекаешь обычным чекером в agress parser то он берет первую попавшуюся страницу с домена, а не самую пиаристую, а все остальные отсеиваются. А хотелось бы, чтобы было скаждого сайта по самой сильной странице + все не ниже 2.
Кто-нибудь сталкивался с этим? Спасайте!