Есть ли способ прочекать базу на дубликаты (специфично)!

Статус
В этой теме нельзя размещать новые ответы.

Yus

Гуру форума
Регистрация
12 Янв 2008
Сообщения
255
Реакции
93
Коллеги, возникла нестандартная проблема.
Нужно не просто удалить дубликаты (их я уже удалил).

Есть база 100к урлов. Она состоит из страниц сайтов. Страниц с одинаковым доменом второго уровня по 50-100.

Суть такая, нужно отсеить самые худые страницы и оставить базу на 3-5к. Требования: чтоб с каждого домена второго уровня бралась страница с самым большим PR + страницы, pr которых выше 2 включительно.

То есть, если базу чекать просто на дублирования доменов второго уровня, то получается всего 1,5к сайтов. Но когда чекаешь обычным чекером в agress parser то он берет первую попавшуюся страницу с домена, а не самую пиаристую, а все остальные отсеиваются. А хотелось бы, чтобы было скаждого сайта по самой сильной странице + все не ниже 2.

Кто-нибудь сталкивался с этим? Спасайте!
 
а олсабом нельзя воспользоваться для этого разьве?
 
чекнуть все страницы на ПР и в таблице отсечь все, что ниже двух??
 
чекнуть все страницы на ПР и в таблице отсечь все, что ниже двух??

Так дело как раз в том, что некоторые сайты могут вообще не содержать страниц с pr2. А нужно, чтобы было в базе на выходе по самой сильно странице с КАЖДОГО сайта + все пиаристые выше 2.
 
Разбей базу на меньше 2 и от 2 выше. Обе прогони на дубли. Объедини и снова прогони на дубли.
 
А разве для этого дела не подойдет хрумер+хрефер?
 
Так дело как раз в том, что некоторые сайты могут вообще не содержать страниц с pr2. А нужно, чтобы было в базе на выходе по самой сильно странице с КАЖДОГО сайта + все пиаристые выше 2.
Так чтобы на выходе была страница с каждого сайта, ее сперва нужно добавить в базу? Или я чего то не понимаю?
Делай алсабом сперва чекай всю базу на ПР например от 1PR, переносишь это в новую базу, можно разбить и по ПР потом базу с каждым ПР1 ПР2 ПР3 ПР4.... чекаешь на дубли доменов и вот уникальная база, разве не так?
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху