Есть ли способ прочекать базу на дубликаты (специфично)!

Yus · 1 Авг 2008

Коллеги, возникла нестандартная проблема.
Нужно не просто удалить дубликаты (их я уже удалил).

Есть база 100к урлов. Она состоит из страниц сайтов. Страниц с одинаковым доменом второго уровня по 50-100.

Суть такая, нужно отсеить самые худые страницы и оставить базу на 3-5к. Требования: чтоб с каждого домена второго уровня бралась страница с самым большим PR + страницы, pr которых выше 2 включительно.

То есть, если базу чекать просто на дублирования доменов второго уровня, то получается всего 1,5к сайтов. Но когда чекаешь обычным чекером в agress parser то он берет первую попавшуюся страницу с домена, а не самую пиаристую, а все остальные отсеиваются. А хотелось бы, чтобы было скаждого сайта по самой сильной странице + все не ниже 2.

Кто-нибудь сталкивался с этим? Спасайте!

morfeus · 2 Авг 2008

а олсабом нельзя воспользоваться для этого разьве?

swed · 2 Авг 2008

чекнуть все страницы на ПР и в таблице отсечь все, что ниже двух??

Yus · 3 Авг 2008

swed написал(а):
чекнуть все страницы на ПР и в таблице отсечь все, что ниже двух??

Так дело как раз в том, что некоторые сайты могут вообще не содержать страниц с pr2. А нужно, чтобы было в базе на выходе по самой сильно странице с КАЖДОГО сайта + все пиаристые выше 2.

Wint-b · 3 Авг 2008

Разбей базу на меньше 2 и от 2 выше. Обе прогони на дубли. Объедини и снова прогони на дубли.

Yus · 4 Авг 2008

Wint-b написал(а):
Разбей базу на меньше 2 и от 2 выше. Обе прогони на дубли. Объедини и снова прогони на дубли.

При этой схеме всеже не все домены будут задействованы!

duremar · 4 Авг 2008

А разве для этого дела не подойдет хрумер+хрефер?

alex-bot · 6 Авг 2008

Так дело как раз в том, что некоторые сайты могут вообще не содержать страниц с pr2. А нужно, чтобы было в базе на выходе по самой сильно странице с КАЖДОГО сайта + все пиаристые выше 2.

Так чтобы на выходе была страница с каждого сайта, ее сперва нужно добавить в базу? Или я чего то не понимаю?
Делай алсабом сперва чекай всю базу на ПР например от 1PR, переносишь это в новую базу, можно разбить и по ПР потом базу с каждым ПР1 ПР2 ПР3 ПР4.... чекаешь на дубли доменов и вот уникальная база, разве не так?

Есть ли способ прочекать базу на дубликаты (специфично)!

Yus

Гуру форума

morfeus

Постоялец

swed

Мой дом здесь!

Yus

Гуру форума

Wint-b

Создатель

Yus

Гуру форума

duremar

Писатель

alex-bot

Nulled-Man