Как защитится от NewsGrabber`а

для усложнения граббинга(из rss) статей с вашего сайта, можно сделать следующие:
1. разбить статью на страницы - это способствует усложнению граббинга полной статьи
2. не использовать на странице уникальные теги :) или группу тегов, которые имеют уникальную комбинацию на странице... - это усложнит задачу создания шаблона для граббера
3. добавить в страницу информацию, которая бы сливалась с кодом всей страницы(это может быть реклама или какае-то полезная информация) - это поможет испортить сграббленную статью или же будет вырезан не тот кусок, который хотели вытащить :ah:
4. периодически менять дизайн :)
5. не отдавать через rss ссылки на полную версию статьи(то есть что бы ссылка бала на краткую новость)
...

:) а вообще, забейте вы на все эти защиты от грабберов и занимайтесь более важными делами ;)
 
1. разбить статью на страницы - это способствует усложнению граббинга полной статьи
Спорно. Читать неудобно. Так можно читателей потерять
2. не использовать на странице уникальные теги :) или группу тегов, которые имеют уникальную комбинацию на странице... - это усложнит задачу создания шаблона для граббера
Спорно. Вряд ли такого можно добиться.
3. добавить в страницу информацию, которая бы сливалась с кодом всей страницы(это может быть реклама или какае-то полезная информация) - это поможет испортить сграббленную статью или же будет вырезан не тот кусок, который хотели вытащить :ah:
Это вообще не по делу. Вырезается.
4. периодически менять дизайн :)
quote]
Дизайн или верстку тэгов выводящего модуля? Если первое - опять потеря килохостов, если второе - легко исправить.
5. не отдавать через rss ссылки на полную версию статьи(то есть что бы ссылка бала на краткую новость)
Юзабилити - это наше все.
:) а вообще, забейте вы на все эти защиты от грабберов и занимайтесь более важными делами ;)
+1
 
Хмм смысл то какой? Да вы должны понимать, что если ставите в инет что либо то это всеравно будет сграбленно, так не лучше этим и пользоваться, пусть грабят но линк пишут откуда сграбели и вам реклама и у них контент! и чаще пользуйтесь Watermarkom если текст сперли это одно, а картинки переделывать уйма времени будет потрачено на это !
 
Да ну нафикк, чисто теоретически это не будет работать. Граббер забирает поток из адреса и ему пох, что там на стороне сервера пхп говорит. Это тож самое, что канал в момент запроса провис на секунду. Есть же сокет-таймаут и он будет ждать конца таймаута.

Добавлено через 2 минуты
AdeQuAte, ты хоть маленьким хайдом закрывай такие темы. Ну нафига такое палево для пассажиров, хоть и не рабочее? ;)
 
Хмм смысл то какой? Да вы должны понимать, что если ставите в инет что либо то это всеравно будет сграбленно, так не лучше этим и пользоваться, пусть грабят но линк пишут откуда сграбели и вам реклама и у них контент! и чаще пользуйтесь Watermarkom если текст сперли это одно, а картинки переделывать уйма времени будет потрачено на это !

Хммм ... я хотел бы с Вами не согласится ... т.к. никто не будет указывать ресурс откуда сграбленно, +
хотелось бы добавить что ... смотрите такая ситуация ... многие сайты раскрученные не ставят "Watermark" и даже если ставят он стоит где-то внизу слева, ну щачу всего с права ... пример представте картинку ... украденной новости скажем так размером в 450х450 и внизу Watermark размеров 25х25 и человек если часто ворует новости с этого сайта ... может сделать Watermark к примеру 30х30 или в крайнем случае такого же размера на то же место и что? толку то от Watermark`a? хммм кста ... хорошая идея ... что я сам до этого не догадался?
P.s. так что новости тырили тырят и будут тырить)
способы всегда найдутся)
 
Самый простой путь - трешить. Последи по логам, с каких ip и каким юзерагентом происходит граб. Если вдруг нашел - считай повезло. Дальше просто ему суй цепи маркова из своих же статей (ну или из других - не суть важно), или просто какой-то трешняк. Чтоб и на статью было слегка похоже, и теги начало-конец в нужных местах стояли, короче чтоб статья грабилась на ура, но там вместо текста была белиберда.

Если же граббер хитрый и удачно шифруется, то тогда придется в исходный текст вставлять мусор, который будут видеть и пользователи сайта, и поисковики.. Например, заведи массивчик из предложений типа

"Информация с сайта mysite.com"
"(с) МайСайт, 2008"
"по материалам Май cайт"
"(c) http://MySite.com/"

и вставляй одно из них рендомно в текст.
Также туда же суй рекламу. Чтоб реклама выглядела как отдельный блок, но при этом физически была вставлена внутрь текста. Ну короче единственное твое оружие - рендом!

Но при этом помни, что повыкусывать из текста ссылки на один конкретный сайт (или вообще тупо все ссылки) - много ума не надо. Так что тебе придется быть изобретательнее..
 
Хммм ... я хотел бы с Вами не согласится ... т.к. никто не будет указывать ресурс откуда сграбленно[/quote]
Не совсем прав. Как раз многие, опасаясь санкций, указывают. Другое дело, что толку от этого нет до тех пор, пока ты не утряс все это с копирайтером официально/неофициально.
многие сайты раскрученные не ставят "Watermark" и даже если ставят он стоит где-то внизу слева, ну щачу всего с права ... пример представте картинку ... украденной новости скажем так размером в 450х450 и внизу Watermark размеров 25х25 и человек если часто ворует новости с этого сайта ... может сделать Watermark к примеру 30х30 или в крайнем случае такого же размера на то же место и что? толку то от Watermark`a? хммм кста ... хорошая идея ... что я сам до этого не догадался?
Обычно ватермарк прозрачный, дабы не портить картинку бэкграундом любого цвета. В этом случае накрыть ее можно только ватермарком на непрозрачном фоне, что будет выглядеть ужасно. Метод вполне действенный. Исключение могут составлять варианты, когда исходная картинка обрезается на заданный размер. И тут задача донора - кадрировать так, чтобы обрезать было невозможно без потери смысла. Тут опять все зависит от донора в основном.

Самый простой путь - трешить. Последи по логам, с каких ip и каким юзерагентом происходит граб. Если вдруг нашел - считай повезло.
Как определить, что это граб? Если у тебя впс или арендуемый - силами системы. Изучать скорость запроса разнесенных ресурсов. Так и тут можно извернуться. Скажем, таскать не более одной новости. Будет один в один как запрос браузером. Агент тоже скользкий вариант. Сам последи за активностью. Там треть агентов не представляется вообще на ленте. Другими словами надо писать систему анализа на родном сервере, что многие ресурсы себе физически/экономически позволиь не могут.
Даже цитировать не буду. Реально, как ты выразился - "белиберда". Какая навиг грабберу разница на твой рандом? Как только общий список рандома будет изучен, можно будет сделать все замены, которые будут выстреливать в том или ином случае и молчать во всех других. Мы тут пытаемся обсуждать гарантированные способы.
 
для mehanic:
Ну всё же ... Вы скорее не то что не соглашаетесь, а скорее просто указали один из вариантов ...)
 
Назад
Сверху