HTML защита от копирования

Hmelex · 18 Мар 2016

Подскажите пожалуйста Как можно скопировать текст с сайта

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Там как мне понятно стоит разная кодировка для разных страниц.

Код:

  docManager.addFont(1, "", "ff1", "Arial, Arial, Helvetica, sans-serif", "normal", "normal");
  docManager.addFont(0, "", "ff0", "Comic Sans MS, Comic Sans MS5, cursive", "normal", "normal");
  docManager.addFont(3, "", "ff3", "Comic Sans MS, Comic Sans MS5, cursive", "normal", "normal");
  docManager.addFont(2, "", "ff2", "Arial, Arial, Helvetica, sans-serif", "normal", "normal");
  docManager.addFont(5, "", "ff5", "Arial, Arial, Helvetica, sans-serif", "normal", "normal");
  docManager.addFont(4, "b", "ff4", "Arial, Arial, Helvetica, sans-serif", "bold", "normal");

Текст вроде читается нормально но скопировать никак не получается

Декодер Лебедева тоже выдает абракадабру. :conf:

Помогите пожалуйста. :ah:

Может у кого то получиться скопировать текст.

denverkurt · 18 Мар 2016

вот именно шрифты и играют здесь главную роль)))
абракадарба на самом деле и есть абракадабра. но путем подгрузки шрифта, в котором буквы также переставлены местами - человек видит читабельный текст

текст можно преобразовать обратно, предварительно составив таблицу замещения, путем последовательного перебора и замены букв
для каждого шрифта будет своя таблица замещения
много их вообще шрифтов то? или только от ff0 до ff5 ?

Hmelex · 18 Мар 2016

Спасибо.
Исходя из кода только 5 - ff0 до ff4
Скрипта шрифта вытащить неполучиется запрятан
<script src="Для просмотра ссылки Войди или Зарегистрируйся" type="text/javascript"></script>

Код:

src: url("+t+this.family+".ttf)

и тут

Код:

<script type='text/javascript'>
var defaultViewWidth = defaultViewWidth || 847.0;
var docManager = new DocumentManager("scroll", "web_pro" == "mobile"); // Our global manager for this view page
window.docManager = docManager;
docManager.setEmbeddedDoc('False');
docManager.fontAggregatorHosts = ["https://html1-f.scribdassets.com", "https://html2-f.scribdassets.com"];
docManager.assetPrefix = "8xdqk7394w54jwzo";
docManager.addFont(1, "", "ff1", "Arial, Arial, Helvetica, sans-serif", "normal", "normal");
docManager.addFont(0, "", "ff0", "Comic Sans MS, Comic Sans MS5, cursive", "normal", "normal");
docManager.addFont(3, "", "ff3", "Comic Sans MS, Comic Sans MS5, cursive", "normal", "normal");
docManager.addFont(2, "", "ff2", "Arial, Arial, Helvetica, sans-serif", "normal", "normal");
docManager.addFont(5, "", "ff5", "Arial, Arial, Helvetica, sans-serif", "normal", "normal");
docManager.addFont(4, "b", "ff4", "Arial, Arial, Helvetica, sans-serif", "bold", "normal");
docManager.displayType = "vector";
docManager.initStyles();
docManager.setPageWidths(defaultViewWidth);
docManager.setImageDomainSubstitution(/http:\/\/html.scribd.com/, ["https://html1-f.scribdassets.com", "https://html2-f.scribdassets.com"]);
</script>

Я так понимаю, что ссылка на файл шрифта примернотакая
Для просмотра ссылки Войди или Зарегистрируйся то надо прописать

denverkurt · 18 Мар 2016

уточнюсь, закодированы разными шрифтами не отдельные страницы, а строки
разные строки под разными шрифтами, от ff0 до ff5

а не проще будет сделать скриншоты текста и распознать например программой Abby FineReader ?

Hmelex · 18 Мар 2016

ну это как грубый вариант, я сторонник более программного способа вытаскивания информации.

Просто это мой первый опыт когда мне не получилось вытащить интересующею меня информацию из закодированного файла....
Но как видимо остается только так и сделать.....

Получается что тем программистам того сайта удалось всё таки спрятать информацию от посторонних глаз и так чтобы её невозможно было скопировать и прочитать еще где либо.

Или распространять за его пределами..... - это же вообще бомба тогда многие только и пытаются как бы спрятать на поверхности информацию но таким образом чтобы посетители только на его сайте могли ей читать а не заниматься копирайтерством.

denverkurt · 18 Мар 2016

Hmelex написал(а):
я сторонник более программного способа вытаскивания информации.

тогда знание PHP вам пригодится

karakym · 21 Мар 2016

Это что за демон? Эдак щас защищаються от копипаста? А как поисковики реагируют?

denverkurt · 21 Мар 2016

karakym написал(а):
Эдак щас защищаються от копипаста?

видимо так))
поисковики естественно в лучшем случае проиндексируют эту абракадабру, если там не стоит запрет индексации

olegbukatchuk · 21 Мар 2016

denverkurt написал(а):
видимо так))
поисковики естественно в лучшем случае проиндексируют эту абракадабру, если там не стоит запрет индексации

Нужно понимать, как поисковики индексируют HTML-страницы. Запрос страницы > Загрузка (Ответ получен) > Чтение станицы (как видно в браузере пользователю). Следовательно допускается выполнение JS-кода, а это значит, что робот ПС забирает со страницы нормальный текст.
От себя скажу, что это лучшая защита текстового контента, что я видел на сегодняшний день...

denverkurt · 21 Мар 2016

olegbukatchuk написал(а):
Нужно понимать, как поисковики индексируют HTML-страницы. Запрос страницы > Загрузка (Ответ получен) > Чтение станицы (как видно в браузере пользователю). Следовательно допускается выполнение JS-кода, а это значит, что робот ПС забирает со страницы нормальный текст.
От себя скажу, что это лучшая защита текстового контента, что я видел на сегодняшний день...

а причем здесь JS код, если на странице абракадабра?
вы вообще на тот сайт заходили, текст видели?

HTML защита от копирования

Hmelex

Постоялец

denverkurt

Denve®

Hmelex

Постоялец

denverkurt

Denve®

Hmelex

Постоялец

denverkurt

Denve®

karakym

Создатель

denverkurt

Denve®

olegbukatchuk

Постоялец

denverkurt

Denve®