Follow along with the video below to see how to install our site as a web app on your home screen.
Примечание: This feature may not be available in some browsers.
Это, конечно, проще всего. Но, например, с HTTPS не разгонишься. Для более быстрого результата начни с CURL, для понимания, как работает общение с сервером - с telnet и сокетов. По регекспам, на этом форуме, есть отличная книга Фридла. Удачи.можно даже не через сокеты, а просто через file_get_contents. Остается разобраться с регулярными выражениями
Только зачем такой гемор? Хочешь написать граббер под все сайты? Тогда не удивляйся, что 20-90% сграбит чушь.Все то парни хорошо, но вот я пишу под себя грабер контента и у меня много загвоздок на стадии правильного определения мест сдирания контента. А именно, может кто знает решение, как определить саму статью и сграбить ее а не все подряд вместе с менюхой.
В общем имеется куча проблем с определением. Я вот пошол по пути определения сначала тега <div> в который самый увестый, потом работаю только с ним. Беру все что в этом теге и также ищу самый увесистый тег <div> или <p>, и от тудаво уже достаю текст сам.
Все бы хорошо но это тупиковый путь сам понимаю. Я вот думаю а не лутше преобразовать код HTML в XML а потом уже работать с моделью DOM?
Спарашиваю Вас как опытных, может кто ответит?
Была та же проблема, только немного в другом контексте. Решается все относительно просто: пишется, так сказать, основной движок, задача которого - упорядочивание, обработка "награбленного" и отдача его куда нужно. Чтобы перерабатывать даже динамические шаблоны, процедуры граббинга можно вообще вынести за пределы основного скрипта, тогда изменения алгоритма граббинга отдельного ресурса не коснутся всех остальных. Т.е. на выходе имеем очень гибкий скрипт, который может грабить, практически, что угодно и откуда угодно и подключение источника контента займет минуты.Все то парни хорошо, но вот я пишу под себя грабер контента и у меня много загвоздок на стадии правильного определения мест сдирания контента. А именно, может кто знает решение, как определить саму статью и сграбить ее а не все подряд вместе с менюхой.
В общем имеется куча проблем с определением. Я вот пошол по пути определения сначала тега <div> в который самый увестый, потом работаю только с ним. Беру все что в этом теге и также ищу самый увесистый тег <div> или <p>, и от тудаво уже достаю текст сам.
Все бы хорошо но это тупиковый путь сам понимаю. Я вот думаю а не лутше преобразовать код HTML в XML а потом уже работать с моделью DOM?
Спарашиваю Вас как опытных, может кто ответит?
Почему сразу скептики, ведь не прозвучало ни одной фразы, утверждающей, что вариант с моделью DOM невозможенОтвечу сразу - скептиков не буду слушать, когда то и хруммер космосом казался (а когда он появился то оказалось что у неких людишек есть подобное но под никсы и со скоростью в 150 раз большей делает то же), так что давайте не будем - нафик надо, до смерти будешь такое делать, главное пробовать а решение придет внезапно!
Какой маразм? Просто еще одно решение. И может скептики до такого и не додумались бы, но есть одно "но" - у скептиков грабер тоже чудесно грабитзвучит как маразм на первый взгляд но у него так и работает грабер, а скептики бы до такого не додумались .