Парсинг ссылок

Jeepers Kreepers

Участник
Регистрация
31 Янв 2008
Сообщения
216
Реакции
7
Нужно собрать ссылки по определённому шаблону. Раньше делал AgressParser'ом, но сейчас не работает почему-то.

К примеру, в коде сайта есть такие URL'ы:

<h2 id="name"><a href="http://www.site.com/">blabla</a></h2>

Нужно вытащить всё, что между <h2 id="name"> и </h2>
 
  • Заблокирован
  • #2
В Content Downloader можно их спарсить,зделать настройку откуда и до куда парсить ,здесь мануальчик, если что Для просмотра ссылки Войди или Зарегистрируйся
 
Из бесплатного пока нету ничего подходящего?
 
  • Заблокирован
  • #4
Кряки есть в паблике, по-моему v.32 .А так же здесь есть 31.14 версия кажется под хайдом,при чем очень неплохо работает, иногда правда вылетает. Еще попробуй teleport (vlx),возможно там тоже можно спарсить то что нужно,уже не помню, он тоже в паблике валяется.
 
Универсальный парсер ZennoPoster.

1. Скачать (есть на форуме в разделе "Программы", я думаю найти проблем не будет"
2. Запускаем ProjectMaker.exe
3. Выбираем вкладку "Запись действий"
4. Вбиваем сайт в адресную строку и жмем Enter
5. Жмем кнопку "Текст страницы"
6. Копируем текст
7. Переходим во вкладку "Конструктор регулярных выражений"
8. Вставляем в левое окно наш текст
9. Дальше в поле "Перед искомым текстом всегда есть" <h2 id="name">
10. В поле "Это идет после искомого текста" </h2>
11. Должна получиться вот такая регулярка: (?<=\<h2 id\=\"name\"\>).*(?=\<\/h2\>) (если вместо name встречается разные слова, например <h2 id="name1"> или <h2 id="name2">, то регулярка будет выглядеть так: (?<=\<h2 id\=\".*\"\>).*(?=\<\/h2\>)
12. Нажимаем "Протестировать регулярное выражение"
13. В правом окошке получаем результат. Теперь нужно избавиться от мусора.
14. Копируем в Notepad++ и нажимаем CTRL+H
15. В поле "Найти" вставляем ----------------------------------- совпадение .* -----------------------------------
16. В поле "Замененить" оставляем пустоту.
17. Ставим галочку "Регулярное выражение" и жмем "Заменить все". Теперь надо убрать пустые строки.
18. Ставим галочку "Расширенный"
19. В поле найти пишем: \n\r
20. В поле "Заменить" пишем: \0 и жмем "заменить все".
21. Все готово.

По началу данный способ может показаться тяжелым, ну на деле и при определенной сноровке - это очень просто и удобно.
Теперь вы умеете делать свой парсер! Если хотите запускать его автоматически, то можете поковырять "Редактор проектов" :) Удачи!
 
Content Downloader прекрасно справится с задачей. Там как раз задаешь границы между конкретными тегами.
Есть версия 2010 года 11.39
 
Назад
Сверху