Парсер Datacol

APSALIM

Постоялец
Регистрация
28 Фев 2013
Сообщения
131
Реакции
95
Datacol - парсер для любых сайтов
Скрытое содержимое доступно для зарегистрированных пользователей!


Связанные темы:
Скрытое содержимое доступно для зарегистрированных пользователей!

Скрытое содержимое доступно для зарегистрированных пользователей!
 
Всем привет на взломанном дата Коля, если партия Хэм Hunter, Если до выложите пожалуйста этот проект компании или как даже назвать верное даже не знаю, очень нужен парсер резюме HeadHunter
 
Доброго времени суток.
Пробую настроить датакол 7 на магазин
С названием, ценой и описанием проблем нет, но никак не хочет парсить картинки... от слова совсем.
Подскажите убогому, где копать, а где забивать?
картинки глянул сторонним "хлипким" парсером.
Путь к картинке просто длиннючий.

Прочерк перед ру нужно поменять на точку.
т.е путь нужно забирать и обрезать
и так и так сработало, и показало картинку. Прочерк перед ру нужно поменять на точку.
 
У кого есть D5Plugin_XMLExport. Поделитесь, пожалуйста.
Ссылка в этой ветке не работает уже, к сожалению.
Заранее благодарю!
 
Для просмотра ссылки Войди или Зарегистрируйся
[Ссылка]
Room for rent
Для просмотра ссылки Войди или Зарегистрируйся
[Ссылка]
Room for rent
Для просмотра ссылки Войди или Зарегистрируйся
[Ссылка]
Room for rent
Для просмотра ссылки Войди или Зарегистрируйся


Здравствуйте подскажите вот есть эта доска объявлений, вот этой доске объявление уже есть проект уже есть проект до колена номера телефонов Если брать то можно сделать так чтобы номера телефонов проект собирал?
 
Начал разбираться и естественно масса вопросов. Часть решил сам, но вот в некоторые уперся.
Мне нужно сохранить в csv сайт, с оригинальными url. Но как подхватить в таблицу сам url? В исходном коде-то он есть, к примеру тот же <link rel="canonical" href=" но на странице-то его нет...как подхватить? Подскажите плиз. xpath вырезания для <link rel="canonical" href="Для просмотра ссылки Войди или Зарегистрируйся" /> или это как-то по-другому делается? Собственно нужен не весь url, а последний слаг, но то можно потом вырезать из таблицы лишнее.
Пробовал подставить ('//link[@rel="canonical"]/@href') - не работает
 
Последнее редактирование:
Доброго времени суток.
Пробую настроить датакол 7 на магазин Для просмотра ссылки Войди или Зарегистрируйся
С названием, ценой и описанием проблем нет, но никак не хочет парсить картинки... от слова совсем.
Подскажите убогому, где копать, а где забивать?

Пробуйте, собирал давно, может что то поменяли уже на сайте
Скрытое содержимое для пользователя(ей): Denzy
 
привет ребята сталкнулся с проблемой - не грузит навигацию
17:35:05 Ошибка загрузки : The request was aborted: Could not create SSL/TLS secure channel

Помогите понять, что произошло кампания перестала работать с ошибкой
Ошибка загрузки : Запрос был прерван: Не удалось создать защищенный канал SSL/TLS.
как победить?

datacol собран под net 4.0 или более ранние версии и там нет поддержки некоторых версий tls протокола. Я сделал свой плагин-загрузчик с поддержкой всех версий протоколов.
 

Вложения

  • simpledownload.zip
    334,6 KB · Просмотры: 233
Но как подхватить в таблицу сам url
используй тип поля: Спец. поле, на вкладке спец значения выбери url.
если нужно вытащить из кода, то используй либо регулярное выражение в поле строки вырезания, либо вырезай через xpath с сохранением тегов, а потом во вкладке замены убери лишнее
 
Подскажите пожалуйста. При тестировании парсинга страниц некоторые из них не дают результатов. окно тестирования приоткрыто с надписью генерация результатов в процессе. И больше ничего не происходит. Из 100 страниц таких может 5. В исходном коде они в общем идентичные кроме контента. Из-за этого парсинг зависает, думаю именно на этих страницах. Датакол 5.54
 
Подскажите пожалуйста. При тестировании парсинга страниц некоторые из них не дают результатов. окно тестирования приоткрыто с надписью генерация результатов в процессе. И больше ничего не происходит. Из 100 страниц таких может 5. В исходном коде они в общем идентичные кроме контента. Из-за этого парсинг зависает, думаю именно на этих страницах. Датакол 5.54
Обновитесь на последнюю версию.
 
Назад
Сверху