Content Downloader

Подскажите решение.

Допустим, я напарсил Content Downloader~ом кучу статей, используя поисковую выдачу Яндекса, Google, новостные сайты, узкотематичные ресурсы и т.п.

Предположим, программа хорошо справилась с задачей и сняла все без мусора.

Однако возникает вопрос чем/как отсортировать полученные результаты.
- нужно убрать дубликаты статей (не url). То есть нужно найти статьи с идентичным/похожим содержимым и оставить только одну из них.
- проверить частотность вхождения поискового слова в текст. Например, если слово входит в статью менее трех раз, то можно считать, что статья не является тематической для данного ключевого слова и ее можно снести из базы.
 
У себя я использую пхп скрипт+ phpmorphy.
 
Если что-то не нравится, напишите, я переделаю
Да мне сейчас уже вроде как без надобности..

Но ок, то что когда-то надо было:
Для просмотра ссылки Войди или Зарегистрируйся (не помешает и ниже почитать ;) )
Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся (после АПД)

Можно тут не отвечать (неактуально, да и частично объяснили). Это я просто показал, что будь мануалы...
 
Подскажите решение.

Допустим, я напарсил Content Downloader~ом кучу статей, используя поисковую выдачу Яндекса, Google, новостные сайты, узкотематичные ресурсы и т.п.

Предположим, программа хорошо справилась с задачей и сняла все без мусора.

Однако возникает вопрос чем/как отсортировать полученные результаты.
- нужно убрать дубликаты статей (не url). То есть нужно найти статьи с идентичным/похожим содержимым и оставить только одну из них.
- проверить частотность вхождения поискового слова в текст. Например, если слово входит в статью менее трех раз, то можно считать, что статья не является тематической для данного ключевого слова и ее можно снести из базы.
Таких задач передо мной не стояло. На данный момент с этим помочь не могу.
 
Таких задач передо мной не стояло. На данный момент с этим помочь не могу.
Думаю, что такой функционал был бы интересен многим пользователям вашей программы. В планы поставите?

Вопрос всем.
Подскажите, чем можно воспользоваться для автоматизации решения этих задач. Спасибо.
 
Ура товарисчи - Content Downloader II

Content Downloader II версии 2.00 (20.05.2012:(
Большое количество доработок!
Старые проекты, где используются повторяющиеся границы парсинга могут не подойти!
После обновления может потребоваться переактивация программы (перед обвновлением посмотрите ваш ключ в “меню” – “справка” – “о программе”)!
– Полностью переработан редактор шаблона вывода;
– Переработана настройка повторяющихся границ парсинга;
– Добавлена возможность задавать обычные границы парсинга внутри повторяющихся (одна из самых важных доработок!);
– Макрос шаблона вывода TOPRICE теперь округляет числа до 2 знаков после запятой;
– Теперь при предпросмотре парсинга контента (CSV) количество колонок не фиксированное (как ранее), а увеличивается автоматически;
– В сканер сайтов добавлена функция удаления перечисленных параметров из ссылок списка очереди;
– В отчет парсинга контента добавлена функция копирования web-адресов загруженных документов в буфер обмена системы (правый клик по списку ссылок лога);
– Большое количество доработок, изменений и исправлений.
_sbfactory.ru/?p=2610
Уже апдейтнулся, что то поменялось :D
 
Подскажите решение.

Допустим, я напарсил Content Downloader~ом кучу статей, используя поисковую выдачу Яндекса, Google, новостные сайты, узкотематичные ресурсы и т.п.

Предположим, программа хорошо справилась с задачей и сняла все без мусора.

Однако возникает вопрос чем/как отсортировать полученные результаты.
- нужно убрать дубликаты статей (не url). То есть нужно найти статьи с идентичным/похожим содержимым и оставить только одну из них.
- проверить частотность вхождения поискового слова в текст. Например, если слово входит в статью менее трех раз, то можно считать, что статья не является тематической для данного ключевого слова и ее можно снести из базы.
это уже из области семантического анализа, и, согласитесь, глупо навешивать подобный функционал на парсер, задача которого - вытаскивать контент. Для подобного рода действий, я думаю, подойдет платформа Opencalais для тэгирования и идентификации аналогов, и Sphinx для семантического поиска словоформ. Конечно, придется разобраться с API, но, как показывает практика, без этого редко когда удается обойтись, если стоит цель чуть более серьезная, чем создание очередного ГС под сапу.
 
подойдет платформа Opencalais для тэгирования и идентификации аналогов, и Sphinx для семантического поиска словоформ. Конечно, придется разобраться с API
Выглядит достаточно сложным делом.

В общем я надеялся, что есть готовое десктопное решение, где все в одном флаконе.
Например, в Semonitor есть HTML анализатор. С его помощью несложно отсортировать статьи по числу вхождений определенных ключевых слов в разных словоформах и выкинуть случайные статьи для которых искомое ключевой слово было "непрофильным".

А вот как отсеять дубли и "рерайтных родственников" пока не придумал. Есть антиплагиатные программы, которые позволяют оценивать схожесть статей в пакетном режиме. Но тут сравнение идет статьи(ей) на локальной машине с тем, что есть в Интернет, а не между собой... Может есть прога, сравнивающая похожесть статей между собой?

если стоит цель чуть более серьезная, чем создание очередного ГС под сапу
Цель - наполнение сателлитов.
Для ГС не стоит заморачиваться с таким отсевом статей, а для качественного СДЛ лучше уник.
 
Граждане, вот задумываюсь о покупке проги. Не подскажите она вообще сложна в освоении? Для чего сея софтина мне будет трэба: тупо парсить контент для ГС, то есть я хочу ввести слова для поиска ( к примеру автомобили) ну и соответственно получить хорошую пачку статей, либо зная сайт, вытащить все оттуда. Смотрел ролики на сайте проги, понимаю что это вполне реально, просто тяжело ли ей пользоватся?
Ещё вопросик-кто синоминайзом пользовался от этого же производителя? как впечатления?
 
Граждане, вот задумываюсь о покупке проги. Не подскажите она вообще сложна в освоении? Для чего сея софтина мне будет трэба: тупо парсить контент для ГС, то есть я хочу ввести слова для поиска ( к примеру автомобили) ну и соответственно получить хорошую пачку статей, либо зная сайт, вытащить все оттуда. Смотрел ролики на сайте проги, понимаю что это вполне реально, просто тяжело ли ей пользоватся?
Ещё вопросик-кто синоминайзом пользовался от этого же производителя? как впечатления?
Пользоваться совершенно не сложно. Ну, по крайней мере после пары настроенных проектов)
Мануалы все на сайте есть - как и где правильно настраивать, как быть в определенных ситуациях, есть даже реальные примеры. Вобщем все ФАКи на сайте есть, я учился по ним. Парсил и хотлайн и кинопоиск и даже вконтакте, ничего сложного там нет.
Синонимайзером не пользовался.
 
Назад
Сверху