[DMI] DMI Doorway Generator v.2.0 - Beta

Статус
В этой теме нельзя размещать новые ответы.
Zak, так и не смогли этот NLTK поставить! Вернее поставили, но работает все через жопу!
Что куда ставили, ОСь, жопа, конкретнее?
Есть еще дела змеиные
 
Вопрос к тем, кто заставил его работать и им более менее пользуется. (как я) :)
Сколько времени у вас уходит на создание 1 словаря ?, а то не могу толком понять, пару словарей небольших он мне создал часов за 6, а тут подкинул ему 3 темки и слов по 50 в каждой, так уже 2 суток долбит и что то медленно. Всё прибавляется, но это же нереально столько или у вас быстро :)
P.S. Для справки, стоит под Денвером уже на 6 компах, всё пашет по моему мануалу. Небольшие проблемы возникали только с установкой Perl, тогда просто удалял старый и ставил новый, а так пашет. :) Только словари замучали. Для неверующих, что всё работает и именно с той версии, что была тут, если будет настрой и время, то сгенерю им, что нить типа на народе и дам ссылку.
 
Вопрос к тем, кто заставил его работать и им более менее пользуется. (как я) :)
Сколько времени у вас уходит на создание 1 словаря ?, а то не могу толком понять, пару словарей небольших он мне создал часов за 6, а тут подкинул ему 3 темки и слов по 50 в каждой, так уже 2 суток долбит и что то медленно. Всё прибавляется, но это же нереально столько или у вас быстро :)
P.S. Для справки, стоит под Денвером уже на 6 компах, всё пашет по моему мануалу. Небольшие проблемы возникали только с установкой Perl, тогда просто удалял старый и ставил новый, а так пашет. :) Только словари замучали. Для неверующих, что всё работает и именно с той версии, что была тут, если будет настрой и время, то сгенерю им, что нить типа на народе и дам ссылку.
у меня как-то странно со словорями. запустил на создание, дав ему всего 5 слов. часов 8 прошло (ночь), захожу - только в папке text напарсил 1.9 метра, а в в папке с именем словаря ничего нет. смотрю запущенные задачи - нет crdict.pl :( может на крон его ставить надо?
 
Под Денвером, я всё запускаю просто из его интерфейса , обрывов не было. Потом Апач вырубаю и всё, шуршит. Я так понял, он текст не за один раз набирает.У меня сначала качает кусок от 0.3 до 0.5 Мб и в папке со словарями пока ничего, потом там появляются словари, но это ещё не коней, потом начинает прибавлятся опять текст(по 100-300 кб за раз) и пополняться словари и так по кругу. Если нет терпения, то бывает вырубаю его на этапе когда словарь уже есть и в "Существующие словари" в "Teplates" уже он создал хоть что то :). У меня эта версия в принципе пока то и делает, что словари дерёт, так как генерить без них никак... (Было мин 400 кб текста максимум 8Мб)
Может кто подскажет где раздобыть какой нибудь большой английский электронный словарь, но чтобы из него можно было части речи просто скопировать в файлы? Тогда можно попробовать подсунуть ему готовые словари...
 
Тут если позволите народу раз"ясню как этот скрипт парсит словарь так как я понял.... думаю так и есть на самом деле.

1. Берет слово к примеру возьмем ROLEX.
2. Прется в гугл с запросом
ROLEX site:articlewheel.com и вытаскивает все статьи по этому кею и пихает в файл
3. Прется в гугл с запросом
ROLEX site:articlealley.com и вытаскивает все статьи по этому кею и пихает в файл
4. Прется в гугл с запросом
ROLEX site:articlecube.com и вытаскивает все статьи по этому кею и пихает в файл

И ТАК С КАЖДЫМ словом, и вот теперь прикиньте что слов 50... и статей по каждому с лову 100 на каждый ресурс... гм немало трафа ***** сожрет....

а далее....
5. Весь текст что собран очищается от мусора всякого (линки и т.д.)
6. приступает к разбиению всего текста на части речи...
НО! Это происходит с помощью удаленной базы на сайте хttp://www.m-w.com/dictionary/ !!!
Вот именно что когда происходит разбиение, то скрипт ломится постоянно туда для определения части речи, представьте сколько раз от это делает если у Вас 5Мб текста :)...
Приблизительно так и создаеться словарь....

Если кто то еще какие нюансы нашол в скрипте, милости прошу разказать народу ибо совместными усилиями рождается истина!!!
 
да, я тоже раскопал, что он в гугл лезет. всвязи с чем возникло подозрение, что гугл просто банит его и все. поэтому ничего не создает (у меня). в папке темп лежат tmp файлы, но в папку dict он их не переносит :( ошибок не выдает. просто висит в процессах.
 
6. приступает к разбиению всего текста на части речи...
НО! Это происходит с помощью удаленной базы на сайте хttp://www.m-w.com/dictionary/ !!!
его надо с wordnet подружить, тогда будет шустрее
 
его надо с wordnet подружить, тогда будет шустрее
легко сказать.. а вот сделать. кстати тут нет perl умельцев, которые смогут доделать немного? может за "пожертвования" :)
 
Спасибо, всё так, только текст он не один раз парсит, а в процессе ещё допарсивает понемногу.
Теперь понятно почему так долго. :) Значит, если цель не стоит собрать очень большой словарь по одной теме, то на тот момент, когда он уже создал словарь, просто выключаем и запускаем на создание другого.
Лучше их побольше, чем один большой :)
Попутный вопрос, никто не встречал грабера рассказов с literotica.com?
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху