Прога для очистки текста от мусора.

Статус
В этой теме нельзя размещать новые ответы.
Чищу секатором (Sekator - введи в поиске этого форума). Ввожу в строку все английские буквы + левые символы. Правда файлы больше 3мб обрабатываются ну очень долго...
 
Лучше свои кеи пасить чем воровать чужие) тем более хрен ты программе объяснишь чем в данном случае кей отличается от остального текста, попробуй исходный код смотреть и выбирать все что в тегах <b> <strong> и тд
 
Есть такая прога TextPIpe называется...наверно самая лучшая в своем роде...ностоит правда около 400 бакинских....но можно поискать крякнутую.так что текстпайп и забудешь о проблеме мусора в тексте.;)
 
Есть инфа, как реализовать аналогичный парсер на php?

Добавлено через 1 минуту
Или примеры фильтров для TextPipe?
 
Есть инфа, как реализовать аналогичный парсер на php?

Добавлено через 1 минуту
Или примеры фильтров для TextPipe?

Что там его реализовывать?

PHP:
<?php
    $SourceFile = 'source.txt';
    $DestinFile = 'destin.txt';
    
    function IsGoodWord($Word)
    {
        for($i=0; $i<strlen($Word); $i++) 
            if(($Word[$i] < 'а') or ($Word[$i] > 'я')) return false;
        return true;
    }
    
    if(!$SourceText = file_get_contents($SourceFile)) exit("Ошибка: нет файла $SourceFile с исходным текстом");
    $DestinText = '';
    foreach(($Words = explode(" ", $SourceText)) as $Word)
        if(IsGoodWord($Word)) $DestinText .= "$Word ";
    if(!file_put_contents($DestinFile, $DestinText)) exit("Ошибка: нет удалось записать файл $DestinFile с полученным текстом");
    
    echo "Успешно очищено, результаты смотрите в файле $DestinFile";
?>

PS Да, кстати для гигабайтных текстов (английских) можно использовать Для просмотра ссылки Войди или Зарегистрируйся
 
на perl 5мин делов :)

PHP:
$SourceFile = 'source.txt';
$DestinFile = 'dest.txt';
open(F1,$SourceFile);
open(F2,">$DestinFile");
while(<F1>){
  ~s/[^абвгдежзийклмнопрстуфхцчшщъыьэюяАБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ ]//g;
  print F2 $_;
}
close(F1);
close(F1);
print "View: $DestinFile\n";
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху