Продавался на форуме (и не только на этом) парсер текста, которому даешь только урлы сайтов, он сам парсит текст, если оный присутствует в достаточных количествах (блоги например). хз как он работал без шаблонов, но думаю просто искал в хтмл-е куски где соотношение текст/теги было больше определенного уровня, пропуская "текстовые" теги вроде <b> и <p>.