Борьба со спамом в картинках при помощи OCR

5/05/2007 09:51

На сайте opennet.ru выложена довольно интересная статья, в которой представлено решение по фильтрации спама внутри прикрепленных к письму картинок через плагин FuzzyOCR для SpamAssassin. Как известно, значительная часть спама рассылается изобретательными спамерами в виде прикреплённых графических изображений. Как пишет сам автор статьи, на загруженных серверах данное решение необходимо продумать более детально, т.к. процесс распознавания картинок - не очень быстрый и довольно сильно загружает систему. Распознавание русскоязычного текста выполняется через сервис Microsoft Office Document Imaging (MODI). Желающие могут ознакомиться с технологией, посетив нижеприведённую ссылку.
Cтатья