PDA

Просмотр полной версии : Распределенные методы обнаружения спама



kps
28.06.2005, 11:32
Алексей Тутубалин
[email protected]
http://www.lexa.ru/lexa

обзор существующих решений, анализ перспектив

Определения
При рассмотрении и изучении какого-либо явления, необходимо его четко определить. При рассмотрении проблем, связанных со «спамом» это особенно важно, так как имеется большое количество различных определений, многие из которых слишком расплывчаты для практического использования. В тексте этой статьи использованы такие определения:

- Спам – анонимная незапрошенная массовая рассылка электронной почты. Все эпитеты в определении являются важными, другие виды массовых рассылок почты в данном тексте спамом не считаются. Большинство спам-рассылок носят рекламный или другой коммерческий характер, это важно при рассмотрении экономики спама, но не так важно с технической точки зрения. ICQ, SMS и другие подобные рассылки в статье не рассматриваются.

- Легальная рассылка – массовая рассылка электронной почты, запрошенная пользователем. Предполагается, что пользователь легальной рассылки изъявил желание ее получать. Как правило, легальные рассылки не-анонимны.

- Обычная или легальная электронная почта – электронная почта между пользователями, либо между автоматическими системами и пользователями. Обычная почта в первую очередь не является массовой, получателей отдельного сообщения обычно единицы.

Почему мы страдаем от спама?
Незапрошенные массовые анонимные рассылки (то есть спам) стали на сегодня существенной проблемой для многих людей и организаций, использующих электронную почту. Согласно отчету Radicati Group (www.radicati.com), на конец 2002 года в мире ежедневно рассылалось 2.3 млрд. спам-сообщений, причем количество это непрерывно увеличивалось. Общепринято считать, что спам наносит ущерб его получателям, впрочем, обсуждение этого ущерба не входит в задачи данного текста.

Дешевизна массовых рассылок объясняется двумя причинами. Во-первых, Internet – это очень дешевый транспорт данных; при современной российской цене за сетевой трафик, стоимость передачи одного E-mail сообщения составляет сотые доли цента, а если производить рассылку из США, то себестоимость будет еще меньшей. Во-вторых, спамеры широко используют для доставки своих сообщений чужие ресурсы (вычислительные и транспортные мощности, к которым получен незаконный доступ), что еще более снижает себестоимость.

Распространенность спама и рост его объемов объясняются тем, что, с учетом его дешевизны, спам – это очень эффективный рекламный инструмент. Цена рекламной рассылки в расчете на одно письмо ничтожна, охват аудитории огромен, количество откликов на рекламу – более чем приемлемо для рекламодателей (тем более, в сравнении с заплаченными деньгами). Другими словами, находятся люди, которые покупают эти безумные количества виагры и пилюль для увеличения понятно чего, которые отвечают на нигерийские письма, идут на обучения в «Центр Американского Английского» и так далее.

Таким образом, за спамерами стоят серьезные деньги рекламодателей. По простейшим оценкам, рынок спама составляет минимум сотни миллионов долларов в год в мире и до единиц миллионов долларов в год в России. Это обстоятельство следует учитывать при любом рассмотрении темы спама. В частности, только «давлением денег» (наличием рекламодателей, желающих потратить деньги на спам) можно объяснить ту эволюцию технологий спама, которая произошла в последние годы.

История проблемы спама – технический взгляд
Первый спам, появившийся в середине 90-х годов, был прост и незатейлив. Одно и то же письмо рассылалось через сравнительно небольшое (по сегодняшним меркам) количество «открытых релев» (open relay) – почтовых систем, позволяющих произвести «через себя» транзитную доставку почты на произвольных адресатов. Боролись с таким спамом столь же незамысловато – помещая IP-адреса используемых спамерами почтовых серверов в черные списки. В 1997-м году появился MAPS RBL1 (www.mail-abuse.org/rbl/) – первый черный список, использовавший технологи DNS и BGP, что позволяло обновлять его с очень большой скоростью.

До 1998-99 годов проблема спама усугублялась тем, что популярное ПО для E-mail серверов – Sendmail (www.sendmail.org) - при настройках по-умолчанию работало «открытым релеем». Рекомендации по устранению этого свойства появились только для Sendmail 8.8 в 1996 году, а при настройке «по-умолчанию» Sendmail перестал быть «открытым релеем» только с версии 8.9, вышедшей в мае 1998 года (понадобилось существенное время на то, чтобы основной парк почтовых серверов был обновлен). Другими словами, чтобы найти открытый релей для посылки спама – нужно было просто поискать. Это делали как спамеры, так и антиспамеры (например, популярный в свое время сервис ORBS.org автоматически искал такие почтовые сервисы и помещал их в свою базу данных) – и RBL и спамерские списки машин для рассылки стали пополняться автоматически.

В дальнейшем, вместе с «открытыми релеями», для спама начали использоваться и другие способы доступа к ресурсам чужих компьютеров, в первую очередь т.н. «socks»-серверы2 и proxy-серверы3 к которым был возможен неавторизованый доступ. К несчастью, socks- и proxy- сервисы имеются в составе программного обеспечения (далее в тексте – ПО), предназначенного для конечных пользователей4, причем во многих случаях неавторизованый доступ разрешен по-умолчанию. В результате, количество клиентских компьютеров, которые могут быть использованы для рассылки спама (и прочих действий под контролем третьих лиц) растет вместе с ростом количества высокоскоростных подключений к Internet. В последнее время все большую долю в рассылке спама занимают «затрояненые» пользовательские компьютеры – на которые каким-либо образом5 попадает скрытое от пользователя вредоносное ПО, позволяющее спамеру осуществить доступ к ресурсам данного компьютера.

Постоянно увеличивающееся количество IP-адресов, с которых потенциально возможна рассылка спама, сделало классические системы RBL (куда помещались только IP-адреса машин, которые действительно могут быть использованы для рассылки спама, либо реально использовались для этого) не слишком эффективными. В результате, появились «превентивные» черные списки, куда попадают целые диапазоны IP адресов (иногда – десятками миллионов), часть - все адреса, принадлежащие определенным ISP, а иногда – целые страны и даже группы стран6. Такой подход увеличивает эффективность RBL в борьбе со спамом и одновременно во многих случаях не позволяет доставить легитимную почту.

По оценкам автора7, на сегодняшний день консервативные RBL позволяют улавливать около половины спама ценой потерь единиц процентов обычной почты. Для «превентивных» RBL-сервисов оба показателя выше, большое количество потерь легитимной почты делает подобные сервисы малоприемлемыми. Увеличение эффективности RBL против спама без роста (а лучше – со снижением) доли ложных срабатываний представляется автору малореальным.

Проблемы RBL – не слишком высокая эффективность против спама и существенная вероятность потерь легальной почты – привели к появлению других способов борьбы со спамом, в частности:

- DNS-проверки – проверяется соответствие данных, сообщаемых в SMTP-сессии реальности, речь идет, в частности, о данных, сообщаемых в SMTP HELO.
- Анализ заголовков сообщения. В частности, многие программы для массовых рассылок E-mail могут быть обнаружены по содержимому заголовков.
Каждый из этих методов, особенно сразу после своего появления, был достаточно эффективным, однако ни один из методов не является «абсолютным оружием» - технически возможно сделать абсолютно «легальное» (с точки зрения рассматриваемых методов) спам-сообщение.

Дальнейшая эволюция методов борьбы со спамом привела к появлению контентной фильтрации электронной почты – анализу текстов сообщений детерминированными или статистическими методами. Контентная фильтрация спама является на сегодня достаточно новым методом, эффективность которого пока достаточно велика, однако видна серьезная борьба против контентных фильтрова со стороны распространителей спама. Чьей победой закончится эта борьба на сегодняшний день неясно.

Развитие технологий рассылки спама привело к тому, что на сегодняшний день спам-почта (по меньшей мере, спам, нацеленный на рынок России) имеет ряд технологических особенностей важных для рассматриваемой далее темы:

- Распределенность. Существенная доля спам-сообщений рассылается через оборудование, установленное у конечных пользователей (обычно, у частных пользователей). Используются как проблемы в пользовательском ПО, так и вредоносные «троянские» программы, которые пользователь получает вместе с вирусами, либо по файлообменным сетям. По всей видимости, могут использоваться и уязвимости в беспроводных сетях.
Как правило, отдельный пользовательский компьютер используется для посылки небольшой доли сообщений, при этом в рассылке участвуют сотни и тысячи пользовательских машин.
Судя по всему, крупнейшим спамерам удалось наладить сквозной мониторинг доставки сообщений, в результате письмо, отвергнутое при попытке доставки с одного IP адреса, будет перепослано с другого. Это делает отражение (reject) почты по RBL неэффективным – попытки доставки сообщения повторятся с других IP-адресов.
Неавторизованое использование чужих ресурсов – метод очевидно незаконный и уголовно преследуемый в большинстве стран, однако техническая сложность обеспечения доказательств делает подобное преследование малоэффективным.

- Персонализация. Большая доля спам-сообщений уникальна. Другими словами, в письмо вносятся случайные последовательности символов (часто невидимые для читателя), персональные обращения, анекдоты, большие куски связного текста и так далее.

- «Мимикрия» под легальные письма. Спамеры делают техническую информацию в рассылаемых письмах максимально похожей на легальную переписку. В результате, большая часть спама легко проходит через формальные фильтры.

Кроме отрицательных (с точки зрения легкости обнаружения) свойств, у спама есть и ряд особенностей, облегчающих его обнаружение:

- Спам-сообщение содержит сообщение (рекламу) от заказчика рассылки. Таким образом, произвольного текста в сообщении быть не может, там будет описан рекламируемый продукт или услуга.

- Спам-сообщение должно быть читаемым получателем. Другими словами, оно не может быть зашифровано, основной объем должен быть получен в составе сообщения. Количество случайных последовательностей («мусора»), видимых пользователем, должно быть небольшим. При нарушении этих правил снижается читаемость, а, следовательно, и отклик на рекламу.

- Уникальность сообщений обеспечивается автоматическим путем, то есть случайные последовательности символов, приветствия и так далее – добавляются программой. В противном случае стоимость изготовления индивидуальных сообщений будет слишком большой.

Распределенные методы обнаружения спама
Перечисленные в предыдущем разделе особенности современных массовых рассылок приводят к тому, что в рамках отдельной почтовой системы видна только часть общей картины – спам приходит со сравнительно небольшого количества IP-адресов, имеет относительно небольшое число модификаций, единичная рассылка продолжается небольшое время. Более полную картину происходящего имеют крупные почтовые системы и ISP с миллионами пользователей, однако полной картиной не обладают и они.

В то же время, единичная рассылка на миллионы адресов занимает существенное время – от нескольких часов до нескольких суток. Если обнаружить ее «на старте» и каким-либо образом блокировать, то ущерб от спама понесут только те пользователи, чьи адреса были использованы в начале рассылки. Другими словами, необходимо собирать данные о спам-почте из максимально-возможного количества точек сети, обрабатывать их максимально быстро и делать доступными данные о происходящей в настоящее время рассылке для всех участников системы.

В настоящее время реализованы такие методы быстрого сбора данных о рассылках (перечислены в порядке убывания распространенности в мире):

- прием спама в специальные «ловушки» (honeypot) - E-mail адреса, предназначенные только для приема спама;
- голосование пользователей – пользователь, получивший спам, нотифицирует об этом систему сбора данных, предоставляя образец спама;
- анализ всей проходящей через почтовую систему почты с сообщением контрольных сумм отдельных сообщений на центральный сервер.
На основании собранных данных, которые выглядят как «такое-то письмо принято в мире столько-то раз», либо «на такое-то письмо пожаловались столько-то раз», строятся списки массовых на данный момент времени рассылок, которые становятся доступными участникам системы в реальном времени. Почтовые системы, приняв письмо, могут узнать его статус и либо отвергнуть (уничтожить, перенаправить в архив или карантин) как спам, либо передать получателю.

Сбор спама с помощью адресов-«ловушек»
Наиболее крупная сеть адресов-ловушек для анализа спама в реальном времени организована и поддерживается компанией Brightmail (www.brightmail.com). Детали реализации известны только из публикуемых этой компанией документов, согласно им сеть сбора спама состоит более чем из миллиона почтовых адресов – ловушек; данные по спаму пополняются и пользователями самой системы. На основании полученных спам-сообщений составляются списки сигнатур сообщений и списки правил анализа заголовков, которые доставляются подписчикам системы практически в реальном времени. Исходя из документов компании, используются как четкие сигнатуры (hashes), идентифицирующие в точности данное сообщение, так и нечеткие, которые приспосабливаются к меняющимся спамерским письмам.
Решение BrightMail Anti-Spam доступно только на коммерческой основе в виде plug-in к системам Sendmail и MS Exchange, online-сервиса и в составе некоторых Network Appliances.
Вследствие коммерческого характера системы, получить данные об ее пригодности для фильтрации российского спама затруднительно. Доступны лишь данные тестов PC Magazine, согласно которым уровень обнаружения спама составил 77.79%, а уровень ложных срабатываний системы – 0.05% всех сообщений.
Аналогичная схема сбора образцов спама реализована в системе SkyScan AS компании MessageLabs. Исходя из документов компании, используемые методы очень похожи на систему BrightMail; как и в случае BrightMail существенная информация о системе практически не опубликована.
В тестах PC Magazine сервис SkyScan показал уровень обнаружения спама в 96% при доле ложных срабатываний 0.48%
Поддержание большого числа адресов-ловушек требует больших человеческих и административных ресурсов – это не должны быть «пустые» адреса, они должны активно функционировать – публиковаться на WWW-сайтах, форумах и конференциях, регистрироваться в онлайн-сервисах и прочим образом имитировать поведение обычного пользователя с точки зрения спамера. По всей видимости, данная технология применима только в условиях компании-разработчика антиспам ПО, либо в условиях крупного почтового сервиса. Создание подобной системы на базе только усилий волонтеров представляется маловероятным.

Голосование пользователей
Метод распределенного обнаружения спама методом голосования пользователей заключается в следующем:

- Почтовая система, принявшая письмо, рассчитывает его сигнатуру, передает ее на сервер системы обнаружения и получает ответ – спам это или нет.
- Если пользователь получил письмо, которое он считает спамом, то он может проголосовать «против него» - переправив в систему сбора данных сообщение о том, что данное письмо является спамом.
- Если одно письмо (одна сигнатура) имеет достаточно много голосов «против», то система сбора данных считает данное письмо спамом.
Вышеописанная схема реализована в системе Vipul’s Razor/Cloudmark SpamNet. Эта система включает в себя:

- сеть серверов под управлением компании Cloudmark;
- бесплатное клиентское ПО для Unix (как для почтовых серверов, так и для почтовых клиентов) и бесплатное право использования серверов системы;
- платная подписка на сервис для клиентов Windows
- платное серверное ПО для Windows-серверов и подписка на сервис для корпоративных пользователей.
Исходно система Vipul’s Razor была целиком бесплатной, однако после выхода Razor Version 2 (Razor v2, июнь 2002 года) установилась описанная выше схема.
В Razor v2 используются как четкие контрольные суммы текста письма (SHA1) , так и два варианта нечетких:

- Nilsimsa (lexx.shinn.net/cmeclax/nilsimsa.html)– метод расчета нечетких сигнатур, которые слабо меняются при небольшом изменении исходных данных (в настоящее время этот способ не используется т.к. метод Nilsimsa давал заметное число ложных срабатываний)

- Ephemeral Signatures – короткоживущие сигнатуры, основанные на случайном выборе кусочков текста для их построения (сервер сообщает клиенту необходимые данные для выбора, клиент осуществляет выбор и расчет сигнатуры). Считается, что такие сигнатуры спамерам сложно подделать т.к. заранее неизвестно, какие участки текста сообщения будут использованы для анализа письма.

Клиентское ПО Razor/SpamNet поддерживает механизмы голосования «против» текста сообщения (т.е. за признание его спамом) и голосование «за» (т.е. реакция на ложные срабатывания системы). Для поддержки Ephemeral Signatures письмо при голосовании передается на сервер целиком.

Клиенты регистрируются на сервере, получая уникальный идентификатор, используемый в дальнейшем при голосованиях. Поддерживается «Truth Evaluation System» - система расчета уровня доверия к отдельным голосующим пользователям, основаная, по всей видимости, на сравнении похожести голосований данного пользователя со средним по системе в целом.

Правила системы запрещают автоматическое голосование «против», за исключением использования адресов-ловушек.

Статистика и качество работы системы Razor/ SpamNet
В настоящее время система обрабатывает более 100 млн. сообщений в сутки.
Согласно документам Cloudmark, уровень обнаружения спама данной системой достигает 95%. С другой стороны, статистика, публикуемая на сайте Cloudmark.com, показывает, что доля обнаруженного спама во всем потоке почты составляет около 25%. Так как общая доля спама в почте в настоящее время составляет около половины (по данным Brightmail, Messagelabs и самой Cloudmark), то получается, что система Razor/SpamNet обнаруживает порядка 50% спама.
Согласно тестам PC Magazine, уровень обнаружения спама составляет 83%, уровень ложных срабатываний – 6.7%
Для спама, получаемого в России, качество работы Razor существенно хуже – по тестам автора на выборке из 11600 спам-сообщений, уровень обнаружения спама равен 10%, хотя уровень ложных срабатываний крайне низок (одно сообщение на 5000). По всей видимости, распространенность Razor в России невелика, соответственно и сигнатур русскоязычных писем в базе практически не имеется.

Проект Pyzor (pyzor.sourceforge.net) был начат как клиент к Razor, написанный на языке Python. Однако автора (Frank Tobin) беспокоил тот факт, что серверная часть системы Razor не является открытой (недоступна как в виде исходных текстов, так и в виде исполняемых модулей), в результате Pyzor реализует свой алгоритм подсчета контрольных сумм (дайджест SHA по тексту письма, очищенному от html-тегов) и имеет отдельный сервер контрольных сумм. Объединение Pyzor-серверов в общую сеть и обмен данных между серверами не предусмотрены.
Судя по всему, проект заброшен автором и никем более не развивается. В данном обзоре Pyzor упомянут для полноты картины.

Анализ всей поступающей почты
Анализ всей проходящей через почтовую систему почты подразумевает, что для каждого почтового сообщения генерируются контрольные суммы, которые передаются на сервер сбора статистики. В ответ сервер сообщает, количество зарегистрированных повторов данного письма, начиная с некоторого количества повторов можно считать письмо спамом. Очевидно, что подобная технология не будет отличать легальные рассылки от спама, следовательно, требуются «белые списки» в которые такие рассылки будут внесены.

Данная технология реализована в проекте DCC – Distributed Checksum Clearinghouse (www.rhyolite.com/anti-spam/dcc/). Программное обеспечение DCC распространяется в исходных кодах по очень либеральной лицензии. Пользователям доступен как клиент, который может быть использован с имеющейся сетью DCC-серверов, так и свой сервер, который можно установить либо независимо, либо включить в общую DCC-сеть. Включенные в DCC-сеть сервера обмениваются данными о частотных контрольных суммах практически в реальном времени.

Система DCC поддерживает как анонимных, так и авторизованых клиентов. DCC-сервер можно сконфигурировать так, чтобы сообщения о спаме он принимал только от авторизованых пользователей. В системе реализован и аналог механизма голосования – отдельное сообщение (его контрольная сумма) может быть явно помечена как «спам» или «не спам».

В системе используется сразу несколько типов контрольных сумм – четкая сумма MD5 по всему тексту сообщения, отдельные контрольные суммы по адресам отправителя, получателей и части заголовков письма и два типа нечетких сумм, рассчитанных на работу с меняющимся текстом письма.

В настоящее время публичная сеть DCC обрабатывает около 40 млн. «уникальных сообщений» в сутки (публикуемая статистика не учитывает число отдельных получателей каждого письма), не имея доступа к детальной информации нет возможности перевести это число в привычные единицы. Точно так же, публикуемая статистика по обнаруженному спаму – около 30% в среднем – приводится в уникальных сообщениях, перевести это в «обычные проценты» без дополнительных данных нельзя т.к. непонятно как выяснить долю повторяющихся писем.

Тесты автора данной статьи, проведенные по подборке получаемого в России спама, показывают уровень обнаружения спама в 25% (в обычных терминах) при нуле ложных срабатываний (без учета получаемых легитимных рассылок с большим числом подписчиков).

Сравнительный анализ методов
Три рассмотренных метода кардинально отличаются по способу сбора спама, остальные характеристики у них близки – по полученным образцам спама генерируются сигнатуры, почтовая система может сравнить сигнатуру полученного письма с известными системе, а в случае совпадения – решить, является ли полученное письмо нежелательным. Однако различия в способах сбора приводят к существенному отличию в поведении распределенных систем в целом.

Качество работы.
Качество работы (процент определяемого спама) распределенных систем зависит от ряда свойств системы:

- От представительности выборки - количества разнообразного собираемого спама.
- От соответствия выборки, имеющейся в системе, потоку спама конкретного пользователя.
- От методов построения контрольных сумм – насколько качественно они работают с персонализированным (со случайными последовательностями) спамом.
Судя по публикуемым данным, наиболее представительной выборкой в настоящее время обладают системы с ловушками почты, в первую очередь Brightmail, обрабатывающая около 2 млрд. сообщений в сутки. У основанных на других принципах сбора спама систем DCC и Razor потоки сообщений имеют один порядок – около 100 млн. сообщений в сутки (с учетом разницы методов подсчета), однако в случае DCC в систему попадает информация обо всем потоке почты, а в случае Razor – только выбор пользователя, соответственно представительность DCC несколько выше. Принципы построения нечетких контрольных сумм в DCC и Razor похожи, качество их должно быть близким. Соответственно, качество работы у DCC должно быть выше за счет большей представительности – что и наблюдается.

Ложные срабатывания
Ложные срабатывания – это ошибочное принятие за спам-сообщения того, что спамом не является. Не имея детальных данных по системам с ловушками спам-почты, рассматривать этот аспект их работы невозможно. Рассмотрим проблему ложных срабатываний для двух оставшихся классов систем:

- Системы с голосованием пользователей зависят в определении спама от выбора пользователей. По опыту автора, пользователи часто считают спамом вполне «легальные» сообщения – рассылки, на которые они подписались и не знают, как отписаться, сообщения от автоматических «роботов» и так далее. Уровень «шума» на потоке жалоб обычно составляет нескольких процентов. С другой стороны, обычно число жалоб на легальные сообщения меньше жалоб на массовый спам. С учетом вышесказанного, системы с голосованием должны либо повышать «порог срабатывания» (число жалоб, при котором письмо считается спамом), либо мириться с ложными срабатываниями, когда за спам принимаются легитимные рассылки. Судя по появлению механизма «голосования за» в Razor v2, данное свойство является определенной проблемой – полностью от ложных срабатываний избавиться не удается.

- Системы с анализом всей почты принципиально подразумевают возможность ложного срабатывания – для этих систем легальные рассылки и спам выглядят одинаково. Другими словами, почтовые системы, использующие DCC или аналоги должны поддерживать белые списки для всех легальных рассылок, которые хочется получать. В существенной степени, проблема ложных срабатываний переложена на конечного пользователя.

Возможность компрометации распределенных систем
В последнее время происходят массовые DoS-атаки на системы RBL, что говорит о накоплении спамерами достаточных ресурсов для попыток устранения не нравящихся им антиспамерских систем. С учетом этого факта, необходимо рассмотреть возможность компрометации распределенных систем сбора статистики.
Компрометация подобных систем возможна в двух вариантах: либо система резко снижает качество работы (долю распознаваемого спама), либо же резко увеличивается число ложных срабатываний. В дальнейшем будем рассматривать возможность компрометации только с использованием заложенных в сами системы механизмов работы.

- Системы с ловушками для почты – качество их работы зависит от почты, поступающей в ловушки. Снизить качество работы можно в ситуации, когда спам в эти ловушки перестал приходить. С учетом количества ловушек в коммерческих системах это маловероятно. Количество ложных срабатываний можно увеличить «завалив» ловушки легитимной почтой. В обоих случаях, для компрометации системы необходимо, чтобы в руки спамеров попала существенная часть списка ловушек, компрометация без этого списка малореальна.

- Системы с голосованием пользователей. Качество работы таких систем зависит от активности пользователей – число жалоб на письмо пропорционально массовости его рассылки и количеству пользователей системы. Таким образом, снизить качество распознавания можно путем уменьшения количества спама приходящего голосующим участникам, но именно этого они и так добиваются. Другими словами, ухудшение качества распознавания за счет внешнего воздействия представляется нереальным. Компрометация системы путем увеличения числа ложных срабатываний представляется возможным – для этого спамерам нужно стать голосующим участником и голосовать «против» легитимных рассылок.
Потенциально это возможно, данную проблему система Razor/SpamNet нейтрализует путем присваивания рейтинга голосующим участникам – для компрометации системы необходимо большое количество голосующих участников с хорошим рейтингом. Это опять возможно, но требует уже больших организационных ресурсов. В то же время, проблема ненамеренной компрометации базы данных Razor легальными рассылками есть и на сегодняшний день.

- Системы анализа всей проходящей почты. Данные системы строят объективную статистику проходящей почты, классифицируя ее по частоте, а не по содержанию. Занизить частотность какой-либо рассылки без нарушения целостности системы представляется невозможным. Компрометация системы за счет ложных срабатываний теоретически возможна т.к. нет способа проверить реальное число получателей сообщения, о котором рапортует почтовый сервер.
В системе DCC заложена потенциальная возможность принимать отчеты только от авторизованых клиентов, однако в настоящее время эта возможность на публичной сети DCC-серверов не используется.

Необходимо отметить, что компрометация путем увеличения числа ложных срабатываний существенна только для легальных массовых рассылок, компрометировать единичные сообщения затруднительно, ибо для компрометации необходимо получить образец компрометируемого письма до того, как оно получено большинством получателей. Кроме как для массовых рассылок это малореально. В то же время, для легко компрометируемой на сегодня системы DCC проблема пропуска массовых легальных рассылок имеется и без компрометации, их в любом случае нужно вносить в белый список.

Проблемы распределенных методов
Наиболее существенной проблемой для вышеописанных методов детектирования массовых рассылок является «персонализация» спама – каждое письмо существует в огромном количестве вариантов с незначительными отличиями в тексте. Насколько известно автору, на сегодняшний день ни одна из распределенных систем полностью данную проблему не решила. В то же время, пути решения достаточно понятны – существует богатый разработанный математический аппарат, предназначенный для поиска похожих текстов и фрагментов текстов (сигнатуры Рабина и т.п.), который постепенно начинает использоваться в распределенных системах обнаружения спама.

Вторая существующая проблема связана с ложными определениями легальных рассылок как спама. Эта проблема характерна как для методов, анализирующих всю почту, так и, в меньшей степени, для систем с голосованием пользователей. Решение этой проблемы на локальном уровне возможно путем создания белых списков, включающих все принимаемые данной почтовой системой рассылки. На глобальном уровне можно создавать как всеобщие белые списки (с какой-то политикой), либо вводить методы, позволяющие уверенно и надежно идентифицировать источник рассылки. Таким методом может быть, например, необязательная электронная подпись содержания легальных рассылок, позволяющая уверенно идентифицировать отправителя. Подписанные сообщения могли бы с гарантией проходить через почтовые фильтры.

Перспективы и пути развития распределенных систем анализа электронной почты
Дальнейшее усовершенствование распределенных систем анализа электронной почты можно разделить на два основных направления: улучшение уже построенных механизмов и создание принципиально новых методов анализа.

Усовершенствование имеющихся механизмов распределенных систем, очевидно, будет включать борьбу с описанными выше проблемами. Будет увеличиваться защищенность систем от компрометации, качество обработки писем с добавками случайного текста, снижаться уровень ложных срабатываний. Очевидно, что будет увеличиваться и охват распределенных систем – их эффективность в борьбе со спамом автоматически будет приводить к появлению новых клиентов.

Новые возможности распределенных систем анализа.
Обладание большим массивом получаемых в реальном времени данных о распространении отдельного сообщения открывает совершенно новые возможности для надежного обнаружения спама. По всей видимости, большой эффект должно дать объединение имеющихся способов фильтрации спама (RBL, детерминированный контентный анализ, статистический анализ) с данными, поставляемыми распределенными системами. Можно привести такие потенциальные примеры:

Автоматическое построение короткоживущих черных списков IP-адресов в реальном времени. Если какое-либо сообщение, отклассифицированое как спам, рассылается в настоящее время с некоего списка IP-адресов, то весь этот список может быть временно помечен как «черный» и какой-либо прием почты с этих машин – запрещен. Такое блокирование может осуществляться быстро, его можно делать только на время рассылки.

- Ретроспективный анализ источников спама и построение черных списков на его основе. Способ предполагает анализ источников спама, рассылающих сообщения, которые не были отклассифицированы как спам сразу (например, по причине наличия в них больших объемов случайного текста). Если данные рассылают только спам, то они могут быть помещены в сравнительно долгоживующие черные списки.

- Анализ активности отдельных машин при рассылке почты, выявление «схем поведения» пользовательской машины, рассылающей спам. По всей видимости, такая машина должна отличаться по поведению, как от обычного почтового сервиса, так и от пользовательского компьютера.

- Накопление и анализ изменений текста внутри одной массовой рассылки (один основной текст с переменными добавками). Можно как выделять общие части таких сообщений статистическими методами, так и исследовать алгоритм случайных изменений с целью предсказания дальнейших вариаций.

Богатые потенциальные возможности распределенных систем анализа почты имеют в себе и скрытые опасности – контроль над такой системой дает множество потенциальных возможностей, не связанных с фильтрацией спама. Для предотвращения слишком большого интереса к подобным системам, они должны накапливать сведения только о массовых рассылках, а не по электронной почте в целом.

1RBL – Realtime Blackhole List – черный список адресов компьютеров, содержимое которого доступно его пользователям в реальном времени.
2Socks-server - ПО, обеспечивающее доступ нескольких пользовательских компьютеров к Internet, с использованием одного IP-адреса. Может быть использовано для разделения одного dialup- или xDSL-соединения между несколькими компьютерами пользователя.
3Proxy-server – ПО, действующее как «промежуточный сервер» между клиентом и реальным сервером, обслуживающим запрос. Также может быть использовано для разделения одного соединения.
4Socks- и proxy- серверы часто включают в состав ПО, предназначенного для пользователей высокоскоростных личных подключений к Internet (DSL или кабельные модемы). Часто, для упрощения конфигурирования конечным пользователем, контроль доступа в таком ПО выключен в настройках по-умолчанию.
5«Троянские программы» часто попадают пользователям через файлообменные сети. По состоянию на вторую половину 2003, уже появились вирусы, устанавливающие троянскую компоненту после заражения машины.
6Автору известны прецеденты неприема почты с IP-адресов, входящих в компетенцию ARIN registry, а это вся Юго-Восточная Азия, Австралия и Новая Зеландия.
7см. статью автора «RBL – вред или польза?»

Источник: http://www.getinfo.ru/article499.html