PDA

Просмотр полной версии : Алгоритм анализа ДНК против спама



kps
16.10.2004, 14:10
Новый алгоритм для распознавания спама изобретен биологами исследовательского центра TJ Watson в Нью-Йорке, принадлежащего компании IBM. Он основан на методе, который используется учеными для анализа генетических последовательностей, сообщает BBC News.

Работы над алгоритмом начались более года назад. В разработке принимали участие Исидор Ригоутсос (Isidore Rigoutsos) и Тьэн Хунь (Tien Huynh) из IBM. Называется алгоритм "Чунг-Квей" (Chung-Kwei). Этот алгоритм – модификация более раннего, который использовался для поиска в цепочках ДНК и других аминокислотах повторяющихся последовательностей. На этот раз вместо ДНК исследователи проанализировали алгоритмы 65 тыс. известных спамов.

Каждое электронное письмо обрабатывалось как длинная цепь ДНК-подобных характеристик. Алгоритм обнаружил 6 млн. повторяющихся фрагментов. Каждый из таких фрагментов представляет собой специфичную последовательность текстов и чисел, которые появляются более чем в одном из “непрошенных” посланий. Такой же обработке была подвергнута группа электронных посланий, не относящаяся к категории спамов. После этого из технологии были изъяты фрагменты, которые появлялись в обеих группах, а остались в работе лишь фрагменты, характерные для спамов.Затем вся поступающая почта была проанализирована на предмет наличия в письмах того или иного “спамовского” фрагмента. Если число таких признаков в послании было высоко, послание относилось к категории спама, если - низко, то - к категории "здорового" послания.

Алгоритм может самостоятельно обучаться и показал высокую эффективность в борьбе со спамом. Он не ошибется, например, если спаммер заменил в теме письма "S" на "$". В тестах фильтр неправильно сработал только однажды при анализе 6000 сообщений, где были перемешаны обычные письма и спам.
На проверку 88 тысяч сообщений программой было потрачено 15 минут, и в 97 процентах случаев алгоритм верно распознал почтовый мусор.

IBM полагает, что алгоритм "Чунг-Квей" станет самым эффективным инструментом против спама. Разработчикам осталось провести некоторые предварительные проверки перед выпуском программы в продажу. По их словам, в работе им очень помог огромный объем спама, который они получают на своем рабочем месте.

http://www.gazeta.ru/techzone/2004/08/25_n_154698.shtml
http://www.lenta.ru/internet/2004/08/25/dna/
http://protoplex.ru/news_show/1383.html

Geser
17.10.2004, 08:18
Лучше использовать алгоритм анализа (и коррекции) ДНК против спамеров ;D

Alexey P.
17.10.2004, 08:55
Вполне хватает и обычного спамассассина.
А если этот ДНК анализатор будет платным, дык идет он лесом.
К тому же его 97% не очень вдохновляют, это мало.

P.S. Насколько я понимаю, это всего лишь аналог байеса. А одного его слишком мало, большего и не добьются. Больше рекламы, чем полезных результатов.

kps
17.10.2004, 12:36
Лучше использовать алгоритм анализа (и коррекции) ДНК против спамеров ;D

А это идея :)