Что такое байесовская фильтрация спама?

Байесовские спам-фильтры вычисляют вероятность того, что сообщение будет спамом на основе его содержимого. В отличие от простых фильтров на основе контента, байесовская фильтрация спама изучается со спама и хорошей почты, что приводит к очень надежному, адаптируемому и эффективному методу защиты от спама, который лучше всего не возвращает никаких ложных срабатываний.

Как вы узнаете нежелательную электронную почту?

Подумайте о том, как вы обнаруживаете спам. Быстрого взгляда достаточно часто. Вы знаете, как выглядит спам, и вы знаете, какая хорошая почта выглядит.

Вероятность спама, похожая на хорошую почту, равна нулю.

Задание контентных фильтров не адаптируется

Было бы здорово, если бы автоматические спам-фильтры тоже работали?

Скопируйте фильтры спама на основе контента, попробуйте именно это. Они ищут слова и другие характеристики, характерные для спама. Каждому характеристическому элементу присваивается оценка, а оценка спама для всего сообщения вычисляется по отдельным баллам. Некоторые скоринговые фильтры также ищут характеристики законной почты, уменьшая окончательный результат сообщения.

Подход к подсчету фильтров работает, но он также имеет несколько недостатков:

Список характеристик построен из спама (и хорошей почты), доступного для инженеров фильтра. Чтобы получить хорошее представление о типичном спаме, который может получить любой, почта должна быть собрана сотнями адресов электронной почты. Это ослабляет эффективность фильтров, особенно потому, что характеристики хорошей почты будут разными для каждого человека , но это не учитывается.
Характеристики, которые нужно искать, более или менее высечены в камне , Если спамеры прикладывают усилия для адаптации (и делают их спам похожим на хорошую почту на фильтры), характеристики фильтрации должны быть изменены вручную - еще большее усилие.
Оценка, назначенная каждому слову, вероятно, основана на хорошей оценке, но она по-прежнему произвольна. И, как и список характеристик, он не адаптируется ни к изменяющемуся миру спама в целом, ни к индивидуальным потребностям пользователя.

Байесовские спам-фильтры улучшают самочувствие, улучшаются и улучшаются

Байесовские спам-фильтры - это своего рода скоринговые фильтры на основе контента. Однако их подход устраняет проблемы с простыми фильтрами спама, и он делает это радикально. Поскольку слабость скоринговых фильтров находится в списке встроенных вручную характеристик и их результатов, этот список исключается.

Вместо этого байесовские спам-фильтры сами создают список. В идеале вы начинаете с (большой) группы писем, которые вы классифицировали как спам, и еще одну кучу хорошей почты. Фильтры рассматривают и анализируют законную почту, и спам, чтобы рассчитать вероятность появления различных характеристик в спаме и в хорошей почте.

Как байесовский спам-фильтр проверяет электронную почту

Характеристики байесовского спам-фильтра могут выглядеть так:

слова в теле сообщения, конечно, и
его заголовки (отправители и пути сообщений, например!), но также
другие аспекты, такие как HTML / CSS-код (например, цвета и другое форматирование) или даже
словосочетания, фразы и
метаинформация (где, например, появляется определенная фраза).

Если слово «декартово», например, никогда не появляется в спаме, но часто в законном электронном письме, которое вы получаете, вероятность того, что «картезианский» указывает, что спам близок к нулю. «Тонер», с другой стороны, появляется исключительно и часто в спаме. «Тонер» имеет очень высокую вероятность попадания в спам, не намного ниже 1 (100%).

Когда приходит новое сообщение, оно анализируется байесовским спам-фильтром, и вероятность того, что полное сообщение будет спамом, рассчитывается с использованием индивидуальных характеристик.

Предположим, что сообщение содержит как «декартово», так и «тонер». Из этих слов в одиночку еще не ясно, есть ли у нас спам или законная почта. Другие характеристики (надеюсь и, скорее всего,) указывают вероятность, которая позволяет фильтру классифицировать сообщение как спам или хорошую почту.

Байесовские фильтры спама могут автоматически изучаться

Теперь, когда у нас есть классификация, сообщение может быть использовано для дальнейшего обучения фильтра. В этом случае либо вероятность «декартова», указывающая хорошую почту, снижается (если считается, что сообщение, содержащее «декартово» и «тонер», является спамом), или вероятность «тонера», указывающего спам, должна быть пересмотрена.

Используя эту автоадаптивную технику, байесовские фильтры могут учиться как своими, так и решениями пользователя (если она вручную корректирует неправильное использование фильтров). Адаптивность байесовской фильтрации также гарантирует, что они наиболее эффективны для отдельного пользователя электронной почты. В то время как спам большинства людей может иметь схожие характеристики, законная почта характерна для всех.

Как могут спамеры получать прошлые байесовские фильтры?

Характеристики законной почты так же важны для байесовского процесса фильтрации спама, как и спам. Если фильтры специально предназначены для каждого пользователя, спаммеры будут работать еще больше, работая с фильтрами спама (или даже с большинством людей), и фильтры могут адаптироваться практически ко всем спамерам.

Спамеры только пройдут мимо хорошо обученных байесовских фильтров, если они сделают свои спам-сообщения такими же, как обычная электронная почта, которую могут получить все.

Спамеры обычно не отправляют такие обычные письма. Предположим, это связано с тем, что эти письма не работают как нежелательные электронные письма.Таким образом, скорее всего, они не будут делать этого, когда обычные, скучные электронные письма - единственный способ сделать это прошлым спам-фильтрами.

Однако, если спамеры действительно переключаются на обычные письма, мы увидим много спама в наших «Входящих» снова, и электронная почта может стать такой же печальной, как и в доибайские дни (или даже хуже). Это также разрушит рынок для большинства видов спама, хотя, и, таким образом, не будет длиться долго.

Сильные индикаторы могут быть ахиллесовой пяткой байесовского спам-фильтра

Одно исключение может быть воспринято для спамеров, чтобы прокладывать себе путь через байесовские фильтры даже с их обычным контентом. В природе байесовской статистики одно слово или характеристика, которые очень часто появляются в хорошей почте, могут быть настолько значительными, чтобы превратить любое сообщение с похожими на спам, чтобы быть оцененным как ветчина фильтром.

Если спамеры найдут способ определить ваши надежные слова доброй почты - используя обратные квитанции HTML, чтобы увидеть, какие сообщения вы открыли, например, они могут включать один из них в нежелательную почту и добираться до вас даже через хорошо организованную почту, обученный байесовский фильтр.

Джон Грэм-Камминг попробовал это, позволив двум байесовским фильтрам работать друг против друга, «плохой», адаптируемый к тому, какие сообщения найдены, чтобы пройти через «хороший» фильтр. Он говорит, что это работает, хотя этот процесс занимает много времени и сложнее. Мы не думаем, что мы увидим многое из этого, по крайней мере, не в большом масштабе, и не с учетом особенностей электронной почты отдельных лиц. Спамеры могут (попытаться) определить некоторые ключевые слова для организаций (например, что-то вроде «Almaden» для некоторых людей в IBM?).

Обычно спам всегда будет (значительно) отличаться от обычной почты, иначе спам не будет.

Нижняя линия: сила байесовской фильтрации может быть ее слабой

Байесовские спам-фильтрыфильтры на основе контента тот:

являютсяспециально обученные распознавать спам и электронную почту отдельного почтового пользователя, что делает их очень эффективными и трудно адаптируемыми для спамеров.
может постоянно и без особых усилий или ручного анализаадаптироваться к последним трюкам спамеров.
принимать во внимание индивидуальную пользу пользователя инизкий уровень ложных срабатываний.
К сожалению, если это вызывает слепое доверие к байесовским антиспамовым фильтрам,случайная ошибка еще более серьезная, Противоположный эффектложные отрицания (спам, который выглядит точно так же, как обычная почта), может нарушить и сорвать пользователей.