Les filtres anti-spam bayésiens calculent la probabilité qu'un message soit du spam en fonction de son contenu. Contrairement aux simples filtres basés sur le contenu, le filtrage bayésien du spam tire des leçons du spam et des bons messages. Il en résulte une approche anti-spam très robuste, adaptable et efficace qui, au mieux, ne renvoie aucun faux positif.
Comment reconnaissez-vous le courrier indésirable?
Pensez à la façon dont vous détectez le spam. Un coup d'œil suffit souvent. Vous savez à quoi ressemble le spam et à quoi ressemble un bon courrier.
La probabilité que le spam ressemble à un bon courrier est d'environ… zéro.
L'évaluation des filtres basés sur le contenu ne s'adapte pas
Ne serait-il pas formidable que les filtres anti-spam automatiques fonctionnent également de cette manière?
L'analyse des filtres anti-spams basés sur le contenu tente justement de le faire. Ils recherchent des mots et autres caractéristiques typiques du spam. Un score est attribué à chaque élément caractéristique et un score de spam pour l'ensemble du message est calculé à partir des scores individuels. Certains filtres d'évaluation permettent également de rechercher les caractéristiques du courrier légitime, réduisant ainsi le score final d'un message.
L’approche des filtres d’évaluation fonctionne, mais elle présente également plusieurs inconvénients:
- La liste des caractéristiques est construite à partir du spam (et du bon courrier) disponible pour les ingénieurs du filtre. Pour bien comprendre le spam typique que quiconque pourrait recevoir, le courrier doit être collecté à des centaines d’adresses électroniques. Cela affaiblit l’efficacité des filtres, notamment parce que la les caractéristiques d'un bon courrier seront différentes pour chaque personne , mais ceci n’est pas pris en compte.
- Les caractéristiques à rechercher sont plus ou moins gravé dans la pierre . Si les spammeurs s'efforcent de s'adapter (et font en sorte que leurs spams ressemblent à ceux des filtres), les caractéristiques de filtrage doivent être ajustées manuellement, ce qui représente un effort encore plus important.
- Le score attribué à chaque mot est probablement basé sur une bonne estimation, mais il reste arbitraire. Et comme la liste des caractéristiques, il ne s’adapte ni à l’évolution du monde du spam en général, ni aux besoins de chaque utilisateur.
Les filtres anti-spam bayésiens se modifient et s'améliorent
Les filtres anti-spam bayésiens sont également une sorte de filtres basés sur le contenu de scoring. Leur approche élimine toutefois les problèmes de simple filtrage des filtres antispam et le fait radicalement. La faiblesse des filtres de scoring se trouvant dans la liste de caractéristiques construite manuellement et leurs scores, cette liste est éliminée.
Au lieu de cela, les filtres anti-spam bayésiens construisent la liste eux-mêmes. Idéalement, vous commencez avec un (gros) groupe d'e-mails que vous avez classés comme spam et un autre groupe de bons messages. Les filtres examinent les deux et analysent le courrier légitime ainsi que le spam pour calculer la probabilité que diverses caractéristiques apparaissent dans le spam et dans le bon courrier.
Comment un filtre anti-spam bayésien examine-t-il un courrier électronique?
Les caractéristiques qu'un filtre anti-spam bayésien peut examiner peuvent être:
- les mots dans le corps du message, bien sûr, et
- ses en-têtes (expéditeurs et chemins des messages, par exemple!), mais aussi
- d'autres aspects tels que le code HTML / CSS (comme les couleurs et autres formats), ou même
- des paires de mots, des phrases et
- méta-information (où une phrase particulière apparaît, par exemple).
Si un mot, "cartésien" par exemple, n'apparaît jamais dans le courrier indésirable, mais souvent dans le courrier légitime que vous recevez, la probabilité que "cartésien" indique que le courrier indésirable est proche de zéro. "Toner", en revanche, apparaît exclusivement et souvent dans le spam. "Toner" a une très forte probabilité d'être trouvé dans le spam, pas très en dessous de 1 (100%).
Lorsqu'un nouveau message arrive, il est analysé par le filtre anti-spam bayésien et la probabilité que le message complet soit du spam est calculée à l'aide des caractéristiques individuelles.
Supposons qu'un message contienne "cartésien" et "toner". Rien que par ces mots, il n’est pas encore clair si nous avons du spam ou du courrier légitime. D'autres caractéristiques indiqueront (probablement et probablement) une probabilité permettant au filtre de classer le message en tant que spam ou bon courrier.
Les filtres anti-spam bayésiens peuvent apprendre automatiquement
Maintenant que nous avons une classification, le message peut être utilisé pour former le filtre lui-même. Dans ce cas, la probabilité que le message "cartésien" indique un courrier valide est réduite (si le message contenant à la fois les messages "cartésien" et "toner" est considéré comme du spam) ou la probabilité que le "toner" indiquant le courrier indésirable soit réexaminé
En utilisant cette technique auto-adaptative, les filtres bayésiens peuvent apprendre de leurs propres décisions et de celles de l'utilisateur (si elle corrige manuellement un mauvais jugement par les filtres). L'adaptabilité du filtrage bayésien garantit également leur efficacité pour l'utilisateur de messagerie individuel. Alors que le spam de la plupart des gens peut avoir des caractéristiques similaires, le courrier légitime est différent pour tout le monde.
Comment les spammeurs peuvent-ils récupérer les filtres bayésiens?
Les caractéristiques du courrier légitime sont tout aussi importantes pour le processus de filtrage de spam bayésien que le spam. Si les filtres sont spécialement conçus pour chaque utilisateur, les spammeurs auront encore plus de difficulté à contourner les filtres anti-spam de tout le monde (ou même de la plupart des utilisateurs) et ils pourront s'adapter à presque tout ce que les spammeurs essaient.
Les spammeurs ne passeront devant des filtres bayésiens bien formés que s’ils font en sorte que leurs messages de spam ressemblent parfaitement au courrier électronique ordinaire que tout le monde peut recevoir.
Les spammeurs n'envoient généralement pas de tels emails. Supposons que c'est parce que ces courriels ne fonctionnent pas comme courrier indésirable.Il est donc probable qu’ils ne le feront pas lorsque des courriels ordinaires et ennuyeux sont le seul moyen de surmonter les filtres anti-spam.
Toutefois, si les spammeurs optent pour des courriels d'aspect ordinaire, nous verrons à nouveau beaucoup de spam dans nos boîtes de réception, et le courrier électronique peut devenir aussi frustrant qu'il l'était à l'époque pré-bayésienne (ou même pire). Cela aura également ruiné le marché pour la plupart des types de spam et ne durera donc pas longtemps.
Les indicateurs forts peuvent être le talon d'Achille d'un filtre anti-spam bayésien
Une seule exception peut être perçue par les spammeurs à traverser les filtres bayésiens, même avec leur contenu habituel. Il est dans la nature des statistiques bayésiennes qu'un mot ou une caractéristique apparaissant très souvent dans un bon courrier peut être assez important pour que tout message qui ressemble à du spam soit classé par le filtre.
Si les spammeurs trouvent un moyen de déterminer vos bons mots - en utilisant les accusés de réception HTML pour voir quels messages vous avez ouverts, par exemple -, ils peuvent en inclure un dans un courrier indésirable et vous atteindre même par un filtre bayésien formé.
John Graham-Cumming a essayé cela en laissant deux filtres bayésiens fonctionner l'un contre l'autre, le "mauvais" s'adaptant aux messages pour passer à travers le "bon" filtre. Il dit que cela fonctionne, même si le processus prend du temps et est complexe. Nous ne pensons pas que cela se produira beaucoup, du moins pas à grande échelle, et non adapté aux caractéristiques de messagerie des individus. Les spammeurs peuvent (essayer de) trouver quelques mots-clés pour les organisations (quelque chose comme "Almaden" pour certaines personnes chez IBM peut-être?) À la place.
Habituellement, le spam sera toujours (sensiblement) différent du courrier ordinaire ou ne sera pas du spam, cependant.
The Bottom Line: La force du filtrage bayésien peut être sa faiblesse
Les filtres anti-spam bayésiens sontfiltres basés sur le contenu cette:
- sontspécialement formés pour reconnaître le courrier indésirable et le bon courrier de l'utilisateur de courrier électronique, ce qui les rend très efficaces et difficiles à adapter pour les spammeurs.
- peut continuellement et sans trop d'effort ou d'analyse manuelleadapter aux dernières astuces des spammeurs.
- prendre en compte le bon courrier de chaque utilisateur et avoir un trèsfaible taux de faux positifs.
- Malheureusement, si cela crée une confiance aveugle dans les filtres anti-spam bayésiens, cela rend leerreur occasionnelle encore plus grave. L'effet inverse defaux négatifs (spam qui ressemble exactement au courrier ordinaire) peut déranger et frustrer les utilisateurs.