Filtro bayesiano

O filtro bayesiano é o processo de usar métodos estatísticos para classificar documentos por categorias. O filtro de Bayes foi definido depois do documento de Paul Graham, A Plan for Spam,^[1] e transformou-se num mecanismo popular para distinguir um e-mail ilegítimo conhecido como spam de um e-mail legítimo.

Muitos programas de e-mail modernos como Mozilla Thunderbird utilizam a filtragem de spams através de inferência por meio da aplicação do teorema de Bayes:

P(spam|palavra)={\frac {P(palavra|spam)P(spam)}{P(palavra)}}

A probabilidade de um email ser um spam por conter determinada palavra é, por inferência bayesiana, igual à estatística de aparecimento daquela palavra em emails que sejam marcados pelo usuário como spam, multiplicada à estatística geral de spams por total de emails recebidos e dividida pela estatística geral de aparecimento daquela palavra.

Por exemplo, palavras comuns como "você", "eu", "casa" e "festa" aparecem com frequência em mensagens que sejam spam, todavia também aparecem com frequência em mensagens que não sejam spam. Mas no caso de outras expressões, como "viagra", "dinheiro fácil" e "preço imperdível", que são raras em emails comuns e comuns em mensagens de spam, é altamente provável que mensagens que as possuam sejam spams.

A inferência Bayesiana permite uma eficaz filtragem preditiva de mensagens através de palavras-chave com um número reduzido de falso positivos. Definindo um limiar conservador ainda assim mantêm-se grande parte das mensagens de spam fora da caixa de entrada, sendo bastante improvável que uma mensagem seja erroneamente enviada à caixa de spam; o que seria impossível com filtros simples.

Para que o filtro possa funcionar corretamente é necessário que se tenha um bom banco de dados para a inferência das probabilidades, com uma amostragem considerável de mensagens que sejam e que não sejam spam. No caso de clientes de email para desktop, como o Thunderbird, esse banco de dados é local e individual, sendo construído pouco a pouco pelo feedback do usuário. E no caso de grandes webmails, como o Gmail, esse banco de dados pode ser coletivo, construído pelo feedback de milhares de diferentes usuários de diversas partes do mundo, resultando em um banco de dados com melhor amostragem e por tanto mais eficaz. O que pode não ser de todo desejável, já que talvez um banco de dados com pequena amostragem porém específico atente melhor à necessidade individual de certos indivíduos; porém algoritmos mais complexos podem designar pesos para o feedback do usuário, preservando a especifidade.

Um dos reveses da filtragem bayesiana é o processamento de dados e a manutenção de um banco de dados que em sistemas limitados não pode ser possível levando ao uso de filtros mais simples. E para os que utilizam bancos de dados locais, o 'período de feedback' pode ser incômodo.

Ver também

Inferência bayesiana

Referências

↑ [1]

[1] [1]

[1]