Vu que ma base Bogofilter n'était pas énorme et que je faisais trop petit joueur face aux copains, j'ai récupéré plus de 50 Mo de spams sur http://spamarchive.org/ (grace à wget) pour ensuite alimenter ma base personnelle.
Méthode :
wget --level=2 -r ftp://mirrors.blueyonder.co.uk/sites/ftp.spamarchive.org/pub/archives/submit
# je préfère fichier par fichier au lieu de faire
# gunzip *gz | bogofilter...
for i in *gz; do
echo "Processing #$i..."
gunzip -c $i | bogofilter -s
rm $i
done
Et vous vous retrouvez alors avec un fichier spamlist.db de 13 Mo au lieu de 1.3 Mo !
# Re: Bogofilter a faim ?
Posté par Éric (site web personnel) . Évalué à 4.
Dans un futur hypotéthique où j'utiliserai un filtre type bogofilter j'aurai déjà une base d'aprentissage pertinente.
Si quelqu'un la veut elle fait actuellement dans les 2500 spams, tous récupérés chez moi (à 20-25 par jour ca va vite), je la mail sur demande.
Par contre récupérer une liste de quelqu'un d'autre je ne sais pas si c'est si bien. Ces outils sont étudiés pour apprendre à partir de ton cas particulier. Peut etre que chez moi tout ce qui contient "house" est lié à un spam mais que toi tu discutes de contruction de maisons en anglais, et inversement recoit peu ou pas de spam avec ce mot clé. M'est avis qu'une base réelle, la tienne, serait mieux.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.