Journal Bogofilter a faim ?

Posté par  (site web personnel) .
Étiquettes : aucune
0
17
avr.
2003
Vu que ma base Bogofilter n'était pas énorme et que je faisais trop petit joueur face aux copains, j'ai récupéré plus de 50 Mo de spams sur http://spamarchive.org/ (grace à wget) pour ensuite alimenter ma base personnelle.

Méthode :



wget --level=2 -r ftp://mirrors.blueyonder.co.uk/sites/ftp.spamarchive.org/pub/archives/submit

# je préfère fichier par fichier au lieu de faire
# gunzip *gz | bogofilter...
for i in *gz; do
echo "Processing #$i..."
gunzip -c $i | bogofilter -s
rm $i
done



Et vous vous retrouvez alors avec un fichier spamlist.db de 13 Mo au lieu de 1.3 Mo !
  • # Re: Bogofilter a faim ?

    Posté par  (site web personnel) . Évalué à 4.

    Perso je ne détruit pas mes spams quand ils sont récupérés sur ma machine perso, ils sont dans un dossier à part, toujours revalidés à la main.

    Dans un futur hypotéthique où j'utiliserai un filtre type bogofilter j'aurai déjà une base d'aprentissage pertinente.

    Si quelqu'un la veut elle fait actuellement dans les 2500 spams, tous récupérés chez moi (à 20-25 par jour ca va vite), je la mail sur demande.


    Par contre récupérer une liste de quelqu'un d'autre je ne sais pas si c'est si bien. Ces outils sont étudiés pour apprendre à partir de ton cas particulier. Peut etre que chez moi tout ce qui contient "house" est lié à un spam mais que toi tu discutes de contruction de maisons en anglais, et inversement recoit peu ou pas de spam avec ce mot clé. M'est avis qu'une base réelle, la tienne, serait mieux.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.