Pour l'instant concentré sur la langue de Shakespeare, il note un contenu textuel par un flottant compris entre 0 et 1, la plus basse note de 0 étant le niveau ayant la plus forte probabilité de stupidité.
L'algorithme est proche de ceux des filtres anti-spam : SVM ou « support vector machine » en V.O. ou encore « machine à vecteurs de support » dans la langue de Molière.
Forcément lucides, les développeurs ont bien conscience qu'un tel logiciel puisse paraître élitiste, et n'ont bien évidemment pas la prétention de remplacer une vraie intelligence artificielle, quand bien même celle-ci serait forcément « subjective » (disons « relative » ?). Après un :
sudo apt-get install build-essential flex libboost-serialization-dev
make
sudo make install
On peut jouer avec :
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Debian roxxxor
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Templeet suxxx
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Windows Vista is beautiful
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Software is like sex, it's better when it's free.
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Given enough eyeballs, all bugs are shallow
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
I am the king of the wooooorld
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Luke, I am your father
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Linux is a cancer
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
Steven Ballmer dancemonkeyboy
Text is not likely to be stupid.
$ ./classify.sh
Enter text to be classified, hit return to run classification.
42
Text is likely to be stupid.
Je vous laisse tester « kikoo » et « lol ». Mdr.
Aller plus loin
- StupidFilter (0 clic)
- Démo en ligne (2 clics)
- FAQ (1 clic)
# ubuntu ?
Posté par Marc Poiroud (site web personnel) . Évalué à 4.
Franchement donner des exemples d'installation comme ça, c'est tendre le baton pour ce faire battre ... on est vendredi mais tout de même :)
[^] # Re: ubuntu ?
Posté par vieuxshell (site web personnel) . Évalué à 2.
[^] # Re: ubuntu ?
Posté par aedrin . Évalué à 3.
[^] # Re: ubuntu ?
Posté par vieuxshell (site web personnel) . Évalué à 1.
# filtre bayésien en plus ?
Posté par aedrin . Évalué à 7.
On remplace "indésirable" par "stupide" ou "inutile" et "légitime" par "pertinent" (au hasard ;-)
Suffit juste de "pertinenter" et d'"inutiliser" différentes phrases lors de la phase d'apprentissage, et on diminuera progressivement les faux-positifs et les faux-négatifs.
Je ne vois pas pourquoi du coup le contenu textuel testé devrait être en telle langue (ici l'anglais) plutôt qu'une autre... si la phase d'apprentissage est bien faite et suffisamment conséquente, il ne devrait pas y avoir de problème pour différencier plus ou moins automatiquement le français, le langage sms ou le kikoonovlangue.
[^] # Re: filtre bayésien en plus ?
Posté par Yusei (Mastodon) . Évalué à 2.
Si on applique ça à la détection de troll, ça ne marchera pas, sauf si le troll utilise des mots clés ("sux", "roxor", "vim", ...). On ne fera pas la différence entre "Ubuntu est un OS pour débutants, pas comme Windows, qui est pour les professionnels" et "Quand j'étais débutant, mon OS était Windows, mais depuis que je suis entré dans la vie professionnelle, j'utilise Ubuntu".
[^] # Re: filtre bayésien en plus ?
Posté par freeze . Évalué à 1.
[^] # Re: filtre bayésien en plus ?
Posté par Yusei (Mastodon) . Évalué à 3.
# une idée
Posté par pikapika . Évalué à 1.
[^] # Re: une idée
Posté par aedrin . Évalué à 9.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.