Posté par steph1978 .
Évalué à 6.
Dernière modification le 08 juillet 2024 à 16:04.
Utiliser un LLM pour faire de la classification de textes, ça me paraît pourtant pile dans la cible. "Pour une fois", serai-je tenté de dire.
Cependant, il serait probablement plus efficace de ré-entrainer un petit modèle basé un modèle open source genre ollama ou mistral plutôt que de demander à un LLM généraliste.
L'avantage potentiel d'utiliser un LLM généraliste est qu'il pourrait reconnaître particulièrement bien le contenu du spam qu'il aurait lui même engendré.
L'avantage potentiel d'utiliser un LLM généraliste est qu'il pourrait reconnaître particulièrement bien le contenu du spam qu'il aurait lui même engendré.
Ça me ferait bien chier que les mails que je reçois partent dans des LLM sur le "cloud" pour être détectés comme spam ou non.
git is great because linus did it, mercurial is better because he didn't
Utiliser un LLM pour faire de la classification de textes, ça me paraît pourtant pile dans la cible. "Pour une fois", serai-je tenté de dire.
En effet. Pour une fois que cela est un usage/une expérimentation raisonnable d'une telle technologie! D'ailleurs, dans ce type d'usage, la classification d'email (ou de texte de manière générale) par du filtrage bayésien est aussi dans la catégorie "intelligence artificielle" (non, l'IA c'est pas juste les LLMs, quoiqu'en disent les djeunz!).
Bon ceci étant, le résultat est très mauvais à ce stade. Quelqu'un parle de temps de traitement plus haut, mais c'est surtout la confiance dans le classement qui pêche! D'après le lien, même le plus coûteux modèle a faux 7% du temps, contre 3% pour le classement bayésien classique.
Et en particulier, on parle de plus de 5% de faux positifs pour le LLM contre moins de 1% pour le filtre bayésien. Pour rappel, les faux positifs sont la partie la plus problématique du filtrage anti-spam. Autant avoir quelques spams qui rentrent par erreur dans la boîte aux lettres est juste un peu ennuyeux, autant on veut idéalement aucun vrai message filtré par erreur en spam (pour peu que ce soit un message très important qu'on risque de louper!).
À voir avec des modèles entraînés exprès en effet…
Enfin bon, en gros, c'est pas encore aujourd'hui qu'on va passer à ce type de filtrage. En considérant le coût temporel additionnel mais aussi le coût d'entraînement de ces modèles, il faudrait vraiment qu'un filtrage par LLM soit proche de 0% de faux positifs (et pas trop de faux négatifs non plus tant qu'à faire, même si ce point est moins grave dans la confiance accordée à l'outil) pour considérer changer de système.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
# Habile !
Posté par jseb . Évalué à 4.
Il fallait y penser.
Seul le temps de traitement reste très en faveur du filtre Baysien.
Discussions en français sur la création de jeux videos : IRC libera / #gamedev-fr
# Je vérifie la date
Posté par David Demelier (site web personnel) . Évalué à 3.
Ah non, c'est pas un poisson d'avril.
git is great because linus did it, mercurial is better because he didn't
[^] # Re: Je vérifie la date
Posté par Glandos . Évalué à 2.
Oui, j'ai pensé exactement la même chose :)
[^] # Re: Je vérifie la date
Posté par steph1978 . Évalué à 6. Dernière modification le 08 juillet 2024 à 16:04.
Utiliser un LLM pour faire de la classification de textes, ça me paraît pourtant pile dans la cible. "Pour une fois", serai-je tenté de dire.
Cependant, il serait probablement plus efficace de ré-entrainer un petit modèle basé un modèle open source genre ollama ou mistral plutôt que de demander à un LLM généraliste.
[^] # Re: Je vérifie la date
Posté par Pol' uX (site web personnel) . Évalué à 5.
L'avantage potentiel d'utiliser un LLM généraliste est qu'il pourrait reconnaître particulièrement bien le contenu du spam qu'il aurait lui même engendré.
Adhérer à l'April, ça vous tente ?
[^] # Re: Je vérifie la date
Posté par David Demelier (site web personnel) . Évalué à 4.
Ça me ferait bien chier que les mails que je reçois partent dans des LLM sur le "cloud" pour être détectés comme spam ou non.
git is great because linus did it, mercurial is better because he didn't
[^] # Re: Je vérifie la date
Posté par Pol' uX (site web personnel) . Évalué à 5.
Mon propos était sarcastique.
Adhérer à l'April, ça vous tente ?
[^] # Re: Je vérifie la date
Posté par David Demelier (site web personnel) . Évalué à 3.
Zut, ça paraissait tellement réel. Je m'en vais de ce pas réviser mon détecteur de second degré.
git is great because linus did it, mercurial is better because he didn't
[^] # Re: Je vérifie la date
Posté par Jehan (site web personnel, Mastodon) . Évalué à 6.
En effet. Pour une fois que cela est un usage/une expérimentation raisonnable d'une telle technologie! D'ailleurs, dans ce type d'usage, la classification d'email (ou de texte de manière générale) par du filtrage bayésien est aussi dans la catégorie "intelligence artificielle" (non, l'IA c'est pas juste les LLMs, quoiqu'en disent les djeunz!).
Bon ceci étant, le résultat est très mauvais à ce stade. Quelqu'un parle de temps de traitement plus haut, mais c'est surtout la confiance dans le classement qui pêche! D'après le lien, même le plus coûteux modèle a faux 7% du temps, contre 3% pour le classement bayésien classique.
Et en particulier, on parle de plus de 5% de faux positifs pour le LLM contre moins de 1% pour le filtre bayésien. Pour rappel, les faux positifs sont la partie la plus problématique du filtrage anti-spam. Autant avoir quelques spams qui rentrent par erreur dans la boîte aux lettres est juste un peu ennuyeux, autant on veut idéalement aucun vrai message filtré par erreur en spam (pour peu que ce soit un message très important qu'on risque de louper!).
À voir avec des modèles entraînés exprès en effet…
Enfin bon, en gros, c'est pas encore aujourd'hui qu'on va passer à ce type de filtrage. En considérant le coût temporel additionnel mais aussi le coût d'entraînement de ces modèles, il faudrait vraiment qu'un filtrage par LLM soit proche de 0% de faux positifs (et pas trop de faux négatifs non plus tant qu'à faire, même si ce point est moins grave dans la confiance accordée à l'outil) pour considérer changer de système.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.