Corrigez-moi si je dis n'importe quoi, mais est-ce que ces fantastiques taux de compression ne sont pas un peu… artificiels ?
Je veux dire, on a un énorme dictionnaire de départ (le LLM), adapté en plus à la langue du texte, et, Ô surprise, on arrive (en gros) à utiliser des "index" dans ce tableau pour exprimer ce qu'il y a dans le texte de départ.
Si, énorme coup de bol, un paragraphe entier est dans le dictionnaire, jackpot ! :)
Possible qu'un xz doté d'un dictionnaire préexistant énorme ferait des miracles aussi…
A GPU is mandatory to get a reasonable speed. Depending on the model size, the speed varies between a few kB/s to one hundred kB/s.
The same exact GPU model and program versions must be used for compression and decompression.
The model is frozen so it works only for text files in a language that the model has already seen.
Tu vois bien que niveau performances et flexibilité c'est finalement assez mauvais.
Je pense qu'il faut voir ça comme un jouet ou une démo plutôt qu'une révolution. ;)
On fait souvent le lien entre compressibilité et entropie au sens de Shannon. Y aurait-il une raison sous-jacente à ce que ces deux méthodes de compression atteignent des efficacités comparables ? Serait-ce trop capillotracté d'imaginer en déduire que les modèles de langage sont des machines à produire du texte aussi dénué d'information (sans entropie) que possible ?
Information du modèle qui constituerait justement — toujours par analogie avec la physique — une sorte d’état fondamental. Bon, c’est sûrement un délire trop perso pour pouvoir l’énoncer clairement.
Dans le classement de Matt Mahoney des algorithmes de compression, on ne prend pas en compte seulement la taille du fichier compressé, mais aussi la taille du programme de décompression (donc dans ce cas précis, le "dictionnaire").
Cela n'empêche pas nncp de se classer devant tous ses concurrents.
Le décompresseur fait 200Ko, ce qui n'est pas énorme pour ce test (ou les données à compresser sont très grosses).
J'entends parler de ce monsieur depuis au moins 20 ans. Je le connaissais surtout pour QEMU. Si je ne me suis pas trompé dans mes recherches, la première dépêche le mentionnant date de 2002 et parle de FFMPEG.
Sa page Wikipédia donne une liste abracadabrantesque de réalisations, entre autres :
Formule de Bellard pour calculer PI (43% plus rapide que la formule précédente qu'il a améliorée)
Record du monde de calcul de PI… sur un PC de moins de 3 000 € !
Trois fois champion du International Obfuscated C Code Contest
A développé FFMPEG, QEMU, QuickJS, Tiny C Compiler, un émulateur PC en JS, un émetteur TNT via une carte VGA, ainsi qu'un tas d'autres applications.
Les plus vieux se rappellent de son programme de synthèse vocale via le speaker du PC. Pas d'article sur LinuxFR car le site n'existait pas :) (Et puis ça marchait sous DOS)
J'avais sélectionné son programme d'encodage/decodage ASN1 qui même s'il est un peu moins complet et surtout user-friendly est 10 fois moins cher sue la concurrence (en gros 2000 euros contre 20 000)…
Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.
Je trouverai drôle un outil de compression de texte avec perte. Un peu sous la forme de résumé que peuvent faire les outils comme chatgpt (sauf que là il s'agit de garder le même narrateur). Tu lui dis combien tu veux gagner et il simplifie ce qui lui paraît moins important.
# Ai-je bien compris
Posté par Christophe . Évalué à 8.
Corrigez-moi si je dis n'importe quoi, mais est-ce que ces fantastiques taux de compression ne sont pas un peu… artificiels ?
Je veux dire, on a un énorme dictionnaire de départ (le LLM), adapté en plus à la langue du texte, et, Ô surprise, on arrive (en gros) à utiliser des "index" dans ce tableau pour exprimer ce qu'il y a dans le texte de départ.
Si, énorme coup de bol, un paragraphe entier est dans le dictionnaire, jackpot ! :)
Possible qu'un xz doté d'un dictionnaire préexistant énorme ferait des miracles aussi…
J'ai bon ?
[^] # Re: Ai-je bien compris
Posté par Renault (site web personnel) . Évalué à 7.
Enfin quand tu vois les limitations :
Tu vois bien que niveau performances et flexibilité c'est finalement assez mauvais.
Je pense qu'il faut voir ça comme un jouet ou une démo plutôt qu'une révolution. ;)
[^] # Re: Ai-je bien compris
Posté par raphj . Évalué à 2.
Wat? Et du coup, est-ce vrai pour la version du pilote aussi ? Pourquoi ça influe ?
Si quelqu'un a des idées…
[^] # Re: Ai-je bien compris
Posté par Nicolas Boulay (site web personnel) . Évalué à 3.
Le principe de compression est de predire le texte puis de coder les modif. Ici, c est l ia qui fait cela.
Les taux de compression sont autour de 1/8, xz fait 13%. C est comparrable.
"La première sécurité est la liberté"
[^] # Re: Ai-je bien compris
Posté par ǝpɐןƃu∀ nǝıɥʇʇɐW-ǝɹɹǝıԀ (site web personnel) . Évalué à 2.
On fait souvent le lien entre compressibilité et entropie au sens de Shannon. Y aurait-il une raison sous-jacente à ce que ces deux méthodes de compression atteignent des efficacités comparables ? Serait-ce trop capillotracté d'imaginer en déduire que les modèles de langage sont des machines à produire du texte aussi dénué d'information (sans entropie) que possible ?
« IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace
[^] # Re: Ai-je bien compris
Posté par Nicolas Boulay (site web personnel) . Évalué à 3.
Sans entropie par rapport au texte d'origine mais avec plein d'informations du modèle.
"La première sécurité est la liberté"
[^] # Re: Ai-je bien compris
Posté par ǝpɐןƃu∀ nǝıɥʇʇɐW-ǝɹɹǝıԀ (site web personnel) . Évalué à 2.
Information du modèle qui constituerait justement — toujours par analogie avec la physique — une sorte d’état fondamental. Bon, c’est sûrement un délire trop perso pour pouvoir l’énoncer clairement.
« IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace
[^] # Re: Ai-je bien compris
Posté par greendev . Évalué à 0.
Ça l’appelle
brotli
.[^] # Re: Ai-je bien compris
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 2.
Dans le classement de Matt Mahoney des algorithmes de compression, on ne prend pas en compte seulement la taille du fichier compressé, mais aussi la taille du programme de décompression (donc dans ce cas précis, le "dictionnaire").
Cela n'empêche pas nncp de se classer devant tous ses concurrents.
Le décompresseur fait 200Ko, ce qui n'est pas énorme pour ce test (ou les données à compresser sont très grosses).
# Fabrice Bellard : un palmarès impressionnant !
Posté par abbe_sayday . Évalué à 10.
J'entends parler de ce monsieur depuis au moins 20 ans. Je le connaissais surtout pour QEMU. Si je ne me suis pas trompé dans mes recherches, la première dépêche le mentionnant date de 2002 et parle de FFMPEG.
Sa page Wikipédia donne une liste abracadabrantesque de réalisations, entre autres :
Nec spe, nec metu
[^] # Re: Fabrice Bellard : un palmarès impressionnant !
Posté par YBoy360 (site web personnel) . Évalué à 3.
C'est une vraie brute. Si il cherche un taff..
[^] # Re: Fabrice Bellard : un palmarès impressionnant !
Posté par Wawet76 . Évalué à 7.
Les plus vieux se rappellent de son programme de synthèse vocale via le speaker du PC. Pas d'article sur LinuxFR car le site n'existait pas :) (Et puis ça marchait sous DOS)
[^] # Re: Fabrice Bellard : un palmarès impressionnant !
Posté par Marc Quinton . Évalué à 3.
encore un personnage illustre qui a droit à son propre TAG sur Linuxfr.
[^] # Re: Fabrice Bellard : un palmarès impressionnant !
Posté par Glandos . Évalué à 3.
Son programme NNCP de compression est premier de la liste sur http://www.mattmahoney.net/dc/text.html
C'est un programme de compression sans perte par réseaux de neurones.
[^] # Re: Fabrice Bellard : un palmarès impressionnant !
Posté par abriotde (site web personnel, Mastodon) . Évalué à 1.
J'avais sélectionné son programme d'encodage/decodage ASN1 qui même s'il est un peu moins complet et surtout user-friendly est 10 fois moins cher sue la concurrence (en gros 2000 euros contre 20 000)…
Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.
# Avec perte
Posté par barmic 🦦 . Évalué à 6.
Je trouverai drôle un outil de compression de texte avec perte. Un peu sous la forme de résumé que peuvent faire les outils comme chatgpt (sauf que là il s'agit de garder le même narrateur). Tu lui dis combien tu veux gagner et il simplifie ce qui lui paraît moins important.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Avec perte
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 2. Dernière modification le 22 août 2023 à 10:19.
Pour la compression de texte avec perte il y a ltzip mais ça mérite quelques perfectionnements.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.