Si on en croit les statistiques de google, UNICODE est devenu le codage de caractère le plus utilisé sur Internet :
http://googleblog.blogspot.com/2008/05/moving-to-unicode-51.(...)
Notons qu'aujourd'hui la majorité des distributions utilise UNICODE par défaut.
Bientôt la fin des charsets. Hourra !
# un titre
Posté par Sufflope (site web personnel) . Évalué à 8.
[^] # Re: un titre
Posté par IsNotGood . Évalué à -10.
Red Hat / Fedora est passé à UTF-8 depuis RHL 8.0...
Bien bien avant l'existance d'Ubuntu.
[^] # Re: un titre
Posté par Sufflope (site web personnel) . Évalué à 10.
# Unicode definit plusieurs charsets...
Posté par davux (site web personnel) . Évalué à 9.
Par contre, c'est vrai que dans une bonne partie du monde internet/unix, UTF-8 devient de plus en plus la norme, ce qui regle un bon paquet d'incompatibilites lors de conversions foireuses (ou absentes) entre des textes ecrits dans des charsets differents.
[^] # Re: Unicode definit plusieurs charsets...
Posté par IsNotGood . Évalué à 10.
Non, c'est un codage d'UNICODE. UNICODE dit que '€' a pour valeur 345 et UTF-8 le code cette valeur avec 0x024485 (NB : c'est peut-être n'impore quoi comme un exemple). Il y a des fonctions assez simple pour passer de UNICODE à UTF-8 (ou 16, etc) et vice versa. Ces fonctions marquent quelque soit la version d'UNICODE utilisé.
UTF-8, etc ne définit pas de caractère. C'est UNICODE qui le fait.
[^] # Re: Unicode definit plusieurs charsets...
Posté par IsNotGood . Évalué à 4.
> UTF-8 le code
UTF-8 code
> Ces fonctions marquent
Ces fonctions marchent
# Bientôt, l'unicode sera partout...
Posté par Barnabé . Évalué à 10.
Topic for #linuxfr: http://linuxfr.org | ISO8859-15 UNIQUEMENT (pas d'utf8)
Quelqu'un a une idée de la raison pour laquelle cet anachronisme perdure ?
[^] # Re: Bientôt, l'unicode sera partout...
Posté par IsNotGood . Évalué à -5.
Dans les pages j'ai :
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Sufflope (site web personnel) . Évalué à 1.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Thibault (site web personnel) . Évalué à 3.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Benjamin Lannoy . Évalué à 3.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par auve . Évalué à 10.
Oui, Gniarf.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Benoît Sibaud (site web personnel) . Évalué à 10.
Le canal IRC #linuxfr n'est pas lié au site LinuxFr.org. Ce n'est pas l'équipe du site qui gère ce canal.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par ploum (site web personnel, Mastodon) . Évalué à 10.
Mes livres CC By-SA : https://ploum.net/livres.html
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Thierry Thomas (site web personnel, Mastodon) . Évalué à -10.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par IsNotGood . Évalué à 2.
On peut aussi se limiter à de ASCII. Il y en a encore plein qui utilise un qwerty même en français.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par IsNotGood . Évalué à 0.
Donne en ISO-8859-1 :
©®µ‰‱↞↟↠↡↢↣↤↥↿⇌⇉⇖⇣⇱⇲⇶⇼∫∑∰⋂⌨âžâ‘ ②⑥☎☕☔☢☯☺☹♜♞⚢⚣⚄
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Maclag . Évalué à 9.
Les gars dans Matrix ils arrivent bien à voir des blondes au milieu des symboles!
====> [ ]
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Jean B . Évalué à 0.
Attend j'arrive =>[ ].
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Obsidian . Évalué à 2.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par B16F4RV4RD1N . Évalué à 10.
Only wimps use tape backup: real men just upload their important stuff on megaupload, and let the rest of the world ~~mirror~~ link to it
[^] # Re: Bientôt, l'unicode sera partout...
Posté par theocrite (site web personnel) . Évalué à 10.
Peut-être parce que si l'on se limite au français, utf-8 n'apporte rien ?
ON croirait entendre billou.
Plus de 640K ? Laisse moi rire.
Plus de 256 caractères ? Ridicule !
Comment tu fais si ça te prends des fois de parler de maths avec tes copains de chan ?
A⊕B⇔(A⋁B)⋀¬(A⋁B)
∀m, ∃n∈ℕ, n=m+1
i=√2
{n∈ℕ/16<n²<25}=∅
(Je précise qu'il existe bien des mathématiciens francophones).
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Sarcastic . Évalué à 10.
A⊕B⇔(A⋁B)⋀¬(A⋁B)
∀m, ∃n∈ℕ, n=m+1
i=√2
{n∈ℕ/16<n²<25}=∅
Facile ! Avec l'ASCII ART.
A(+)B<=>(A\/B)/\--,(A\/B)
\-/m, 3n€N, n=m+1
i=v'(2)
{n€N/16<n^2<25}=-0-
Comme quoi, l'UTF 8, ça sert vraiment à rien.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Obsidian . Évalué à 2.
A(+)B<=>(A\/B)/\--,(A\/B)
\-/m, 3n€N, n=m+1
i=v'(2)
{n€N/16<n^2<25}=-0-
* Sarcastic has been banned by plop (leetspeak)
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Thierry Thomas (site web personnel, Mastodon) . Évalué à -1.
Plus de 640K ? Laisse moi rire.
Plus de 256 caractères ? Ridicule !
Pour une page web, du courrier, etc., je suis bien d'accord.
Comment tu fais si ça te prends des fois de parler de maths avec tes copains de chan ?
Quant à savoir si IRC est adapté à des démonstrations mathématiques, le doute m'habite...
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Thomas Douillard . Évalué à 1.
Ouais, bon peut être que ça peut apporter dans certain cas, bon ok ça a pas de vrais désagréments, mais bon, quand même, on a toujours fait comme ça. Un peu de mauvaise foi, et les "pas vraiment désagréments" deviennent des montagnes.
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 5.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par fcartegnie . Évalué à -7.
En plus, ca entraîne un surcout cpu pour tous ces traitements.
L'unicode c'est bien comme base commune quand on a des langages qui le nécessitent à causes de charsets exotiques qui poseront problème sur le client.
Après si c'est pour recoder en unicode une app Francaise destinée au marché Francais, ce n'est qu'une perte de temps.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Zenitram (site web personnel) . Évalué à 10.
Euh... Perso j'ai besoin librairie que pour supporter les charsets, le contraire de ce que tu dis. J'ai besoin d'une librairie pour pouvoir convertir les charsets en Unicode et pouvoir travailler en Unicode en mémoire... Et c'est super-galère.
Pour UTF-8, aucun soucis, une petite 10aine de ligne de code (c'est long à cause des vérifications) et hop UTF-8 du monde entier en Unicode interne à mon appli.
Et quand tout est en UTF-8, tu ne gère rien...
Après si c'est pour recoder en unicode une app Francaise destinée au marché Francais, ce n'est qu'une perte de temps.
Ca existe encore ça? Pour info, le monde d'aujourd'hui n'est pas centré sur la France... Et les briques que tu construis maintenant en UTF-8 seront réutilisable pour d'autres projet, peut-être pas franco-français...
Et sinon, pour ton "app Francaise destinée au marché Francais", tu fais comment quand un japonais est depuis 30 ans en France, mais a utilisé *un* caractère japonais qui lui plait dans un nom (par exemple, il a mis un truc à lui dans un commentaire, pour dire "pour info les gars, en japonais, on écrit comme ça"). Comment tu fais pour écrire des formules mathématiques? Comment tu fais pour etc...
Tu ne sais pas comment les gens vont utiliser ton appli, même en France. UTF-8 n'est pas un conseil, c'est une obligation : une personne ne faisant pas ça aujourd'hui mérite d'être mis à la porte...
[^] # Re: Bientôt, l'unicode sera partout...
Posté par fcartegnie . Évalué à -1.
De plus, en publiant une app unicode, si c'est sur le web, c'est pas un problème, les navigateurs le supportent. Mais d'autres type d'applications, sans regarder l'existant et l'utilisation finale, c'est suicidaire. Les gros système ne sont généralement pas prêts pour l'unicode car de nombreuses applications ne le gèrent toujours pas. Ce avec à la clé des pb de sécurité et autre. Tu fais référence à une brique, peut -être, mais si c'est pour être incorporé à un système existant, il faut que ta brique prenne en compte l'existant, tu ne peux pas demander de refaire le reste du système pour que ce soit compatible avec ta brique.
Par ailleurs, si ton langage est natif unicode, comme tu semble le mentionner, ça n'empêche pas que certains langages doivent passer par une librairie spécialisée pour le traiter .
utf8 résout pas mal de problèmes, mais ne fait pour l'instant que réduire le nombre de charsets, car on aura toujours des cas ou la compatibilité ascendente ne pourra être exploitée. 'Partout' sur le web oui, mais ailleurs, c'est pas encore le cas.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par modr123 . Évalué à 4.
c'est vrai qu'avec ça utf-8 roxor des ours
je l'ai meme vu utiliser dans l'usenet et je dois dir que sur fsm ce serait cool de l'utiliser
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Maclag . Évalué à 2.
Question naïve et sans agressivité, à ma connaissance, la seule solution à ce jour pour les trucs du genre c'était style le plugin LaTeX pour pidgin, de plus je n'ai quasi jamais utilisé IRC.
Ceci dit, pour d'autres exemples, on pourrait se poser la question: comment gérer tous les jeux de caractères fournis par Unicode et utiles ? (je parle pas des langues différentes, ça c'est plutôt au point, mais tous ces symboles)
[^] # Re: Bientôt, l'unicode sera partout...
Posté par timid . Évalué à 2.
α
アルファ
Α
あるふぁ
Ensuite il me reste plus qu'à choisir le bon
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Maclag . Évalué à 2.
Ma question porte plutôt sur les symboles genre ceux postés ci-dessus à titre de démonstration.
[^] # Re: Bientôt, l'unicode sera partout...
Posté par Gof (site web personnel) . Évalué à 3.
Sinon tu copies-colles depuis une table des caractères :-)
# foo
Posté par Jylam / jylam.lnxsce (site web personnel) . Évalué à -1.
┏━┃┏━┃┏━┃┃ ┃ ━┏┛
┏━┛┏┏┛┃ ┃┃ ┃. ┃
┛. ┛ ┛━━┛━━┛. ┛
# hg
Posté par Jylam / jylam.lnxsce (site web personnel) . Évalué à 9.
░░░█░░░░░░█░░░░░░░░░░░░░█░░░░░░█░░░░░░░░░░░░████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░░░█░░░░░░█░░░░░░░░░░░░░█░░░░░░█░░░░░░░░░░░█▓░░▒█░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░░░█░░░░░░█░░░░█░░░█░░█████░░█████░░░░░░░░░█░░░░█░░░░░░░░░▓██▒░░░███░░░░░░░░░
░░░█░░░░░░░░░░░█░░░█░░░░█░░░░░░█░░░░░░░░░░░█▒░░▒█░░░░░░░░▓█░░▓░░█▒░▒█░░░░░░░░
░░░█░░░░░░░░░░░█░░░█░░░░█░░░░░░█░░░░░░░░░░░░████░░░░░░░░░█░░░░░░░░░░█░░░░░░░░
░░░█░░░░░░░░░░░█░░░█░░░░█░░░░░░█░░░░░███░░░█▒░░▓█░░░░░░░░█░░░░░░▒████░░░░░░░░
░░░█░░░░░░░░░░░█░░░█░░░░█░░░░░░█░░░░░░░░░░░█░░░░█░░░░░░░░█░░░░░░█▒░░█░░░░░░░░
░░░█░░░░░░░░░░░█▒░▓█░░░░█░░░░░░█░░░░░░░░░░░█▓░░▒█░░░░░░░░▓█░░▓░░█░░▓█░░░░░░░░
░░░▒██░░░░░░░░░▒██▒█░░░░▒██░░░░█░░░░░░░░░░░░████░░░░░░░░░░▓██▒░░▒██▒█░░░░░░░░
░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░█▓██░░░█░░░█░░░███░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░█▓░▓█░░█░░░█░░▓▓░▒█░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░█░░░█░░█░░░█░░█░░░█░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░█░░░█░░█░░░█░░█████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░█░░░█░░█░░░█░░█░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░█▓░▓█░░█▒░▓█░░▓▓░░█░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░█▓██░░░▒██▒█░░░███▒░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░█░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░█░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
░█░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
[^] # Re: hg
Posté par IsNotGood . Évalué à 1.
Sinon tu peux utiliser utf-16 ou utf-32.
[^] # Re: hg
Posté par Jylam / jylam.lnxsce (site web personnel) . Évalué à 0.
[^] # Re: hg
Posté par Aldoo . Évalué à 5.
Pour tant, il y a bien le « ç » en ISO-8859-1 ?
[^] # Re: hg
Posté par Aldoo . Évalué à 0.
[^] # Re: hg
Posté par IsNotGood . Évalué à 1.
Java utilise aussi UTF-16.
[^] # Re: hg
Posté par Troy McClure (site web personnel) . Évalué à 7.
[^] # Re: hg
Posté par Zenitram (site web personnel) . Évalué à 5.
A cette époque, UTF-32 n'existait pas, tout bêtement parce que le consortium Unicode avait imaginé que 2 octets (65536 caractères maxi) pour coder les caractères (il y avait de la place, et on imaginait pas le "succès d'Unicode, et le besoin de coder des caractère très rares... Mais l'informatique se démocratise...). MS a été "victime" d'avoir voulu passer à Unicode avant les autres. Il a du du coup passer de UCS-16 à UTF-16 (qui ne sont pas égaux, ie l'UCS-16 ne permet pas d'avoir les caractères unicode supérieurs à 0xFFFF, UTF-16 si) avec Windows 2000. MS aurait bien amié ne plus se faire chier avec les "multi-byte character" avec les codage qu'il avait pris, mais raté, et ça l'embête bien.
Unicode est passé après la sortie de WinNT 3 à 4 octets (et hop Linux a pris 4 octets tout de suite...)
Par contre, pour Java j'ai plus de mal à expliquer (bouffer 2x moins de mémoire en RAM dans 99.99% des cas? mais bon, la RAM ne manque pas trop et on n'a pas souvent 10 millions de caractères en RAM donc les inconvénients dépassent les avantages...)
Sinon,
UTF-16 c'est vraiment ce qu'on fait de pire, ça cumule les tares de (...)
On s'en fout, c'est en RAM, c'est sur une seule machine à la fois, c'est donc transparent pour le programmeur qui ne gère qu'un truc à la fois, de façon transparente. Perso je programme pour Windows et Linux en C++, donc la taille du wchar_t change d'Endianess et de taille, mais je programme de la même façon (bon, je dois avouer que je ne me suis pas encore trouvé confronté à un caractère supérieur à 0x8FFF en Unicode, donc peut-être que des trucs merderont sous Windows plus tard, mais ça va être rare).
Les fichiers stockés doivent être en UTF-8, pour le reste (comment l'OS s'y prend) n'est pas gênant en soit.
[^] # Re: hg
Posté par Mildred (site web personnel) . Évalué à 4.
Donc dans pas mal de langues ... UTF-16 est clairement moins gourmand en octets (deux octets à la place de trois, pour chaque lettre). Donc je ne vois pas comment tu peux dire qu'il est “bouffe de la mémoire”.
Par contre les problèmes d'endian existent bien.
[^] # Re: hg
Posté par IsNotGood . Évalué à 4.
C'est n'est qu'au moment de l'écriture sur fichier/réseau qu'on convertit en UTF-8 pour gagner en place.
[^] # Re: hg
Posté par olosta . Évalué à 5.
http://tools.ietf.org/html/rfc4042
[^] # Re: hg
Posté par windu.2b . Évalué à 10.
# chiffres...
Posté par fcartegnie . Évalué à 3.
D'après le graphique
2001: 56+23+6+4+1 = 90%
2008: 4+5+26+24+24 = 83%
La lecture est pas précise, précise, mais y'a au max 7% d'erreur. On a donc quand même une persistance, voire une croissance de 7% de la part d'encodages autres que ceux cités. Et ça personne ne l'interprète.
Quand au charset chinois... ce serait bien d'avoir les ratios par pays, histoire de voir si on va se retrouver au final avec toujours plusieurs normes, dont certaines poussées par des gouvernements.
[^] # Re: chiffres...
Posté par timid . Évalué à 3.
Les sites web en sjis avec le charset non précisé dans la page sont plus la norme que l'exception.
De ce que j'ai pu voir, je trouve les développeurs japonais assez nuls en général, c'est peut être lié au fait que la majorité d'entre eux ne parle pas anglais et n'a pas accès à la majorité des sources d'informations
[^] # Re: chiffres...
Posté par briaeros007 . Évalué à 1.
Si un dvp ne comprend pas l'anglais, ca m'étonne qu'a moitié qu'il soit nul.
C'est un peu la langue de l'informatique...
[^] # Re: chiffres...
Posté par Larry Cow . Évalué à 6.
C'est un peu la langue de l'informatique...
N'empêche qu'un des "fleurons" de l'industrie logicielle française font toujours leur beurre avec leurs solutions de développement "100% francophones". Et que des tas de gens s'empressent toujours de les acheter (et - ce qui est pire - de vendre les logiciels produits à d'autres tas de gens). Et de se prétendre développeur.
Tous des gagneurs...
[^] # Re: chiffres...
Posté par Trois Singes . Évalué à 2.
- Une raison bêtement technique, qui concerne l'UTF-8 plutôt que l'UNICODE d'ailleurs : coder un texte chinois en UTF-8 prend plus d'octets qu'en BIG-5 ou GB (puisque les caractères codés sur peu d'octets en UTF-8 sont plutôt les caractères occidentaux)
- Une raison "sociologique", beaucoup plus grave du point de vue des asiatiques : le consortium Unicode a en effet considéré que les idéogrammes chinois et japonais graphiquement identiques étaient les mêmes caractères (même codage)... ce qui a été jugé inacceptable par beaucoup de linguistes chinois et japonais : les sens sont souvent différents, la prononciation aussi, etc.
# Devinette
Posté par Wawet76 . Évalué à 10.
ɹɐqɯɐɹɐɔ ǝp sǝƃɐllɐqɯǝ sǝl ɹǝɯıɹdɯı ɐ
( http://www.revfad.com/flip.html via http://blog.makezine.com/ )
[^] # Re: Devinette
Posté par Sylvain Sauvage . Évalué à 1.
Peut-être dans Unicode 6 ?
# Bof ...
Posté par Obsidian . Évalué à 2.
Bientôt la fin des charsets. Hourra !
Mouais.
Aux temps héroïques du Vidéotex, on codait les lettres accentuées sur trois caractères, le 22 (Ctrl-V), une lettre de A à K pour représenter l'accent choisi, et la lettre proprement dite. C'était en 1982 (jusqu'à 1990, dirons-nous). A l'époque, tout le monde s'accordait à dire que ça faisait chier. On a utilisé la page étendue du code ASCII (dès que l'on a pu s'affranchir du bit de parité) à toutes les sauces pour ne pas avoir à se farcir ces trucs-là, et on a béni l'arrivé des charsets ISO-8859 qui mettaient le tout au propre (avant cela, c'était surtout les code page des spécos de l'IBM PC qui faisaient loi). Maintenant, on revient à quelque chose de structurellement très similaire, et on va redécouvrir les mêmes ennuis.
Non pas que je n'aime pas l'UTF-8 en lui-même, pouvoir accéder à tous les caractères du monde ou presque sur demande, en conservant un format la plupart du temps ASCII (enfin, pour les pays occidentaux), c'est une bonne chose. Ça m'a bien servi quand j'ai repris un des mes textes de 1997 écrit en CP437. Mais c'est autant d'inconvénients que d'avantages à mon goût.
De toutes façons, c'est cyclique, c'est choses-là. Comme l'architecture centralisée ou distribuée : les générations impaires penchent pour l'une, les paires pour l'autre.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.