j'ai un document .txt de 8 M0 à encoder en utf8
je ne trouve pas l'encodage d'origine des caractères
la commande iconv -l donne des centaines de choix possible en entrée
ex:
iconv -f ISO-8859-1 -t UTF-8 document1.txt > document2.txt
existe t il un programme pour détecter le type d'encodage d'un texte ?
merci
# Commande "file"
Posté par Sebastian . Évalué à 2.
La commande file te fournira pas mal d'informations concernant ton fichier.
[^] # Re: Commande "file"
Posté par robertix . Évalué à 1.
diff.txt: text/x-diff
c'est pas encore ça
# de mémoire
Posté par encre (site web personnel) . Évalué à 1.
enca
recode
[^] # Re: de mémoire
Posté par robertix . Évalué à 0.
il est possible que le document possède différents formats
merci
[^] # Re: de mémoire
Posté par fcartegnie . Évalué à -2.
# Universal Text Recognizer and Converter
Posté par BuZZ . Évalué à 3.
Regarde du côté de utrac ( http://utrac.sourceforge.net/ ).
À mon avis tu trouvera ton bonheur.
# Vim
Posté par Raphaël G. (site web personnel) . Évalué à 3.
Il te suffit d'ouvrir le fichier via :
$ vim ton_fichier.txt
:set fileencoding=utf-8
:set fileformat=unix
:set nobackup
ZZ
Et ton fichier devrait avoir été converti.
Maintenant ton fichier peux être a mon avis dans un de ces 3 encodages :
iso8859-1
iso8859-15
cp1250
Si ton fichier contiens plusieurs encodages, là tu sera vraiment foutu...
Si tu ouvre avec vim un fichier cp1250 (charset windows idiot), tu devrais avoir des <92>, <93>, etc... en bleu qui sont des double ou simple guillemets si mes souvenirs sont bon.
Si seulement quelques caractères sont pourris tu peux jouer avec les remplacement de masse.
Tu place le curseur sur le caractère, tu fait 'ga' en mode commande, puis ':%s/^vu92/"/g' et le tour sera joué.
Avec ^v == Ctrl+v, tu ne vera rien avant d'avoir tapé le / qui suit car c'est un caractère spécial et c'est normal.
Pour passer en mode commande Ctrl+c, pour l'insertion Insert, pour le remplacement Insert une autre fois.
Sortie en enregistrant ZZ, pour ne pas enregistrer ZQ
Bon courage...
# utrac
Posté par robertix . Évalué à 0.
merci
# suite utrac
Posté par robertix . Évalué à 2.
et installé les paquets ttf nécéssaires
commande en utilisateur:
utrac texte1.txt > texte2.txt
texte2.txt se trouve en utf8
bravo
# suite
Posté par robertix . Évalué à 1.
http://www.ponge.com/telechargements/debian/utrac_0.3.0_i386(...)
et pour le gaulois:
http://www.ponge.com/telechargements/alphabet.html
[^] # Re: suite
Posté par B16F4RV4RD1N . Évalué à 1.
Only wimps use tape backup: real men just upload their important stuff on megaupload, and let the rest of the world ~~mirror~~ link to it
[^] # Re: suite
Posté par Sebastian . Évalué à 2.
Asterix rendant visite à son ami Tux.
Si un medecin est présent dans la salle ...
# gucharmap
Posté par robertix . Évalué à 1.
si il a des carrés à la place des caractères d'écritures
vous pouvez aussi utiliser rechercher avec un carré d'un texte pour connaitre le ttf nécéssaire à l'affichage
si vous transcodez des pages html il faut remplacer le charset dans la source de la page pour UTF-8
c'est pour avoir le mème affichage de caractères quelque soit la région du lecteur
vérifier là pour les carrés:
http://www.ponge.com/telechargements/menu/exemple/epiphany.d(...)
il faudrait un métapackage qui permet d'installer tous les ttf de langues
# liste de ttf
Posté par robertix . Évalué à 1.
ttf-bitstream-vera
ttf-dejavu
ttf-dejavu-core
ttf-dejavu-extra
ttf-devanagari-fonts
ttf-dzongkha
ttf-gujarati-fonts
ttf-indic-fonts
ttf-kannada-fonts
ttf-kochi-gothic
ttf-kochi-mincho
ttf-liberation
ttf-malayalam-fonts
ttf-opensymbol
ttf-oriya-fonts
ttf-punjabi-fonts
ttf-tamil-fonts
ttf-telugu-fonts
ce qui permet la lecture de la page d'exemple
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.