Le mode OCR a des limites, une page comme http://www.europeana.eu/ark:/12148/bpt6k2049479.f5# ou la suivante n'est pas du tout interprétée par le système OCR. Il est écrit que c'est pour les déficients visuels... Certes, c'est mieux que rien, mais dans bien des cas, le résultat est inexploitable. La correction en mode wiki me semble être une bonne voie, en attendant la mise au format docbook !
Excellente contribution, merci.
Je viens d'essayer le mode texte après OCR ... C'est catastrophique. Je pense que la solution serait d'ouvrir un wiki pour chacune des pages traitées par OCR puis, quand la page serait marquée "terminée", la verrouiller pour que les éventuelles erreurs qui auraient pu passer à travers mailles passent par un modérateur.
Cette solution est sans doute trop moderne pour cette vielle institution. Faudra-t-il attendre encore 10 ans ? Espérons que non.
A l'époque j'aurais bien aimé voir les chercheurs, étudiants ou autres prendre un billet de train jusqu'à Millau pour aller consulter des ouvrages dans la célèbre bibliothèque du Causse Méjean, à 42km du moindre village de plus de 50 habitants !
Justement, l'intérêt est de ne plus manipuler les documents originaux mais de les préserver. De nombreux documents vieux de 200 à 300 ans sont devenus à peine lisibles à force d'être manipulés par des étudiants. Avec une mise à disposition par internet, les étudiants et les chercheurs n'auraient ni à prendre le train ni à aller dans une salle de lecture parisienne. Cette dernière contrainte oblige actuellement les habitants de Millau à prendre le train pour aller à Paris consulter des ouvrages uniques. Paris n'est pas la France et Internet pourrait aider à mettre fin à cette horrible politique jacobine. Vous l'avez compris, je suis girondin !
Sortir les documents originaux et uniques tous les 50 ans pour être numérisés, vérifiés et éventuellement restaurés me paraît bien plus intelligent que de les laisser être tripotés par des centaines ou des milliers de personnes.
NB: J'ai pris l'exemple du Causse mais je ne sais pas si il est le meilleur endroit possible !
Le support de la carte vitale est indispensable.
Ma fille est kinésithérapeute et pourrait utiliser Medintux moyennant quelques adaptations. Mais elle et son assistant ne voudront faire cet effort que si la télé-transmission et la carte vitale sont supportées.
Non, ce n'est pas un mauvais choix mais un arbitrage par les institutions locales. La ville de Mont-de-Marsan utilise les mêmes infrastructures pour les trois manifestations.
Les nouvelles dates sont un inconvénient pour le le thème éducation, mais d'autres thèmes s'annoncent déjà très prometteurs comme le thème entreprises et les nouvelles dates devraient mieux leur convenir.
Le nouveau bâtiment de la BNF n'offre aucun progrès. La solution aurait été de mettre les ouvrages dans des emballages étanches sous atmosphère neutre et de les entreposer dans des tunnels creusés sous le causse après le avoir numérisé.
Cela aurait eu aussi l'avantage de créer des emplois ailleurs qu'à Paris.
> un modèle mis au point au niveau nation (étude BnF / SNE)
- portail unique
- accès gratuit aux ½uvres du patrimoine
- accès payant aux livres sous droits
Un peu avant, on peut lire
Des outils nouveaux pour la numérisation de masse
> reconnaissance optique de caractères
> la BnF s’ouvre au web sémantique
Dans la présentation de Bruno Racine, il est dit que l'accès aux documents du patrimoine devait être libre. Comme on parle aussi d'OCR, on devrait se diriger enfin vers une politique de diffusion correcte.
Il parait que Attali avait expliqué à Mitterrand que l'avenir n'était pas dans un bâtiment mais dans la diffusion des ½uvres numériques. Mais dans sa mégalomanie, ce président rêvait de refaire la bibliothèque d'Alexandrie !
Il avait oublié qu'elle avait brûlé. Il raisonnait encore comme un homme du 19ème siècle.
Le bâtiment de la BNF est un non-sens ; il met en péril les documents originaux et a englouti les ressources qui auraient été nécessaires au rayonnement culturel de la France.
En gros, nous avons pris 10 ans de retard et cela sera très difficile à rattraper.
D'après tout ce que je peux lire, voir et entendre, les RMLL à Mont-de-Marsan sont très bien parties. Amiens avait été remarquable et avait mis la barre très haut. Je pense que Mont-de-Marsan devrait faire encore mieux.
Il apparaît que les villes moyennes sont capables de mieux se mobiliser que les grandes villes et 2008 devrait le confirmer.
Le thème entreprises est d'ores et déjà très prometteur et les espagnols devraient venir nombreux.
On sait déjà que les nocturnes sont planifiées et que le repas du libre sera à la hauteur de la réputation gastronomique du Sud-Ouest.
On parle aussi sous le manteau de faire une course de vaches landaises aux arènes toutes proches mais en remplaçant la vachette par un gnou. Bien entendu Richard Stallman sera de la partie !
La Freebox éteinte ne contient que son boot-loader. C'est Free qui met le binaire approprié dedans par téléchargement au démarrage.
Le logiciel n'est pas remis à l'utilisateur. La boite est prêtée à l'utilisateur et Free charge le logiciel dans un boîtier qui lui appartient.
Sincèrement, je pense que la FSF n'a qu'une infime chance de gagner et beaucoup à perdre sur cette affaire.
Les anglophones font de regrettables confusions :
- penguin = pingouin et manchot
- free = libre et gratuit
- standard = standard et norme
- corn = blé et maïs
etc
L'idée du comptage automatique des bulletins est intéressante
Avec de l'OCR, on devrait pouvoir accélérer le décompte des bulletins.
La contrainte serait surtout d'avoir des bulletins tous de la même taille si on ne veut pas investir dans une robotique complexe.
Traiter les couleurs sur 16 bits permet de travailler sur des images sans faire apparaître d'artefacts. C'est seulement en final que l'on peut revenir en8 bits par couleur.
André Pascual explique fort bien le problème de l'utilisation de Gimp par les professionnels suite à une discussion virulente au sein de l'ABUL : http://abul.org/Pseudo-Manifeste.html
Que ce serait-il passé si le logiciel de départ avait utilisé la licence GPL au lieu de BSD ? Ingres aurait été fourni avec son code.
À partir de là on peut imaginer ce qui aurait pu se passer :
- Postgresql aurait gagné plusieurs années dans son développement.
- Oracle n'aurait pas vaincu Ingres.
- Postgresql aurait été aux bases de données ce que Apache est aux serveurs web.
La licence BSD a été créée pour permettre à des étudiants de Berkeley d'utiliser leurs travaux pour monter leur entreprise. Ceci était fait dans la logique des années 80 où le but était de vendre du code compilé.
Un exemple, la base de données Ingres issue de la même souche que Postgresql. Après un brillant départ, Ingres a périclité alors que Postgresql a continué à se développer. Le code source de Ingres vient d'être publié, mais c'est trop tard.
Microsoft avait fait une couche d'adaptation des instructions 32 bits Intel vers le 64 bits alpha. Après un an de travaux, le directeur de digital a préféré jeter l'éponge car il payait une centaine de personnes pour obtenir un NT qui fonctionnait plus lentement que sur intel et qui coûtait beaucoup plus cher.
C'était très dévalorisant pour Alpha, un microprocesseur très en avance sur son temps.
C'est à peu près ce qui s'est passé avec les autres processeurs sur lesquels Microsoft s'est cassé les dents.
Avec Intel, HPPA, Alpha et sparc64, ça fait quatre architectures supportées. Si on est loin de la vingtaine d'architectures que supporte Linux, le score est très au dessus de Microsoft qui s'est planté sur Alpha, Mips, PowerPC et Itanium pour retomber au score de 1 !
Mon seul regret, c'est que BSD ne soit pas sous licence GPL, OpenBSD aurait eu plus de contributeurs et de succès... C'est le fond de ma pensée, mais ne tombez pas dans le troll plus que nécessaire !
mais il n'a pas l'air d'apporter grand chose de plus...
Je crois que c'est une réflexion très pertinente. Les gens ne changent leurs habitudes que si ils trouvent que l'intérêt qu'ils portent aux nouveautés est plus important que le désagrément que leur procure le changement de leurs habitudes.
La conséquence est que lorsque cette condition est remplie, la bascule vers la nouveauté peut être un phénomène très rapide mais explique aussi pourquoi, à même performance, certaines nouveautés ne percent pas.
Les RMLL mettent en place chaque année un budget important pour aider des développeurs méritants mais peu fortunés. Pour certains on paie le voyage et même le logement si nécessaire.
Pour les autres, on recherche des solutions qui permettent aux participants de loger et de se nourrir correctement au moindre coût.
Si les RMLL avaient lieu dans les conditions d'un congrès professionnel, il faudrait compter un budget de plus de 1500¤ par participant.
En 2008 et les années suivantes, organisez le congrès dans les RMLL. Ce sera gratuit et n'y aura plus de questions ! C'est ainsi que par exemple la communauté Debian s'est réunie en 2000 puis en 2001 aux RMLL qui se tenaient à Bordeaux.
[^] # Re: C'est pas donné !
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche 7ème édition du Forum PHP : Le chrono est lancé !. Évalué à 2.
Le thème entreprises est déjà bien engagé pour les RMLL 2008. Je pense que ce sera un point fort.
[^] # Re: Politique culturelle et accès au domaine public : pour quoi militer
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche La BnF s'oriente vers le logiciel libre. Évalué à 2.
[^] # Re: Politique culturelle et accès au domaine public : pour quoi militer
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche La BnF s'oriente vers le logiciel libre. Évalué à 5.
Je viens d'essayer le mode texte après OCR ... C'est catastrophique. Je pense que la solution serait d'ouvrir un wiki pour chacune des pages traitées par OCR puis, quand la page serait marquée "terminée", la verrouiller pour que les éventuelles erreurs qui auraient pu passer à travers mailles passent par un modérateur.
Cette solution est sans doute trop moderne pour cette vielle institution. Faudra-t-il attendre encore 10 ans ? Espérons que non.
[^] # Re: Bon, j'm'y colle
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche R.M.L.L. 2008 : Modification des dates. Évalué à 2.
[^] # Re: Lien n°4 déconseillé aux cardiaques
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche R.M.L.L. 2008 : Modification des dates. Évalué à 3.
Ce site est l'archétype de tout ce qu'il ne faut pas faire...
[^] # Re: bien
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche La BnF s'oriente vers le logiciel libre. Évalué à 2.
Justement, l'intérêt est de ne plus manipuler les documents originaux mais de les préserver. De nombreux documents vieux de 200 à 300 ans sont devenus à peine lisibles à force d'être manipulés par des étudiants. Avec une mise à disposition par internet, les étudiants et les chercheurs n'auraient ni à prendre le train ni à aller dans une salle de lecture parisienne. Cette dernière contrainte oblige actuellement les habitants de Millau à prendre le train pour aller à Paris consulter des ouvrages uniques. Paris n'est pas la France et Internet pourrait aider à mettre fin à cette horrible politique jacobine. Vous l'avez compris, je suis girondin !
Sortir les documents originaux et uniques tous les 50 ans pour être numérisés, vérifiés et éventuellement restaurés me paraît bien plus intelligent que de les laisser être tripotés par des centaines ou des milliers de personnes.
NB: J'ai pris l'exemple du Causse mais je ne sais pas si il est le meilleur endroit possible !
[^] # Re: Carte vitale ?
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Medintux : Médecin, étudiant vous êtes concerné. Évalué à 2.
Ma fille est kinésithérapeute et pourrait utiliser Medintux moyennant quelques adaptations. Mais elle et son assistant ne voudront faire cet effort que si la télé-transmission et la carte vitale sont supportées.
[^] # Re: Bon, j'm'y colle
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche R.M.L.L. 2008 : Modification des dates. Évalué à 1.
Les nouvelles dates sont un inconvénient pour le le thème éducation, mais d'autres thèmes s'annoncent déjà très prometteurs comme le thème entreprises et les nouvelles dates devraient mieux leur convenir.
[^] # Re: bien
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche La BnF s'oriente vers le logiciel libre. Évalué à 3.
Cela aurait eu aussi l'avantage de créer des emplois ailleurs qu'à Paris.
[^] # Re: Oui mais...
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche La BnF s'oriente vers le logiciel libre. Évalué à 3.
Un peu avant, on peut lire
[^] # Re: Oui mais...
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche La BnF s'oriente vers le logiciel libre. Évalué à 3.
[^] # Re: bien
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche La BnF s'oriente vers le logiciel libre. Évalué à 7.
Il avait oublié qu'elle avait brûlé. Il raisonnait encore comme un homme du 19ème siècle.
Le bâtiment de la BNF est un non-sens ; il met en péril les documents originaux et a englouti les ressources qui auraient été nécessaires au rayonnement culturel de la France.
En gros, nous avons pris 10 ans de retard et cela sera très difficile à rattraper.
# Landes festives
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche R.M.L.L. 2008 : Modification des dates. Évalué à 4.
Il apparaît que les villes moyennes sont capables de mieux se mobiliser que les grandes villes et 2008 devrait le confirmer.
Le thème entreprises est d'ores et déjà très prometteur et les espagnols devraient venir nombreux.
On sait déjà que les nocturnes sont planifiées et que le repas du libre sera à la hauteur de la réputation gastronomique du Sud-Ouest.
On parle aussi sous le manteau de faire une course de vaches landaises aux arènes toutes proches mais en remplaçant la vachette par un gnou. Bien entendu Richard Stallman sera de la partie !
[^] # Re: Qelques réponses de Free
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Les auteurs d'iptable et de Busybox appellent Iliad/Free à respecter la GPL. Évalué à 1.
Le logiciel n'est pas remis à l'utilisateur. La boite est prêtée à l'utilisateur et Free charge le logiciel dans un boîtier qui lui appartient.
Sincèrement, je pense que la FSF n'a qu'une infime chance de gagner et beaucoup à perdre sur cette affaire.
[^] # Re: après Iceweasel
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Songbird 'Bowie' 0.3 prend son envol. Évalué à 3.
- penguin = pingouin et manchot
- free = libre et gratuit
- standard = standard et norme
- corn = blé et maïs
etc
[^] # Re: Supermarchés...
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Quel avenir pour le vote électronique en France ?. Évalué à -1.
Avec de l'OCR, on devrait pouvoir accélérer le décompte des bulletins.
La contrainte serait surtout d'avoir des bulletins tous de la même taille si on ne veut pas investir dans une robotique complexe.
[^] # Re: GEGL
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Sortie de GNU Image Manipulation Program 2.4. Évalué à 2.
André Pascual explique fort bien le problème de l'utilisation de Gimp par les professionnels suite à une discussion virulente au sein de l'ABUL : http://abul.org/Pseudo-Manifeste.html
[^] # Re: Architectures supportées
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Sortie d'OpenBSD 4.2. Évalué à -2.
À partir de là on peut imaginer ce qui aurait pu se passer :
- Postgresql aurait gagné plusieurs années dans son développement.
- Oracle n'aurait pas vaincu Ingres.
- Postgresql aurait été aux bases de données ce que Apache est aux serveurs web.
[^] # Re: Architectures supportées
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Sortie d'OpenBSD 4.2. Évalué à 3.
Un exemple, la base de données Ingres issue de la même souche que Postgresql. Après un brillant départ, Ingres a périclité alors que Postgresql a continué à se développer. Le code source de Ingres vient d'être publié, mais c'est trop tard.
[^] # Re: Architectures supportées
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Sortie d'OpenBSD 4.2. Évalué à 2.
Explication brève : http://www.linuxfr-france.org.invalid/prj/jargonf/G/Godwin.html
Explication longue : http://fr.wikipedia.org/wiki/Loi_de_Godwin
[^] # Re: Architectures supportées
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Sortie d'OpenBSD 4.2. Évalué à 2.
Microsoft avait fait une couche d'adaptation des instructions 32 bits Intel vers le 64 bits alpha. Après un an de travaux, le directeur de digital a préféré jeter l'éponge car il payait une centaine de personnes pour obtenir un NT qui fonctionnait plus lentement que sur intel et qui coûtait beaucoup plus cher.
C'était très dévalorisant pour Alpha, un microprocesseur très en avance sur son temps.
C'est à peu près ce qui s'est passé avec les autres processeurs sur lesquels Microsoft s'est cassé les dents.
# Architectures supportées
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Sortie d'OpenBSD 4.2. Évalué à -4.
Mon seul regret, c'est que BSD ne soit pas sous licence GPL, OpenBSD aurait eu plus de contributeurs et de succès... C'est le fond de ma pensée, mais ne tombez pas dans le troll plus que nécessaire !
[^] # Re: Pas mal, mais un peu lourd...
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche Songbird 'Bowie' 0.3 prend son envol. Évalué à 10.
Je crois que c'est une réflexion très pertinente. Les gens ne changent leurs habitudes que si ils trouvent que l'intérêt qu'ils portent aux nouveautés est plus important que le désagrément que leur procure le changement de leurs habitudes.
La conséquence est que lorsque cette condition est remplie, la bascule vers la nouveauté peut être un phénomène très rapide mais explique aussi pourquoi, à même performance, certaines nouveautés ne percent pas.
[^] # Re: C'est pas donné !
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche 7ème édition du Forum PHP : Le chrono est lancé !. Évalué à 2.
Pour les autres, on recherche des solutions qui permettent aux participants de loger et de se nourrir correctement au moindre coût.
Si les RMLL avaient lieu dans les conditions d'un congrès professionnel, il faudrait compter un budget de plus de 1500¤ par participant.
[^] # Re: C'est pas donné !
Posté par Pierre Jarillon (site web personnel) . En réponse à la dépêche 7ème édition du Forum PHP : Le chrono est lancé !. Évalué à 3.