Bonjour à toutes et tous,
Je suis actuellement à la recherche d'un lexique de la langue française le plus exhaustif possible. Je m'explique:
J'ai récemment développé un petit programme en perl pour permettre à mon épouse de participer à un concours organisé par son Comité d'Entreprise. Le but, après avoir rempli correctement une grille de mots croisés, est de faire le maximum de points en composant des mots (en épuisant les lettres obtenues dans la grille), sachant que la longueur de chaque mot est élevé au carré.
Mais le résultat ne fut pas à la hauteur de mes espérances .... (pas preums, ni deuze en encoire mois troize)
Après avoir testé (et retesté mon programme), j'en déduis que la liste de mots français à ma disposition n'est pas complet. Et pour cause, en ouvrant mon dictionnaire (Petit Larousse 2001) à la première page, un mot (abaca: bananier) est déjà inconnu dans ma liste. Je me doute qu'il en est de même pour les pages suivantes :(
Ma liste pèse 10Mo et compte 289563 entrées (toutes formes confondues c.a.d verbes déclinés à tous les temps, noms sing/plur etc...). Son origine : http://abu.cnam.fr/DICO/
De même, sur ma Breezy, un "aspell dump master |wc -l"me donne 629569 entrées dont les terminaisons sont tronquées (donc inutilisable) mais "abaca" n'apparaît toujours pas.
En suivant les consignes données sur le lien plus haut, je me suis mis en quête d'une liste plus complète. J'ai donc parcouru le net dans tous les sens et ce depuis 3 jours sans résultat. Mes recherches m'ont amené à passer par ici :
1 - http://www.lexique.org/
2 - http://clicnet.swarthmore.edu/dictionnaires.html
3 - http://www.elda.org/article77.html (payant)
Je suis étonné qu'une liste complète composée des mots de langue française ne soit pas disponible dans le domaine publique. Même les différentes ressources pour la recherche linguistique (multetxt et autres) sont soient inaccessibles, soient payantes.
Ma question donc, auriez-vous un lien intéressant à me donner ?
Si parmi vous il y a un détenteur d'édition électronique du Petit Robert ou du Larousse, peut-il me dire s'il est possible d'avoir accès "facilement" à cette liste ou bien leur données sont-elles encapsulées dans un binaire bien verrouillé?
Merci d'avoir pris le temps de me lire.
# recherche liste de mots sur google
Posté par Pascal Terjan (site web personnel) . Évalué à 2.
http://www.pallier.org/ressources/dicofr/liste.de.mots.franc(...) 336531 entrées
Et sinon c'est marrant parce que sur la page que tu indiques comme étant l'origine de ta liste je lis abaca abaca Nom:Mas+SG.
http://abu.cnam.fr/DICO/mots-communs.html
[^] # Re: recherche liste de mots sur google
Posté par latheix . Évalué à 1.
Néanmoins, si je prends mon dictionnaire papier, première page de la lettre "A", je vois:
aa: coulée de lave ....
abc: base d'un art, d'une science.
Je prends mon dico du cnam:
grep "aa" dico.cnam -> inconnu
grep "abc" dico.cnam -> inconnu ... ce qui laisse présumer de nombreux manquants.
Il me semble avoir déja parcouru le lien donné, et de mémoire, je crois que cette liste a servi pour établir le dictionnaire_fr d'ispell .
Néanmoins, comme je l'ai dit plus haut, le dico_cnam est un sous-produit du projet de recherche multext (http://www.lpl.univ-aix.fr/projects/multext/), projet dont je ne trouve aucune ressource.
Il exsite forcément une liste plus complète quelque part, à l'instar de celle fournie par l'elda/elra ici :http://www.elda.org/catalogue/fr/text/L0062.html (mais moyennant finances .... plusieurs miliiers d'euros je crois)
Merci encore, mais je désespère de trouver mon bonheur un jour, et ne pas trouver cette liste dans le domaine publique me laisse sans bras !
[^] # Re: recherche liste de mots sur google
Posté par 태 (site web personnel) . Évalué à 2.
Sinon, le dictionnaire du scrabble est peut être une pas trop mauvaise idée, des sites comme http://www.ecoleduscrabble.net/Sommaire/listes.htm proposent des bouts de listes, mais ce ne doit pas être trivial d'en extraire la moëlle.
# Je ne sais pas si la liste est récupérable
Posté par cumulus . Évalué à 1.
http://atilf.atilf.fr/tlf.htm
ou le Grand dictionnaire terminologique (mais j'ai déjà eu des surprises) :
http://granddictionnaire.com
# Unitex
Posté par Olivier Renaud . Évalué à 1.
Tu peux jeter un oeil du coté du lexique utilisé par Unitex (http://www-igm.univ-mlv.fr/~unitex ).
Il est sous une licence spécifique aux ressources linguistiques, dérivée de GPL (LGPLLR), et comporte pour le francais :
680 000 mots simples
100 000 mots composés
24 000 noms propres
4 200 entrées pour des termes spécialisés
2 700 mots québécois
Le problème est que tout ça est rangé dans un dictionnaire ayant un format spécifique (compréssé), et qu'il n'y a pas (à ma connaissance) de librairie indépendante d'Unitex pour y acceder. Donc il faut triffouiller du code pour arriver à ce qu'on veut.
Bon courage !
[^] # Re: Unitex
Posté par latheix . Évalué à 1.
C'est un mélange de java (je n'y entends rien) et C++, le tout sans makefile n'y doc .... bref j'ai abandonné.
Mais merci encore :) .... je continue mes recherches.
[^] # Re: Unitex
Posté par Olivier Renaud . Évalué à 1.
Pour un projet de correcteur orthographique, j'ai isolé un bout de code permettant de savoir si un mot est dans la dictionnaire ou non. Si c'est suffisant pour ce que tu veux faire, contacte moi par message privé.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.