Bonjour à tous,
Je cherche un dictionnaire (libre) du français, avec les propriétés suivantes : nature des mots, genre des nom, et s'il s'agit d'un dictionnaire exhaustif (tel que /usr/share/dict/french) s'il s'agit d'un pluriel ou non.
De préférence dans un format connu, mais s'il faut sortir lexx/yacc pour le traiter ça ne me gêne pas plus que ça… Par contre pas de webservice !
J'ai regardé s'il était possible d'exporter le wiktionnaire mais n'ai pas trouvé l'info, est-ce que vous auriez une idée si ce genre de chose existe ?
Merci à vous
# Rapidement ...
Posté par pifou . Évalué à 3.
Vite fait, regarde le fil de discussion ici https://linuxfr.org/nodes/99701/comments/1487613
Ça parle des nouvelles méthodes qui remplacent ispell dans les soft style Firefox, LibreOffice. On peut déduire du format des fichiers toutes les informations permettant de trouver toutes les déclinaisons d'un mot.
[^] # Re: Rapidement ...
Posté par chimrod (site web personnel) . Évalué à 2.
Super, merci de la piste. Je vais regarder ça.
# bien mieux
Posté par robertix . Évalué à -8.
kiwix
http://www.kiwix.org/wiki/Main_Page/fr
permet de lire des données au format zim en mode déconnecté
exemple le wiktionnaire de wikipedia,le 2015 est disponible
prendre la version all pour avoir les images en plus
http://download.kiwix.org/zim/wiktionary/
dans l'interface choisir,ouvrir un fichier
il y a un processus d'indexation du contenu assez long à chaque installation
[^] # Re: bien mieux
Posté par robertix . Évalué à -8. Dernière modification le 19 janvier 2016 à 19:02.
https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Wikip%C3%A9dia_hors-connexion
http://download.kiwix.org/portable/wiktionary/
pour avoir kiwix-linux 0.9 le zim et l'index du zim
http://mirror3.kiwix.org/portable/wiktionary/kiwix-0.9+wiktionary_fr_all_2015-11.zip
après le dézipage,il y a un index pour le zim (zim.idx)
dans kiwix-0.9+wiktionary_fr_all_2015-11/data/index
[^] # Re: bien mieux
Posté par robertix . Évalué à -10.
exemple de repertoire /data alternatif pour kiwix
dans son menu "modifier,options" choisir le dossier data alternatif puis relancer kiwix
il y a trois dossiers dans data:
content pour les archives zim
index pour les index zim.idx
library pour library.xml
un exemple dans library.xml
ici deux livres sont indexés
# La BDD d’anagrime, issue du wikitionnaire
Posté par psychoslave__ (site web personnel) . Évalué à 2.
https://tools.wmflabs.org/anagrimes/index.php
Et sinon il faut demander sur la wikidémie. On ne mange les nouveaux que lorsqu’on a vraiment très faim.
# Aard
Posté par benja . Évalué à 1. Dernière modification le 19 janvier 2016 à 23:58.
http://aarddict.org/
Permet d'indexer et d'utiliser wiktionary off-line.
Je ne saurai en dire plus quand à la hackabilité de le leur bibiothèques python ou simplement de la réutilisation de leur fichier d'indexation, simplement que leur visionneuse marche toujours très bien chez moi et que la procédure d'indexation a duré une petite nuit sur un portable plus tout jeune (avec les version de septembre 2014, donc v1 et format aard cf. http://aarddict.org/1/aardtools/doc/aardtools.html ).
Apparemment maintenant, ils utilisent un autre format (slob) et ils fournissent des dico préindexés.
(* https://github.com/itkach/slob )
Bref, je ne saurais que te conseiller d'aller aussi étudier cette solution et de revenir ensuite partager avec nous les résultats de tes investigations ;-)
# Dicolecte
Posté par chimrod (site web personnel) . Évalué à 3.
En suivant de la piste du dictionnaire firefox, je suis tombé sur dicolecte qui propose un dictionnaire hunspell pour le français (utilisé par ff, libreoffice) etc.
L'API d'hunspell étant vraiment très simple, et récupérer les données sur un mot peut se faire en quelques lignes :
et la sortie :
J'ai donc trouvé une base de données et le moyen de récupérer la nature d'un mot, son genre, son nombre. C'était exactement ce que je voulais. Inutile de réinventer la roue ! Je vais donc partir dans cette direction.
# OmegaWiki
Posté par ComputingFroggy (site web personnel) . Évalué à 1.
Salut,
Je suis épaté que personne n'ai cité OmegaWiki qui pourtant fournit une fonction intéressante (extrait de Wikipedia English) :
Unlike the original Wiktionaries, OmegaWiki will allow for the download of data, particularly for reuse with other software. For example, software Computer assisted translation (CAT), dictionary software on a local computer and spellcheckers.
Je suppose que c'est parce c'est un projet assez méconnu ! J'y suis tombé dessus par hasard, ce week-end en cherchant un dictionnaire (pour un smartphone Android) : un des dico indiquait qu'il utilisait les données de OmegaWiki.
Je n'en sais pas plus que la page Wikipedia English et la home page d'OmegaWiki.
Bonne continuation,
L@u
# liste de mot
Posté par Rozé Étienne . Évalué à 1.
J'en profite pour poser ici une question à laquelle je n'avais pas trouvé de réponse il y a quelque temps. Est-ce qu'il existe une méthode pour récupérer la liste des entrée de wikipedia (ou d'une sous-partie) ?
Bonne journée !
[^] # Re: liste de mot
Posté par Jiehong (site web personnel) . Évalué à 3.
Oui, il est possible de télécharger un dump des données de Wikipédia dans la langue voulue, puis d'en extraire ce que tu souhaites ensuite : https://dumps.wikimedia.org/backup-index.html
Les données sont découpées, et tu peux trouver la liste des entrées de la version Française directement: https://dumps.wikimedia.org/frwiki/20160111/frwiki-20160111-all-titles.gz
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.