Journal Le dictionnaire des francophones : un dictionnaire francophone structuré libre

20
13
fév.
2022

Les mots sont à la mode alors j’en profite pour parler d’un projet intéressant de quelques mois d’age, pour sa sortie officielle : le dictionnaire des francophones réalisé avec l’institut international de la francophonie.

https://www.dictionnairedesfrancophones.org/

C’est un projet de dictionnaire structuré collaboratif, créé entre autre avec les données du wiktionnaire. Réalisé (entre autre ?) par le wikimédien Noé
On peut y consulter un mot comme motus.

Jusque là rien de très original, des dictionnaires comme ça on en a plutôt pas mal en consultation sur le net.

Ce qui est beaucoup plus original c’est la présence d’un point d’accès SPARQL pour faire des requêtes sur les données ! On a donc un graphe RDF structuré par un modèle de donnée documenté et des relations entre les mots et leurs formes, leur définition, leur étymologie …

La communauté du wiktionnaire liste des requêtes intéressantes sur cette page.

Quel est le prétexte à cette assez fruste introduction du projet des mois après sa sortie ? Une tentative de requête de plus pour trouver les suites de 5 lettres qui pourraient servir à un wordle francophone .

On peut discuter des résultats en commentaires, mais j’ai l’impression qu’il en manque :)

La prochaine fois, les données lexicale structurées de Wikidata.

  • # cliqué trop vite, il y a plein d’erreurs

    Posté par  . Évalué à 2.

    • Inversion du lien et de sa description pour point d’accès sparql
    • des requêtes intéressante*s*
    • manque des points à la fin des phrases
  • # comme le capitaine

    Posté par  (site web personnel) . Évalué à 3.

    j'ai trouvé sympa le mot ad hoc, pouvez-vous dire mieux ? :p

  • # iel

    Posté par  . Évalué à 1.

    J'ai testé iel

    Pronom de la troisième personne du singulier permettant de désigner les personnes, sans distinction de genre. — Note : Il sert notamment à désigner une personne ne s'inscrivant pas dans un genre défini, ou dont le genre n'est pas connu

    La définition Dans le Robert depuis 2021

    Pronom personnel sujet de la troisième personne du singulier et du pluriel, employé pour évoquer une personne quel que soit son genre. L'usage du pronom iel dans la communication inclusive

    Dans le Wiktionnaire depuis 2015

    Pronom de la troisième personne du singulier permettant de désigner les personnes, sans distinction de genre. — Note : Il sert notamment à désigner une personne ne s’inscrivant pas dans la binarité de genre masculin/féminin, ou dont le genre n’est pas connu.

    Commentaires
    https://www.lemonde.fr/societe/article/2021/11/17/le-robert-confirme-l-ajout-du-pronom-iel-dans-son-edition-en-ligne_6102440_3224.html
    https://tetu.com/2021/11/15/pronom-neutre-iel-dictionnaire-petit-robert-ligne/
    https://www.ledevoir.com/societe/647937/malgre-la-polemique-le-robert-defend-l-ajout-du-mot-iel-dans-son-edition-en-ligne
    https://www.ledevoir.com/culture/648207/langue-francaise-ce-iel-qui-derange-et-qui-degenre

    --
    Maderios

    • [^] # Re: iel

      Posté par  (site web personnel) . Évalué à 7.

      Iel a été dans wikitionnaire avant d'être dans le petit Robert. Les dictionnaires sont basés sur l'usage avec des critères d'entrée des nouveaux mots différents (plus ou moins stricts).

      En général, l'ordre d'entrée des nouveaux mots est wikitionnaire, Petit Robert, Larousse. Donc iel va probablement rejoindre le Larousse dans quelques années.

      • [^] # Re: iel

        Posté par  . Évalué à 4.

        Les dictionnaires sont basés sur l'usage

        Ce qui est un peu stupide, non pas pour les mots ajoutés, mais pour les mots enlevés. Si j'ai besoin de chercher un mot dans un dictionnaire, il y a de grandes chances qu'il soit peu utilisé.

        • [^] # Re: iel

          Posté par  . Évalué à 0.

          Si j'ai besoin de chercher un mot dans un dictionnaire, il y a de grandes chances qu'il soit peu utilisé

          Certains sont "supprimés" par l'Académie mais encore utilisés. Le plus comique est la liste des mots considérés comme "nouveaux". Les vieux messieurs de l'Académie Française semble vivre dans un monde parallèle.

          https://www.academie-francaise.fr/le-dictionnaire-la-9e-edition/exemples-de-mots-nouveaux

          • [^] # Re: iel

            Posté par  (site web personnel) . Évalué à 4.

            "Nouveaux" depuis la 8e édition (1932-1935) du dictionnaire, donc oui sur la technologie par exemple, des choses ont changé (en fait tout a plus changé que l'Académie française…)

          • [^] # Re: iel

            Posté par  . Évalué à 3.

            Je ne parlais pas de l'académie mais des dictionnaires types Lablonde ou le Petit Roger.

  • # SPARQL tout rouillé

    Posté par  (site web personnel, Mastodon) . Évalué à 4.

    Merci pour ce lien, j'adore.

    Par contre, ça m'a fait voir à quel point mon SPARQL est tout rouillé :D

    Bon, j'arrive quand même à extraire les mots à connotation péjorative du Burkina Faso (oui, je suis un grand gamin) :D

    PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
    PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
    PREFIX ddf: <http://data.dictionnairedesfrancophones.org/ontology/ddf#>
    PREFIX lexicog: <http://www.w3.org/ns/lemon/lexicog#>
    PREFIX lexinfo: <http://www.lexinfo.net/ontology/2.0/lexinfo#>
    PREFIX ontolex: <http://www.w3.org/ns/lemon/ontolex#>
    
    SELECT ?mot ?usage
    WHERE {
      ?entry a lexicog:Entry .
      ?entry lexicog:describes ?lentry .
      ?lentry ontolex:canonicalForm ?form.
      ?form ontolex:writtenRep ?mot.
      ?form ddf:formHasLocalisation <https://www.geonames.org/2361809>.
      ?lentry ontolex:sense ?sub.
      ?sub ddf:hasConnotation <http://data.dictionnairedesfrancophones.org/authority/connotation/pejorativeConnotation> .
      ?sub lexicog:usageExample/rdf:value ?usage.
    } LIMIT 100
    

    D'ailleurs, au passage, je n'ai rien trouvé pour la France, c'est limité à la Francophonie hors hexagone ou je suis vraiment à la ramasse ?

    • [^] # Re: SPARQL tout rouillé

      Posté par  (site web personnel, Mastodon) . Évalué à 4.

      J'avais oublié les définitions :)

      PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
      PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
      PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
      PREFIX ddf: <http://data.dictionnairedesfrancophones.org/ontology/ddf#>
      PREFIX lexicog: <http://www.w3.org/ns/lemon/lexicog#>
      PREFIX lexinfo: <http://www.lexinfo.net/ontology/2.0/lexinfo#>
      PREFIX ontolex: <http://www.w3.org/ns/lemon/ontolex#>
      
      SELECT ?mot ?def ?usage
      WHERE {
        ?entry a lexicog:Entry .
        ?entry lexicog:describes ?lentry .
        ?lentry ontolex:canonicalForm ?form.
        ?form ontolex:writtenRep ?mot.
        ?form ddf:formHasLocalisation <https://www.geonames.org/2361809>.
        ?lentry ontolex:sense ?sub.
        ?sub ddf:hasConnotation <http://data.dictionnairedesfrancophones.org/authority/connotation/pejorativeConnotation> .
        ?sub skos:definition ?def.
        ?sub lexicog:usageExample/rdf:value ?usage.
      } LIMIT 100
      
    • [^] # Re: SPARQL tout rouillé

      Posté par  . Évalué à 4.

      Il me semble que lorsque rien n'est indiqué au niveau du pays sur le DDF (Dictionaire des francophones), c'est que par défaut cela fait référence au français de France. Donc si on ne veux garder que les mots du français de France, il faudrait exclure tous les pays de la requête.

  • # DBNary

    Posté par  . Évalué à 7. Dernière modification le 13 février 2022 à 18:05.

    Ça fait vachement penser à DBnary, qui est une base de données RDF (qu'on peut interroger avec Sparql) extraite du wiktionaire. Un effort de l'équipe GETALP au LIG (j'ai travaillé dessus en tant que stagiaire il y a quelques années).

    http://kaiko.getalp.org/about-dbnary/

    Dbnary is an effort to provide multilingual lexical data extracted from wiktionary. The extracted data is made available as LLOD (Linguistic Linked Open Data). This data set has won the Monnet challenge in 2012.

    Linguistic data currently includes Bulgarian, Dutch, English, Finnish, French, German, Greek, Italian, Japanese, Polish, Portuguese, Russian, Serbo-Croat, Spanish, Swedish and Turkish.

    • [^] # Re: DBNary

      Posté par  . Évalué à 4.

      Oui, c'est assez similaire à DBnary au niveau de la possibilité de requêter le Wiktionnaire. Une des différences avec le DFF, c'est que les données du DDF sont issues entre autres du Wiktionnaire mais aussi d'autres dictionnaires libres de français (voir la section "Présentation des ressources" sur cette page).

  • # Un dictionnaire participatif

    Posté par  . Évalué à 2. Dernière modification le 13 février 2022 à 18:07.

    Un dictionnaire participatif…

    Enfin !

    Participez/participons donc, car cette langue, qui est la vôtre/nôtre, c'est un bien commun et parce qu'en participant, ce dictionnaire rendra compte de vos/nos usages !

  • # Utilité ?

    Posté par  (site web personnel) . Évalué à 9.

    C'est un peu provocateur, mais tout cela est-il vraiment utile ? Le Web sémantique, c'est quelque chose dont j'ai entendu parler il y a quoi, douze ans je crois. Ça a l'air très intéressant, très propre, tout ce qu'on veut, mais ça m'a justement toujours paru très théorique.

    Ce projet intéressant semble un excellent usage des concepts d'ontologie, de relations sémantiques ou je ne sais quoi. D'où ma question : est-ce que vous arrivez à imaginer des usages concrets pour cela ? Autre que de permettre à des chercheurs de chercher des choses à chercher, évidemment.

    C'est une question sérieuse, pas une pure provocation, je serait vraiment intéressé d'imaginer ce genre de truc être vraiment utile, si c'est possible.

    • [^] # Re: Utilité ?

      Posté par  . Évalué à 4.

      Il y a pas mal de niveau de réponse à donner mais juste rapidement le matin comme ça le domaine biomédical semble être un vrai utilisateur : https://www.uniprot.org/

      C’est pas forcément étonnant parce qu’historiquement c’est un des gros demandeur de trucs genre système experts qui pourraient modéliser de la connaissance par des règles logique.

      Après, il y a plusieurs niveau de réponse.
      * Le côté « url comme système de nom » Wikidata est un utilisateur.
      * Le côté « bases de données graphes » semble avoir quand même décollé. Genre Facebook ou Google ont le leur, c’est une des bases des infos données par Google sur certains sujets quand on fait une recherche. Facebook a débauché les employés de Blazegraph, le moteur de Wikidata …
      * Le côté « base de données réparties » / interopérabilité fonctionne, on peut relativement facilement écrire du SPARQL qui fait intervenir plusieurs endpoint différent par exemple.
      * Le côté « raisonnement » est intéressant dans certain cas genre la maintenance d’ontologie complexes, mais a sûrement peu d’utilisation pour le commun des programmeurs

      Il y aurait sûrement d’autres points à aborder. On commence à avoir pas mal de endpoint sparql maintenant, utilisés par exemple sur Wikipédia …

      • [^] # Re: Utilité ?

        Posté par  (site web personnel, Mastodon) . Évalué à 4.

        Le côté « raisonnement » est intéressant dans certain cas genre la maintenance d’ontologie complexes, mais a sûrement peu d’utilisation pour le commun des programmeurs

        Ca dépend du cas d'usage.
        Par exemple, sur l'ontologie FOAF, certaines inférences permettent de déterminer un graphe de relations sans qu'elles ne soient forcément explicites.
        On peut imaginer Facebook s'en servir mais pas que :)

      • [^] # Re: Utilité ?

        Posté par  . Évalué à 4.

        Ca semble quand même limité, non ?

        A propos de Facebook, grosso modo ils ont créé leur propre modèle de requêtage (GraphQL), qui a un certain succès, et n'ont pas investi un rond dans SPARQL. Et autant je vois GraphQL fleurir un peu partout (et ça sent l'effet de mode), autant SPARQL n'attire pas les foules, et reste cantonné à des niches.

        Le nom n'aide pas : SPARQL fait beaucoup penser à Apache Spark, qui a connu son heure de gloire et semble déjà sur le déclin. Ce n'est pas vraiment du même domaine, mais c'est aussi utilisé pour manipuler de la donnée donc prête à confusion pour le néophyte.

        Et je trouve la syntaxe particulièrement foireuse. A la fin, tu dois connaître XML, RSS, SPARQL, tout ça pour être capable de lancer une requête qui cherche "toto" sur 3 sites web… On peut pas dire que l'effort de démocratisation soit visible. Tim a oublié les premiers jours du HTML (rendez-moi la balise BLINK ! :-)).

        En entreprise, je vois une grosse mouvance pour gérer l'ontologie, avoir une stratégie autour de la data, mais ça reste uniquement théorique, avec beaucoup d'argent dépensé dans des outils qui ne tiennent jamais leurs promesses car l'effort humain à fournir est trop important, la maintenance est pratiquement impossible et l'existant trop lourd / trop moche / trop dispersé et incohérent.

        Au final, les seuls projets qui donnent des résultats concrets sont les trucs bourrins du type "on met tout dans un lac de données et dermeden-sie sich". Avec un peu de normalisation, mais pas trop. Un peu de contrôle de qualité, mais pas trop.

        • [^] # Re: Utilité ?

          Posté par  . Évalué à 3.

          Je comprends pas la référence à RSS, tu confonds avec RDF ? XML on s’en bas les couilles, il y a juste la représentation de certains types de données genre les dates concrètement dont il y a besoin. Sinon pour manipuler du RDF, qui n’est globalement pas grand chose de plus qu’un ensemble de triplets, il y a des représentations super simples qui sont des listes de ces triplets sous forme textuelles.

          Apache Spark, c’est plus récent que SPARQL.

          La syntaxe de SPARQL, on aime ou on aime pas mais elle n’est pas pour autant pas particulièrement complexe. C’est pas tellement comparable SPARQL et GraphQL question expressivité par contre, SPARQL est largement plus puissant.

        • [^] # Re: Utilité ?

          Posté par  . Évalué à 3.

          Sur la gestion des modèles, oui, c’est sur que c’est un problème difficile. Mais c’est intrinsèquement difficile …

          Les technos du web sémantique, on peut s’en servir comme fondation et contribution à résoudre ce problème. Mais il restera intrinsèquement difficile quand même :) Sans fondations pour l’attaquer, ça n’aidera pas.

          On peut aussi s’en servir pour résoudre des problèmes plus simples. Comme fournir un moteur de requête à Wikidata ou faire un système de métadonnées pour les fichiers de Wikimédia Commons.

        • [^] # Re: Utilité ?

          Posté par  (site web personnel, Mastodon) . Évalué à 3.

          Je ne peux que te conseiller d'aller regarder le type de requêtes que l'on peut faire en SPARQL sur FactForge.

          On peut faire des trucs assez complexes quand même avec des sous-requêtes, des agrégations, des comptages.
          Alors oui, je ne te cache pas que certaines requêtes sont pas faciles à lire mais quand on a compris que, par exemple

          ?loc dbo:country ?country .
          ?country a dbo:Country .
          ?country skos:prefLabel ?country_name .
          

          Ce sont juste trois contraintes sur des triplets, ça devient plus simple.
          Ici, on veut que loc ait country pour pays (le prédicat dbo:country et la classe dbo:Country, a étant un raccourci pour est un objet de la classe) et que country_name soit son label (skos:prefLabel).

          • [^] # Re: Utilité ?

            Posté par  . Évalué à 6.

            Oui d’ailleurs pour présenter SPARQL à des matheux, un problème de maths : résoudre le système d’équation { x-y+z=4 , x + y - z = 0 } avec x, y, z dans l’intervalle entier [1,5]. C’est enfantin :

            select ?x ?y ?z {
              values ?x { 1 2 3 4 5 } # les variables x y et Z ont pour domaine l’intervalle d’entier 1 à 5
              values ?y { 1 2 3 4 5 }
              values ?z { 1 2 3 4 5 }
              filter (?x - ?y + ?z = 4) . # contraintes sur les combinaisons possibles
              filter (?x + ?y - ?z = 0) .
            }

            Sur le service de requête de Wikidata ça donne ça et ça résoud le problème.

            Le « values » permet ici de donner les valeurs possibles pour les variables, les « filter » permettent d’exprimer les contraintes. Présenter ensuite les contraintes sur les triplets, (les « graph pattern » dans le jargon) comme des possibilité de donner des valeurs aux variables à partir des triplets du graphe comme tu le fait et on peut démarrer …

            Le reste c’est juste des agrégations comme en SQL, des unions / différences ou ce genre de chose, et des trucs spécifiques au graphe genre des chemins qui ne sont que des motifs de graphe un peu plus complexe, genre trouver les parents quand on a une propriété papa et une propriété maman avec un genre de regex qui représente un motif de chemin sur les arêtes du graphe

            (en utilisant le préfixe « ex: » pour la coloration syntaxique)

             ?enfant ex:papa|ex:maman ?parents . # trouver les personnes du graphe avec leurs parents
            sparql
            
            ou les grands parents
            
            ```sparql
             ?enfant (ex:papa|ex:maman)/(ex:papa|ex:maman) ?grandsparent . # les personnes du graphe avec leurs grands-parents

            ou pour lister tous les ancêtres

             ?enfant (ex:papa|ex:maman)+ ?ancètre .

            et des raccourcis d’écriture, genre au lieux d’écrire

            ?personne ex:genre ex:masculin .
            ?personne ex:pays ex:france .

            pour trouver les hommes de France on met

            ?personne ex:genre ex:masculin ;
                      ex:pays  ex:france .

            ou pour trouver les personnes d’un pays européen en démocratie
            sparql
            ?personne ex:paysnationalité [ ex:continent ex:europe ; ex:régime ex:démocratie ] .

            qui raccourcit quelque chose comme

             ?personne ex:paysnationalité ?pays .
             ?pays ex:continent ex:europe .
             ?pays ex:régime ex:démocratie .
    • [^] # Re: Utilité ?

      Posté par  (site web personnel, Mastodon) . Évalué à 3.

      est-ce que vous arrivez à imaginer des usages concrets pour cela ?

      Sans trop parler de mon métier d'avant, disons que c'était utilisé dans certains logiciels de collecte et d'analyses d'informations dans le domaine du renseignement.

      • [^] # Re: Utilité ?

        Posté par  . Évalué à 3. Dernière modification le 14 février 2022 à 09:56.

        Je n'ose imaginer …

        Par exemple, si j'écris : "Cette pizza, c'est de la bombe !", ça fait tilt ?

        • [^] # Re: Utilité ?

          Posté par  . Évalué à 2.

          Vu le peu d'effet du Jam Echelon Day il y a 20 ans, je doute que ça fonctionne comme ça.

          https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

        • [^] # Re: Utilité ?

          Posté par  (site web personnel, Mastodon) . Évalué à 2.

          :D

          Non, ça fonctionne pas comme ça… :)
          Il n'y a pas trop d'ambiguïtés ici.

    • [^] # Re: Utilité ?

      Posté par  . Évalué à 4.

      Les données sémantiques sont destinées (typiquement) à intégrer des dictionnaires. L'encodage sémantique, c'est ce qui fait la différence dans les applications de TALN (traitement automatique du langage naturel. C'est utile, notamment, pour désambiguïser des énoncés et permettre de choisir entre plusieurs interprétations, dans un contexte concret donné. C'est aussi très coûteux à coder. Et le niveau de complexité est tel que c'est un volet du traitement des discours qui reste à la traîne. Le corrollaire, c'est la question de la qualité des contributions : qui va contribuer (avec quelles compétences ?), qui va filtrer, contrôler, formaliser ?

      • [^] # Re: Utilité ?

        Posté par  (site web personnel, Mastodon) . Évalué à 3.

        Les données sémantiques sont destinées (typiquement) à intégrer des dictionnaires.

        En complément, elles permettent aussi d'enrichir certains process comme l'extraction d'entités nommées.
        Par exemple, Gate permet de travailler avec les ontologies directement (cf. ) et d'utiliser un triplestore pour le marquage (cf. ici).

    • [^] # Re: Utilité ?

      Posté par  (site web personnel) . Évalué à 6.

      Tout ce qui rentre dans l'apprentissage statistique (eg, machine learning) ou simplement l'analyse de texte.

      Par exemple, si tu veux faire de l'analyse de sentiment sur une grande quantité de texte sans avoir à tout lire, pouvoir dire "il y a tant de mot péjoratif" peut être un indicateur (de la grogne des utilisateurs, de l'ambiance d'un groupe, etc).

  • # Application concrète : les ressources humaines

    Posté par  . Évalué à 6.

    Autre application : l'indexation et les langages contrôlés. Une application qui se décline en particulier dans les offres d'emploi ou, plus généralement dans les métiers des ressources humaines.

    Exemple : le "technicien de piquet" / "technicien d'astreinte". Le premier, en Suisse (*), le second (notamment) en France.

    La mise en correspondance des qualifications, malgré les divergences dans les noms de fonctions est un enjeu concret pour les RH et une application "utile".

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.