Forum Programmation.autre Création d'une collection de tickets de carburants ...

Posté par  . Licence CC By‑SA.
Étiquettes : aucune
8
26
jan.
2021

Hello world !

Pour jouer un peu avec tensor flow et le deep learning je cherche à créer une base de travail, pour celà je lance https://carbu.org : mon dévolu s'est porté sur les tickets de carburant pour les raisons suivantes:
- tout le monde en a (je pensais naïvement au départ que mon stock serait suffisant)
- c'est petit et facile à prendre en photo
- il n'y a aucune donnée nominative à "anonymiser" au passage (NDR: après une remarque de NeoX il y a quand même le fin du numéro de CB, voir dans les commentaires)
- ils ne respectent aucun format ni structure (dingue)
- je peux comparer le résultat de l'ocr (tesseract) avec ce que tensor flow sortira

En bref c'est donc un gros foutoir dans lequel j'espère pouvoir faire apprendre à mon modèle le carburant (gazole, diesel, e10, sp95 etc.), la date et le nombre de litres versés dans le réservoir …

Mais seulement voilà au bout de mes 10 tickets je vois bien que ça ne suffit pas pour faire apprendre à la machine alors je fais appel à la communauté, si vous avez quelques minutes à me donner en allant sur le site https://carbu.org pour prendre en photo votre / vos tickets de carburant (et uniquement carburant) ça serait vraiment sympa !

C'est anonyme. MERCI d'avance.

À vot' bon coeur m'sieurs'dames

  • # c'est quoi un "ticket de carburant" ?

    Posté par  (Mastodon) . Évalué à 2.

    tu parles du ticket de reçu CB ? tu pourrais donner un exemple ?

    après comme d'habitude, c'est pour en faire quoi ? parce que si c'est pour monter une multi-nationale d'OCR de tickets CB, je veux ma part :)
    plus sérieusement, les fichiers resteront-ils à disposition si quelqu'un d'autre veut dresser son IA ?

    En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

    • [^] # Re: c'est quoi un "ticket de carburant" ?

      Posté par  . Évalué à 2.

      Hello, quelques réponses sont déjà sur le lien suivant https://carbu.org/details.php

      Et oui ça sera mis en téléchargement :-) mais comme je n'ai aucun filtre et qu'on peut imaginer des idiots qui vont photographier des trucs répréhensibles je dois modérer les photos …

      eric.linuxfr@sud-ouest.org

      • [^] # Re: c'est quoi un "ticket de carburant" ?

        Posté par  . Évalué à 3.

        y a quand meme la date, le lieu, et les 4 derniers chiffres de la carte bleue sur le ticket.

        ca permet quand meme de faire du "pistage" de qui était où et quand

        Mais pour le principe, je vais voir si je refais des pleins plus réguliers à t'envoyer les tickets.

        Sinon, c'est rigolo on était presque voisin (d'après ton ticket exemple)

        • [^] # Re: c'est quoi un "ticket de carburant" ?

          Posté par  . Évalué à 1.

          Arg !

          Excellente remarque, je vais voir pour soit ajouter une note pour inviter les contributeurs à noircir cette zone avant de prendre la photo (mais ça risque de ralentir beaucoup les quelques contributions déjà peu nombreuses) … ou alors plus on sera nombreux et plus le risque sera dilué (imaginons qu'on soit 10 à avoir le même numéro final de CB) …

          Et ça serait drôle que l'effet induit soit que des linuxfr-iens se croisent IRL et découvrent qu'ils habitent à quelques km les uns des autres :-)

          eric.linuxfr@sud-ouest.org

  • # Licence d'une telle base de donnée ?

    Posté par  . Évalué à 4.

    Tiens, je me pose la question de savoir sous quelle licence on pourrait diffuser cette base de données ?

    J'ai toujours eu le réflexe de cc-by-sa pour tout ce que je publie quand ce n'est pas du code … est-ce que ça vous semble adapté dans le cas présent ?

    C'est histoire de l'indiquer clairement sur le site dès le départ "en envoyant votre ticket sur le site vous acceptez que la licence cc-by-sa soit appliquée" … sauf que comme on ne connait pas les auteurs c'est un peu con (pour le by) non ?

    Ou le BY serait "carbu.org" et donc on aurait un truc du genre.

    "en envoyant votre photo de ticket de carburant sur le site carbu.org vous l'autorisez à utiliser et diffuser ce document sous cc-by-sa" ?

    Ma motivation serait d'éviter (même si c'est une utopie) que cette base se retrouve "non libre" un de ces 4 … un effort communautaire doit bénéficier à la communauté (enfin s'il est possible d'imaginer un "bénéfice" de partager des tickets de carburant). Je ne me fais pas d'illusion sur le fait qu'un aigrefin pille le gratuit et oublie le libre mais je tiens à faire de mon mieux pour que ça ne soit pas le cas (donc appliquer une licence clairement des le départ).

    eric.linuxfr@sud-ouest.org

  • # Je ne prends jamais de ticket de carburant

    Posté par  . Évalué à 1.

    C'est du papier foutu en l'air pour rien.

  • # Tickets gribouillés

    Posté par  (site web personnel) . Évalué à 5.

    Alors moi j'ai toujours 5 ans d'historique de tickets. Je les entre ensuite sur spritmonitor.de

    En plus j'ai changé de CB en novembre, donc pas de pb de ce côté là.

    Par contre, je marque toujours au stylo mon km total et journalier dessus.
    ça fera un challenge de plus à ton IA … pourquoi pas utiliser l'IA elle-même pour noircir les zones sensibles ;-)

    • [^] # Re: Tickets gribouillés

      Posté par  (site web personnel) . Évalué à 2.

      Voilà ! Je viens de te verser l'année 2020 (23 tickets … celle où j'ai dû le moins rouler cause covid …).
      J'ai eu le workflow suivant:
      - scan couleur à l'imprimante en batch en jpg format a5
      - versement un à un des tickets sur ton site.

      Même si le versement sur ton site est bien fait et assez rapide (faut juste enlever le lien qui dit de retourner à la page principale pour éviter la confusion alors que tu peux cliquer direct sur le bouton prendre une photo …), ce serait bien de pouvoir sélectionner plusieurs fichiers en même temps :)

      En espérant que ça t'aide.

      • [^] # Re: Tickets gribouillés

        Posté par  . Évalué à 1.

        SUPER !

        merci beaucoup, c'est maintenant dans le git :-)

        et ça sera dans ma prochaine boucle d'apprentissage, on approche les 100 tickets ça devrait commencer à donner des résultats !

        eric.linuxfr@sud-ouest.org

        • [^] # Re: Tickets gribouillés

          Posté par  (site web personnel) . Évalué à 1.

          De rien ! Moi ça me force à faire ce que je veux faire depuis des années … numériser tout ce que je peux pour mettre dans mon nextcloud

          ça me fait réfléchir à mon flow :)

          Je t'ai rajouté 2016 … 41 tickets, l'encre se décolore pour certains.

        • [^] # Re: Tickets gribouillés

          Posté par  (site web personnel) . Évalué à 2.

          Voilà ! J'ai versé tout ce que j'ai pu, j'espère que tu arriveras à tes 1000 tickets

          C'est le genre de projet que j'aurai aimé faire, alors j'attends de tes nouvelles sur linuxfr :)

          • [^] # Re: Tickets gribouillés

            Posté par  . Évalué à 1. Dernière modification le 01 février 2021 à 10:09.

            C'est TOP
            je droppe les tickets qui ne sont vraiment pas lisibles et je crop les autres :)
            j'essaye de faire ça une fois par jour histoire que le dépot git ne soit pas trop en "retard"

            MERCI

            eric.linuxfr@sud-ouest.org

  • # paperswithcode

    Posté par  . Évalué à 2.

    Si tu arrive à une collection utilisable et que tu veux la faire connaître tu dois pouvoir l'ajouter à paperswithcode qui a une section qui liste des datasets.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.