Forum général.test Une biblio de script ?

Posté par  . Licence CC By‑SA.
Étiquettes :
-3
25
mar.
2020

Bonjour,

J'ai 3 To de données et j'ai mal administrée !

Je me demandais comment chercher les fichier en double qui ne porte pas forcement le meme nom ?

Au début j'étais partis sur l'idée de faire un hash des données du fichier et de comparer dans un fichier tableau !

Après je me suis dit de comparer via find, puis egrep, puis diff, bon une fois j'ai fait avec l'aide d'un adhérent d'une assos, un script perl, bon j'ai galéré !

Et donc j'ai acheté au Fosdem l'année dernière les expression régulière chez Oreilly !

Est-que c'est une bonne piste ?

Y a une bibliothèque de script comme cpam pour le perl ?
Est-ce que çà vaut le coup d'administrer un DD cela vaut 90 euros !

Merci de vos retours

--
ptilou

  • # fslint

    Posté par  (site web personnel) . Évalué à 2.

    https://doc.ubuntu-fr.org/fslint

    Est-ce que çà vaut le coup d'administrer un DD cela vaut 90 euros !

    La question c'est plutôt « est ce que ça vaut le coup de conserver tout ça ». Si ça ne t'inquiète pas de ne pas retrouver ce qui est important parmi le reste, peut être que ça ne l'est pas.

    Un LUG en Lorraine : https://enunclic-cappel.fr

  • # fdupe

    Posté par  (site web personnel) . Évalué à 3.

    Il y a plein de logiciels qui le font déjà. Sur une une ubuntu, la commande "apt search dupe" me renvoie : duperemove fdupe jdupes …

    • [^] # Re: fdupe

      Posté par  . Évalué à -3. Dernière modification le 25 mars 2020 à 17:46.

      Slt,

      Si j'ai acheté le livre sur les expression régulière c'est pour en faire, et si çà t'interesse, chez eni cela traite tous OS, je crois que c'est que posix9 ?

      --
      ptilou

  • # Script

    Posté par  (site web personnel) . Évalué à 3.

    J'ai un script qui génère une liste de fichier avec leur somme de contrôle MD5, pour lister les fichiers en double (ou triple, quadruple, …) :

    https://gitlab.com/xbelanger/create-duplicates-list

    Attention, calculer le MD5 de gros fichiers prendra beaucoup de temps; je recommande de commencer d'abord par travailler sur un sous-ensemble plutôt que sur un répertoire complet.

    • [^] # Re: Script

      Posté par  (site web personnel) . Évalué à 8.

      Ton script commence par calculer les sommes md5 de tous les fichiers?
      Si oui, c'est pas super optimisé… Déjà si deux gros fichiers n'ont pas la même taille il est inutile de comparer leur somme md5. Et pour deux fichiers de taille identique on pourrait commencer par comparer une partie du fichier seulement. J'imagine que les autres programmes font ce genre d'optimisation.

      Un LUG en Lorraine : https://enunclic-cappel.fr

      • [^] # Re: Script

        Posté par  (site web personnel) . Évalué à 2.

        Ton script commence par calculer les sommes md5 de tous les fichiers?
        Si oui, c'est pas super optimisé…

        Ce n'est pas optimisé du tout, du fait que personnellement j'utilise ce script sur des jeux de données de taille assez modeste.

        Maintenant que j'ai un peu plus de temps libre devant moi…

    • [^] # Re: Script

      Posté par  . Évalué à -2.

      Slt,

      Je mes deux solutions en expression régulière, et si tu dis laquelle est la bonne il faut expliquer !

      Puis vient la névralgique y a t'il une biblio ?

      --
      ptilou

  • # Danger: Meta troll

    Posté par  (site web personnel) . Évalué à 4. Dernière modification le 26 mars 2020 à 03:44.

    [!] Alert: Ptilou spotted
     '-> Ref: http://la.buvette.org/Usenet/ptilou.html
     '-> Ptiloutron service started: http://doug.letough.free.fr/ptiloutron
    
    
  • # Sur un air de Ballavoine : je ne suis pas un trolleur, quoi que ?

    Posté par  . Évalué à -1.

    Bonjour,

    Non c'est pas un troll, moi j'ai fait des casseroles, je suis désolé que tu ne les aient pas encore digéré ? (je t'ai vraiment blessé, j'ai surestimé ta capacité intellectuelle, est-ce que c'est un développement intellectuel d’être susceptible ? de qualité ?)…
    Si non oui oui c'est moi …

    Si j'ai acheté le livre alors que je fais principalement du droit c'est que j'aimerai bien comprendre !

    J'ai aussi consulté un livre de script à la BNF, et donc non il s'agit pas d'un troll, mais d'une question, il m'a semblé que m'a première idée de faire une clès de hash du contenue du fichier est mauvaise, et que c'est plus économe en terme de temps de calcul en informatique de lié un tableau qui est fait avec antérieurement avec une commande find, et que egrep et diff s'occupe du jeux de comparaison, on pose la question, on n'est pas certain que notre idée soit la bonne ?

    Après on apprécié le tuyaux sur cpam : https://www.perl.org/

    On demande si il n'existe pas une version avec du batch, avec des expression régulière ?
    (c'est pour cela que l'on à pas posté dans le forum traitant des script en ligne de commande !)

    Voili voilou !
    J'ai vu qu'il n'y a pas de forum de troll, et que celui de USENET est déserté

    Ptilou

    • [^] # Re: Sur un air de Ballavoine : je ne suis pas un trolleur, quoi que ?

      Posté par  (Mastodon) . Évalué à 5.

      Ce n'est pas du tout la bonne approche. grep et les regex ne te serviront strictement à rien.

      Écoute plutôt ce qu'on te dit : tri des fichiers par taille (find t'aidera oui) puis comparaison des MD5SUM des fichiers qui ont la même taille.

      En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

  • # fdupes

    Posté par  (site web personnel) . Évalué à 4.

    J'utilise :

    $ fdupes -rS1 .
    

    Searches the given path for duplicate files. Such files are found by comparing file sizes and MD5 signatures, followed by a byte-by-byte comparison.
    -r --recurse
    -S --size show size of duplicate files
    -1 --sameline list each set of matches on a single line
    _

    • [^] # Re: fdupes

      Posté par  . Évalué à -2.

      Bonsoir,

      C'est pas se que je veux, donc je cherche une biblio de scripts ?

      La BNF, publie un livre qui englobe tous les trois OS les plus populaire, quelqu'un connait quelque chose d'autre ?

      Merci

      --
      ptilou

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.