Journal Retour d'expérience sur OpenDedup

Posté par  (Mastodon) .
8
12
oct.
2012

Je cherchais une petite vm rapide à déployer qui propose une interface web pour gérer le nfs, j'ai donc testé opendedup qui offre en plus la déduplication.
J'ai donc téléchargé et déployé l'appliance http://opendedup.org/downloads/sdfsnas-prod-1.5.0.ovf sur l'un de mes serveurs.

Points positifs:

  • Basé sur une ubuntu 12.04 (troll du vendredi).
  • Le système de fichiers semble de performance très correct.
  • La déduplication fonctionne bien.
  • Le démarrage est très rapide

Points négatifs:

  • Le système de fichiers sdfs ne gère pas les accents (version 1.1.5)
  • La gestion des droits POSIX est très douteuse voire inexistante. Tous les accès sont fait comme si nous étions root, quel que soit l'utilisateur.

Ce dernier point me semble rédhibitoire dans mon cas. Visiblement, "beaucoup" de personnes utilisent sdfs pour y installer des vmdk de machines virtuelles. La seule solution que j'ai trouvée est de créer un gros fichier de plusieurs Go, de le formater et de le monter en loop. Pas terrible comme solution. Ça ne permet pas d'agrandir facilement le système de fichiers.

Quelqu'un connaît d'autres solutions équivalentes ?
Un retour d'expérience avec lessFS ?

  • # filesystem -> système de fichier

    Posté par  . Évalué à 5.

    Je sais que je vais me faire moinser mais je voulais souligner le fait que tu utilise "filesystem" comme 1 seul mot.
    Autant dans le milieu informatique le franglais est souvent toléré, mais là ce n'est même plus logique.
    Sachant que pour quelques caractère de plus, "système de fichier" est tout à fait acceptable et accepté comme traduction.

    Sur ce bon WE à tous

    • [^] # Re: filesystem -> système de fichier

      Posté par  . Évalué à 1.

      Mais encore ?

      • [^] # Re: filesystem -> système de fichier

        Posté par  . Évalué à 1.

        et surtout, ça sert à quoi ? Juste pour gérer des partages nfs ? Quel intérêt par rapport à une machine virtuelle / serveur que l'on installe soi même ?

        « I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond

        • [^] # Re: filesystem -> système de fichier

          Posté par  (site web personnel) . Évalué à 2.

          le fait que tu utilise "filesystem" comme 1 seul mot.

          j'ai corrigé cela et 2-3 autres photes d'ortografe (ou d'accord).

          surtout, ça sert à quoi

          suivre le lien wikipedia pour déduplication peut aider, un exemple étant le stockage de VM (dans des vmdk) : c'est quand il y en a plusieurs qu'il y a des problèmes (toutes avec un /usr/bin quasi identique, ce qui finit par prendre de la place) ; ah bah tiens c'est l'exemple du journal avec les vmdk justement…

        • [^] # Re: filesystem -> système de fichier

          Posté par  (Mastodon) . Évalué à 1.

          L'intérêt principal étant d'avoir une plateforme rapide à déployer permettant de faire de la déduplication.
          Je pensais notamment à l'utilisation de ce type de système de fichiers en tant qu'espace de stockage d'une plateforme owncloud. Les utilisateurs qui ne se connaissent pas ont souvent tendance à déposer des fichiers identiques ou fortement similaire. J'ai fait un essai en copiant sur ce système de fichier un dépôt d'environ 40Go, la place finale occupée, était divisée par 3.
          Mais vu le problème de sécurité rencontré, j'ai malheureusement abandonné cette solution.

          • [^] # Re: filesystem -> système de fichier

            Posté par  . Évalué à 1.

            ok, merci de l'info, j'avais bloqué sur la partie NFS, et la déduplication me semblait accessoire dans l'installation de ce système

            « I approve of any development that makes it more difficult for governments and criminals to monopolize the use of force. » Eric Raymond

    • [^] # Commentaire supprimé

      Posté par  . Évalué à 5.

      Ce commentaire a été supprimé par l’équipe de modération.

    • [^] # Re: filesystem -> système de fichier

      Posté par  (Mastodon) . Évalué à 0.

      Je suis du même avis toi. L'économie en terme de caractère n'est pas une raison suffisante.
      En tout cas je vous remercie pour le vif intérêt que vous portez à mon journal ;-).

  • # toujours pas convaincu

    Posté par  . Évalué à 2.

    je crois afficher une certaine constante en disant que je ne vois pas l'usage de la déduplication au niveau du stockage (fs ou plus bas).
    d'ailleurs mon commentaire va-t-il être dédupliqué avec mon précédent sur le sujet.
    à part peut être les pièces jointes de mails adressées à plusieurs personnes d'un même domaine, mais dans ce cas, cela se fait au niveau applicatif.

    est ce que qqun a un cas concrêt à nous soumettre ?

    • [^] # Re: toujours pas convaincu

      Posté par  . Évalué à 1.

      à part peut être les pièces jointes de mails adressées à plusieurs personnes d'un même domaine, mais dans ce cas, cela se fait au niveau applicatif.

      Je vois bien dedans un moyen de rationaliser l'espace de stockage sur des solutions de partage de fichiers (Owncloud & co) ou de GED (Nuxeo/Alfresco). Par rapport au niveau applicatif, l'avantage étant qu'il n'y a pas à l'implémenter à ce-dit niveau (Owncloud et Nuxeo ne le gèrent pas, Alfresco non plus aux dernières nouvelles, etc.).

    • [^] # Re: toujours pas convaincu

      Posté par  (Mastodon) . Évalué à 0.

      Dans beaucoup de cas les fichiers sont totalement identiques ou ont un grand pourcentage de bloc identique. C'est d'autant plus vrai, lorsque le système de fichier est utilisé pour de la virtualisation. Nous parlons bien ici de déduplication de blocs et non de fichier complet.
      Dans le cas d'une GED nous pouvons très bien avoir 10 versions d'un même document.
      Pour un partage bureautique le bénéfice en espace disque peu également être très important, les utilisateurs ayant pour habitude de copier x fois les mêmes fichiers.
      Idem pour des sauvegardes complètes sur disques.
      Bien entendu il est indispensable de "réhydrater" la donnée sur le support de sauvegarde LTO.

      • [^] # Re: toujours pas convaincu

        Posté par  . Évalué à 2.

        Justement sur la Ged, c'est le contre exemple.
        Pourquoi tu aurais des doublons puisque tout est géré par l'application de Ged.
        Une même version est unique.
        Sur deux versions d'un même document, binaire, type office, essai de trouver des blocs communs, tu vas être déçu.

        OwnCloud, c'est pareil, pourquoi avoir des doublons ?
        Entre utilisateurs, c'est peu probable qu'ils aient des fichiers identiques et je dirai que l'hébergeur n'est pas sensé le savoir. Pour un même utilisateur, cela doit être marginal et il n'a qu'à faire le ménage puisque tu lui factures le stockage.

        Pour de la virtualisation, c'est le cas qui pourrait être le plus pertinent. Mais cela suppose que tu n'utilises pas de fonctionnalités permettant de gérer proprement tes images d'OS: snapshot, boot réseau. Et que tes fichiers sont bien alignés dans les blocs. Bref, c'est plus une solution de contournement.
        Et je n'ai pas trouvé de bench montrant un réel gain.

        • [^] # Re: toujours pas convaincu

          Posté par  (Mastodon) . Évalué à 0.

          Je ne vais pas passer mes journées à argumenter, j'ai plein d'autre chose plus intéressante à faire. Le meilleur moyen de se faire une opinion est de tester par soit même. Ce qui permet d'avoir une bonne idée du taux de déduplication des données dont on dispose.

          Pour l'instant je déconseille opendedup pour des problèmes de sécurité d'accès aux données. Bien qu'il soit intéressant techniquement, notamment avec des possibilités de répliquer des volumes sur un opendedup distant et ceci de façon dédupliqué.

          Concernant tes remarques sur la virtualisation, certes on peut voir ça comme une solution de contournement, mais c'est une solution qui a le mérite d'être efficace, de fonctionner quelque soit la solution de virtualisation utilisée et de ne pas nécessiter de compétences particulières.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.