Pour mon premier journal, je tiens à partager cette excitante nouvelle.
Bigtop est un nouveau projet ayant pour but de faciliter la distribution et l’intégration des projets lies à l’écosystème Hadoop.
Ce projet est loin d’être nouveau puisqu'il s'agit en fait sous le capot de la Cloudera's Distribution including Apache Hadoop (CDH). CDH était déjà sous licence Apache v2, mais Cloudera souhaite aller plus loin en la transformant en projet Apache.
Bigtop est important car Hadoop a dépassé le cadre de simple projet pour devenir une plate-forme sur laquelle une multitude d'autres projets reposent.
Ces projets allant de la collection de logs (flume) aux bases de données (HBase), en passant par la gestion de worfklow (Oozie). Malheureusement, ces projets ne sont pas tous aussi coordonnés qu'on le souhaiterait, dépendent de fonctionnalités non sorties/finalisées, ont des dépendances exotiques ou en conflit, et ne s’intègrent pas forcément aussi bien qu'on le souhaiterait.
Bigtop vise à résoudre cela en créant un cadre de travail et en s'assurant (et fournissant des patchs) en amont que chaque projet s’intègre bien.
Les développeurs initiaux incluent des gens de chez Cloudera, Canonical, Twitter, Facebook, HP et StumbleUpon. D'autres personnes ayant signalé leur intérêt pour ce projet vont sûrement rejoindre cette liste.
Pour le moment Bigtop peut être utilisé pour construire des paquets pour :
- RPMs pour RHEL/CentOS 5/6, openSUSE 11.4, SLES 11
- DEBs pour Ubuntu 10.10, Debian Lenny et Squeeze
Quant aux tests, ils sont gérés par Maven et reposent sur la JVM et peuvent donc être implémentés dans un quelconque langage, tant que celui-ci est supporté par celle-ci.
La liste des projets supportés par Bigtop (pour le moment, car tout semble indiquer que la liste va s'agrandir) :
- flume
- hadoop
- hbase
- hive
- oozie
- pig
- sqoop
- whirr
- zookeeper
Liens :
- Apache Hadoop: http://hadoop.apache.org/
- La proposition d'incubation: http://wiki.apache.org/incubator/BigtopProposal
- Cloudera's Distribution including Apache Hadoop: https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation
# Excellente nouvelle
Posté par Hardy Damien . Évalué à 3.
Cloudera fait un super boulot pour le packaging de l'écosystème Hadoop. La facilité de déploiement des applicatifs permet de se lancer facilement dans la découverte de ce nouvelle manière de faire du stockage et du traitement distribué.
Par contre ils ne proposent pas les paquets deb pour squeeze de cdh3 (et pour lenny il n'y a que les beta de cdh3) c'est frustrant.
Ceci dit Bigtop a plus sa place dans le cadres des distribs que chez l'éditeur finalement.
[^] # Re: Excellente nouvelle
Posté par Paf . Évalué à 2.
J'ai une bonne nouvelle: Le support pour Squeeze arrive pour CDH3u1 (d'ici 1-2 mois).
Les paquets squeeze sont d'ailleurs deja dispo sur le depot nightly ( http://nightly.cloudera.com/debian/ )
Quant a Lenny, le support revient pour CDH3u1 aussi. La encore, des paquets dont deja dispos sur le depot nightly.
Evidemment le depot nightly implique que c'est a tes risques et perils :)
Quant a la place dans les distribs, je dirai oui et non. Tout d'abord, on ne peut pas patcher de release d'un projet Apache pour cause de trademark (pour des raisons similaires a ce qui a cause la naissance de iceweasel). Et sinon comme une grosse partie des projets java, ils ont du mal a suivre les bonnes pratiques de releases et de gestion de dependances.
Bigtop repond a un besoin un peu plus en amont de ce que des paquets pour distributions resoudraient.
[^] # Re: Excellente nouvelle
Posté par Paf . Évalué à 2.
Voir https://groups.google.com/a/cloudera.org/group/cdh-user/browse_thread/thread/d272d3fc38a381da/71d4bc20948297e0 pour plus d'information sur squeeze/lenny
[^] # Re: Excellente nouvelle
Posté par Hardy Damien . Évalué à 0.
J'étais resté la dessus https://groups.google.com/a/cloudera.org/group/cdh-user/browse_thread/thread/e3098462515f455f/b5fb632c5c07b030 :)
[^] # Re: Excellente nouvelle
Posté par Hardy Damien . Évalué à 1. Dernière modification le 15 juin 2011 à 14:25.
Merci pour ce retour.
Super on va pouvoir déployer les agent flume partout \o/
Par contre on a migré le POC sur Ubuntu à la sortie de CDH3. P.e. que lors de l'installation d'une éventuelle prod on repassera sur Debian.
Est ce qu'il existe une communauté francophone de écosystème hadoop aujourd'hui ?
Nos difficulté aujourd'hui, c'est de trouver des tutos avec la descriptions des flux pour des objectifs assez classique comme pour hbase faire des conteurs de vues d'objets. On trouve une vidéo de la description des statistique en temps réel chez facebook1, ou le compteur de downloads en répartition géographique de firefox [3][4] mais peu qui ne soit assez détaillé pour s'en inspirer.
Le design d'un schéma Hbase est assez perturbant quand on arrive du Relationnel :
[1] http://highscalability.com/blog/2011/3/22/facebooks-new-realtime-analytics-system-hbase-to-process-20.html
[2] http://hadoopblog.blogspot.com/2011/05/realtime-hadoop-usage-at-facebook-part.html
[3] http://glow.mozilla.org/
[4] https://blog.mozilla.com/data/2011/03/22/how-glow-mozilla-org-gets-its-data/
[^] # Re: Excellente nouvelle
Posté par Paf . Évalué à 2.
Pas a ma connaissance.
Ton lien [4] contient un lien vers tout le code source : https://github.com/jbalogh/glow
Concernant la documentation, je conseille fortement le livre sur Hadoop de chez O'Reilly.
Sinon Cloudera offre aussi ses services de support et formation en Europe :)
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.