Forum Programmation.python data pipeline

Posté par  . Licence CC By‑SA.
Étiquettes :
1
18
déc.
2021

Bonjour,
Je postule sur des annonces de job de data engineer mais je n'ai jamais eu d'experience pour mettre en place des "data pipelines". Est ce que je peux en mettre en place sans cloud sur ma machine? Vous me conseillez quoi pour apprendre au mieux de quoi il s'agit et m'entrainer à en faire chez moi?

Merci

  • # Talend Open Studio

    Posté par  . Évalué à 1.

    Tu peux essayer Talend Open Studio

  • # Opendata & pandas

    Posté par  . Évalué à 1.

    Visiblement tu demandes en python. Tu peux fouiller les données ouvertes mise en place par nos institutions et les faire parler à l'aide de la librairie Pandas et Jupyter.

    • [^] # Re: Opendata & pandas

      Posté par  . Évalué à 4.

      Le problème de python, c'est que c'est peu différenciant par rapport à la quantité de développeurs python déjà formés à python, donc ça dépend du niveau de départ.

      R est légèrement différenciant, mais est plus utilisé en université qu'en entreprise, les postes seront donc plus rares…

      Matricule 23415

  • # hadoop et spark

    Posté par  . Évalué à 1.

    Il est souvent question de hadoop et apache spark. Est ce que je peux les utiliser sur data en ligne et est ce que vous connaissez de bon tutos ou de bons document de référence à ce sujet?

    • [^] # Re: hadoop et spark

      Posté par  . Évalué à 2.

      Oui tu peux les lancer sur ta machine en mode "dev" c'est à dire sans cluster de machine. Ca devrait suffir, pour se faire la main.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.