Forum Programmation.python data pipeline

Posté par kr1p le 18 décembre 2021 à 19:16. Licence CC By‑SA.

Étiquettes :

déc.

2021

Bonjour,
Je postule sur des annonces de job de data engineer mais je n'ai jamais eu d'experience pour mettre en place des "data pipelines". Est ce que je peux en mettre en place sans cloud sur ma machine? Vous me conseillez quoi pour apprendre au mieux de quoi il s'agit et m'entrainer à en faire chez moi?

Merci

# Talend Open Studio

Posté par Eh_Dis_Mwan le 18 décembre 2021 à 21:19. Évalué à 1.

Tu peux essayer Talend Open Studio
- [^] # Re: Talend Open Studio
  
  Posté par Eh_Dis_Mwan le 18 décembre 2021 à 21:26. Évalué à 0.
  
  mais c'est du java
# Opendata & pandas

Posté par MrBidon le 19 décembre 2021 à 10:18. Évalué à 1.

Visiblement tu demandes en python. Tu peux fouiller les données ouvertes mise en place par nos institutions et les faire parler à l'aide de la librairie Pandas et Jupyter.
- [^] # Re: Opendata & pandas
  
  Posté par _kaos_ le 19 décembre 2021 à 15:55. Évalué à 4.
  
  Le problème de python, c'est que c'est peu différenciant par rapport à la quantité de développeurs python déjà formés à python, donc ça dépend du niveau de départ.
  
  R est légèrement différenciant, mais est plus utilisé en université qu'en entreprise, les postes seront donc plus rares…
  
  Matricule 23415
# hadoop et spark

Posté par kr1p le 19 décembre 2021 à 18:59. Évalué à 1.

Il est souvent question de hadoop et apache spark. Est ce que je peux les utiliser sur data en ligne et est ce que vous connaissez de bon tutos ou de bons document de référence à ce sujet?
- [^] # Re: hadoop et spark
  
  Posté par MrBidon le 20 décembre 2021 à 23:00. Évalué à 2.
  
  Oui tu peux les lancer sur ta machine en mode "dev" c'est à dire sans cluster de machine. Ca devrait suffir, pour se faire la main.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.