M2i Formation

Big Data - Data Analysis

Data analyst - Analyse de données en environnement Hadoop

Présentiel

3 jours (21 heures) - BIG-DA

Accueil  ›  Formations Informatique  ›  Big Data  ›  Data Analysis  ›  Data analyst - Analyse de données en environnement Hadoop

Objectifs pédagogiques

  • Savoir comment Hadoop Distributed File System (HDFS) et YARN / MapReduce fonctionnent
  • Explorer HDFS
  • Suivre l'exécution d'une application YARN
  • Utiliser les différents outils de manipulation de la donnée tels que : Hue, Hive, Pig, Tez, Sqoop et Oozie.

Niveau requis

Avoir une expérience dans la manipulation de données.

Public concerné

Tout utilisateur devant manipuler les données dans un Cluster Apache Hadoop.

Levallois-Perret28/11/20181 980 € HTDates proposées dans les agences M2iRéserver

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

1 980 € HT

Pour connaître les prochaines dates disponibles, en présentiel ou à distance, contactez-nous.

Contactez-nous

1 980 € HT

Pour connaître les prochaines dates disponibles, en présentiel ou à distance, contactez-nous.

Contactez-nous

1 980 € HT

Pour connaître les prochaines dates disponibles, en présentiel ou à distance, contactez-nous.

Contactez-nous

1 980 € HT

Pour connaître les prochaines dates disponibles, en présentiel ou à distance, contactez-nous.

Contactez-nous

Sophia Antipolis28/11/20181 980 € HTDates proposées dans les agences M2iRéserver

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Introduction

  • Présentation générale d'Hadoop
  • Exemples d'utilisation dans différents secteurs
  • Historique et chiffres clés
    • Quand parle-t-on de Big Data ?

L'écosystème d'Hadoop

  • Le système de fichier HDFS
  • Le paradigme MapReduce et l'utilisation à travers YARN

Manipulation des données dans un Cluster Hadoop

  • Hue : comment fonctionne cette interface Web ?
  • Hive : pourquoi ce n'est pas une base de données ?
    • Requête sur Hive
    • Utilisation de HCatalog
    • Utilisation avancée sur Hive
    • Utilisation de fonctions utilisateurs
    • Paramétrage de requête
  • Pig : fonctionnement
    • Programmation avec Pig Latin
    • Utilisation du mode Local
    • Utilisation de fonctions utilisateurs
  • Tez : qu'est-ce que c'est ?
    • Comment et quand l'utiliser ?
  • Oozie : fonctionnement
    • Création de workflows avec Oozie
    • Manipulation des workflows
    • Ajout d'éléments d'exploitation dans les workflows
    • Ajout de conditions d'exécution
    • Paramétrage des workflows
  • Sqoop : à quoi ça sert ?
    • Chargement des données depuis une base de données relationnelle
    • Chargement des données depuis Hadoop
    • Utilisation et paramétrage avancée

Les particularités des distributions

  • Impala et HAWQ

Quelles sont les bonnes pratiques d'utilisation des différents outils ?