Objectifs pédagogiques / Compétences visées
- Expliquer comment Hadoop Distributed File System (HDFS) et YARN / MapReduce fonctionnent
- Explorer HDFS
- Superviser l'exécution d'une application YARN
- Utiliser les différents outils de manipulation de la donnée tels que : Hue, Hive, Pig, Tez, Sqoop et Oozie.
Niveau requis
Avoir une expérience dans la manipulation de données.
Public concerné
Tout utilisateur devant manipuler les données dans un Cluster Apache Hadoop.
Programme
Introduction
- Présentation générale d'Hadoop
- Exemples d'utilisation dans différents secteurs
- Historique et chiffres clés
- Quand parle-t-on de Big Data ?
L'écosystème d'Hadoop
- Le système de fichier HDFS
- Le paradigme MapReduce et l'utilisation à travers YARN
Manipulation des données dans un Cluster Hadoop
- Hue : comment fonctionne cette interface Web ?
- Hive : pourquoi ce n'est pas une base de données ?
- Requête sur Hive
- Utilisation de HCatalog
- Utilisation avancée sur Hive
- Utilisation de fonctions utilisateurs
- Paramétrage de requête
- Pig : fonctionnement
- Programmation avec Pig Latin
- Utilisation du mode Local
- Utilisation de fonctions utilisateurs
- Tez : qu'est-ce que c'est ?
- Comment et quand l'utiliser ?
- Oozie : fonctionnement
- Création de workflows avec Oozie
- Manipulation des workflows
- Ajout d'éléments d'exploitation dans les workflows
- Ajout de conditions d'exécution
- Paramétrage des workflows
- Sqoop : à quoi ça sert ?
- Chargement des données depuis une base de données relationnelle
- Chargement des données depuis Hadoop
- Utilisation et paramétrage avancée
Les particularités des distributions
- Impala et HAWQ
Quelles sont les bonnes pratiques d'utilisation des différents outils ?
Modalités d’évaluation des acquis
- En cours de formation, par des études de cas ou des travaux pratiques
- Et, en fin de formation, par un questionnaire d'auto-évaluation ou une certification (M2i ou éditeur)