Accueil    Formations    Informatique    Big Data    Data Engineering    Hadoop - Développement (HDFS et MapReduce)

Partager cette formation Télécharger au format pdf Ajouter à mes favoris

Objectifs pédagogiques

  • Connaître les principes du framework Hadoop
  • Utiliser la technologie MapReduce pour paralléliser des calculs sur des volumes importants de données
  • Apprendre les commandes shell courantes pour HDFS.

Niveau requis

Avoir la connaissance d'un langage de programmation objet comme Java et du scripting.

Public concerné

Développeurs, BI, ETL, architectes et toute personne souhaitant comprendre les techniques de développement avec MapReduce dans l'environnement Hadoop.

Programme

Introduction

  • Big Data, introduction
  • Les métiers du Big Data
  • Big Data, architecture
  • Les fonctionnalités du framework Hadoop
  • Hadoop, l'écosystème
    • Hadoop Common
    • HDFS
    • YARN
    • Spark
    • MapReduce
    • L'ingestion de données : Kafka, Nifi

MapReduce

  • Principe et objectifs du modèle de programmation MapReduce
  • Fonctions "map" et "reduce"
  • Couples (clés et valeurs)
  • Implémentation par le framework Hadoop
  • Etude de la collection d'exemples
  • Rédaction d'un premier programme et exécution avec Hadoop

Programmation MapReduce

  • Configuration des jobs
  • Notion de configuration
  • Les interfaces principales
    • Mapper
    • Reducer
  • La chaîne de production
    • Entrées
    • Input splits
    • Mapper
    • Combiner
    • Shuffle / sort
    • Reducer
    • Sortie
    • Partitioner
    • OutputCollector
    • Codecs
    • Compresseurs
  • Format des entrées et sorties d'un job MapReduce
    • InputFormat
    • OutputFormat
  • Type personnalisé : création d'un Writable spécifique
  • Utilisation
  • Contraintes
  • Répartition du job sur la ferme au travers de YARN

Streaming

  • Définition du streaming MapReduce
  • Création d'un job MapReduce dans Python
  • Répartition sur la ferme
  • Avantages et inconvénients
  • Liaisons avec des systèmes externes
  • Introduction au pont Hadoop
  • Suivi d'un job en streaming

HDFS

  • Concept de HDFS
  • Architecture
  • NameNode et DataNode
  • Communications
  • Gestionnaire et équilibreur de blocs
  • Vérification de l'état / sécurité
  • Interaction de ligne de commande avec HDFS
  • Import/Export de données externes (fichiers, BDDR, CSV) vers HDFS
  • Manipulation des fichiers HDFS
  • Données hors HDFS (Hbase)

Hadoop, analyse de données

  • Apache
    • Hive
    • Pig
    • Impala
  • Différence entre Hive, Pig et Impala

Modalités d’évaluation des acquis

L'évaluation des acquis se fait :

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation ou une certification (M2i ou éditeur)

Partager cette formation Télécharger au format pdf Ajouter à mes favoris

Vous souhaitez suivre cette formation ?

Cette formation est disponible en présentiel ou en classe à distance, avec un programme et une qualité pédagogique identiques.

Choisissez la modalité souhaitée pour vous inscrire :

Modalité Présentiel, Classe à distance

Votre société a besoin d'une offre personnalisée ? Contactez-nous

Faites-nous part de votre projet de formation, nous sommes là pour vous guider.

Contactez-nous