Accueil    Formations    Informatique    Big Data    Big Data - Infrastructure    Hadoop Cloudera - Architecture et administration

Partager cette formation Télécharger au format pdf Ajouter à mes favoris

Objectifs pédagogiques

  • Maîtriser l'administration des clusters Cloudera.

Niveau requis

Maîtriser les commandes Shell et avoir des connaissances de base autour des requêtes SQL.

Public concerné

Administrateurs système et consultants SI.

Programme

Jour 1

Introduction

  • Introduction au Big Data
  • Présentation de Hadoop et de son écosystème
  • Architecture solution
  • NoSQL
  • Présentation de :
    • Cloudera Distributed Hadoop (CDH)
    • Cloudera Manager

Installation d'un cluster Cloudera

  • Cluster : vue d'ensemble
  • Justification d'une solution de gestion de cluster
  • Caractéristiques du Cloudera Manager
  • Prérequis pour l'installation d'un cluster
    Exemples de travaux pratiques (à titre indicatif)
    • Installation du Cloudera Manager et de Hadoop (CDH)
    • Préparation des environnements

    Jour 2

    Gestion des utilisateurs

    • Gestion des utilisateurs et des groupes avec Cloudera Manager
    • Gestion des privilèges pour les utilisateurs locaux et LDAP

    Configuration d'un cluster Cloudera

    • Vue d'ensemble
    • Paramètres de configuration
    • Fichiers de configuration
    • Gérer les instances de rôle
    • Ajouter de nouveaux services
    • Ajouter et supprimer des hôtes
    Exemple de travaux pratiques (à titre indicatif)
    • Mise en situation d'une configuration

    Le système de fichiers distribués Hadoop (HDFS)

    • Fonctionnalités HDFS
    • Ecriture et lecture de fichiers
    • Considérations relatives à la mémoire NameNode
    • Vue d'ensemble de la sécurité HDFS
    • Gestion du stockage HDFS
    • Utilisation de Hadoop File Shell
    Exemple de travaux pratiques (à titre indicatif)
    • Manipulation des fichiers via HDFS

    Jour 3

    MapReduce et Spark avec YARN

    • Le rôle des frameworks de calcul
    • YARN : gestion des ressources du cluster
    • Concepts du MapReduce
    • Concepts d'Apache Spark
    • Exécution de frameworks de calcul sur YARN
    • Exploration des applications YARN via l'interface Web et Shell
    • Logs applicatifs YARN

    Ingestion des données HDFS

    • Ingestion de données à partir de :
      • Sources externes avec Flume, Nifi et Kafka
      • Bases de données relationnelles avec Sqoop
    • Bonnes pratiques pour l'importation de données

    Planification du cluster Hadoop

    • Considérations générales relatives à la planification
    • Choisir le bon matériel
    • Options de virtualisation
    • Considérations sur le réseau
    • Configuration des noeuds

    Jour 4

    Installation et configuration de Hive, Impala et Pig

    • Apache
      • Hive
      • Impala
      • Pig

    Clients Hadoop avec Hue

    • Installation et configuration des clients Hadoop
    • Installation et configuration de la teinte
    • Authentification et autorisation Hue

    Configuration avancée du cluster

    • Paramètres de configuration avancés
    • Configuration des ports Hadoop
    • Configuration de HDFS pour la sensibilisation au rack
    • Configuration de haute disponibilité HDFS

    Sécurité Hadoop

    • Importance de la sécurité Hadoop
    • Concepts du système de sécurité de Hadoop
    • Présentation et fonctionnement de Kerberos
    • Sécurisation d'un cluster Hadoop avec Kerberos
    • Autres concepts de sécurité

    Jour 5

    Gestion des ressources

    • Configuration des Cgroups avec les pools de services statiques
    • Planification des ressources
    • Configuration des pools de ressources dynamiques
    • Mémoire YARN et paramètres du CPU
    • Planification de requêtes Impala

    Entretien du cluster

    • Vérification de l'état HDFS
    • Copier les données entre clusters
    • Ajout et suppression de noeuds de cluster
    • Rééquilibrage du cluster snapshots de répertoires
    • Mise à niveau du cluster

    Surveillance et dépannage du cluster

    • Fonctionnalités de surveillance du Cloudera Manager
    • Tests de santé
    • Surveillance des clusters Hadoop
    • Dépannage des clusters Hadoop

    Partager cette formation Télécharger au format pdf Ajouter à mes favoris

    Vous souhaitez suivre cette formation ?

    Cette formation est disponible en présentiel ou en classe à distance, avec un programme et une qualité pédagogique identiques.

    Choisissez la modalité souhaitée pour vous inscrire :

    Modalité Présentiel, Classe à distance

    Votre société a besoin d'une offre personnalisée ? Contactez-nous

    Faites-nous part de votre projet de formation, nous sommes là pour vous guider.

    Contactez-nous