Objectifs pédagogiques / Compétences visées
- Utiliser Talend dans un environnement Big Data.
Niveau requis
Avoir des connaissances en Hadoop, Spark et Kafka serait un plus pour la formation.
Public concerné
Consultants BI, architectes SI, chefs de projets.
Programme
Concepts de bases
- Ouvrir un projet
- Monitorer un cluster Hadoop
- Créer un cluster de métadonnées
Lire et écrire des données en HDFS
- Stocker un fichier sur HDFS
- Stocker plusieurs fichiers de HDFS
- Lire les données de HDFS
- Utiliser HBase pour sauvegarder les données charger dans HDFS
Travailler avec les tables
- Importation de tables avec Sqoop
- Création de tables dans HDFS avec Hive
Traitement des données et des tables en HDFS
- Traitement des tables Hive avec des jobs
- Traitement des données avec Pig
- Traitement des données par lots
Guide de dépannage
- Dépannage de votre cluster
Cas d'utilisation de clickstream (flux de clics)
- Surveillance du cluster Hadoop
- Créer un environnement de développement
- Chargement des données dans HDFS
- Enrichissement des logs
- Calculer les statistiques
- Conversion d'un job standard en un lot Big Data
- Comprendre les jobs MapReduce
- Utilisation du studio pour configurer les resource requests vers YARN
Cas d'utilisation : l'analyse comportementale
- Chargement du dictionnaire et des données du fuseau horaire dans HDFS
- Chargement des tweets dans HDFS
- Traitement des tweets avec MapReduce
- Planification de l'exécution du job
Introduction à Kafka
- Surveillance du cluster Hadoop
- Comprendre les bases de Kafka
- Publication de messages sur un sujet Kafka
- Consommer des messages
Introduction à Spark
- Comprendre les bases de Spark
- Analyser les données des clients
- Produire et consommer des messages en temps réel
Cas d'utilisation de traitement des logs : génération des logs enrichis
- Introduction au cas d'utilisation du traitement des lois
- Génération de logs bruts
- Génération de logs enrichis
Traitement des logs cas d'utilisation : surveillance
- Surveillance des logs enrichis
Cas d'utilisation de traitement des logs : rapports
- Génération de rapports basés sur les fenêtres de données
Cas d'utilisation de traitement des logs : analyse des batchs
- Ingestion de flux de données
- Analyser les logs avec un batch job
Certification (en option)
- Prévoir l'achat de la certification en supplément
- L'examen (en français) sera passé le dernier jour, à l'issue de la formation et s'effectuera en ligne
- Il s'agit d'un QCM dont la durée moyenne est d'1h30 et dont le score obtenu attestera d'un niveau de compétence
- La certification n'est plus éligible au CPF depuis le 31/12/2021, mais permettra néanmoins de valider vos acquis
Modalités d’évaluation des acquis
- En cours de formation, par des études de cas ou des travaux pratiques
- Et, en fin de formation, par un questionnaire d'auto-évaluation ou une certification (M2i ou éditeur)