Objectifs pédagogiques / Compétences visées
- Charger et analyser des données de toute source avec Hadoop et Spark
- Restituer ces données avec les outils de DataViz en Big Data.
Niveau requis
Avoir des connaissances en SI et en langage Python, ou Scala, pour l'analyse de données via Spark. Maîtriser le langage de requêtage SQL. Avoir des connaissances en ETL et/ou en BI est un plus.
Public concerné
Développeurs, chefs de projets, responsables qualité.
Programme
Présentation du Big Data
- Introduction au Big Data : de quoi s'agit-il ?
- Perspectives offertes par le Big Data
- Les acteurs du Big Data
- Exemples pratiques
- Démystification du Big Data
- Les technologies concernées
- Les différents métiers du Big Data
Architecture Hadoop
- Les outils de stockage
- Les exigences de stockage
- Le théorème de CAP
- Le NoSQL
- L'écosystème Hadoop
- HDFS
- MapReduce
- Les outils d'analyse de données
- Pig
- Hive
- Impala
- La mise en qualité
- Le stockage de données
L'ingestion et le stockage des données
- Importance de la qualité des données
- Qu'est-ce que la qualité des données ?
- L'ingestion des données / ETL en Big Data
Introduction à Kafka
- Historique et complexité des systèmes
- Le traitement en temps réel : une importance dans le business
- Kafka : une plateforme de flux de données
- Aperçu de Kafka et son efficacité
- Producers
- Brokers
- Consumers
Développement et mise en oeuvre de Kafka
- Cas d'utilisation de Kafka Streams
- Kafka Streams : les fondamentaux
- Etude d'une application et usage de Kafka Streams
NiFi
- Différence entre données froides et données chaudes
- Présentation des outils et technologies du Big Data
- Installation et configuration de NiFi
- Vue d'ensemble de l'architecture NiFi
- Approches de développement
- Outils de développement d'applications et état d'esprit
- Extraction, transformation et chargement (ETL) des outils et de la mentalité
- Mise en oeuvre de NiFi
Spark et Spark Streaming
- Introduction à Apache Spark
- Architecture de Spark
- Apache Spark MLlib
- Apache Spark Streaming
- Apache Spark SQL
- Apache Spark GraphX
Exemples de travaux pratiques (à titre indicatif)
- Ingérer des données à partir de périphériques IoT et à l'aide d'API Web
- Développer un processeur Apache NiFi personnalisé à l'aide de JSON
- Ingérer des données avec Kafka et NiFi
- Cas pratiques avec Spark
Certification (en option)
- Prévoir l'achat de la certification en supplément
- L'examen (en français) sera passé le dernier jour, à l'issue de la formation et s'effectuera en ligne
- Il s'agit d'un QCM dont la durée moyenne est d'1h30 et dont le score obtenu attestera d'un niveau de compétence
- La certification n'est plus éligible au CPF depuis le 31/12/2021, mais permettra néanmoins de valider vos acquis
Modalités d’évaluation des acquis
- En cours de formation, par des études de cas ou des travaux pratiques
- Et, en fin de formation, par un questionnaire d'auto-évaluation ou une certification (M2i ou éditeur)