Objectifs pédagogiques / Compétences visées
- Développer des applications avec Spark
- Utiliser la programmation parallèle sur un cluster
- Reconnaître et exploiter les algorithmes standard de Machine Learning
- Utiliser les bibliothèques Python pour le Machine Learning
- Décrire le cycle d'un projet Data Science.
Niveau requis
Avoir des connaissances mathématiques avancées, pour pouvoir interpréter les algorithmes à mettre en oeuvre, et maîtriser Python.
Public concerné
Data analysts, Data scientists, experts en recherche opérationnelle, développeurs expérimentés avec une forte expérience en mathématiques algébriques.
Programme
Vue d'ensemble du Big Data
- Introduction au Big Data : de quoi s'agit-il ?
- Perspectives offertes par le Big Data
- Les acteurs du Big Data
- Exemples pratiques
- Démystification du Big Data
- Les technologies concernées
- Les différents métiers du Big Data
Rappel
- Le langage Python
- Les mathématiques de base
- Algèbre
- Statistiques
- Probabilités
- Le langage SQL
Machine Learning : algorithme
- Les concepts du Machine Learning
- Les données supervisées ou non supervisées : quelles différences ?
- Régression
- Modèles linéaires
- Classification
- Naive Bayes
- K-NN
- K-Means clustering
- Réseaux de neurones
- Arbres de décisions et de régression
- Support Vector Machines (SVM)
Machine Learning avec Spark
- Introduction à Apache Spark
- Faire du Machine Learning avec Apache Spark MLlib
- Traiter les données en temps réel avec Apache Spark Streaming
- Faire des requêtes au format SQL avec Apache Spark SQL
- Créer des graphes avec Apache Spark GraphX
- Stockage basé sur les graphes
Outil de visualisation des données (ou Dataviz)
- Définition de la Dataviz
- Les acteurs de la Dataviz
- Catégorisation des outils Dataviz
- Comment fonctionnent les outils Dataviz ?
- Exemples d'analyse :
- Bibliothèques de Dataviz de Python
- Kiaban
- Tableau Software
- Hue
Certification (en option)
- Prévoir l'achat de la certification en supplément
- L'examen (en français) sera passé le dernier jour, à l'issue de la formation et s'effectuera en ligne
- Il s'agit d'un QCM dont la durée moyenne est d'1h30 et dont le score obtenu attestera d'un niveau de compétence
- La certification n'est plus éligible au CPF depuis le 31/12/2021, mais permettra néanmoins de valider vos acquis
Modalités d’évaluation des acquis
- En cours de formation, par des études de cas ou des travaux pratiques
- Et, en fin de formation, par un questionnaire d'auto-évaluation ou une certification (M2i ou éditeur)