M2i Formation

Spark ML

Big Data - Data Analysis

Présentiel

3 jours (21 heures) - BIG-SML

Accueil  ›  Formations Informatique  ›  Big Data  ›  Data Analysis  ›  Spark ML

Objectifs pédagogiques

  • Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode Standalone ou clusterisés sur Spark avec Scala.

Niveau requis

Avoir de fortes connaissances en algorithmes d'intelligence artificielle et une maîtrise de Scala et de l'écosystème Hadoop.

Public concerné

Statisticiens, consultants Big Data, data analystes, data scientifiques.

La Défense11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
La Défense19/08/20191 980 € HTDates proposées dans les agences M2iRéserver

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Metz11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Mulhouse11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Nancy11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Reims11/03/20191 980 € HTDates proposées dans les agences M2iRéserver

Afficher plus de dates

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Caen11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Évreux11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Le Havre11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Lille11/03/20191 980 € HTDates proposées dans les agences M2iRéserver

Afficher plus de dates

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Dijon11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Grenoble11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Lyon11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Saint-Étienne11/03/20191 980 € HTDates proposées dans les agences M2iRéserver

Afficher plus de dates

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Bordeaux11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Orléans11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Tours11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Bordeaux19/08/20191 980 € HTDates proposées dans les agences M2iRéserver

Afficher plus de dates

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Aix-en-Provence11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Montpellier11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Sophia Antipolis11/03/20191 980 € HTDates proposées dans les agences M2iRéserver
Aix-en-Provence19/08/20191 980 € HTDates proposées dans les agences M2iRéserver

Afficher plus de dates

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Introduction à Big Data et Apache Spark

  • Introduction au Big Data
  • Les challenges du Big Data
  • Batch vs. le temps réel dans le Big Data Analytics
  • Analyse en Batch
Hadoop
  • Vue d'ensemble de l'écosystème
  • Les options de l'analyse en temps réel
  • Streaming Data - Spark
  • In-memory Data - Spark
  • Présentation de Spark
  • Ecosystème Spark
  • Les modes de Spark
  • Installation de Spark
  • Vue d'ensemble de Spark en cluster
  • Spark Standalone cluster
  • Spark Web UI

Les opérations communes sur Spark

  • Utilisation de Spark Shell
  • Création d'un contexte Spark
  • Chargement d'un fichier en Shell
  • Réalisation d'opérations basiques sur un fichier avec Spark Shell
  • Présentation de l'environnement de développement SBT
  • Créer un projet Spark avec SBT
  • Exécuter un projet Spark avec SBT
  • Le mode local
  • Le mode Spark
  • Le caching sur Spark
  • Persistance distribuée

Spark Machine Learning


  • Introduction au Machine Learning
  • Les Terminologies communes au Machine Learning
  • Applications du Machine Learning
  • Machine Learning dans Spark
  • Spark ML API
  • DataFrames
  • Transformateurs et estimateurs
  • Les pipelines
  • Travailler avec un pipeline
  • DAG Pipelines
  • La vérification pendant l'exécution
  • Passage de paramètres
  • General Machine Learning Pipeline
  • Sélection de modèles via une validation croisée
  • Les types supportés, les algorithmes et les utilitaires
  • Les types de données
  • Les fonctionnalités d'extraction et les statistiques basiques
  • Clustering
  • K-Means
  • Mettre en place le Clustering en utilisant K-Means
  • Gaussian Mixture
  • Power Iteration Clustering (PIC)
  • Latent Dirichlet Allocation (LDA)
  • Le filtrage collaboratif
  • Classification
  • Régression
  • Exemple de régression
  • Mettre en place une classification en utilisation la régression
  • Linéaire
  • Mettre en place un système de recommandations utilisant le filtrage collaboratif