M2i Formation

Découvrez notre formationData Science avec Spark ML

Présentiel

3 jours (21 heures) - BIG-SML

Accueil  ›  Formations Informatique  ›  Big Data  ›  Data Science  ›  Data Science avec Spark ML

Objectifs pédagogiques

  • Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode Standalone ou clusterisés sur Spark avec Scala.

Niveau requis

Avoir de fortes connaissances en algorithmes d'intelligence artificielle, une maîtrise de Scala et de l'écosystème Hadoop.

Public concerné

Statisticiens, consultants Big Data, data analysts, data scientists.

Paris La Défense13/01/20201 980 € HTDates proposées dans les agences M2iRéserver
Paris La Défense06/04/20201 980 € HTDates proposées dans les agences M2iRéserver
Paris La Défense06/07/20201 980 € HTDates proposées dans les agences M2iRéserver
Paris La Défense05/10/20201 980 € HTDates proposées dans les agences M2iRéserver

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Jour 1

Introduction à Big Data et Apache Spark

  • Introduction au Big Data
  • Les challenges du Big Data
  • Batch vs le temps réel dans le Big Data Analytics
  • Analyse en Batch Hadoop
  • Vue d'ensemble de l'écosystème
  • Les options de l'analyse en temps réel
  • Streaming Data - Spark
  • In-memory Data - Spark
  • Présentation de Spark
  • Ecosystème Spark
  • Les modes de Spark
  • Installation de Spark
  • Vue d'ensemble de Spark en cluster
  • Spark Standalone cluster
  • Spark Web UI

Exemples de travaux pratiques (à titre indicatif)

  • Installation
  • Configuration

Jour 2

Les opérations communes sur Spark

  • Utilisation de Spark Shell
  • Création d'un contexte Spark
  • Chargement d'un fichier en Shell
  • Réalisation d'opérations basiques sur un fichier avec Spark Shell
  • Présentation de l'environnement de développement SBT
  • Créer un projet Spark avec SBT
  • Exécuter un projet Spark avec SBT
  • Le mode local
  • Le mode Spark
  • Le caching sur Spark
  • Persistance distribuée

Exemple de travaux pratiques (à titre indicatif)

  • Data Preprocessing

Jour 3

Spark Machine Learning

  • Introduction au Machine Learning
  • Les terminologies communes au Machine Learning
  • Applications du Machine Learning
  • Machine Learning dans Spark
  • Spark ML API
  • DataFrames
  • Transformateurs et estimateurs
  • Les pipelines
  • Travailler avec un pipeline
  • DAG Pipelines
  • La vérification pendant l'exécution
  • Passage de paramètres
  • General Machine Learning Pipeline
  • Sélection de modèles via une validation croisée
  • Les types supportés, les algorithmes et les utilitaires
  • Les types de données
  • Les fonctionnalités d'extraction et les statistiques basiques
  • Clustering
  • K-Means
  • Mettre en place le Clustering en utilisant K-Means
  • Gaussian Mixture
  • Power Iteration Clustering (PIC)
  • Latent Dirichlet Allocation (LDA)
  • Le filtrage collaboratif
  • Classification
  • Régression
  • Exemple de régression
  • Mettre en place une classification en utilisation la régression
  • Linéaire
  • Mettre en place un système de recommandations utilisant le filtrage collaboratif

Exemple de travaux pratiques (à titre indicatif)

  • Cas d'usage de Machine Learning sous Spark

Faites évoluer vos compétences

Complétez votre formation

En cliquant le bouton « Accepter », vous acceptez l’utilisation de cookies pour réaliser des mesures d’audiences et vous permettre d’enregistrer vos préférences de navigation. En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies.

Accepter Paramètres En savoir plus