Accueil    Formations    Informatique    Big Data    Data Science    Programmation R et intégration Big Data

Partager cette formation Télécharger au format pdf Ajouter à mes favoris

Objectifs pédagogiques

  • Maîtriser les principales fonctions statistiques de R
  • Utiliser des programmes R dans un environnement Big Data, en s'appuyant sur le système distribué HDFS.

Niveau requis

Avoir des notions de calculs statistiques.

Public concerné

Chefs de projets, data scientists, statisticiens, développeurs souhaitant comprendre les apports de R pour l'analyse des données, et savoir l'intégrer à un environnement Hadoop.

Programme

Présentation R

  • Le projet R Programming
  • Calculs statistiques et génération de graphiques
  • Points forts de R Programming
  • Besoins du Big Data
  • Positionnement de R Programming par rapport à Hadoop

Mise en oeuvre de R

  • Installation et tests sur une plateforme CentOS
    • Utilisation de R en mode commande
    • Commandes de base
    • Syntaxe
    • Opérations de base
    • Expressions
    • Manipulations de nombres, vecteurs, tableaux, matrices, listes...

    Tableaux et matrices

    • Déclaration, dimensionnement, indexation
    • Opérations de base
      • Produits de tableaux
      • Transposition
      • Produits de matrices
    • Matrices
      • Equations linéaires
      • Inversion
      • Valeur propre
      • Vecteur propre
      • Déterminant
      • Moindre carré

    Liste et DataFrames

    • Définitions et cas d'utilisation
    • Attachement et détachement
    • Chargement d'un DataFrame
    • La fonction Scan

    Statistiques

    • Distributions embarquées
      • Uniforme
      • Normale
      • Poisson
      • Exponentielle
    • Calculs statistiques
    • Modèles statistiques
    • Affichage en graphes et histogrammes

    Import / export

    • Formats texte, CSV, XML, binaire, largeur fixe, images (JPEG, PNG)
    • Encodage
    • Filtrage
    • Importation SQL
    • Importation depuis un réseau socket
    • Importation de données géodésiques
    • Exportation au format JSON

    Intégration Hadoop

    • Association de la puissance du calcul distribué fourni par les outils Hadoop
    • Différents moyens d'intégration pour utiliser le système distribué HDFS depuis R et pour accéder à HBase depuis les programmes en R
      • SparkR
      • RHBase
      • RHDFS
      • RHadoop
      • rmr2
    • Transformation d'un DataFrame R en un DataFrame Spark
    • Travaux pratiques avec Hadoop

    Fonctions spécifiques

    • Définitions de nouvelles fonctions
    • Appels
    • Passage d'arguments
    • Construction d'une bibliothèque
    • Diffusion et installation avec R CMD INSTALL

    Evolutions

    • Les acteurs
      • IBM avec BigInsights
      • Revolution R avec ScaleR

    Partager cette formation Télécharger au format pdf Ajouter à mes favoris

    Calendrier des sessions

    Vous pouvez suivre cette formation depuis votre domicile comme si vous étiez en présentiel et avec la même qualité pédagogique. Quand souhaitez-vous commencez ?

    27/04/2020 Classe à distance 2 100 € HT Je m'inscris

    06/07/2020 Classe à distance 2 100 € HT Je m'inscris

    19/10/2020 Classe à distance 2 100 € HT Je m'inscris

    25/11/2020 Classe à distance 2 100 € HT Je m'inscris

    Modalité Classe à distance

    Votre société a besoin d'une offre personnalisée ? Contactez-nous

    Faites évoluer vos compétences

    Complétez votre formation

    Faites-nous part de votre projet de formation, nous sommes là pour vous guider.

    Contactez-nous