M2i Formation

Big Data - Data Analysis

Techniques de collecte avec Python

Présentiel

3 jours (21 heures) - BIG-COLL

Accueil  ›  Formations Informatique  ›  Big Data  ›  Data Analysis  ›  Techniques de collecte avec Python

Objectifs pédagogiques

  • Réaliser du scraping de données
  • Faire les actions d'ingestion nécessaires pour alimenter un Data Lake.

Niveau requis

Avoir des connaissances en algorithmiques.

Public concerné

Développeurs, intégrateurs, chefs de projets, consultants BI.

La Défense18/09/20181 800 € HTDates proposées dans les agences M2iRéserver

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Metz18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Mulhouse18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Nancy18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Reims18/09/20181 800 € HTDates proposées dans les agences M2iRéserver

Afficher plus de dates

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Caen18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Évreux18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Le Havre18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Lille18/09/20181 800 € HTDates proposées dans les agences M2iRéserver

Afficher plus de dates

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Dijon18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Grenoble18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Lyon18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Saint-Étienne18/09/20181 800 € HTDates proposées dans les agences M2iRéserver

Afficher plus de dates

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Bordeaux18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Orléans18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Tours18/09/20181 800 € HTDates proposées dans les agences M2iRéserver

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Aix-en-Provence18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Montpellier18/09/20181 800 € HTDates proposées dans les agences M2iRéserver
Sophia Antipolis18/09/20181 800 € HTDates proposées dans les agences M2iRéserver

Sessions
planifiées
Sessions
ouvertes
Sessions
confirmées
Réserver
le stage

Les bases du langage Python

  • Les caractéristiques du langage Python
  • Pourquoi choisir Python pour l'analyse de données ?
  • Types de bases
  • Les instructions de bases
  • Les procédures et fonctions

L'ingestion avec Python

  • Utiliser la librairie Pandas pour manipuler les données
  • Introduction du concept de DataFrame
  • Les structures :
    • Interrogation
    • Indexation
  • Traitement de "données manquantes"
  • Fusion de DataFrames
  • Manipulation des dates
  • Application de mesures statistiques variées sur les DataFrames
  • Bonne compréhension des problèmes d'échelle de mesure, de normalisation
  • Création de métriques d'analyse

Scraping de données

  • Qu'est-ce que le scraping ?
  • Définition du scraping et de ses différents niveaux de difficulté sur plusieurs supports
    • Depuis le Web
    • Depuis du papier
    • Depuis des PDF
  • Exemples de projets réalisés grâce au scraping
  • L'architecture d'Internet
  • Qu'est-ce qu'un "client" ? Qu'est-ce qu'un "serveur" ? Pourquoi est-ce important ?
  • Comment HTTP et HTML impactent-t-ils nos scrapers ?
  • Qu'est-ce qu'une balise HTML ? Un attribut ?
  • Comment identifier certains éléments avec une "class" ou un "id" ?

Python comme solution ETL

  • Les formats de données structurées : CSV, flux XML et JSON
  • Lecture et écriture de fichiers
  • Exploitation des données de fichiers de différentes sources
  • Fonctions d'accès et de chargement de données en blocs de lignes
  • Outils spécifiquement dédiés au scraping :
    • Beautiful Soup
    • CSS Select

Mise en oeuvre d'un scraper

  • Un scraper simple (requêtes GET, pages séquencées)
  • Identifier la stratégie à adopter pour naviguer sur le site
  • Coder le scraper
  • Un scraper complexe : envoyer des données à un site Internet pour obtenir des résultats plus complexes
  • Qu'est ce qu'une requête POST et une requête GET ?
  • Parcourir un site pour trouver les données
  • Identifier la stratégie à adopter
  • Coder le scraper