Les compétences acquises sont directement mobilisables par le stagiaire à l’issue de la formation, dans son retour en poste.
En fonction de la nécessité d’axer le déroulé de la formation sur des sujets en particulier lors d’une formation dédiée à une entreprise, le programme de formation pourra être contextualisé aux besoins et outils identifiés, et des intervenants extérieurs pourront également intervenir.
Le programme est structuré autour de 5 modules. Chaque module de formation donne lieu à des mises en situtions d'apprentissages de natures variées, d’une durée et d’une complexité progressive, se concluant par un livrable.
MODULE 1 : Les différents modèles de données et leurs cas d'utilisation
“Je suis capable de sélectionner le bon modèle de données en fonction du besoin l”
Ce premier module vise à donner les clés à l'apprenant des différents modèles de données qu'il sera amené à exploiter.
Modèle relationnel
- Enjeu d'intégrité : gestion des transactions dans un système de production OLTP (OnLine Transaction Processing Database)
- Opérations CRUD (Create Read Update Delete)
- Normalisation des données
- Modèle logique, conceptuel et physique de données
- Requêtes SQL DDL (Data Definition Language) et DML (Data Manipulation Language)
Modèles pour l'analyse de données
- Dénormalisation et NoSQL
- Schéma on Read vs Schéma on Write
- OLAP (Online Analytical Processing) et modèle Multidimensionnel
MODULE 2 : Nettoyage et analyse exploratoire de données
“Je suis capable de préparer les données en vue de leur exploitation"
Ce second module permet à l'apprenant de sélectionner, nettoyer et intégrer des données dans une base de données adaptée à l'aide d'outils spécialisés
Boite à outils du data engineer
- Systèmes de versionning
- Logiciels d'analyse et de visualisation (Par ex: R, Python, Knime)
- Sources et formats de données : Open Data, csv, xls, odt, json
Analyse exploratoire et nettoyage
- Types de données
- Données qualitatives et quantitatives
- Valeurs manquantes et aberrantes
- Visualisation
MODULE 3: Informatique décisionnelle
"Je suis capable de mettre en place un outil d'aide à la décision"
Ce troisième module permet d'acquérir les compétences nécessaires à la mise en place d'un data warehouse et de son alimentation à partir d'un cadre d'exploitation défini
Data warehousing
- Analyse d'un cadre d'exploitation
- Faits et dimensions
- Schéma en étoile
- Architecture technique
- Rapports et tableaux de bord
Alimentation
- Principes de l'ETL (Extract Transform Load)
- Sources d'entrée et zones de sortie
- Outils d'ETL
MODULE 4: AMOA et Cadre technique d'exploitation
"Je comprends et formalise les enjeux de l'entreprise"
Ce quatrième module permet à l'apprenant de conseiller un commanditaire sur un projet data et recenser et formaliser les besoins spécifiques en exploitation de la donnée
Recueil du besoin
- L'entreprise, ses fonctions et ses services
- Techniques d'entretien
- Veille sectorielle et technique
Conseil du commanditaire
- Analyse du besoin
- étude faisabilité
- note de synthèse
Formalisation du cadre technique d'exploitation
- Inventaire systématique
- Les référentiels et leur structure
- Droit de la donnée
- Conception d'un cahier des charges
MODULE 5 : Le Big Data et ses applications
"Je maitrise les V du Big Data"
Enjeux du Big Data
- Volume : architectures distribuées
- Vitesse : du batch au streaming
- Variété : gestion de données hétérogènes
Outils du Big Data
- Principes du Map Reduce
- Écosystème Hadoop et Spark
- Formats de fichiers optimisés
Data Lake
- Schéma d'architecture
- Catalogue de données
- Gouvernance du data lak