Expert en ingénierie et science des données
Présentation
- Manager et piloter un projet Data et le développement d’une solution
- Gestion et coordination du projet
- Définition et mise en oeuvre de la solution Data
- Concevoir et déployer une infrastructure complète de gestion des données (collecte, traitement et stockage)
- Définition des processus de collecte et gestion des accès
- Conception du système de stockage
- Création et intégration d’une infrastructure
- Créer et /ou adapter un modèle d’apprentissage
- Caractérisation des features et identification d’un modèle d’apprentissage
- Entraînement d’un modèle d’apprentissage et mise à disposition des résultats
- ACTIVITÉS DE SPÉCIALISATION
- OPTION DATA ENGINEERING
- Développer, déployer et optimiser les pipelines de données
- Création des pipelines de données
- Test des pipelines de données
- Optimisation des pipelines de données
- OPTION DATA SCIENCE
- Optimiser des modèles d’apprentissage
- Suivi / contrôle du cycle de vie des modèles d’apprentissage
- Optimisation des performances des modèles d’apprentissage
- Automatisation du déploiement du modèle d’apprentissage (approche CI / CI) (nouveau modèle ou nouvelle version du modèle existant)
Compétences attestées
- Collecter les besoins métiers et analyser le contexte de l'organisation afin d’identifier et de formaliser les objectifs / les attendus en matière de data et les éventuelles contraintes associées (organisationnelles, techniques, budgétaires, réglementaires)
- Définir les modalités de réalisation et de suivi du projet data et le planifier afin de s’assurer de sa bonne mise en œuvre et de sa conformité avec les objectifs visés
- Rechercher, collecter, compiler et analyser des informations clés Identifier de nouvelles opportunités, solutions ou pratiques, afin de bénéficier de connaissances techniques, juridiques ou réglementaires actualisées dans le champ de la data et de les diffuser en vue de leur partage
- Conduire les actions et les échanges (ex : réunion, état d’avancement) entre les différentes parties prenantes (y compris avec les PSH) du projet data afin de s’assurer de sa bonne mise en œuvre et de créer une synergie optimale
- Suivre, contrôler et analyser le projet data en termes de délais, de coûts, de livrables et de performance afin de s’assurer de la conformité du projet et de l’ajuster si nécessaire
- Conseiller et apporter un appui stratégique et méthodologique en matière de data tout au long du projet, en accompagnant les parties prenantes pour faciliter la prise de décision, notamment en intégrant les problématiques liées au handicap
- Auditer la solution data en analysant la donnée, tant sur son historique que sur sa qualité, afin d’évaluer sa disponibilité et son adéquation par rapport aux besoins identifiés
- Identifier et évaluer les risques de la solution data en matière d’accessibilité, de sécurité et de développement durable afin de répondre aux normes / règlementation en vigueur
- Identifier une solution technique (interne ou de marché) compatible aux contraintes éventuelles (métiers / techniques dont SI) afin de répondre aux besoins identifiés
- Effectuer - en cas de besoin - un prototype de la solution afin d’en confirmer la faisabilité technique
- Présenter la solution data et expliquer ses choix auprès des parties prenantes (interlocuteurs technique / métier) afin d’en démontrer la pertinence et l’adéquation aux besoins
- Configurer l’environnement de travail (dont ressources : machines physiques ou virtuelles, nécessaires à la gestion des données (collecte - traitement - stockage))
- Définir les processus de collecte, de traitement et de stockage des données en cohérence avec les besoins et l’environnement technique afin de proposer un système de gestion des données adapté (aux besoins), fonctionnel, performant et sécurisé
- Mettre en place un système d'authentification conforme aux procédures internes (en lien avec le RSSI ou la DSI) et à la réglementation en termes de protection des données et de sécurité en vigueur afin de permettre un accès sécurisé aux données
- Structurer l’architecture des données et concevoir des BDD relationnelles ou non (SQL / noSQL), respectant la politique de sécurité définie par le RSSI, afin de permettre l’exploitation des données par le SGBD
- Installer et paramétrer un système de gestion de base de données et un outil d’extraction (ex : Airbyte, DBT), en collaboration avec la DSI, afin de permettre des opérations sur les fichiers composant les BDD, de diriger l’accès aux données et de fluidifier l’intégration des données dans le système d’échange
- Établir et exécuter un processus de test afin de s’assurer de l’opérationnalité du SGBD, de la disponibilité et de la qualité des données ainsi que la performance des requêtes
- Modéliser une infrastructure compatible avec le SI existant, en collaboration avec la DSI, afin de concevoir un support à la gestion des données (stockage, exploitation et partage des données)
- Installer et tester l’infrastructure de gestion des données afin d’en garantir l’opérationnalité, la disponibilité et l’interopérabilité avec le SI
- Configurer l’environnement de travail nécessaire à l’exploitation des données (c’est-à-dire pour réaliser des analyses ou des opérations) dans des délais adaptés (temps de calcul)
- Mettre en place un processus de nettoyage des données automatisée ou non et le lancer afin d’améliorer la qualité des données
- Identifier un modèle d’apprentissage adapté aux contraintes (notamment techniques) et aux besoins métiers Le cas échéant, créer un modèle d’apprentissage
- Préparer et transformer des données (standardisation, harmonisation, encodage, etc) afin de les adapter au modèle d’apprentissage
- Entraîner un modèle d’apprentissage (exemples : supervisé, non supervisé, par renforcement) afin de prédire la valeur d’un KPI, classifier la donnée tabulaire, du texte ou des images dans des catégories pré-définies
- Créer les processus de test (procédures / outils) et les lancer en vue de confirmer / valider la mise en production du modèle d’apprentissage
- Évaluer le modèle d'apprentissage selon les métriques définies afin d’en déterminer la performance, la capacité prédictive et de raisonnement
- Identifier et configurer une API compatible et l’intégrer afin de permettre l’accès aux résultats par les utilisateurs finaux Le cas échéant créer une API
- Exposer les résultats aux directions / services métiers (via une API) en vue de leur exploitation
- COMPÉTENCES DE SPÉCIALISATION
- OPTION DATA ENGINEERING
- Mettre en place un pipeline de données automatisé adapté aux besoins, en extrayant, transformant et chargeant des données (structurées/non structurées) dans des entrepôts de données
- Mettre en place un système d'ordonnancement des flux de données afin de programmer leur déclenchement
- Créer les processus de test et les lancer afin de valider la mise en production des pipelines de données
- Concevoir et mettre en place un système de contrôle / de suivi automatisé des flux de données afin de valider en continu l’intégration des données
- Ajuster les requêtes et les paramétrages des pipelines en prenant appui sur différentes approches / méthodes (ex : méthodes de parallélisation) afin d’améliorer les performances du système (ex : réduction des temps d’exécution)
- OPTION DATA SCIENCE
- Concevoir et mettre en place un système de suivi du cycle de vie du modèle d’apprentissage (et de ses fonctionnalités) afin de détecter des anomalies (dérives de données ou bien dérives conceptuelles), de surveiller la qualité des features ou bien de déterminer le moment et la méthode de ré-entraînement du modèle
- Évaluer les performances de l’infrastructure sous-jacente au modèle d'apprentissage selon des critères définis afin de réduire les coûts et / ou les temps de calcul
- Ajuster les paramètres des procédures d'entraînement / de test / validation, à l’aide de techniques adaptées (hyperparamètres, choix des caractéristiques, ajustement d’architecture de neurone, etc) afin d’optimiser la qualité et les performances des données
- Automatiser le déploiement afin d’intégrer et de livrer en continu les évolutions apportées au modèle d’apprentissage
Blocs de compétences (5)
Manager et piloter un projet Data et le développement d’une solution RNCP39775BC01
Concevoir et déployer une infrastructure complète de gestion des données (collecte, traitement et stockage) RNCP39775BC02
Compétences
- Configurer l’environnement de travail (dont ressources : machines physiques ou virtuelles, nécessaires à la gestion des données (collecte - traitement - stockage))
- Définir les processus de collecte, de traitement et de stockage des données en cohérence avec les besoins et l’environnement technique afin de proposer un système de gestion des données adapté (aux besoins), fonctionnel, performant et sécurisé
- Mettre en place un système d'authentification conforme aux procédures internes (en lien avec le RSSI ou la DSI) et à la réglementation en termes de protection des données et de sécurité en vigueur afin de permettre un accès sécurisé aux données
- Structurer l’architecture des données et concevoir des BDD relationnelles ou non (SQL / noSQL), respectant la politique de sécurité définie par le RSSI, afin de permettre l’exploitation des données par le SGBD : définir / structurer / organiser les données et leurs relations en cohérence avec leurs caractéristiques ; créer des bases de données relationnelles ou non (SQL / noSQL) afin de contenir les données et organiser les données par fichier, distribué ou en réseau, afin de disposer d’un accès direct et unifié au SBD depuis n'importe quel appareil / réseau
- Installer et paramétrer un système de gestion de base de données et un outil d’extraction (ex : Airbyte, DBT), en collaboration avec la DSI, afin de permettre des opérations sur les fichiers composant les BDD, de diriger l’accès aux données et de fluidifier l’intégration des données dans le système d’échange
- Établir et exécuter un processus de test afin de s’assurer de l’opérationnalité du SGBD, de la disponibilité et de la qualité des données ainsi que la performance des requêtes
- Modéliser une infrastructure compatible avec le SI existant, en collaboration avec la DSI, afin de concevoir un support à la gestion des données (stockage, exploitation et partage des données) : définir, structurer et représenter visuellement une infrastructure de gestion des données à l’aide d’un outil de modélisation ; identifier et sélectionner les composants disponibles en interne ou sur le marché (matériels, logiciels, réseaux etc) et nécessaires à la création d’une infrastructure de gestion des données à partir de critères d’évaluation définis (performance, sécurité, compatibilité, et les coûts), et évaluer la compatibilité des composants avec l’environnement SI de l'organisation, en collaboration avec la DSI
- Installer et tester l’infrastructure de gestion des données afin d’en garantir l’opérationnalité, la disponibilité et l’interopérabilité avec le SI
Modalités d'évaluation
Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale.
Créer et /ou adapter un modèle d’apprentissage RNCP39775BC03
Option Data engineering : Développer, déployer et optimiser les pipelines de données RNCP39775BC04
Option Data science : Optimiser des modèles d’apprentissage RNCP39775BC05
Compétences
- Concevoir et mettre en place un système de suivi du cycle de vie du modèle d’apprentissage (et de ses fonctionnalités) afin de détecter des anomalies (dérives de données ou bien dérives conceptuelles), de surveiller la qualité des features ou bien de déterminer le moment et la méthode de ré-entraînement du modèle
- Évaluer les performances de l’infrastructure sous-jacente au modèle d'apprentissage selon des critères définis afin de réduire les coûts et / ou les temps de calcul
- Ajuster les paramètres des procédures d'entraînement / de test / validation, à l’aide de techniques adaptées (hyperparamètres, choix des caractéristiques, ajustement d’architecture de neurone, etc.) afin d’optimiser la qualité et les performances des données
- Automatiser le déploiement afin d’intégrer et de livrer en continu les évolutions apportées au modèle d’apprentissage : déposer le code modifié dans un outil de contrôle de version afin de partager / de fusionner le code ; créer des tests CI /CD afin de contrôler / valider les changements de code, et envoyer le code en production et l’exécuter de manière automatique
Modalités d'évaluation
Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale.
Voies d'accès
- Par expérience
- En contrat de professionnalisation
- Après un parcours de formation sous statut d’élève ou d’étudiant
- Après un parcours de formation continue
- En contrat d’apprentissage
Emplois accessibles
- Big Data Engineer
- Data Engineer
- Data Scientist
- Data Analyst
- Data Manager
- IA Engineer
- Machine Learning Engineer
Secteurs d'activité
L’Expert en ingénierie et science des données intervient au sein de plusieurs secteurs d’activité, répondant ainsi à la demande croissante de gestion et d’analyse des données dans des domaines diversifiés. Les secteurs les plus importants incluent notamment la finance, l’assurance, le commerce, l’industrie, la santé, la grande distribution, le numérique, et bien d’autres.
Réglementations
La profession n’est pas réglementée. Toutefois, l’Expert en ingénierie et science des données est amené à intervenir dans le respect de la législation en lien avec les dispositifs d’accompagnement professionnel, des règles liées à la protection et à la confidentialité des données personnelles ainsi que des bonnes pratiques reconnues par la profession et / ou mises en œuvre au sein de la structure (ex : cadre déontologique de la structure).
Offres d'emploi en cours via France Travail
Métiers visés (codes ROME)
Informations générales
- Code
- RNCP39775
- Type d'enregistrement
- Enregistrement sur demande
- Date de décision
- 31/10/2024
- Date d'effet
- —
- Fin d'enregistrement
- 31/10/2028