ARCHITECTURE
31/10/2024
Méthode Modern Data StackPhoto de Marie de Vesvrotte
Marie de Vesvrotte
Responsable Marketing

Méthodologie et mise en œuvre d’une Modern Data Stack

Méthode pour créer une Modern Data Stack

La création d'une Modern Data Stack est un processus itératif et adaptable, qui doit être guidé par les besoins spécifiques de l'entreprise. 

Laissez les objectifs métiers guider votre architecture

Concevoir une architecture technique sans d'abord définir les objectifs métiers, ou en les ignorant, peut entraîner des dérives. Vous risquez de créer des architectures sophistiquées, plus détaillées que les besoins métiers eux-mêmes. Ou bien, vous pourriez vous retrouver à discuter des dernières innovations technologiques sans avoir encore trouvé de cas d’usage concret pour les équipes métiers.

Dans tous les cas, concevoir l’architecture avant de prendre en compte les besoins métiers est problématique, et pas seulement d’un point de vue métier. C’est souvent l'une des principales raisons de l’apparition du fameux shadow IT, lorsque les utilisateurs cherchent à contourner l’architecture mise en place, car elle ne répond pas à leurs besoins. S'ils parviennent à apporter de la valeur avec leurs propres solutions, ils continueront à le faire, même en dehors du cadre officiel.

Mais qu’est-ce que cela signifie, en pratique, de laisser les objectifs métiers guider l'architecture ? 

Cela revient à répondre à des questions telles que :

  • Voulez-vous améliorer vos prévisions commerciales ? Optimiser l'expérience client ? Ou encore rendre vos opérations plus efficaces ? 
  • Quels sont les principaux utilisateurs de la donnée (analystes, data scientists, métiers) ?
  • Quelle est la fréquence des besoins en données (temps réel, batch) ?
  • Comment l’accès à la donnée impacte-t-il vos processus métiers actuels ?
  • Quelles sont les sources de données (internes et externes) à prendre en compte ? 
  • Quelle est la volumétrie attendue ?

Si les choix d'architecture sont alignés sur les objectifs métiers, les décisions techniques deviennent bien plus simples. Il ne s'agit plus de discussions subjectives sur l'architecture la plus "cool" ou innovante, mais de celle qui permettra d’atteindre les objectifs fixés.

Auditez l'existant et les compétences internes  

Avant d’adopter des solutions externes, il est essentiel de réaliser un audit complet de l’infrastructure actuelle, ainsi que des compétences disponibles en interne. 

Si vous disposez déjà de plusieurs Data Engineer ou d’une équipe technique bien structurée, vous pouvez opter pour une stack plus sophistiquée, intégrant des outils avancés pour la transformation et l’automatisation des données. À l'inverse, si votre entreprise manque de ces ressources, il peut être judicieux de privilégier des solutions plus simples et accessibles. 

N’hésitez pas à échanger avec vos équipes, leurs idées et réserves doivent être prises en compte. 

Avant de vous lancer dans la recherche d’outil, voici une checklist que nous proposons à nos clients pour évaluer votre architecture existante :

Inventaire et analyse des systèmes de données actuels

  • Collecte de données : vérifiez les sources actuelles, les protocoles d’acquisition (API, ETL/ELT), et le type de données (temps réel ou batch) pour estimer les besoins d’intégration et d’adaptation.
  • Stockage de données : analysez les capacités de stockage (on-premise vs cloud) et la structure (data lake vs data warehouse) pour anticiper les besoins de scalabilité et de compatibilité avec les futurs composants..
  • Infrastructure réseau : vérifier les capacités de bande passante et de latence pour soutenir des transferts de données rapides, en particulier avec des solutions de cloud computing.

Évaluation des capacités de transformation et de traitement

  • Pipeline de transformation : identifiez et cartographiez les processus d’ingestion et de transformation en place, ainsi que les niveaux de latence et d’automatisation.
  • Capacités de traitement : évaluez les frameworks actuels de traitement de données (ex. Spark, SQL) et leur capacité à gérer les charges intensives (big data, machine learning).
  • Compatibilité avec une architecture DataOps et CI/CD : vérifiez si votre infrastructure permet des déploiements automatisés, avec des tests de bout en bout et un versionnement des transformations.

Analyse des compétences internes et des besoins de formation avancée

  • Compétences en Data Engineering et machine learning : identifier les profils techniques maîtrisant des outils complexes (Airflow, dbt, Spark) et ayant des compétences en ML/IA.
  • Modélisation avancée des données : évaluer la capacité de l’équipe à travailler avec des modèles complexes (modèle en étoile, schémas de snowflake) et des modèles de machine learning.
  • Formation et certification : évaluez les besoins en certifications (ex. cloud Azure, AWS, GCP) pour des compétences avancées.

Identification des cas d’usage critiques et opportunités d’innovation

  • Cas d'usage existants et potentiels : cartographier les cas d'usage à forte valeur ajoutée (e.g., prédiction, segmentation, scoring client), et identifier des opportunités d'automatisation ou de personnalisation.
  • IA générative & Apprentissage automatique : évaluer les opportunités d'intégration de modèles ML et IA (ex. modèles de NLP pour des analyses textuelles avancées).

Conformité et sécurité des données

  • Gouvernance et accès : évaluer les politiques IAM (Identity and Access Management), la granularité des permissions et la gestion des accès pour les données sensibles.
  • Sécurisation des flux de données : identifier les besoins en chiffrement (au repos et en transit) et assurer la conformité avec les standards de sécurité (ISO 27001, SOC 2).
  • Respect des réglementations (GDPR, CCPA) : vérifiez que votre architecture actuelle permet de respecter les normes de protection des données.

Choisir les outils qui composeront votre Modern Data Stack 

La création d’une MDS implique le choix de plusieurs composants variés. Face à la multitude de solutions disponibles, un plan stratégique pour sélectionner, tester, et adapter ces outils s’avère essentiel. 

Approche n°1 - Bâtir l’infrastructure autour des cas d’usage

Cette méthode place les besoins métiers au centre de la construction de la stack, en définissant d'abord les cas d’usage et les besoins des utilisateurs avant de concevoir l’infrastructure technique. Adaptée aux entreprises où les équipes métiers ont des besoins spécifiques, elle favorise une approche opérationnelle et réactive en assurant que les solutions apportent une valeur immédiate.

  • Étapes clés : identifier les objectifs prioritaires des équipes métiers, concevoir des solutions adaptées à chaque cas d’usage, et ensuite centraliser ces solutions dans une infrastructure commune. Ce processus inclut souvent des outils d’analytique directement orientés utilisateurs (dashboards, BI) avant d’implémenter des composants plus techniques.
  • Avantages : assure que les besoins métiers sont directement couverts, avec des retours rapides et concrets. Évite le shadow IT en intégrant les solutions spécifiques dès le départ.
  • Inconvénients : peut entraîner une architecture plus complexe à standardiser, surtout si les besoins métiers évoluent rapidement. Cette approche nécessitent des adaptations fréquentes et une plus grande coordination. 

⚠️ Conseil : pour garantir l’alignement sur les objectifs métiers, il est important de prioriser les solutions en fonction de leur impact sur les KPIs et d’organiser des ateliers réguliers avec les équipes pour ajuster votre MDS en fonction de leurs évolutions. 

Approche n°2 - De l’infrastructure aux usages métiers 

Cette méthode consiste à commencer par la structuration et la centralisation des données, en mettant en place une infrastructure robuste qui pourra répondre aux besoins des métiers à mesure qu’ils évoluent. Cette approche est idéale pour les entreprises ayant une forte orientation data-driven ou souhaitant bâtir une architecture solide avant d’impliquer intensivement les utilisateurs métiers.

  • Étapes clés : démarrer par la consolidation des sources de données, le choix d’une plateforme centralisée (data lake ou data warehouse), et des outils de gouvernance. Ensuite, développer progressivement des cas d’usage pour les métiers, en intégrant leurs besoins au fur et à mesure.
  • Avantages : assure une infrastructure stable et extensible, capable de supporter des cas d’usage variés et d’absorber une forte croissance des volumes de données.
  • Inconvénients : les métiers peuvent attendre plus longtemps avant de voir des bénéfices concrets, ce qui peut entraîner un décalage entre les attentes et les résultats.

⚠️ Conseil : une gouvernance claire et une feuille de route solide aident les équipes à se projeter, tandis que des résultats tangibles à court terme, comme des visualisations de données simplifiées, favorisent l’engagement continu.

Approche n°3 - Une construction transversale, brique par brique  

L'approche transversale vise à déployer une Modern Data Stack de manière modulaire, en commençant par des cas d’usage spécifiques et en construisant des briques technologiques en fonction des besoins immédiats de chaque équipe. Chaque module est autonome, mais conçu pour être intégré dans un écosystème global.

  • Étapes clés : identifier un ou deux cas d’usage critiques (comme l’analyse de performance commerciale ou l’optimisation de la supply chain), et déployer une architecture modulaire autour de ces projets. Chaque composant choisi pour ce cas d’usage doit pouvoir s’intégrer facilement à d’autres composants de la stack.
  • Avantages : rapide à mettre en œuvre, avec des retours visibles pour les utilisateurs métiers dès les premières phases. Cette méthode permet aussi d’itérer en fonction des retours d’expérience.
  • Inconvénients : peut devenir complexe si les différents modules ne s’intègrent pas harmonieusement à terme. Un manque de planification globale peut mener à des silos technologiques.

⚠️ Conseil : utilisez une approche pilotée par les cas d’usage prioritaires, intégrant de la flexibilité pour ajouter ou retirer des composants, et assurez-vous de l’adhésion des parties prenantes à chaque phase pour garantir un déploiement aligné sur les objectifs business et technologiques.

Au-delà d’une modèle de construction choisi, Limpida préconise de : 

  • Définir un budget, car les outils de votre pile peuvent devenir coûteux. Si vous vous retrouvez à court de budget, envisagez des outils open source pour réduire la charge financière. 
  • Choisissez des outils intuitifs et bien documentés pour votre pile de données. Des logiciels trop complexes risquent de décourager l’adoption et freineront la démocratisation des données.
  • Choisissez un outil capable de scaler pour supporter des volumes et opérations croissants, garantissant ainsi des performances stables malgré l'augmentation des exigences.
  • Sélectionnez des solutions avec une communauté active, pour un accompagnement adapté à chaque étape de l’évolution de votre pile de données.

Adopter une approche itérative

Le principe même de la Modern Data Stack c’est l’approche itérative, qui permet d'ajuster en continu vos processus et vos outils au fil de vos besoins et de vos objectifs.

Chaque étape du traitement des données, de la collecte à l'analyse, peut être revue et améliorée de manière continue, intégrant ainsi les retours d'expérience et les nouvelles exigences métiers.

Cette flexibilité permet aux équipes, qu'elles soient techniques ou métiers, de tester des solutions, de corriger et d'affiner les processus sans attendre de longs cycles de développement. 

Pour ce faire, implémentez vos composants progressivement, en les testant sur des cas d’usage concrets avant leur déploiement à grande échelle. Adaptez ou remplacez les éléments en fonction des résultats obtenus. Vous pouvez également créer des tableaux de bord de performance (temps de requêtes, latence des pipelines, satisfaction des utilisateurs internes) pour affiner votre Modern Data Stack au fil du temps.

⚠️ Conseil : Il n’est pas nécessaire d’adopter toutes les briques de votre MDS d’un coup. Analyser l'impact de chaque outil avant d’ajouter de nouveaux composants permet de prendre des décisions éclairées et d’optimiser la mise en place de la stack.

Les pièges à éviter lors de la création d’une Modern Data Stack 

Construire de manière verticale et incrémentale

Au lieu de chercher à centraliser toutes les données avant de les exploiter, il est plus judicieux de progresser étape par étape en ciblant des domaines métiers spécifiques (comme l'expérience client ou les opérations commerciales). Cette méthode permet de générer de la valeur immédiatement et de célébrer de petites victoires, rendant la transformation plus tangible. Une approche verticale où chaque étape est finalisée et exploitée est plus rentable qu'une construction horizontale qui peut retarder la création de valeur métier.

Aligner l'organisation sur la MDS pour une utilisation optimale

Une Modern Data Stack efficace repose sur une organisation qui encourage l’autonomie des métiers dans la gestion et la transformation des données. Une pile de technologies modernes n’aura de sens que si elle s’accompagne d’une structure organisationnelle qui facilite la gouvernance et l’exploitation des données par les équipes métiers elles-mêmes.

Maintenir une gouvernance forte, même si simplifiée

Simplifier la gouvernance ne signifie pas en réduire les ressources. La gouvernance doit rester structurée et rigoureuse pour que la MDS fonctionne efficacement. Une entreprise ayant une maturité faible en matière de gouvernance gagnera à renforcer d’abord cette dimension avant de se lancer dans la mise en place d’une MDS.

Faire preuve de discernement dans le choix des technologies

L’écosystème des technologies de MDS est vaste et en constante évolution. Plutôt que de se laisser influencer par les tendances et les levées de fonds récentes, il est conseillé de choisir des solutions éprouvées et adaptées au marché local de l'entreprise. Cela permettra de rester dans l’esprit de simplicité et de pragmatisme de la MDS.

Prioriser les besoins métiers avant tout

Même si la MDS propose des technologies avancées, elle doit avant tout répondre aux besoins métiers. Une pile technologique bien pensée mais sans usage concret risque d’être sous-utilisée et d’avoir une durée de vie limitée. Prioriser les attentes et les objectifs métiers garantira une adoption durable de la MDS.

Surveiller les coûts du Cloud

Le Cloud apporte une grande flexibilité, mais sans une maîtrise des usages, les coûts peuvent rapidement s'envoler, en particulier avec le Self-Service. Bien que les consommations techniques soient souvent prévisibles, les usages métiers, eux, peuvent être difficiles à anticiper, ce qui peut avoir un impact négatif sur le ROI. Surveiller attentivement les consommations Cloud liées à la MDS est indispensable pour en tirer une rentabilité optimale.

Investir en fonction de ses ambitions et de son patrimoine technique

Mettre en place une Modern Data Stack est un projet ambitieux qui requiert un investissement conséquent en ressources. Les petites et moyennes organisations, souvent plus légères en termes de patrimoine technique, parviennent généralement à réaliser cette transformation plus facilement, grâce à leur infrastructure moins complexe. En revanche, pour les grandes organisations, le succès dépend de la capacité à allouer des ressources adéquates et à accorder le temps nécessaire aux équipes pour intégrer et maîtriser ces nouvelles technologies. Adapter les moyens à l’ampleur de la transition est primordial pour assurer la réussite et la pérennité de la MDS.

Comment aider les métiers à tirer parti de la Modern Data Stack ?

La Modern Data Stack permet d’ouvrir l’accès à des données et analyses autrefois réservées aux équipes techniques, facilitant la prise de décision à tous les niveaux de l’organisation. 

Une approche structurée est recommandée, combinant des modules de formation, des initiatives d’accompagnement et des ressources d’auto-formation, pour s'assurer que chacun, indépendamment de son domaine d'expertise, développe les compétences nécessaires pour tirer pleinement parti de cette architecture moderne.

Modules de formation essentiels pour les équipes métiers

Introduction à la culture data et à la Modern Data Stack
Comprendre les principes de base de la Modern Data Stack, ses objectifs, et son impact sur les processus métier. Ce module familiarise les équipes métiers avec des concepts clés comme le stockage dans le cloud, la séparation des données et des calculs, et l’approche ELT, montrant comment ces éléments facilitent des analyses plus rapides et une meilleure accessibilité aux données.

Initiation à l’analyse de données
Les métiers doivent maîtriser les bases de l’analyse pour interpréter efficacement les données mises à leur disposition. Ce module couvre des techniques simples d’analyse descriptive, la lecture des KPI, et les bases de la visualisation de données pour que les utilisateurs métiers puissent rapidement évaluer les performances et identifier les tendances.

Manipulation des outils BI (Business Intelligence)
Une formation pratique sur les outils de BI (tels que Tableau, Power BI ou Looker) pour apprendre à manipuler et explorer des jeux de données. Ce module enseigne comment créer des rapports interactifs, manipuler des visualisations et extraire des insights pertinents.

Sensibilisation aux pratiques de gouvernance et de qualité des données
Les métiers doivent comprendre l’importance de la qualité des données, des règles de gouvernance, et du respect de la confidentialité des données. Ce module aborde les pratiques de nettoyage et de validation des données, tout en sensibilisant aux responsabilités de chaque acteur en matière de protection des informations sensibles.

Initiatives complémentaires pour favoriser l’adoption de la Modern Data Stack

Communauté de pratique data
Une communauté de pratique permet aux équipes métiers et aux experts data de partager leurs retours d’expérience et d’échanger des astuces. Ce groupe est essentiel pour co-construire des solutions sur des cas concrets, tout en favorisant la montée en compétence collective et la centralisation des bonnes pratiques.

Guides et supports autonomes
En complément des formations, des ressources en self-service (guides pas-à-pas, vidéos tutoriels, FAQ) offrent un soutien continu. Ces supports incluent des cas d’usage illustratifs qui montrent comment tirer parti des outils en fonction des besoins métiers (ex. marketing, finance).

Data champions dans les équipes métiers
Désigner des référents data dans chaque département pour jouer le rôle de relais avec les équipes data. Ces "Data Champions" formés à la Modern Data Stack peuvent promouvoir son usage au quotidien et répondre aux questions de leurs collègues, facilitant ainsi l’adoption et l’appropriation.

Support data à la demande
Un support à la demande, via des sessions régulières ou des "data clinics", permet aux équipes métiers d’obtenir des réponses adaptées à leurs questions spécifiques. Ce soutien ad hoc résout des problèmes concrets et renforce la compréhension des concepts.

Cas d’usage métiers sur mesure
Présenter des cas d’usage métiers pertinents aide les équipes à visualiser les applications pratiques de la Modern Data Stack. Par exemple, l’optimisation de la chaîne logistique pour les équipes opérationnelles ou l’analyse de la segmentation client pour le marketing.

Métriques et suivi de l'adoption
Mettre en place des indicateurs de suivi de l’utilisation des outils permet de mesurer les succès et d’identifier les zones de blocage. Partager ces métriques avec les équipes métiers valorise leurs efforts en matière de data literacy et encourage une participation active dans l’adoption de la Modern Data Stack.

Coût et ROI d’une Modern Data Stack

Pour exploiter pleinement le potentiel d’une Modern Data Stack (MDS), il est essentiel de comprendre ses coûts, de prévoir ses impacts financiers et de structurer une méthode d'évaluation de son retour sur investissement (ROI). L’objectif est de vous permettre de mesurer l’efficacité économique de cette architecture en fonction de vos besoins et de votre maturité data.

Estimation des coûts d’intégration et de maintenance

Une MDS comporte divers coûts d’intégration, d’hébergement, de maintenance et de personnel. 

Structure légèrePour les organisations débutant avec une MDS, nécessitant une infrastructure simple pour un accès limité aux données (environ 50–100 utilisateurs). Cette structure comprend un stockage cloud de base, des outils BI standards et une petite équipe de Data Engineers.

  • Licences et outils : de 20 000 à 50 000 € par an (incluant des outils BI de base et un entrepôt cloud limité).
  • Hébergement Cloud : de 10 000 à 30 000 € par an (selon la quantité de données stockées et la fréquence d'utilisation).
  • Personnel : entre 80 000 et 150 000 € par an pour une équipe réduite (1 à 2 Data Engineers en support de l'architecture).

Total annuel estimé : entre 110 000 et 230 000 €

Structure intermédiaire
Conçue pour des entreprises ayant une maturité data plus avancée et un besoin d’analyse sur des données plus diversifiées (100–500 utilisateurs). Cette structure inclut une infrastructure cloud robuste, des outils d'analytique avancés, et une équipe de data engineering et data analytics renforcée.

  • Licences et outils : de 50 000 à 120 000 € par an (incluant des outils BI avancés et de stockage plus performant).
  • Hébergement Cloud : de 30 000 à 70 000 € par an (pour supporter un volume de données plus important et un usage intensif).
  • Personnel : entre 200 000 et 400 000 € par an pour une équipe complète (2 à 5 data engineers et analystes).

Total annuel estimé : entre 280 000 et 590 000 €

Structure avancée
Pour les grandes organisations nécessitant une MDS à grande échelle (500+ utilisateurs), supportant des analyses complexes et des modèles de machine learning. Inclut des outils d'analytique de pointe, un stockage cloud extensif et une équipe data diversifiée (data scientists, data engineers, ML engineers).

  • Licences et outils : de 150 000 à 300 000 € par an (incluant des outils BI avancés, des plateformes ML et un stockage hautement extensible).
  • Hébergement Cloud : de 70 000 à 150 000 € par an (selon les capacités de stockage et de calcul nécessaires).
  • Personnel : entre 500 000 et 1 000 000 € par an pour une équipe complète (data engineers, data scientists, ML engineers).

Total annuel estimé : entre 720 000 et 1 450 000 €

⚠️ Attention, ce ne sont que des estimations ; chaque projet dépend des outils choisis, de la complexité des cas d’usage et des besoins spécifiques de l’entreprise. Les coûts peuvent donc varier significativement en fonction de ces paramètres.

Méthodologie pour l’analyse du ROI attendu

Le ROI d’une MDS peut être calculé en comparant les gains réalisés aux coûts engagés, en tenant compte de l’efficacité, de la réduction des erreurs, et des insights produits par l’architecture. La méthode proposée inclut :

  • Temps de traitement et efficacité opérationnelle : évaluer le temps gagné sur les processus décisionnels et opérationnels en utilisant la MDS. Les gains en efficacité, par exemple dans la gestion des campagnes marketing ou l’optimisation de la chaîne logistique, offrent des réductions de coûts mesurables.
  • Réduction des erreurs et qualité des données : mesurer la réduction des erreurs et des coûts liés aux erreurs de données, grâce à des contrôles de qualité intégrés à la MDS.
  • Génération d’insights et impact sur les revenus : identifier les nouvelles opportunités de revenus ou les optimisations de dépenses permises par les insights issus de l’analyse des données (ex. augmentation du panier moyen, réduction du churn client).

Calculer le ROI en incluant ces gains financiers et en les rapportant aux coûts d’implémentation de la MDS pour obtenir une vision claire de l’impact.

Rond violet avec fleche vers le haut