ARCHITECTURE
31/10/2024
Comprendre la Modern Data Stack Photo de Marie de Vesvrotte
Marie de Vesvrotte
Responsable Marketing

Mieux comprendre la Modern Data Stack

Qu’est-ce qu’une Modern Data Stack ?

Rassurez-vous, toute organisation qui prend au sérieux l’utilisation quotidienne des données, de l’analytique et de l’IA utilise une version de l’architecture de la Modern Data Stack ! 

Mais alors, que se cache-t-il derrière ce nouveau buzzword ? 

Pour faire simple, il s'agit d'une nouvelle approche, modulaire et cloud-native, permettant de collecter, stocker, transformer et analyser des données de manière fluide, à l’aide d’outils qui ont radicalement évolué ces dernières années. 

Pour autant, ce n’est pas seulement une nouvelle génération d'outils technologiques, mais un changement de paradigme dans la manière dont les entreprises exploitent leurs données. Les organisations passent d’une vision centrée sur la technique à une vision centrée sur le business.

L'idée clé de la Modern Data Stack est d'aligner les besoins des métiers avec les capacités de l'IT. Les outils ne sont plus conçus pour des usages isolés, mais pour être intégrés dans l'ensemble des processus métiers, permettant à plusieurs équipes de travailler sur les mêmes données avec des objectifs différents.

Aujourd'hui, un même outil peut être utilisé à la fois par les équipes financières, RH et opérationnelles, permettant une exploitation des données commune, sans recourir à des solutions exotiques spécifiques à chaque service. — Antoine Broudeur, Head of Consulting chez Limpida

La Modern Data Stack repose sur une architecture modulaire, où chaque composant joue un rôle bien défini : ingestion, stockage, transformation et visualisation des données. Vous pouvez ajouter ou remplacer des outils selon vos besoins, sans impacter l’ensemble du système ! 

Pourquoi est-elle moderne ? 

Une approche modulaire pour plus de flexibilité 

Loin des systèmes monolithiques et rigides du passé, la Modern Data Stack permet de construire une architecture agile. 

Chaque outil de la Modern Data Stack est conçu comme un module indépendant mais intégrable. Cela vous permet d'ajouter des solutions de manière progressive, composant par composant. Grâce à cette architecture décentralisée et modulaire, vous pouvez adopter une approche itérative vous permettant de débuter sur un premier périmètre, puis d’étendre progressivement ses capacités en fonction des besoins émergeants. 

Cette flexibilité permet non seulement de réduire les délais de mise en œuvre, mais aussi d’ajuster facilement les outils et technologies utilisés à chaque étape, en fonction des priorités métiers et des évolutions technologiques.

Cette modularité réduit les silos de données, un problème courant avec les stacks de données traditionnels.

Coût et scalabilité : le cloud change la donne 

Actuellement, la tendance est plus de stocker le maximum de données, et de réfléchir aux cas d’utilisation après. Vous me direz, hors de prix comme architecture ? Et bien non, grâce à la Modern Data Stack c’est possible. Cette architecture dissocie le stockage du calcul, permettant de transformer les données à la demande. 

Elle permet à chacun de s’affranchir des contraintes de hardware (matériel et infrastructures physiques) et de faire face à des volumes de données variables avec des coûts calculés selon l’usage.

Les services cloud permettent de redimensionner dynamiquement les ressources en fonction des besoins, évitant ainsi les dépenses excessives liées à la surcapacité ou aux infrastructures sous-exploitées. 

Avec la Modern Data Stack, le stockage des données est souvent centralisé dans des entrepôts cloud comme Snowflake, Google BigQuery ou Amazon Redshift, où elles peuvent être conservées en grande quantité sans encombre. Le calcul, lui, se fait à la demande, selon les requêtes et analyses effectuées par les utilisateurs. À savoir que les solutions basées sur le cloud computing suivent un modèle de paiement à l’utilisation. Cela permet de réduire significativement les coûts de démarrage des projets data puisqu’il n'est plus nécessaire de définir une capacité en amont du projet et de risquer un sur/sous dimensionnement.

Une architecture conçue pour les métiers

Les besoins en matière de self-service et d’autonomie des métiers ont été déterminants dans l’émergence des Modern Data Stack. Et c’est en particulier la dissociation de l’ingestion et du traitement des données qui a permis de remonter l’autonomie des métiers plus haut dans la chaîne de gestion des données. 

L'objectif est de donner aux utilisateurs métiers, tels que les analystes ou les responsables marketing, la capacité d'accéder directement aux données, de les manipuler et de créer leurs propres analyses, sans dépendre des équipes IT.

Concrètement, l’IT s’occupe de tout ce qui est "sous le capot", assurant que les données brutes soient accessibles dans l'entrepôt de données. Une fois cette infrastructure opérationnelle, les équipes métiers se chargent de la transformation et de la valorisation des données. 

Il n’est donc plus forcément nécessaire de maîtriser les langages de programmation complexes pour traiter et utiliser la donnée grâce à l’émergence d’outils low-code dans quasiment tous les domaines.

Le passage de l’ETL à l’ELT 

L’utilisation d’outils plus performants permet aussi de modifier le processus de transformation des données. 

Traditionnellement, c’est le processus ETL (Extract, Transform, Load) qui était utilisé. Cette approche, historiquement dictée par des contraintes de capacité de stockage et de performance, obligeait les entreprises à pré-traiter les données immédiatement après leur extraction, en ne conservant que celles jugées pertinentes. Cela impliquait des risques de perte d'information et nécessitait des infrastructures lourdes, coûteuses et rigides.

Avec l'émergence du Data Warehouse Cloud, le contexte a complètement  changé. Aujourd'hui, c’est le modèle ELT qui prévaut. Toutes les données sont chargées au sein de l’espace de stockage. Ce n'est qu'après le chargement des données que celles-ci sont transformées, selon les besoins spécifiques des utilisateurs métiers.  

Et c’est là l’une des principales différences entre une « Old Data Stack » et une « Modern Data Stack ». La MDS permet de passer d’une approche ETL à une approche ELT. 

Utilisateurs de la Modern Data Stack

Avant même de parler d’utilisateurs finaux, il est important de revenir sur un point : la Modern Data Stack s’adresse et est accessible à toutes les entreprises, qu’elles soient petites, moyennes ou grandes. 

Grâce à l’adoption de solutions cloud-native et d’outils prêts à l’emploi, il est aujourd’hui possible d’en profiter pour une dizaine d’euros par mois (pour les plus petits projets). 

Par ailleurs, le principe même de la Modern Data Stack est de rendre la donnée actionnable à tous les utilisateurs, qu’ils soient techniques ou non et quels que soient leurs besoins en données. 

Elle permet :

  1. Aux Data Scientist de réaliser de la science des données avancée sur des entrepôts de données dans le cloud, en déléguant les tâches de traitement des données tout en ayant la capacité d'opérationnaliser rapidement des projets de Data Science pour les utilisateurs métiers.
  2. Aux analystes et autres non-développeurs d'effectuer leurs propres transformations de données ainsi que des travaux avancés, tels que des analyses prédictives, sans avoir besoin d'une expertise technique poussée.
  3. Aux ingénieurs data de concevoir et gérer des pipelines de données automatisés, facilitant l'intégration, la transformation et la livraison des données aux différentes équipes de l'entreprise.
  4. Aux équipes métiers d'exploiter directement les données pour améliorer leurs processus décisionnels et piloter leurs performances. Avec moins de code spécifique (comme Python ou Spark), la Modern Data Stack permet d’effectuer la plupart des transformations de données en SQL, le langage de base de données le plus classique qui soit.   
  5. Aux responsables de la gouvernance des données de s'assurer de la qualité, de la sécurité et de la conformité des données grâce à des outils qui centralisent le suivi et les contrôles, garantissant que les données répondent aux normes de l'entreprise et aux exigences réglementaires.

La Modern Data Stack : la colonne vertébrale du Data Mesh  

Il est presque impossible de discuter d'architecture de données moderne sans mentionner le terme en vogue aujourd'hui : le data mesh

Qu'est-ce que le data mesh exactement ?

Le data mesh est une architecture de données distribuée intentionnellement conçue, sous gouvernance centralisée et standardisée pour l'interopérabilité, rendue possible par une infrastructure de données en libre-service partagée et harmonisée. J'espère qu'il est clair qu'il est bien loin d'un paysage de silos fragmentés de données inaccessibles.
Zhamak Dehghani, Consultante en Technologie Principale chez Thoughtworks et créatrice du terme data mesh

Cela offre une nouvelle dynamique où les équipes IT ne sont plus les seules à détenir la "source de vérité", mais où chaque département peut avoir un accès direct et flexible aux données, tout en respectant les standards globaux définis par la gouvernance centrale.

Cette approche met la responsabilité sur les métiers pour maintenir, utiliser et créer de la valeur à partir de leurs données. 

Une collaboration renforcée entre métier et IT 

Il ne s'agit pas uniquement de déployer une série d'outils technologiques pour créer une Modern Data Stack, mais de transformer en profondeur la manière dont les équipes interagissent avec les données. Cette transformation repose sur un changement culturel où l'IT devient non seulement un fournisseur de technologies, mais aussi un facilitateur de la création de valeur métier.

Historiquement, les solutions technologiques étaient souvent conçues pour répondre aux besoins spécifiques d’un métier, comme un outil EPM exclusivement utilisé par l’équipe finance. Ce cloisonnement limitait la collaboration inter-fonctionnelle et freinait l’exploitation des données à l’échelle de l’entreprise. Aujourd'hui, grâce à la Modern Data Stack, les outils sont plus transversaux et accessibles à diverses équipes métiers (finance, marketing, opérations, etc.). Cette architecture flexible et évolutive favorise une collaboration accrue, permettant à chaque métier d'exploiter des données centralisées, tout en restant agile et adapté à leurs besoins spécifiques.

Cependant, la tension traditionnelle entre la centralisation, souvent prônée par les équipes IT, et la volonté des métiers de décentraliser l’accès aux données, reste un obstacle fréquent dans la mise en place d'une Modern Data Stack. L'approche du data mesh, qui décentralise la gouvernance et la gestion des données, peut être une réponse intéressante, mais elle est complexe à mettre en œuvre. La clé du succès réside dans l’alignement des besoins métiers avec les capacités de gestion des données, en impliquant dès le départ les experts métiers pour qu’ils définissent clairement leurs besoins et usages des données.

Même si une entreprise parvient à regrouper toutes ses données en un seul endroit, leur combinaison et leur transformation en insights exploitables ne peuvent pas être entièrement automatisées — du moins, pas encore. C’est pourquoi l’IT doit non seulement fournir des solutions technologiques, mais aussi développer une stratégie d'architecture de données qui maximise l’efficacité de cette collaboration métier-IT pour produire de la valeur à chaque étape du processus.

Rond violet avec fleche vers le haut