Fotolia

Data management : open source ou propriétaire, quel choix faire ?

L’open source et le data management en cloud deviennent des options populaires, mais les solutions propriétaires demeurent incontournables, et parfois plus appropriées à certains cas d’usage.

Sanjay Srivastava doit faire un choix fondamental lorsqu’il conçoit et construit des environnements de gestion de données : faut-il jeter son dévolu sur une technologie de data management open source ou une distribution propriétaire ?

Pour Sanjay Srivastava, qui accompagne ses clients dans ce type de décision, tout dépend du rôle que jouent les données dans l’entreprise.

« Si vous êtes né dans le cloud et que les données sont une valeur essentielle et un moteur de votre activité, alors optez pour l’open source », tranche Sanjay Srivastava, directeur numérique de l’ESN Genpact. « Mais pas si vous mettez en place quelque chose dans votre propre environnement, et que vous voulez l’exploiter à long terme, et que vous utilisez les données pour accroître et soutenir votre activité principale. »

De nombreux responsables de Chief Data Officer et de DSI se retrouvent dans une situation similaire : ils sont souvent obligés de choisir entre un logiciel propriétaire et un logiciel libre pour leurs plateformes de gestion de données.

« Si vous êtes né dans le cloud et que les données sont une valeur essentielle et un moteur de votre activité, alors optez pour l’open source. »
Sanjay SrivastavaDirecteur numérique, Genpact

C’est un dilemme qui sera probablement plus fréquent à mesure que cet écosystème se développe.

Il suffit de considérer la taille du marché actuel et d’observer les prévisions de croissance. Grand View Research a évalué le marché mondial du data management d’entreprise à 72,8 milliards de dollars en 2020, avec un taux de croissance annuel de 13,8 % jusqu’en 2028.

Cela reflète l’éventail important de capacités nécessaires pour mener un programme de gestion de données d’entreprise, ainsi que les nombreux éditeurs et options disponibles sur le marché.

Mais c’est là le cœur du problème : la pléthore d’options. Et, bien que Sanjay Srivastava ait une méthode particulière pour aider un groupe à décider s’il faut adopter une solution propriétaire ou open source lors de l’élaboration d’un programme de data management, lui et d’autres experts déclarent que chaque organisation doit comprendre les avantages et les défis de ces options. Et d’indiquer par la même occasion que ce choix n’est pas toujours tranché.

Il s’agit plutôt d’une série de compromis à prendre en compte.

« L’open source prodigue des alternatives rentables aux offres commerciales sur étagère souvent coûteuses », affirme Sandhya Balakrishnan, responsable de la région américaine pour les solutions d’entreprise intelligentes chez Brillio, une société de conseil IT. « Cependant, les préoccupations les plus courantes autour des outils de gestion des données open source incluent la sécurité, le manque de support et, des frais potentiellement cachés concernant l’installation et la maintenance continue. »

D’autre part, « de nombreux outils de data management payants réussissent à protéger la complexité de la gestion des données pour les utilisateurs », ajoute Sandhya Balakrishnan.

Avantages et inconvénients des logiciels de data management propriétaires

La plupart du temps, le code source d’un logiciel propriétaire n’est pas accessible aux utilisateurs. Il est vendu par des entités commerciales sous forme de solutions qui peuvent ou non être personnalisées dans une certaine mesure.

Bien que sa définition puisse sembler excessivement rigide, les conseillers IT soulignent que les systèmes de gestion des données propriétaires offrent plusieurs avantages importants aux organisations.

« L’avantage [du data management propriétaire] est que, même s’il s’agit de quelque chose que vous avez payé plus cher [que l’open source], il sera apte au déploiement en production. »
William McKnightPrésident McKnight Consulting group

« L’avantage est que, même s’il s’agit de quelque chose que vous avez payé plus cher [que l’open source], il sera apte au déploiement en production », assure William McKnight, président de McKnight Consulting Group.

De nombreux éditeurs proposent des solutions dotées d’une gamme complète de fonctionnalités complémentaires. Ils embarquent des intégrations afin que les équipes de l’entreprise puissent construire plus rapidement et plus aisément leurs environnements de gestion des données. Et ils ajoutent de plus en plus d’automatisation.

« Ils sont fiables. Ils peuvent offrir des performances élevées à grande échelle, la sécurité, l’innovation et l’automatisation », ajoute Noel Yuhanna, vice-président et analyste principal chez Forrester Research.

Les entreprises bénéficient également du soutien des fournisseurs lorsqu’elles optent pour des technologies de gestion de données propriétaires, et elles constatent généralement qu’il est plus facile de recruter les talents nécessaires à leur mise en œuvre et à leur maintenance – en particulier les plus couramment utilisés – que pour déployer des distributions purement open source.

Ce sont là des considérations importantes pour les organisations qui cherchent à faire progresser rapidement leur utilisation des données, notent les experts.

« La facilité d’utilisation du point de vue du développement et de la maintenance, ainsi que l’assurance d’une assistance et d’améliorations permanentes offrent aux grands groupes la possibilité d’évoluer en se concentrant sur les bons aspects de l’architecture d’entreprise », déclare Sandhya Balakrishnan.

Cependant, les logiciels propriétaires de data management peuvent présenter certains inconvénients.

Les ingénieurs des entreprises ne peuvent pas intervenir directement sur le code propriétaire et doivent plutôt compter sur les fournisseurs pour suivre le rythme des innovations nécessaires dans un paysage numérique en évolution rapide.

Le coût est plus élevé que les options open source, qui ne demandent pas d’engager des frais initiaux dans la licence. Sur site, historiquement, les éditeurs ont imposé des appliances spécifiques souvent puissantes, mais chères.

 Puis, il y a le risque de s’enfermer auprès d’un seul éditeur. Il n’est pas rare que le coût et les difficultés de passage à un autre fournisseur freinent ou empêchent un projet de migration d’une technologie à une autre.

Avantages et inconvénients des logiciels de data management open source

Contrairement aux logiciels de gestion de données propriétaires, les options open source sont publiées sous une licence qui permet aux utilisateurs de déployer le code afin de développer leurs propres systèmes et également de le mettre à jour, de le changer et de le modifier pour leurs propres besoins.

Cette flexibilité permet de créer des solutions de data management qui répondent aux besoins uniques de chaque organisation, explique William McKnight.

« Avec l’open source, si vous en avez envie, vous pouvez maintenir vos forks. Pour certains, cela peut être important », ajoute-t-il.

L’open source est également moins coûteux à utiliser.

« C’est évidemment avantageux pour le budget, donc si l’argent est un facteur contraignant, alors vous pouvez opter pour l’open source », poursuit M. McKnight.

De plus, les entreprises peuvent généralement tester plus facilement les distributions open source, ce qui leur permet d’effectuer une validation de concept ou un pilote avant de déployer la solution de data management à plus grande échelle ou même de passer aux versions d’entreprise payantes/plus coûteuses.

En outre, l’open source permet aux équipes des entreprises de personnaliser le code et de s’inspirer des améliorations que les autres utilisateurs y apportent.

« Avec la communauté open source, vous avez plus de développeurs qui contribuent au code, donc vous allez profiter de plus d’innovation », indique Sanjay Srivastava.

Ces avantages incitent de nombreux responsables IT et de CDO à se tourner vers l’open source, complète Noel Yuhanna.

« La pandémie [de COVID-19] semble avoir renforcé l’intérêt pour l’open source », déclare-t-il. « Ce que nous avons vu, c’est que les outils libres vous aident clairement à réduire vos coûts. C’est l’un des éléments moteurs de leur adoption, mais l’open source peut également vous aider à éviter la dépendance vis-à-vis des fournisseurs et à assurer l’avenir de votre architecture. »

Comme c’est le cas pour les logiciels propriétaires, l’open source présente quelques inconvénients. Sans support commercial, les technologies sont généralement plus difficiles à intégrer que les alternatives propriétaires, selon Noel Yuhanna, ajoutant qu’il faut généralement plus de travail pour obtenir une bonne interopérabilité avec les solutions existantes.

« C’est un travail qui doit être fait sur mesure », indique-t-il.

De plus, selon les experts, les organisations ont besoin d’ingénieurs possédant les compétences spécialisées requises pour construire, déployer, et maintenir le code open source. Ces ingénieurs doivent se tenir au courant de toutes les modifications apportées au code, et la licence peut les obliger à contribuer à la communauté open source. Ils doivent également être capables de faire tout ce travail sans l’assistance client 24 heures sur 24 et 7 jours sur 7 qui accompagnent généralement les produits logiciels commerciaux.

L’avenir ? Un mélange des deux

En réalité, l’approche tout ou rien n’est plus la norme. Les responsables IT et les CDO n’ont pas à faire ce choix tranché.

« D’après notre expérience, le “best of breed” est la norme et l’open source est de plus en plus accepté. »
M. BalakrishnanResponsable région américaine pour les solutions d’entreprise intelligentes, Brillio

Selon les experts, ils peuvent utiliser des logiciels propriétaires pour certains besoins et des logiciels libres pour d’autres. En fait, cela peut être la démarche optimale pour de nombreuses organisations.

« D’après notre expérience, le “best of breed” est la norme et l’open source est de plus en plus accepté », observe M. Balakrishnan. Selon lui, les entreprises peuvent choisir des fournisseurs commerciaux pour le stockage des données, mais recourir à des options open source, telles que Apache Kafka ou Apache Spark pour le traitement des données en temps quasi réel et Apache NiFi ou Apache Airflow pour l’orchestration ou la gestion des flux.

D’autres professionnels du secteur imaginent que les groupes pourraient vouloir déployer des logiciels libres pour mener des projets pilotes et des PoC, puis adopter des solutions commerciales lors du passage à l’échelle.

Les DSI se tournent de plus en plus vers des solutions qui combinent les deux approches, indique Brad Ptasienski, partenaire de la société de conseil numérique West Monroe et responsable du marché de l’ingénierie et de l’analyse des données.

Précisant que West Monroe pense que l’open source « devient la nouvelle norme et le courant dominant pour le traitement et le stockage des données à grande échelle », Brad Ptasienski assure qu’il voit beaucoup de points positifs dans l’utilisation de solutions commerciales « enveloppantes ». Elles sont open source au cœur, mais leur enveloppe est propriétaire.

« C’est presque une approche hybride », ajoute-t-il. « Cela fonctionne plus comme une plateforme, mais c’est un logiciel libre à la base. »

C’est typiquement ce que propose un acteur comme Databricks dans le domaine des lacs de données. Les éditeurs de bases de données tels MariaDB, Couchbase, InfluxDB, et bien d’autres portent cette approche dans leur proposition commerciale.

Les fournisseurs cloud vendent des DBaaS « compatibles » avec les versions open source, quand ils n’offrent pas tout simplement des distributions totalement libres avec un support commercial.

Si la peur de s’enfermer auprès d’un seul fournisseur cloud se fait trop grande, des acteurs du marché pilotent pour leurs clients des bases de données et des data lakes open source dans différents clouds. C’est la position du Finlandais Aiven. Certains fournisseurs, dont Nutanix, proposent à la fois de faciliter la gestion de bases de données propriétaires et open source sur site, tandis que plusieurs infogérants se sont spécialisés dans l’administration de SGBD libres. Mais attention, car ce genre d’offres commerciales ne sont pas disponibles pour toutes les typologies de solutions. Il est par exemple plus difficile de trouver un éditeur pour déployer un data warehouse ou un data lake open source qu’une base de données ou un service orienté événements.

Pour approfondir sur Intelligence Artificielle et Data Science