Patrick Daxenbichler - Fotolia
Gestion des données et IA en 2017 : retour vers le futur
Quels sont les événements et tendances qui ont rythmé 2017 en matière de gestion des données et d’Intelligence artificielle ? Si aujourd’hui la donnée s’inscrit au patrimoine des entreprises, l’IA et ses concepts, lui donnent la parole. Toutefois, le secteur, qui voit dans le Machine Learning et consorts, un énième levier à activer pour l’innovation, étend toujours plus SQL.
En 2017, le monde de la donnée était en proie à un certain paradoxe. Comme si finalement, considérer l’avenir impliquait de regarder systématiquement dans son rétroviseur.
Du Big Data à l’IA
Si le vent du Big Data est certes tombé, le temps de la centralisation des données dans un “grand tout” (comprendre le lac de données - data lake) semble avoir en effet fait long feu, celui de l’Intelligence artificielle s’est levé. Un vieux concept qu’il a fallu déterrer des années 80. Mais il se retrouve aujourd’hui porté par la volonté des éditeurs et autres fournisseurs de technologies de le rendre désormais consommable, de lui faire une place dans des environnements numériques toujours plus présents. Tant chez les consommateurs grand public que les professionnels - l’heure est en effet à la transformation digitale.
Pourquoi ? La réponse est venue à maintes reprises en 2017. Après avoir entassé leurs données, sans hiérarchie, sans segmentation, il est désormais temps de les utiliser et tenter de les intégrer plus près des processus métiers pour les valoriser. Bref, les rendre utiles pour les modèles opérationnels des entreprises. Avec l’IA, et ses concepts (Machine Learning, Deep Learning, Cognitif), les entreprises y voient un moyen - parmi d’autres - pour y parvenir. Il s’agit là de piocher dans leurs lacs et océans de données pour donner un sens, une forme de connaissance, un insight qui jusqu’alors n’avaient pas, ou partiellement, émergé.
Alors, évidemment, quitte à brouiller quelque peu les messages, les spécialistes du secteur, comme Microsoft, SAP, Oracle, se sont précipités, poussés par les Gafa - essentiellement américains - qui disposent une longueur d’avance tant la quantité de données qu’ils hébergent et génèrent dépasse largement celle de toute entreprise. Une approche qui d’ailleurs soulève quelques questions en France - et plus généralement en Europe, et fait réfléchir les instances autorisées, à l’image de France IA. Verra-t-on en 2018 émerger une filière Intelligence Artificielle dans l’Hexagone ?
En attendant, des cas d’usages ont montré le bout de leur nez. La reconnaissance du langage, d’images ou encore le langage naturel et le text-to-speech habitent les précieux bots. Le marketing s’en est logiquement emparé, avec la volonté d’offrir une interaction avec le client plus automatisée (prenons exemple sur la Société Générale), plus réactive et donc plus proche du client. Les chatbots ont aussi montré le bout de leurs algorithmes. L’IA peuple également les applications d’entreprises pour augmenter la précieuse expérience utilisateurs et se montre sur le poste de travail. Comme dans Gmail ou Office365 par exemple - déduire des patterns dans Excel, inclure des infos trafic dans Outlook.
Banques, Assurances, Finance, RH, Retails, tous ont perçu dans l’IA un moyen de mieux échanger avec les utilisateurs ou encore de mieux les servir - la détection de fraude dans les banques par exemple.
Machine Learning, Deep Learning et Cognitif sont en 2017 devenus des mots indispensables aux discours des fournisseurs IT, quitte alors à semer le trouble dans la compréhension du concept par les entreprises et à flouter les éventuels cas d’usages qui pourraient se dessiner.
Mais cela correspond à la partie de 2017 qui devrait assurément se poursuivre (construire?) en 2018. Car en matière d’Intelligence artificielle, il reste encore beaucoup de chemin à parcourir - le non supervisé par exemple.
SQL à tous les étages
L’autre pan de 2017 s’apparente.... à un retour en arrière, à l’intersection des nouvelles technologies et d’une norme née il y a plus de 30 ans : SQL. Si le mouvement NoSQL (Not Only SQL, rappelons-le) avait griffé la joue du modèle relationnel et de son approche ultra-structurée, pour mettre en avant ses capacités tantôt de disponibilité, tantôt de performances, mais rarement de cohérence, en 2017, le fossé s’est finalement resserré. Il est désormais impossible de ne pas présenter une solution de gestion de données sur le marché sans y intégrer un moteur SQL (ou compatible avec le syntaxe SQL), doué de requêtes interactives. Du SQL dans le NoSQL, sur Hadoop (comme Impala), sur Spark et plus récemment sur Kafka, le framework qui tend à devenir synonyme de gestion des messages et flux de données en temps réel - après Spark.
Il existe plusieurs explications à cela. Primo, en supportant SQL, on supporte l’écosystème de SQL, c’est-à-dire les solutions de BI et de visualisation de données qui peuplent en général les entreprises. Si les technologies des données en volume et/ou non structurées doivent y trouver leur place, il est nécessaire qu’elles puissent se greffer aux briques d’un SI en place afin d’y inclure aussi les bonnes données - les données opérationnelles par exemple.
Secundo, et c’est souvent l’argument avancé, le support d’un langage proche de SQL a le mérite d’attirer la grande communauté des connaisseurs de SQL. Ils maîtrisent historiquement les bases de données et gèrent donc celles en place dans les entreprises. Inutile d’avoir à mettre en place de longs plans de montées en compétences ou encore à rechercher des profils rares - les data scientists par exemple - et donc très coûteux..
Tertio, les bases dites NoSQL ont toutes pris un virage dans leur positionnement. D’une base centrée sur une typologie d’usage, le NoSQL s’est tourné vers le multi-modèle, capable d’absorber et de traiter différents types de données pour répondre à différents cas d’usage. Prenons exemple sur DataStax. Cet éditeur a équipé son socle Cassandra de plusieurs autres modèles au sein de DSE (DataStax Enterprise), dont une prise en compte des graphes, ou encore un système de fichiers compatibles HDFS. De son côté, MongoDB, outre les graphes, s’est aussi orienté vers les couches supérieures en proposant des applications de visualisations de données. Citons également la volonté de MarkLogic de se positionner comme un hub de données opérationnel, pour reprendre son expression.
Un changement de positionnement qui a aussi contribué à redessiner le marché. Et ce ne serait qu’un début. Si l’entrée en bourse de MongoDB peut être un exemple, le sauvetage de Riak (autre base NoSQL) par Bet365, l’un de ses principaux contributeurs, en est un autre.
Enfin porter SQL sur des terres peu explorées s’est aussi concrétisé en 2017. Microsoft et Google ont présenté leur concept de bases de données dans le Cloud, massivement géo-distribuées, supportant SQL et apportant des niveaux de cohérence des données adaptés. Spanner chez Google; CosmoDB chez Microsoft. En France, un projet de recherche, AntidotDB, a lui-aussi sa formule magique pour porter SQL à très grande échelle.
Ce sera à coup sûr un angle à considérer pour 2018 : la cohérence des données à grande échelle. Car finalement ce que veulent les entreprises : rapprocher leurs systèmes transactionnels et analytiques dans un système unique. Une consolidation des systèmes de données est donc en cours. Réponse en 2018.