Definition

Data science

Cette définition fait partie de notre Guide Essentiel : Data Storytelling : comment mettre la donnée en scène pour diffuser la Data Science

La data science consiste à appliquer des techniques d'analyse avancées et des principes scientifiques afin d'extraire des informations précieuses des données pour la prise de décisions commerciales, la planification stratégique et d'autres utilisations. Elle est de plus en plus essentielle pour les entreprises : Les informations générées par la data science aident les entreprises à accroître leur efficacité opérationnelle, à identifier de nouvelles opportunités commerciales et à améliorer leurs programmes de marketing et de vente, entre autres avantages. En fin de compte, ils peuvent conduire à des avantages concurrentiels par rapport aux entreprises rivales.

La data science incorpore diverses disciplines - par exemple, l'ingénierie des données, la préparation des données, l'exploration des données, l'analyse prédictive, l'apprentissage automatique et la visualisation des données, ainsi que les statistiques, les mathématiques et la programmation de logiciels. Elle est principalement réalisée par des data scientist qualifiés, bien que des analystes de données de niveau inférieur puissent également être impliqués. En outre, de nombreuses organisations s'appuient désormais en partie sur des data scientist citoyens, un groupe qui peut comprendre des professionnels de la veille stratégique (BI), des analystes commerciaux, des utilisateurs professionnels avertis des données, des ingénieurs de données et d'autres travailleurs qui n'ont pas de formation formelle en data science.

Pourquoi la data science est-elle importante ?

La data science joue un rôle important dans pratiquement tous les aspects des opérations et des stratégies des entreprises. Par exemple, elle fournit des informations sur les clients qui aident les entreprises à créer des campagnes de marketing plus fortes et des publicités ciblées pour augmenter les ventes de produits. Elle aide à gérer les risques financiers, à détecter les transactions frauduleuses et à prévenir les pannes d'équipement dans les usines de fabrication et autres environnements industriels. Elle aide à bloquer les cyberattaques et autres menaces de sécurité dans les systèmes informatiques.

D'un point de vue opérationnel, les initiatives de data science peuvent optimiser la gestion des chaînes d'approvisionnement, des stocks de produits, des réseaux de distribution et du service à la clientèle. À un niveau plus fondamental, elles ouvrent la voie à une efficacité accrue et à une réduction des coûts. La data science permet également aux entreprises de créer des plans d'affaires et des stratégies fondés sur une analyse éclairée du comportement des clients, des tendances du marché et de la concurrence. Sans elle, les entreprises risquent de manquer des opportunités et de prendre des décisions erronées.

La data science est également vitale dans des domaines qui dépassent les opérations commerciales habituelles. Dans le domaine de la santé, elle sert notamment à diagnostiquer des pathologies, à analyser des images, à planifier des traitements et à mener des recherches médicales. Les établissements d'enseignement utilisent la data science pour surveiller les performances des étudiants et améliorer leur marketing auprès des étudiants potentiels. Les équipes sportives analysent les performances des joueurs et planifient des stratégies de jeu grâce à la data science. Les agences gouvernementales et les organismes de politique publique sont également de grands utilisateurs.

Processus et cycle de vie de la data science

Les projets de data science comportent une série d'étapes de collecte et d'analyse des données. Dans un article décrivant le processus de la data science, Donald Farmer, directeur du cabinet de conseil en analyse TreeHive Strategy, a décrit ces six étapes principales :

  1. Identifier une hypothèse liée à l'entreprise à tester.
  2. Recueillir des données et les préparer pour l'analyse.
  3. Expérimenter différents modèles analytiques.
  4. Choisissez le meilleur modèle et comparez-le aux données.
  5. Présenter les résultats aux dirigeants d'entreprise.
  6. Déployer le modèle pour une utilisation continue avec des données fraîches.

Selon M. Farmer, ce processus fait de la data science une entreprise scientifique. Cependant, il a écrit que dans les entreprises, le travail de la data science "sera toujours plus utilement axé sur des réalités commerciales directes" qui peuvent bénéficier à l'entreprise. Par conséquent, a-t-il ajouté, les data scientist devraient collaborer avec les parties prenantes de l'entreprise sur des projets tout au long du cycle de vie de l'analyse.

How the data science process works
Le processus de la data science comprend les six étapes suivantes.

Avantages de la data science

Lors d'un webinaire organisé en octobre 2020 par l'Institute for Applied Computational Science de l'université de Harvard, Jessica Stauth, directrice générale de la data science au sein de l'unité Fidelity Labs de Fidelity Investments, a déclaré qu'il existait "une relation très claire" entre le travail de data science et les résultats commerciaux. Elle a cité des avantages commerciaux potentiels tels qu'un meilleur retour sur investissement, une croissance des ventes, des opérations plus efficaces, une mise sur le marché plus rapide et un engagement et une satisfaction accrus de la part des clients.

D'une manière générale, l'un des principaux avantages de la data science est de permettre et de faciliter une meilleure prise de décision. Les organisations qui investissent dans la data science peuvent intégrer des données quantifiables dans leurs décisions commerciales. Idéalement, ces décisions fondées sur des données conduiront à une meilleure performance de l'entreprise, à des économies de coûts et à des processus et flux de travail plus fluides.

Les avantages spécifiques de la data science varient en fonction de l'entreprise et du secteur. Dans les organisations en contact avec la clientèle, par exemple, la data science permet d'identifier et d'affiner les publics cibles. Les services marketing et commerciaux peuvent exploiter les données clients pour améliorer les taux de conversion et créer des campagnes marketing personnalisées et des offres promotionnelles qui génèrent des ventes plus importantes.

Dans d'autres cas, les avantages comprennent la réduction de la fraude, une gestion des risques plus efficace, des transactions financières plus rentables, une augmentation du temps de production, une meilleure performance de la chaîne d'approvisionnement, des protections plus solides en matière de cybersécurité et de meilleurs résultats pour les patients. La data science permet également l'analyse en temps réel des données au fur et à mesure qu'elles sont générées. Découvrez les avantages de l'analyse en temps réel, notamment une prise de décision plus rapide et une plus grande agilité de l'entreprise, dans un autre article de Farmer.

Applications et cas d'utilisation de la data science

Les applications courantes auxquelles se livrent les data scientist comprennent la modélisation prédictive, la reconnaissance des formes, la détection des anomalies, la classification, la catégorisation et l'analyse des sentiments, ainsi que le développement de technologies telles que les moteurs de recommandation, les systèmes de personnalisation et les outils d'intelligence artificielle (IA) tels que les chatbots et les véhicules et machines autonomes.

Ces applications sont à l'origine d'une grande variété de cas d'utilisation dans les organisations, notamment les suivants :

  • analyse de la clientèle
  • détection des fraudes
  • la gestion des risques
  • opérations boursières
  • publicité ciblée
  • personnalisation du site web
  • service clientèle
  • maintenance prédictive
  • logistique et gestion de la chaîne d'approvisionnement
  • reconnaissance d'images
  • reconnaissance vocale
  • traitement du langage naturel
  • cybersécurité
  • diagnostic médical

Pour en savoir plus sur les huit principales applications de la data science et les cas d'utilisation associés, lisez l'article de Ronald Schmelzer, analyste principal et associé directeur chez Cognilytica, une société de recherche et de conseil qui se concentre sur l'IA.

Les défis de la data science

La data science est intrinsèquement difficile en raison de la nature avancée des analyses qu'elle implique. Les grandes quantités de données généralement analysées ajoutent à la complexité et augmentent le temps nécessaire pour mener à bien les projets. En outre, les data scientist travaillent souvent avec des pools de big data qui peuvent contenir une variété de données structurées, non structurées et semi-structurées, ce qui complique encore le processus d'analyse.

Common data science challenges
Ces obstacles font partie des défis auxquels sont confrontées les équipes de data science.

L'un des plus grands défis consiste à éliminer les biais dans les ensembles de données et les applications analytiques. Cela comprend les problèmes liés aux données sous-jacentes elles-mêmes et ceux que les scientifiques intègrent inconsciemment dans les algorithmes et les modèles prédictifs. Ces biais peuvent fausser les résultats des analyses s'ils ne sont pas identifiés et traités, créant des conclusions erronées qui conduisent à des décisions commerciales malavisées. Pire encore, ils peuvent avoir un impact néfaste sur des groupes de personnes - par exemple, dans le cas des préjugés raciaux dans les systèmes d'IA.

Trouver les bonnes données à analyser est un autre défi. Dans un rapport publié en janvier 2020, Afraz Jaffri, analyste chez Gartner, et quatre de ses collègues du cabinet de conseil ont également cité le choix des bons outils, la gestion des déploiements de modèles analytiques, la quantification de la valeur commerciale et la maintenance des modèles comme des obstacles importants.

Un article de Yujun Chen et Dawn Li, deux data scientists de la société de services de développement de logiciels Finastra, présente quatre meilleures pratiques pour les projets de data science afin d'aider à surmonter les défis.

Que font les data scientist et quelles sont les compétences dont ils ont besoin ?

Le rôle principal des data scientist est d'analyser des données, souvent en grande quantité, dans le but de trouver des informations utiles qui peuvent être partagées avec les dirigeants d'entreprise, les chefs d'entreprise et les travailleurs, ainsi qu'avec les fonctionnaires, les médecins, les chercheurs et bien d'autres encore. Les data scientist créent également des outils et des technologies d'IA destinés à être déployés dans diverses applications. Dans les deux cas, ils recueillent des données, développent des modèles analytiques, puis entraînent, testent et exécutent les modèles en fonction des données.

Par conséquent, les data scientist doivent posséder une combinaison de compétences en matière de préparation des données, d'exploration des données, de modélisation prédictive, d'apprentissage automatique, d'analyse statistique et de mathématiques, ainsi qu'une expérience des algorithmes et du codage - par exemple, des compétences en programmation dans des langages tels que Python, R et SQL. Nombre d'entre eux sont également chargés de créer des visualisations de données, des tableaux de bord et des rapports pour illustrer les résultats de l'analyse.

Key characteristics of data scientists
Les data scientist ont besoin d'une variété d'attributs professionnels et personnels.

En plus de ces compétences techniques, les data scientist doivent posséder un ensemble de compétences moins techniques, notamment une connaissance de l'entreprise, de la curiosité et un esprit critique. Une autre compétence importante est la capacité à présenter des informations sur les données et à expliquer leur signification d'une manière facile à comprendre pour les utilisateurs professionnels. Cela inclut des capacités de narration de données permettant de combiner des visualisations de données et des textes narratifs dans une présentation préparée.

Pour en savoir plus sur les compétences indispensables en data science, lisez l'article de Kathleen Walch, analyste principale et associée directrice chez Cognilytica.

Équipe de data science

De nombreuses organisations ont créé une équipe distincte, ou plusieurs équipes, pour gérer les activités de data science. Comme l'explique Mary K. Pratt, rédactrice spécialisée en technologie, dans un article sur la mise en place d'une équipe de data science, une équipe efficace ne se résume pas aux data scientist eux-mêmes. Elle peut également comprendre les postes suivants :

  • Ingénieur en données. Les responsabilités comprennent la mise en place de pipelines de données et l'aide à la préparation des données et au déploiement de modèles, en travaillant en étroite collaboration avec les data scientists.
  • Analyste de données. Il s'agit d'un poste de niveau inférieur pour les professionnels de l'analyse qui n'ont pas l'expérience ou les compétences avancées des data scientist.
  • Ingénieur en apprentissage automatique. Ce poste orienté vers la programmation consiste à développer les modèles d'apprentissage automatique nécessaires aux applications de data science.
  • Développeur de visualisation de données. Cette personne travaille avec des data scientist pour créer des visualisations et des tableaux de bord utilisés pour présenter les résultats d'analyse aux utilisateurs professionnels.
  • Traducteur de données. Également appelé traducteur analytique, il s'agit d'un rôle émergent qui sert de liaison avec les unités commerciales et aide à planifier les projets et à communiquer les résultats.
  • Architecte de données. L'architecte de données conçoit et supervise la mise en œuvre des systèmes sous-jacents utilisés pour stocker et gérer les données à des fins d'analyse.

L'équipe est généralement dirigée par un directeur de la data science, un responsable de la data science ou un scientifique des données en chef, qui peut rendre compte au responsable des données, au responsable de l'analyse ou au vice-président de l'analyse ; le scientifique des données en chef est un autre poste de direction qui a émergé dans certaines organisations. Certaines équipes de data science sont centralisées au niveau de l'entreprise, tandis que d'autres sont décentralisées dans des unités opérationnelles individuelles ou ont une structure hybride qui combine ces deux approches.

Intelligence économique vs. data science

À l'instar de la data science, la veille stratégique et le reporting ont pour objectif de guider la prise de décision opérationnelle et la planification stratégique. Mais la veille stratégique se concentre principalement sur l'analyse descriptive : Qu'est-ce qui s'est passé ou se passe actuellement et auquel une organisation devrait répondre ou faire face ? Les analystes BI et les utilisateurs de BI en libre-service travaillent principalement avec des données transactionnelles structurées qui sont extraites des systèmes opérationnels, nettoyées et transformées pour les rendre cohérentes, puis chargées dans un entrepôt de données ou un data mart à des fins d'analyse. Le suivi des performances, des processus et des tendances de l'entreprise est un cas d'utilisation courant de la BI.

La data science implique des applications analytiques plus avancées. Outre l'analyse descriptive, elle englobe l'analyse prédictive qui prévoit les comportements et les événements futurs, ainsi que l'analyse prescriptive, qui cherche à déterminer le meilleur plan d'action à adopter pour la question analysée.

Les types de données non structurées ou semi-structurées - par exemple, les fichiers journaux, les données de capteurs et le texte - sont courants dans les applications de data science, au même titre que les données structurées. En outre, les data scientist souhaitent souvent accéder aux données brutes avant qu'elles n'aient été nettoyées et consolidées afin de pouvoir analyser l'ensemble des données ou de les filtrer et de les préparer pour des utilisations analytiques spécifiques. Par conséquent, les données brutes peuvent être stockées dans un lac de données basé sur Hadoop, un service de stockage d'objets dans le cloud, une base de données NoSQL ou une autre plateforme de big data.

Technologies, techniques et méthodes de la data science

La data science s'appuie fortement sur les algorithmes d'apprentissage automatique. L'apprentissage automatique est une forme d'analyse avancée dans laquelle les algorithmes apprennent à connaître les ensembles de données et à y rechercher des modèles, des anomalies ou des idées. Il utilise une combinaison de méthodes d'apprentissage supervisé, non supervisé, semi-supervisé et de renforcement, les algorithmes bénéficiant de différents niveaux de formation et de supervision de la part des data scientist.

Il y a aussi l'apprentissage profond, une branche plus avancée de l'apprentissage automatique qui utilise principalement des réseaux neuronaux artificiels pour analyser de grands ensembles de données non étiquetées. Dans un autre article, M. Schmelzer, de Cognilytica, explique la relation entre la data science, l'apprentissage automatique et l'IA, en détaillant leurs différentes caractéristiques et la manière dont elles peuvent être combinées dans les applications analytiques.

Les modèles prédictifs sont une autre technologie de base de la data science. Les data scientist les créent en exécutant des algorithmes d'apprentissage automatique, d'exploration de données ou de statistiques sur des ensembles de données afin de prédire des scénarios commerciaux et des résultats ou comportements probables. Dans la modélisation prédictive et d'autres applications analytiques avancées, l'échantillonnage des données est souvent utilisé pour analyser un sous-ensemble représentatif de données, une technique d'exploration de données conçue pour rendre le processus analytique plus facile à gérer et moins long.

Les techniques statistiques et analytiques courantes utilisées dans les projets de data science sont notamment les suivantes :

  • la classification, qui sépare les éléments d'un ensemble de données en différentes catégories ;
  • la régression, qui représente les valeurs optimales de variables de données liées sur une ligne ou un plan ; et
  • le clustering, qui regroupe les points de données ayant une affinité ou des attributs communs.
Three popular types of data science techniques
Les trois types de techniques statistiques et analytiques les plus utilisées par les data scientists

Outils et plateformes de data science

De nombreux outils sont disponibles pour les data scientist dans le cadre du processus d'analyse, y compris des options commerciales et open source :

  • les plateformes de données et les moteurs d'analyse, tels que Spark, Hadoop et les bases de données NoSQL ;
  • les langages de programmation, tels que Python, R, Julia, Scala et SQL ;
  • des outils d'analyse statistique tels que SAS et IBM SPSS ;
  • les plateformes et bibliothèques d'apprentissage automatique, notamment TensorFlow, Weka, Scikit-learn, Keras et PyTorch ;
  • Jupyter Notebook, une application web permettant de partager des documents contenant du code, des équations et d'autres informations ; et
  • les outils et bibliothèques de visualisation de données, tels que Tableau, D3.js et Matplotlib.

En outre, les fournisseurs de logiciels proposent un ensemble varié de plateformes de data science dotées de caractéristiques et de fonctionnalités différentes. Il s'agit notamment de plateformes d'analyse pour les data scientist qualifiés, de plateformes d'apprentissage automatique qui peuvent également être utilisées par des data scientist amateurs, et de plateformes de flux de travail et de collaboration pour les équipes de data science. La liste des fournisseurs comprend Alteryx, AWS, Databricks, Dataiku, DataRobot, Domino Data Lab, Google, H2O.ai, IBM, Knime, MathWorks, Microsoft, RapidMiner, SAS Institute, Tibco Software et d'autres.

Pour en savoir plus sur les meilleurs outils et plateformes de data science, consultez l'article du rédacteur technique Pratt.

Carrières en data science

L'augmentation de la quantité de données générées et collectées par les entreprises s'accompagne d'un besoin accru en data scientist. Cela a entraîné une forte demande de travailleurs ayant une expérience ou une formation en data science, ce qui fait que certaines entreprises ont du mal à pourvoir les postes disponibles.

Dans une enquête menée en 2020 par la filiale Kaggle de Google, qui gère une communauté en ligne pour les data scientist, 51 % des 2 675 personnes interrogées employées en tant que data scientist ont déclaré être titulaires d'un master, 24 % d'une licence et 17 % d'un doctorat. De nombreuses universités proposent désormais des programmes de premier et de deuxième cycle en data science, qui peuvent constituer une voie directe vers l'emploi.

Les personnes qui occupent d'autres fonctions peuvent également suivre une formation de scientifique des données, une option très prisée par les organisations qui ont du mal à trouver des scientifiques expérimentés. Outre les programmes universitaires, les futurs data scientist peuvent participer à des camps d'entraînement en data science et à des cours en ligne sur des sites web éducatifs tels que Coursera et Udemy. Divers fournisseurs et groupes industriels proposent également des cours et des certifications en data science, et des quiz en ligne sur la data science permettent de tester et d'acquérir des connaissances de base.

En décembre 2020, le site de recherche d'emploi et d'évaluation d'entreprises Glassdoor indiquait un salaire de base moyen de 113 000 dollars pour les data scientists aux États-Unis, avec une fourchette de 83 000 à 154 000 dollars ; le salaire moyen d'un data scientist senior était de 134 000 dollars. Sur le site d'offres d'emploi Indeed, les salaires moyens étaient de 123 000 dollars pour un data scientist et de 153 000 dollars pour un data scientist senior.

Comment les industries s'appuient sur la data science

Avant de devenir eux-mêmes des fournisseurs de technologie, Google et Amazon ont été les premiers utilisateurs de la data science et de l'analyse des grandes données pour des applications internes, tout comme d'autres entreprises de l'internet et du commerce électronique telles que Facebook, Yahoo et eBay. Aujourd'hui, la data science est largement répandue dans les organisations de toutes sortes. Voici quelques exemples de son utilisation dans différents secteurs d'activité :

  • Divertissement. La data science permet aux services de diffusion en continu de suivre et d'analyser ce que les utilisateurs regardent, ce qui contribue à déterminer les nouvelles émissions de télévision et les nouveaux films qu'ils produisent. Les algorithmes basés sur les données sont également utilisés pour créer des recommandations personnalisées en fonction de l'historique de visionnage de l'utilisateur.
  • Services financiers. Les banques et les sociétés de cartes de crédit exploitent et analysent les données pour détecter les transactions frauduleuses, gérer les risques financiers liés aux prêts et aux lignes de crédit et évaluer les portefeuilles de clients afin d'identifier les possibilités de vente à la hausse.
  • Soins de santé. Les hôpitaux et autres prestataires de soins de santé utilisent des modèles d'apprentissage automatique et d'autres composants de data science pour automatiser l'analyse des radiographies et aider les médecins à diagnostiquer les maladies et à planifier les traitements sur la base des résultats précédents des patients.
  • Fabrication. Les utilisations de la data science chez les fabricants comprennent l'optimisation de la gestion de la chaîne d'approvisionnement et de la distribution, ainsi que la maintenance prédictive pour détecter les défaillances potentielles de l'équipement dans les usines avant qu'elles ne se produisent.
  • Commerce de détail. Les détaillants analysent le comportement des clients et leurs habitudes d'achat afin de proposer des recommandations de produits personnalisées et de cibler la publicité, le marketing et les promotions. La data science les aide également à gérer les stocks de produits et leurs chaînes d'approvisionnement afin de maintenir les articles en stock.
  • Transport. Les entreprises de livraison, les transporteurs de marchandises et les prestataires de services logistiques utilisent la data science pour optimiser les itinéraires et les horaires de livraison, ainsi que les meilleurs modes de transport pour les expéditions.
  • Voyages. La data science aide les compagnies aériennes à planifier les vols afin d'optimiser les itinéraires, la planification des équipages et le nombre de passagers. Les algorithmes permettent également de faire varier les prix des vols et des chambres d'hôtel.

D'autres utilisations de la data science, dans des domaines tels que la cybersécurité, le service à la clientèle et la gestion des processus d'entreprise, sont courantes dans différents secteurs. Un exemple de cette dernière utilisation est l'aide au recrutement des employés et à l'acquisition de talents : L'analyse permet d'identifier les caractéristiques communes des personnes les plus performantes, de mesurer l'efficacité des offres d'emploi et de fournir d'autres informations pour faciliter le processus d'embauche.

Examples of common data science applications
Voici six applications courantes pour les data scientist.

Histoire de la data science

Dans un article publié en 1962, le statisticien américain John W. Tukey a écrit que l'analyse des données "est intrinsèquement une science empirique". Quatre ans plus tard, Peter Naur, pionnier danois de la programmation de logiciels, a proposé la datalogie - "la data science et des processus de données" - comme alternative à l'informatique. Il a ensuite utilisé le terme "data science" dans son ouvrage de 1974, Concise Survey of Computer Methods, en le décrivant comme "la science du traitement des données", mais encore une fois dans le contexte de l'informatique et non de l'analyse.

En 1996, la Fédération internationale des sociétés de classification a inclus la data science dans le nom de la conférence qu'elle a organisée cette année-là. Dans une présentation faite à cette occasion, le statisticien japonais Chikio Hayashi a déclaré que la data science comprenait trois phases : "la conception des données, la collecte des données et l'analyse des données" : "la conception des données, la collecte des données et l'analyse des données". Un an plus tard, C. F. Jeff Wu, un professeur d'université américain né à Taïwan, a proposé que les statistiques soient rebaptisées "data science" et que les statisticiens soient appelés "data scientist".

Découvrez 13 livres sur la data science qui vous permettront d'approfondir vos connaissances sur les questions, les outils et les techniques.

L'informaticien américain William S. Cleveland a défini la data science comme une discipline analytique à part entière dans un article intitulé "Data Science : An Action Plan for Expanding the Technical Areas of Statistics", publié en 2001 dans l'International Statistical Review. Deux revues de recherche axées sur la data science ont été lancées au cours des deux années suivantes.

La première utilisation du terme "data scientist" en tant que titre professionnel est attribuée à DJ Patil et Jeff Hammerbacher, qui ont décidé conjointement de l'adopter en 2008 alors qu'ils travaillaient respectivement chez LinkedIn et Facebook. En 2012, un article de la Harvard Business Review coécrit par Patil et l'universitaire américain Thomas Davenport qualifiait le data scientist de "métier le plus sexy du 21e siècle". Depuis, la data science n'a cessé de gagner en importance, alimentée en partie par l'utilisation accrue de l'IA et de l'apprentissage automatique dans les organisations.

L'avenir de la data science

Alors que la data science devient de plus en plus répandue dans les organisations, les scientifiques citoyens sont appelés à jouer un rôle plus important dans le processus d'analyse. Dans son rapport 2020 Magic Quadrant sur les plateformes de data science et d'apprentissage automatique, Gartner indique que la nécessité de prendre en charge un large éventail d'utilisateurs de la data science est "de plus en plus la norme". L'une des conséquences probables est l'utilisation accrue de l'apprentissage automatique, y compris par les data scientist qualifiés qui cherchent à rationaliser et à accélérer leur travail.

Approfondissez vos connaissances en suivant ces blogs sur la data science.

Gartner a également cité l'émergence des opérations d'apprentissage automatique (MLOps), un concept qui adapte les pratiques DevOps du développement de logiciels dans le but de mieux gérer le développement, le déploiement et la maintenance des modèles d'apprentissage automatique. Les méthodes et outils MLOps visent à créer des flux de travail standardisés afin que les modèles puissent être planifiés, construits et mis en production plus efficacement.

Parmi les autres tendances qui affecteront le travail des data scientist à l'avenir, citons la pression croissante en faveur d'une IA explicable, qui fournit des informations pour aider les gens à comprendre comment l'IA et les modèles d'apprentissage automatique fonctionnent et dans quelle mesure ils peuvent se fier à leurs résultats pour prendre des décisions, ainsi que l'accent mis sur les principes de l'IA responsable conçus pour garantir que les technologies d'IA sont équitables, impartiales et transparentes.

Cette définition a été mise à jour en avril 2019

Pour approfondir sur Outils décisionnels et analytiques