L’IA, au cœur de la mue numérique de France Télévisions
Dans les coulisses, France Télévisions multiplie les usages de l’intelligence artificielle. Cette croissance des usages de la data science s’inscrit dans la volonté de répondre aux défis du numérique, plus particulièrement de la montée en puissance de la SVOD. Cependant, les enjeux éditoriaux du groupe poussent davantage à l’innovation.
France Télévisions fait face à un impératif : il doit s’adapter aux nouveaux usages portés par les SVOD (subscription video on demand ou vidéo à la demande par abonnement), sous peine de se retrouver dépassé par les champions du secteur. En clair, le groupe audiovisuel ne peut ignorer l’impact et l’influence de Netflix, Amazon Prime Video, Disney + ou encore Molotov sur son audience.
Depuis 2016, France Télévisions a entamé sa mue numérique sous l’impulsion de Delphine Ernotte, sa présidente, qui elle-même réagissait à un rapport de la Cour des comptes publié la même année. Après avoir créé une chaîne d’informations en continu (FrancetvInfo – issue d’un partenariat avec Radio France, entre autres), France Télévisions a intensifié le « combat » du replay et du streaming.
En ce sens, il s’est associé en 2018 avec M6 et TF1 pour lancer la plateforme SVOD Salto, concurrentes de services cités plus haut.
En 2019, le numérique représentait 1 009 millions d’euros du total du coût des grilles (2 103 millions), soit près de 48 % des dépenses allouées à ce pôle. Il faut dire que les résultats d’audience imposent ces investissements : en 2019, France.tv affiche plus de 100 millions de vidéos vues par mois, une hausse de 25 % par rapport à l’année précédente.
Ces changements de taille entraînent de nouveaux besoins aussi bien pour les équipes de production, du marketing que pour les journalistes. L’analytique et l’intelligence artificielle sont perçus par la direction de France TV comme des moyens afin de répondre à ces enjeux.
Pour y répondre, Frédéric Brochard, directeur des technologies (CTO et DSI) de France Télévisions a créé le département Data et Intelligence artificielle en cours de l’année 2019.
Premier enjeu pour France TV : consolider son équipe de data science
Seulement, constituer une équipe Data&IA efficace n’est pas chose aisée.
« Aujourd’hui, quand on cherche à former une équipe Data/IA, les personnes compétentes sur le marché sont globalement jeunes […] On ne trouve pas de prestataires expérimentés à des tarifs accessibles pour un acteur du service public », affirme Matthieu Parmentier, Responsable du département Data et Intelligence Artificielle (daIA) chez France Télévisions.
De plus, enrôler des prestataires en provenance de différents horizons, c’est prendre le risque de se confronter à des divergences méthodologiques. Matthieu Parmentier a donc entamé un appel d’offres pour engager des ingénieurs et des développeurs de la même entreprise. « Je souhaitais qu’ils partagent un cadre méthodologique commun, une manière commune de lancer et de déployer des projets d’IA afin de maximiser leur passage en production ».
Vingt-cinq réponses recevables et quatre mois de sélection plus tard, France Télévisions a retenu les services de Capgemini. « Cela nous a permis de doubler les effectifs de notre équipe Data&IA. Nous avons rapidement perçu les bénéfices d’une méthodologie. Si nous avons peu de recul depuis le début de la prestation en octobre 2020, les personnes partagent les mêmes objectifs, réalisent leurs livrables de la même manière et font attention aux mêmes détails ».
« Notre département compte une vingtaine de membres, dont une quinzaine de métiers de la data. Nous avons quelques data scientists, principalement des data engineers et des data analysts ainsi que des développeurs full stack. La plupart des collaborateurs sont formés au machine learning. Une équipe idéale comporte un développeur full stack, un analyste, un ingénieur et un scrum master », énumère Matthieu Parmentier.
De son côté, Capgemini apporte non seulement un cadre méthodologique, mais également des outils pour identifier les cas d’usage les plus pertinents de l’intelligence artificielle au sein du groupe audiovisuel.
Il ne s’agit là que de quelques ingrédients nécessaires à la poursuite des projets du département créé il y a un peu plus d’un an. « Nous nous concentrons depuis le départ sur les données qui ont le plus de valeur à circuler dans l’entreprise, y compris entre les professionnels de France Télévisions, c’est-à-dire les données associées aux programmes », relate le directeur du département daIA.
Chez France Télévisions, les programmes, ce sont les séries, les films, les émissions ou encore les documentaires. Ils sont majoritairement produits par le groupe audiovisuel, notamment à travers France.tv studio (680 heures de programmes produites par an, 20 000 heures de sous-titrage pour sourds & malentendants fabriquées par an, 766 heures de programmes doublés, sous-titrés et audiodécrits par an). L’entreprise détient également deux sociétés de production de cinéma (France 2 et France 3 Cinéma : 60, 3 millions d’euros investis en 2019). En sus, il possède les droits de diverses séries, films ou de contenus jeunesse qui alimentent ses grilles linéaires (France 2, France 3, France 4, France 5, France Info) et ses plateformes web : France.tv, France.tv Slash, Okoo, Lumni et maintenant Salto.
Le responsable évoque ici les métadonnées qui qualifient un programme « soit un élément particulier, soit une séquence, soit un personnage, une actrice/un acteur, une époque, un accessoire, etc. ».
Le Deep Learning au service de l’enrichissement des programmes
Être attentif à ce type de détails génère un volume conséquent de points de données. Elles sont collectées dans des dizaines de systèmes d’information différents : des outils dédiés au suivi de la réalisation, à la fabrication des programmes chez France TV et les producteurs externes, aux bancs de montage vidéo comme Avid, Dalet ou d’autres solutions cloud natives spécifiques à certaines séries telles « Un si grand soleil ».
« Tous les jours, un de mes outils me fournit un metadata master pour l’épisode quotidien d’Un si grand soleil, dans lequel je récupère beaucoup de données issues de la postproduction. Je sais quand commence le générique de début et quand il se termine, quelles sont les séquences dans lesquelles je peux insérer une publicité sans faire sursauter les téléspectateurs qui visionnent le programme en replay », illustre Matthieu Parmentier. À cela s’ajoutent les informations des audiences associées à la plage horaire sur laquelle est diffusée la vidéo.
Matthieu ParmentierResponsable du département Data et Intelligence Artificielle (daIA), France Télévisions
L’équipe daIA utilise ses propres solutions d’IA pour passer au crible les images, la transcription du son ou les sous-titres d’un contenu afin d’en extraire les informations nécessaires aux activités du groupe audiovisuel. « Cela permet de détecter les faux positifs et de conserver les informations qui ont vraiment du sens. Cela vient aussi enrichir les données des programmes », indique le responsable.
La division applique différents types de traitements. Outre l’analyse des métadonnées, elle recourt notamment à des algorithmes de vision par ordinateur et de Speech to text. Les premiers servent à la détection d’objets, de visage et d’échelle de plans, afin de délimiter les séquences. Les seconds permettent d’automatiser une partie du travail d’audiodescription et doivent faciliter l’ajout de sous-titres aux programmes. Ces modèles sont exécutés depuis une plateforme de traitement propre à France Télévisions, hébergée en cloud.
Cette plateforme de microservices se nomme Media Cloud AI. Elle est le fruit d’un projet open source commun entre France TV et Media IO, une société spécialisée dans l’intelligence artificielle appliquée au média. Elle permet d’effectuer des opérations en parallèle.
« Quand nous analysons une fiction, nous invoquons entre sept et dix réseaux de neurones développés avec TensorFlow, MxNet ou encore Pytorch », liste le directeur.
Les modèles de machine learning et de deep learning sont systématiquement packagés dans des images docker, tandis que l’architecture de Media Cloud AI repose sur Kubernetes.
Confier les résultats des traitements IA aux collaborateurs
Une fois les traitements terminés, ces informations étaient jusqu’alors consolidées sur un lac de données multicloud. Les développeurs de France TV commencent à les exposer sur la plateforme de Digital Asset Management de la start-up française Perfect Memory. Le groupe audiovisuel a choisi cette solution dans le cadre d’un appel d’offres séparé de celui de Capgemini. À terme, le DAM permettra aux métiers de France Télévisions et aux producteurs externes de consulter des indicateurs sur le contenu des programmes et leur audience.
Perfect Memory propose une solution de gestion de ressources média qui s’appuie sur un orchestrateur couplé à un moteur de règles, un moteur de recherche sémantique et une interface dotée d’un lecteur pour accéder aux contenus.
Cela permet de qualifier chaque programme, familles de programme, genre, ou sous-genre pour les valoriser et les enrichir, note Perfect Memory.
« Nous n’avions pas de DAM, il était nécessaire de mettre à disposition le plus rapidement possible les données agrégées. Dès que la première version du DAM sera disponible en janvier 2021, nous allons pouvoir faire mieux et c’est Perfect Memory qui va détecter, en fonction de règles métiers, les différentes chaînes d’enrichissement IA les plus appropriées pour un contenu ».
La plateforme de Perfect Memory doit notamment détecter les données manquantes. L’équipe daIA peut alors développer des jobs pour les compléter et automatiser leur activation depuis le DAM. Appliqués à ces métadonnées, les algorithmes de France Télévisions permettent d’automatiser la sélection d’extraits à diffuser sur les réseaux sociaux, de choisir la vignette représentative d’un programme, mais aussi de valoriser des données de production.
Par exemple, France Télévisions imagine la possibilité d’enrichir un placement de produits dans un programme en affichant une publicité sur le site web de la plateforme sur laquelle il est proposé. Il serait également possible d’obtenir davantage d’informations sur un acteur, d’affiner les possibilités des moteurs de recherche des plateformes de rediffusion, ou encore de proposer des annonces liées aux produits dérivés d’un film ou d’une série.
Actuellement, France Télévisions détient les droits d’environ 500 000 programmes. Près d’un millier de métadonnées sont récoltées par contenu, ce qui représente au maximum 500 millions de clés valeurs. « Ce n’est pas du big data, donc cela ne nécessite pas une très grosse infrastructure. En revanche, nos microservices d’IA traitent des images et du son, des volumes de données conséquents et énormément de processus différents y sont appliqués pour dégager les bonnes informations », explique Matthieu Parmentier.
Optimiser les traitements et les coûts
Dès lors, le coût des opérations dans le cloud est important. « Nous avons besoin de beaucoup de ressources GPU, de grosses fermes de calcul ». En ce sens, les développeurs de France Télévisions ont œuvré pour que la plateforme de microservices puisse être multicloud, afin de profiter si possible des tarifs préférentiels des fournisseurs du groupe. Pour l’instant, ils sont exécutés depuis les clusters d’un seul fournisseur.
« Mon obsession c’est d’être écologique et économique et de ne surtout pas traiter deux fois le même programme, ce qui n’est toujours pas garanti. De plus, nous scindons nos microservices afin d’optimiser les machines sur lesquelles ils s’exécutent suivant la précision des traitements. Les ressources GPU sont de loin ce qui coûte le plus cher. L’approche multicloud nous permettra à terme de réaliser des économies d’échelle ».
Matthieu ParmentierFrance Télévisions
Le département DaIA travaille notamment avec les chercheurs de Telecom SudParis spécialisés dans le traitement d’intelligence artificielle dédié à la vidéo. « Nous avons plusieurs projets de recherche et l’efficacité énergétique est l’un des premiers axes de R&D. Nous cherchons les meilleures méthodes pour ce cela coûte le moins cher possible aux contribuables et à la planète ».
« Nous travaillons beaucoup sur la détection des émotions. Les data scientists sont vraiment mus par la volonté d’obtenir les meilleurs algorithmes, mais je les challenge sur la frugalité », ajoute Matthieu Parmentier.
Démarrer et éteindre les bonnes instances au bon moment ne suffit pas, selon le directeur. La réutilisation des traitements et des modèles s’avère l’une des clés de voûte pour réduire les frais liés à l’IA.
« Quand l’on veut segmenter une fiction, nous pouvons analyser les visages des acteurs, non pour faire de la reconnaissance faciale, mais pour connaître automatiquement la durée d’une séquence. Nous nous sommes rendu compte qu’avec une étape intermédiaire, nous pouvons réutiliser les mêmes résultats […] C’est la plus grosse piste d’économie aujourd’hui ».
La réutilisation des algorithmes, une piste pour innover
La présidente de France Télévisions a notamment pour ambition d’étudier la parité femme-homme dans les programmes et sur les plateaux de télévision. L’une des pistes explorées par daIA consisterait à réutiliser cette étape intermédiaire pour effectuer ce traitement statistique en associant les visages reconnus au genre des protagonistes.
L’équipe de daIA veut d’abord se pencher sur les capacités du système Speech Trax, imaginé par des chercheurs passés par l’INA. Ce démonstrateur doit servir à la reconnaissance audio de locuteurs en combinant un algorithme de Speech to Text, qui indique les propos d’un locuteur, un traitement OCR, pour trouver son nom dans les bandeaux des journaux TV et un modèle basé sur la distance de Levensthein pour rapprocher les deux informations. Speech Trax permet alors d’identifier le temps de parole des interlocuteurs.
De nouveaux projets, une nouvelle échelle
Ce type de traitement impliquerait pour France TV une montée en charge de ses équipes et des ressources informatiques.
« Aujourd’hui, nous ne faisons que de l’IA simple. Cela ne veut pas dire que l’on n’applique pas des méthodes de deep learning, mais nous ne sommes pas encore penchés sur des solutions qui nécessitent un entraînement quotidien », détaille Matthieu Parmentier.
« A contrario, quand nous entraînons un modèle pour distinguer une échelle de plan, un mouvement de caméra d’un autre, nous savons qu’il n’y a pas besoin d’appliquer des révisions : les méthodes de réalisation seront les mêmes dans trente ans et sûrement au-delà ».
Pour autant, l’équipe Data&IA entend lancer des projets bien plus importants dès 2021 et c’est l’une des raisons pour lesquelles France Télévisions a réalisé l’appel d’offres remporté par Capgemini. Il ne s’agira plus de traiter des contenus « froids » comme des documentaires, des séries ou des téléfilms, mais bien d’appliquer l’intelligence artificielle à l’actualité.
« C’est un autre pendant de notre activité qui consiste à assister les journalistes. Nous aurons donc à manipuler une matière qui change tous les jours. Il faut au moins que nos modèles soient réactualisés toutes les nuits » anticipe le directeur.
Un autre projet de taille attend l’équipe de data science, et concerne Pierre de Coubertin et cinq anneaux de couleurs. Le groupe audiovisuel souhaite s’armer technologiquement pour mieux couvrir les trois prochaines éditions des Jeux olympiques.
« Nous allons monter une chaîne olympique qui devrait prendre l’antenne au moment des JO de Tokyo prévu à l’été 2021, puis Pékin en hiver 2022. Toutes les données qui concernent le sport prendront davantage de place dans notre datalake. Nous allons faire en sorte d’être prêts pour 2024 [Les JO de Paris]. Nous aurons beaucoup d’outils et de projets qui auront maturé », prédit Matthieu Parmentier.
L’objectif est de confier aux journalistes des outils de data visualisation lors d’événements sportifs. Là encore Matthieu Parmentier évoque la possibilité de sélectionner un DAM et de fournir d’autres services d’IA pour la rédaction des sports et les rédactions nationales et locales.
« Dans les deux cas, il s’agit de traiter des données qui se périment rapidement alors que les programmes et leurs données peuvent être rentables dix ans. Mais si une donnée valable deux heures peut nous en faire gagner une, nous réfléchirons à l’utiliser afin d’optimiser la réalisation des reportages, par exemple ».
Heureusement, Media Cloud IA, la plateforme de déploiement des modèles, elle, est agnostique du type de contenu. « Nous pouvons potentiellement indiquer s’il s’agit d’une fiction, d’un débat politique ou un match de Roland-Garros, afin d’invoquer différents algorithmes ou les mêmes, mais avec des paramètres différents », assure le responsable.
Un autre projet DAM dans l’audiovisuel
DAM et marketing digital : Salto mise sur une start-up française
Pour le lancement du « Netflix français », la co-entreprise TF1/France TV/M6 a fait le choix de se doter d’une solution de Digital Asset Management. Et elle a choisi celle du Français Perfect Memory. Le responsable du projet explique pourquoi.