Dans un projet DAM, l’intégration des données existantes, à savoir leur injection et leur qualification dans une (nouvelle) solution DAM, est toujours une étape qui pose de nombreuses questions pour nos clients. C’est une étape redoutée, car elle signifie parfois dans l’imaginaire de nos clients, un travail humain énorme pour obtenir de bons résultats.
Grâce à de nombreuses années d’expérience, nous connaissons ces problématiques et avons construit les solutions et l’accompagnement permettant le succès de ce que l’on appelle les reprises de données. Nous nous proposons ici de mettre en lumière notre méthode et nos connaissances, qui permettent chaque jour de mener à bien cette étape cruciale des projets DAM que nous réalisons.
Aussi, avant d’expliquer les moyens mis en œuvre pour cette étape, il convient de rétablir quelques vérités sur la méthode employée et les résultats réellement possibles. De manière générale, penser que les médias qui n’ont jamais été qualifiés dans un outil seront aussi facilement recherchables après la reprise de données que les futurs médias qui seront gérés directement par le DAM est une erreur. C’est d’ailleurs de ce sentiment que naît l’idée chez nos clients d’un travail humain énorme à réaliser pour avoir une base correctement indexée.
Cependant, cela ne signifie pas pour autant qu’ils seront difficilement exploitables et qu’il ne sera pas possible d’y accéder simplement.
Ephoto Dam est une solution puissante qui permet de nombreuses recherches croisées, par des tris et des filtres notamment, qui vous permettent de retrouver vos médias en exploitant toutes leurs caractéristiques. En revanche, ces médias ne rentreront pas immédiatement dans la nouvelle structure documentaire attendue avec la mise en place d’un DAM.
Vous allez définir avec l’aide de nos documentalistes et iconographes un idéal, permettant au média d’être retrouvable facilement, d’être correctement gérés juridiquement, tout en préservant un temps d’indexation assez court que le retour sur investissement entre qualification et recherche reste positif. Un équilibre atteint et représenté par un langage documentaire sur mesure.
Quand les médias n’ont jamais été indexés, l’objectif de la reprise de données est de les rendre exploitables dans la solution DAM et non de les rendre parfaitement indexés selon cet idéal. Pour autant, il ne faut pas abandonner cet objectif et nous y reviendrons plus loin. Quand on connaît mieux les objectifs à atteindre, on est plus efficace dans la mise en œuvre des méthodes et moyens pour les atteindre.
Maintenant que les bases sont posées, intéressons nous au détail de la méthode employée pour intégrer et indexer ces données dans le cadre d’un projet Ephoto Dam.
Non.
Il y a globalement deux types de tris possibles auxquels on pense :
Dans le premier cas, si le tri n’a pas été fait avant, le faire lors du projet DAM ne fera que le ralentir. Votre projet DAM va vous permettre de normaliser votre pratique d’editing des médias à leur réception et c’est une très bonne chose. Mais le faire à cet instant ne fera que retarder le 2ème tri, qui lui, rendra immédiatement votre base de données plus « propre ». Dans le deuxième cas donc, notre expérience nous a permis de développer des algorithmes et scripts permettant un tri technique rapide et réalisé par des machines dédiées ultra performantes. Nous comparons tous les médias entre eux sur la base de leur contenu « pixels » pour en retirer les doublons. Peut importe donc leur définition, leur format ou encore leur nom de fichier, les doublons seront identifiés. Il est également possible à cette étape de nous indiquer les règles générales qui peuvent aider le tri :
Concernant le cas particulier des fichiers sources type RAW ou rushes, dans l’immense majorité des projets DAM ils ne sont pas intégrés à Ephoto Dam pour plusieurs raisons :
Non.
L’ensemble des données déjà présentes vont être exploitées : métadonnées encapsulées, nom des dossiers, nom des fichiers, etc.
Au fil des reprises, nous avons développés de nombreux scripts permettant d’extraire l’information de vos médias et de l’utiliser pour classer vos médias dans le langage documentaire produit dans le cadre du projet.
Nous aurons en effet besoin d’informations de votre part sur vos médias afin d’indexer le maximum d’entre eux. En revanche, ces sollicitations sont ciblées :
Grâce à des interventions ciblées provenant de notre analyse des données, le service rendu en termes d’indexation est sans commune mesure avec un travail manuel.
Pas à 100%.
L’indexation obtenue est la somme des informations existantes mais requalifiées afin d’être exploitables facilement et conformément au langage documentaire. En revanche, toutes vos attentes de qualification des médias ne sont pas remplies par cette phase. Certaines données comme un nom d’auteur par exemple peut manquer sur vos données précédentes. En revanche, Ephoto Dam est fait pour réintégrer cette information massivement et les médias sont exploitables, recherchables et disponibles pour la diffusion depuis votre DAM bien plus facilement qu’auparavant.
On en vient donc naturellement à la question suivante :
Nous sommes ici sur un point crucial et qui est source de beaucoup d’inquiétude. Toute méthode à mettre en œuvre ici va dépendre des volumes, mais on peut toutefois dégager des lignes directrices fortes qui vont vous guider.
La première c’est qu’il faut rapidement prendre les bonnes habitudes avec Ephoto Dam et ne pas continuer à gérer des médias dans un système de dossiers parallèle. Autrement, vous continuerez en réalité à générer de la future reprise de données. Dans la reprise de données et d’indexation que nous effectuons, il est rare d’avoir des données où aucune information n’a pu être exploitée. Pour autant, même si une partie des données sera finalement indexée de manière tout à fait acceptable, la plus grande partie de la reprise sera dans un entre deux : suffisamment qualifiée pour être exploitée mais suffisamment perfectible pour que l’on ait envie d’aller plus loin dans l’indexation.
La méthode qui voudrait que l’on traite tous ces médias à la chaîne jusqu’à ce que tout soit conforme est une mauvaise idée. C’est impossible, personne ne veut réaliser cela de cette manière, même un professionnel de la documentation dont c’est une partie du métier. Ne cherchez pas non plus de solution miracle du côté de l’IA. Même si elle peut rendre de précieux services, elle n’est en aucun cas experte de votre corpus et s’en tiendra donc à une indexation superficielle. C’est d’ailleurs pour changer cet état de fait que nous disposons du 1er et du seul ANR Labcom consacré à l’IA appliquée spécifiquement au DAM !
La solution est donc de traiter ces données au fil de l’eau et plusieurs déclencheurs peuvent être identifiés pour cela.
Tout d’abord, vous aurez certainement besoin en priorité des ou de la dernière année de votre production audiovisuelle. L’effort peut être concentré ici dans un premier temps.
Ensuite, au fil de vos besoins de diffusion de médias, de recherches de reportages des années précédentes, d’une rétrospective sur un projet donné, un avant / après sur une réalisation, c’est l’occasion de traiter les données. Vous n’aurez pas de difficultés à les retrouver elles ne seront pas 100% conformes au niveau de description attendu désormais. C’est alors l’occasion de compléter les quelques items manquants.
Ephoto Dam dispose d’outils et de workflows facilités pour ces opérations qui petit à petit finalement, permettent à la base d’être de mieux en mieux indexée.
Si vous ne disposez pas déjà d’une personne dédiée, un professionnel de la documentation établi en freelance ou un étudiant, pourra aussi vous permettre de réaliser cette indexation.
Enfin, et c’est un 3ème tri que nous n’avons pas évoqué plus haut, procéder ainsi va naturellement faire ressortir les médias dont vous avez besoin des médias moins utiles. Vous aurez plusieurs choix de traitement pour ces médias, mais au moins, vous n’aurez pas concentrer d’efforts et de temps à des données qui finalement ne vous serviront pas.
Tout projet Dam doit s’assortir d’une réflexion sur la politique documentaire à mener et notamment de quand les médias sortent d’Ephoto Dam pour repartir sur un stockage froid. Après 2 ou 3 ans d’Ephoto Dam, ces médias qui finalement ne sont réclamés par personne et dont personne n’a donc pris le temps de compléter les indexations sont peut-être les premiers qui repartiront vers un système d’archivage.
Ironie du processus, ce sont alors peut être des archivistes qui vont chercher à compléter l’indexation de ces médias dans un souci d’archivage. Mais ils le feront peut-être par lot ou par reportage, qui est alors un travail différent du traitement d’une reprise de données.
Nous n’avons pas évoqué les médias qui provenaient d’autres outils avec une indexation déjà réalisée car cela est finalement très simple. Dans ces cas-là, nous réalisons un mapping des données entre l’ancienne structure documentaire et Ephoto Dam, tout en opérant un certain nombre de normalisations si nécessaire. Les données sont alors retrouvées dans Ephoto Dam sans aucune perte. Toutefois, quelques conseils évoqués plus haut peuvent quand même s’appliquer à ce type de reprise.
Au fil des projets Ephoto Dam et grâce à leur diversité, nous avons pu établir une méthode et un accompagnement basés sur ces principes, qui ont permis le succès de nombreux projets de nos clients.
Aujourd’hui, nous continuons de peaufiner et d’adapter cette méthode aux nouveaux défis qui se présentent à nous comme les volumes de données de plus en plus conséquents ou encore la disparité grandissante des formats, en utilisant des outils comme l’IA par exemple, pour ne citer que lui.
Toujours prêts pour de nouveaux défis, nous sommes à votre disposition pour parler de votre projet DAM !
Interview de Martin Malapert
Iconographe – Chef de projet Production