J’ai rejoint beta.gouv il y a 9 mois pour accompagner des startups d’État sur le cadrage, le prototypage, et la pérennisation de projets autour de la science des données. Cet article vise à guider tout service numérique public qui hésite à investir dans la valorisation de ses données.
Toute startup d’État ou service numérique public génère des données, et ce dès ses premiers balbutiements. Données utilisateurs et métier, données techniques (logs, erreurs, etc.), ou données récupérées auprès de partenaires institutionnels ou privés. Se pose donc rapidement et naturellement la question de l’utilisation et de la valorisation de ces données.
Voilà les 3 questions à se poser avant de démarrer l’aventure “data”.
Il est parfois tentant de vouloir à tout prix trouver une utilité à ses données. Après tout, l’industrie nous affirme à longueur de journée que la data est le pétrole du 21ème siècle et qu’il serait dommage de rester assis sur une telle opportunité — vite, vite, des cas d’usage data !
Le problème avec cette expression est qu’elle n’est pas exacte. Les données n’ont absolument aucune valeur intrinsèque et ne sont utiles que dans la mesure où elles permettent de résoudre un réel problème métier ou usager.
La bonne approche consiste donc à toujours partir d’un problème ou d’un irritant dont la résolution apporterait réellement de la valeur aux utilisateurs et utilisatrices du service numérique public. Puis, dans un second temps, on peut se demander si la science des données propose des outils pertinents pour y apporter une solution.
S’inspirer de ce qui se fait dans d’autres startups d’état ou suivre les activités du Lab IA de la DINUM permet de se familiariser aux types de problématiques que la science des données peut aider à résoudre, ainsi que certains catalogues agrégeant des cas d’usage data.
En bref, les principaux cas d’usages envisageables avec des données sont :
Si partir d’un bon cas d’usage doit être le point de départ de tout projet data, s’assurer de disposer des bonnes données permettant de l’aborder est également essentiel. La science des données n’est pas magique : il est impossible d’analyser ou de prédire des variables qui ne sont pas d’abord mesurées.
Une base de données de qualité est bien plus importante pour le succès d’un projet que l’utilisation de modèles compliqués. L’exemple de Signaux Faibles l’illustre bien : l’acquisition récente d’une nouvelle base de données sur les retards de paiements de factures des entreprises a permis au modèle prédictif de gagner en performances sans toucher au modèle algorithmique.
En phase d’investigation, lister l’ensemble des données disponibles pour le projet est donc très utile, en particulier :
Cet exercice permet par la suite de lister les données dont le projet ne dispose pas et qui devront être récupérées afin de permettre de travailler sur les cas d’usage envisagés.
Cette étape de collecte de données est souvent longue et difficile. Signaux Faibles a par exemple passé plusieurs mois à récupérer un historique de procédures collectives ainsi que des données sur la santé économique des entreprises avant de pouvoir commencer à entraîner un algorithme prédictif de la défaillance sur cet ensemble de données.
Il vaut souvent mieux commencer par de petits échantillons de données — souvent obtenus à des fins d’exploration et donc plus facilement — qui permettent de rapidement se rendre compte de leur qualité et de leur potentiel, et donc de bien gérer la balance coût d’acquisition de la donnée / utilité.
L’expression maladroite “faire de la data” recouvre des réalités bien différentes, et l’industrie a convergé vers trois grands types de postes que l’on peut grossièrement placer sur un spectre allant du métier au technique.
Ces profils archétypaux représentent plutôt des sommes de compétences et se recoupent souvent en pratique. On peut très bien trouver des data scientists avec de très bonnes connaissances en ingénierie logicielle, des data engineers passionnés par la data visualisation, ou des data analysts naviguant volontiers dans l’univers du machine learning.
Dans tous les cas, un écueil à éviter à tout prix est celui du “recrutement data avant la data”. J’ai déjà vu des data scientists (ou analysts) découvrir le jour de leur prise de poste qu’ils n’ont aucune donnée facilement accessible à se mettre sous la dent ! Recruter un profil data sans avoir de données à lui fournir est un petit peu comme recruter un chauffeur de bus sans avoir de bus : ce chômage technique forcé ne sera bon ni pour le moral de vos recrues, ni pour votre budget.
En résumé, si vous n’aviez que 4 choses à retenir :