Le Small Data ou comment faire mieux avec moins
I have no doubt that it is possible to give a new direction to technological development, a direction that shall lead it back to real needs of man, and that also means, to the actual size of man. Man is small, and therefore, small is beautiful” (Ernst Friedrich Schumacher)
En 2020, plus de 64 mille milliards de milliards d’octets de données ont été créés ou répliqués. Chaque minute 184 millions d’emails sont envoyés dans le monde, 583 000 tweets sont postés et 5.8 millions de recherche sont effectués sur Google. Les chiffres sont si impressionnants que certains en viennent à parler d’un véritable “Big Bang” de la donnée.
En théorie, ce “Big Data” permettrait d’optimiser le fonctionnement de nos sociétés et de générer des gains de productivité. Combiné avec des techniques d’Intelligence Artificielle (IA), il pourrait même contribuer à décarboner nos villes et nos systèmes de production.
Dans les faits, le Big Data cristallise de nombreuses problématiques. En plus d’être particulièrement énergivore et responsable d’une part grandissante de nos émissions de CO2, ses infrastructures nécessitent des métaux rares dont l’extraction est hautement nocive pour la biodiversité. Par ailleurs, il est de plus en plus reproché au Big Data de menacer la vie privée ainsi que les libertés individuelles tout en favorisant les structures monopolistiques. Autrement dit, d’être une technologie qui concentre le pouvoir et les richesses autour d’un nombre restreint d’acteurs.
En deçà du Big Data: le Small Data
Face à ces inquiétudes grandissantes, plusieurs chercheurs et entrepreneurs ont décidé de prendre le problèmes à rebours en développant du “Small Data”. Là où l’ordre d’échelle du Big Data est de l’ordre de centaines de milliers voir de plusieurs millions de données, le Small Data désigne quelques centaines ou milliers de données.
Habituellement de tels jeux de données sont considérés comme insignifiants car inadaptés aux exigences des IA conventionnelles. Ces dernières ont en effet besoin de Big Data pour se perfectionner et être opérationnelles. Dans ce paradigme, l’effort et le travail de calibrage sont portés sur l’algorithme plutôt que sur les données qu’il analyse.
En 2021, le chercheur Andrew Ng a proposé de renverser ce paradigme en faisant du “Data-Centric AI”. Autrement dit de concentrer le travail d’ingénierie sur les donnée afin d’améliorer leur qualité et de réduire le temps d’apprentissage des algorithmes. La pratique n’est pas totalement nouvelle mais la particularité de Andrew Ng est d’avoir amorcé une dynamique internationale autour de ce mouvement, entre autres avec la création du Data-Centric AI Hub. Plusieurs dizaines de recherches scientifiques se développent ainsi autour de cette approche tandis que les marchés financiers sont de plus en plus réceptifs à cette innovation (comme en témoigne en France la récente levée de fonds de My Data Models).
Le Small Data : une technologie frugale et démocratique ?
L’un des premiers intérêts du Small Data est d’offrir de significatifs gains computationnels et donc énergétiques. Certaines recherches ont ainsi montré que le Data-Centric AI pourrait réduire de 92% la consommation énergétique des IA. Cela ne signifie pas nécessairement que le Small Data sera écologique (entre autres du fait de possibles effets rebonds) mais il laisse entrevoir une frugalité technologique qui pourrait aboutir sur des systèmes techniques moins carbonés et plus respectueux du vivant.
L’autre avantage du Small Data est de réduire la barrière à l’entrée autour de l’IA. S’il devient possible d’utiliser significativement moins de données pour développer et déployer des algorithmes apprenants, alors plus d’acteurs pourront utiliser ces technologies. Ici, l’enjeu n’est pas seulement économique mais aussi politique. Dans une société qui érige les chiffres en vérité, le Small Data rééquilibre les rapports de force. C’est par exemple ce que fait en Belgique le projet Telraam en fournissant à des citoyens des capteurs de comptage de véhicules. Une fois agrégées et analysées par ces mêmes citoyens, ces données de mobilité deviennent des outils de négociation politique pour inciter les municipalités à transformer les voiries (par exemple en installant des ralentisseurs).
En 1964, l’historien Lewis Mumford observait que certaines techniques semblent intrinsèquement autoritaires là où d’autres sont démocratiques. Cette opposition sera reprise un demi siècle plus tard par l’anthropologue David Graeber qui distinguera les technologies bureaucratiques des technologies poétiques. Là où les premières se caractérisent par le gigantisme, l’opacité et la centralisation, les dernières sont fragiles, malléables et évolutives. Nous ne savons pas si le Big Data et le Small Data prolongent cette dualité. Ce qui est sûr en revanche, c’est que le Small Data distribue plus équitablement la capacité de raconter et transformer le réel.