Les données de l’IA, l’illusion du consentement

La notion de donnée est inséparable de celle de traitement, un peu comme la matière est de l’énergie stabilisée, et l’énergie de la matière en transformation. Il est alors douteux de désigner les données comme des objets caractérisables.

Photo by Barbara Zandoval on Unsplash

Définition

tiliser un modèle c'est donc exploiter quelque chose de partiellement ou totalement standardisé et n'apportant pas intrinsèquement d’information sémantique sur la nature du quelque chose.

Une distinction simple et intuitive vaut, entre le modèle théorique (encore faudrait-il préciser de quel champ théorique) et le modèle efficace (mais voudrait-on ici parler de “programme”?). Mais elle n’épuise pas le sujet.

Il faudrait, à chaque emploi du terme “modèle”, préciser (comme on pourrait le faire pour un triangle). Veut-on parler du modèle de données (leur structure) ? du modèle calculable (celui issu de l’apprentissage) ? etc. et que fait-on de l’effet de dérive, c’est à dire du fait que, au cours de la vie des programmes, le modèle, s’il garde en général les qualités génériques par lesquelles on le reconnaissait, voit modifier ses valeurs intrinsèques et donc par conséquent, éventuellement l’utilité ou les avantages qu’on lui avait trouvée ?

Difficulté

“Données” évoque pour beaucoup “données personnelles”, c’est-à-dire : renseignements sur les gens. C’est le sens du fameux RGPD. D’autres y voient un peu plus clair : ils pensent “informations en général”. On est ici assez proche de la notion de connaissance. Or la connaissance, c’est la représentation intellectuelle de celui qui est en prise avec une interface type : écran d’ordinateur. Derrière l’écran : les données. Dans le cerveau de celui qui regarde : de la connaissance.

Mais la donnée en informatique, c’est de l’information à disposition pour du traitement, en particulier du calcul. L’information est bien une instance a priori non signifiante, purement fonctionnelle. La donnée ou l’information, c’est ce qui sera traitée par un programme. 

On voit que la mobilisation mainstream de la notion, dans une rhétorique plus ou moins : évaluer les données - améliorer les algorithmes - obtenir un meilleur résultat, est sujette à caution.

Danger

Ainsi, le sens courant de la donnée attire l’attention sur l’écume de la vague, et pas du tout sur la profondeur de l’océan pour prendre une parabole facile.

Le danger d’une telle réduction, c’est au moment de la régulation, un rabattement sur les seules questions de droits subjectifs - individuels (et encore davantage, sur les seuls droits de la personnalité) au risque de masquer le techno-pouvoir, ou système de contrôle évoqué ailleurs dans ce document.

Par ailleurs, la représentation fausse selon laquelle la donnée serait instructive et informative, plutôt qu’opératoire et prescriptive (ce qu’elle est, puisqu’elle se fera, dans l’ordinateur, traitement), favorise la pensée théorique en silo au détriment de l’intelligence pratique, prudente mais résolue.

Enfin, le “information” dans “information technology” signifie avant tout “signal destiné au traitement”.[1] On n’est pas tout à fait dans le cadre bourgeois des nouvelles du jour de la rubrique des chiens écrasés, ni même de la prédiction d’embouteillages à partir d’une base de données géo-spatiale.

[1]Deleuze : " l'information, c'est exactement le système du contrôle."

Proposition

Préciser, à chaque emploi de la notion de donnée, de quel type de données on veut parler, en particulier, s’interroger sur toutes les “autres données”, celles qui n’auront pas de retentissement direct sur l’écran, ni directement pour une prise d’option ou une décision, mais qui y pèsent toutefois, ne serait-ce qu’au plan énergétique du calcul. (pour évoquer simplement ce dernier point : tout changement de 1 en 0, ou de 0 en 1, occasionnera une sur-consommation électrique par rapport à l’état de veille d’un ordinateur).

Vous n'êtes pas d'accord ? Vous voulez participer ? Vous avez une objection ? Une question ? Contribuez !