Tu veux nous parler aujourd’hui du big data. Pourquoi ?
Pour la simple raison que nous utilisons tous le terme et que j’ai l’impression que nous ne savons pas toujours clairement à quoi ça correspond, ni pourquoi c’est important… à part le fait que tout le monde en parle.
Et aussi, bien sûr, parce que je pense que c’est en train de changer la façon dont nous utilisons les technologies de l’information, leur impact sur notre vie… et même notre façon de penser et de voir le monde.
Commençons par un exemple :
- Shigeomi Koshimizu, un professeur de Tokyo a décidé de mesurer la façon dont nous posons nos postérieurs sur un siège de voiture.
- Pour cela il a identifié 360 points différents qu’il mesure sur une échelle qui va de 1 à 256. Je te laisse calculer la quantité de données que ça permet de recueillir.
A première vue ça paraît bizarre… MAIS…
- le résultat est qu’il peut dire avec 98% de succès si la personne qui s’assied est bien celle qui est sensée s’asseoir (ce qui peut servir contre les voleurs) ;
- et la comparaison avec des données sur les accidents de voiture devrait lui permettre de repérer quand quelqu’un s’endort, ce qui pourrait déclencher une alarme et réduire les accidents.
Comme quoi on peut mesurer des choses surprenantes et en tirer des informations utiles.
Nous passons ainsi de l’accent mis sur la digitalisation à l’accent mis sur la datafication (un anglicisme que tu me pardonneras j’espère).
C’est bien joli tout ça mais tu ne m’as toujours pas donné de définition du big data…
J’y vais. Voici ce qu’en disent les auteurs d’un livre et d’un article sur le sujet paru dans Foreign Affairs de mai-juin 2013 d’où je tire l’essentiel de l’explication et des exemples.
Big Data commence avec le fait qu’il y a beaucoup plus d’information accessible que dans le passé et qu’on s’en sert de façons nouvelles. Or, quand nous disposons de quantités considérables d’informations, nous pouvons apprendre des choses indécouvrables si nous en avons moins
En termes simples tout change quand au lieu d’avoir des milliers ou des millions de « points de données » – comme disent les pros – on a accès à des milliards.
- Un des exemples les plus connus est celui du service de traduction de Google qui en comparant des milliards de pages de textes entre deux langues obtient une traduction supérieure à ce que permet l’intelligence artificielle.
- Autre exemple, dont nous avons déjà parlé il y a un certain temps : en mettant en parallèle les questions posées sur son moteur de recherche et les épidémies de grippe aux Etats-Unis sans se préoccuper du contexte dans lequel elles sont posées, Google a montré qu’il peut prévoir de telles épidémies.
Quand les gens commencent à se renseigner sur les maux de tête et les nés qui coulent c’est que la maladie approche. Ce système prédictif est supérieur à celui des institutions qui sont obligées d’attendre que les gens viennent consulter le médecin pour savoir qu’il se passe quelque chose.
J’imagine qu’on n’obtient pas de tels résultats en traitant n’importe quel type de données n’importe comment…
L’explication donnée dans l’article de Ken Cuckier et Viktor Mayer-Schoenberger m’a paru particulièrement claire et intéressante :
- Premier point : on ramasse tout ce qu’on peut. Les statistiques traditionnelles se voulaient un travail intelligent sur une petite quantité de données. Maintenant on prend tout.
- Deuxièmement : au lieu de chercher à choisir avec précision les données signifiantes on travaille volontiers avec des données en désordre ou qui apparemment ne veulent pas dire quand chose… comme la taille et le mouvement de nos postérieurs… mais qui permettent d’arriver à de très grandes quantités e données.
- Troisièmement et c’est là que nous devons apprendre à penser différemment : il faut renoncer à toujours comprendre la cause – toujours complexe – des choses et accepter qu’on peut faire des merveilles en comprenant leurs relations.
Exemple : l’entreprise de messageries UPS a mis des capteurs en certains points de ses véhicules dont elle sait que leur échauffement provoque souvent une panne. UPS n’a pas besoin de savoir pourquoi il suffit de connaître la fréquence de la corrélation pour changer la pièce au garage plutôt que dans la rue.
Il en va de même avec la machine humaine. Les canadiens ont mis au point un système qui mesure les signes vitaux des bébés prématurés et recueille plus de mille données par seconde ce qui permet d’agir avant de comprendre pourquoi le risque pourrait se réaliser.
N’est-ce pas un peu inquiétant ?
Ça l’est bien sûr… en partie. Prenons quelques exemples :
- Dans la version positive, la ville de New York est capable de déterminer grâce au big data les logements où il y a les plus gros risques d’incendies meurtriers.
- Dans la version ambiguë il y a le fait que les compagnies d’assurances peuvent savoir exactement les risques que nous représentons en fonction de notre façon de conduire… Chacun saura pourquoi il ou elle est pour ou contre.
- Dans la version inquiétante il y a le fait que le gouvernement britannique est maintenant capable de prévoir une manifestation violente en comparant les données des manifestations passées et celles qu’il obtient en temps réel et donc d’enrayer la protestation avant qu’elle ne s’exprime
Mais je crois aussi que nous pouvons obtenir plus de transparence en exigeant l’open data – le fait que ces données soient accessibles à tous – et en dénonçant les abus qui sont faits.
Une fois de plus – et tu connais mes positions sur ce sujet – le big data n’est pas en soi bon ou mauvais. C’est une nouvelle phase dans le développement technologique.
Nous devons comprendre que les problèmes d’hier ne se posent plus de la même façon et apprendre à lutter sur ce nouveau terrain pour en limiter les abus – contre la vie privée par exemple – et en développer les côtés positifs : dans le domaine de la santé, par exemple.
Billet publié sur le site de l’atelier des médias, émission de RFI