Big Data : ne pas exagérer, merci

Je compile ici des articles coup de gueule sur le Big Data en indiquant la date de première publication.

A la recherche du V perdu dans le Big Data (3 avril 2014)

Le Big Data est devenu un concept très à la mode en informatique ou, plus exactement, en systèmes d’information. Pour des raisons marketing, il a été défini par 3 « V » : vélocité, variété, volume. Il s’agit en effet de savoir collecter et traiter des données d’origines et de formats très variées, se renouvelant ou s’accumulant avec un fort rythme et, enfin, constituant au final un gros volume.
Et puis les « V » se sont succédés : visualisation, valeur… Il en manque à mon avis un : vertu.
L’objectif courant du Big Data est de traiter de grandes quantités d’informations afin de délivrer un service toujours plus personnalisé. Par exemple, on va croiser vos relations sur des réseaux sociaux avec votre consommation d’un produit pour recommander ce produit à vos amis. Ou on va inviter des gens qui se connaissent à voyager ensemble. Sans leur demander au préalable s’ils le souhaitent.
Et c’est là que vient un manque terrible : le V de vertu.
Imaginons deux individus qui sont respectivement client et vendeur. Ils se connaissent sur les réseaux sociaux professionnels. Et ils ont l’idée de partir chacun de son côté avec sa famille en vacances. Il se trouve que les deux « amis » vont prendre le même avion. Veulent-ils vraiment passer le vol complet l’un à côté de l’autre, ne sachant pas quoi se dire et n’ayant pas envie de travailler en vacances avec leurs épouses ? Si le système propose juste de passer le vol ensemble, le fait de refuser ne risque-t-il pas d’être insultant pour l’autre ?
La vertu est de toujours faire ce qui va dans l’intérêt des personnes concernées. Et le Big Data en manque singulièrement bien des fois.

Ouverture du journal télévisé du soir : un chaton fait des cabrioles (20 novembre 2014)

Dans la foulée de la folie Big Data viennent des quantités d'outils et de méthodes qui veulent absolument faire parler un maximum de données. Typiquement, pour découvrir les tendances et attentes des clients, certains veulent absolument analyser sans précaution ce qui se passe sur les réseaux sociaux.
Le jour où les rédacteurs en chef des journaux télévisés se fieront à ces outils pour fixer les titres, l'ouverture du journal télévisé du soir se fera sur un chaton qui fait des cabrioles.

Caricature ? Oui, sans aucun doute. Mais à peine.

Tout d'abord, rappelons ce qu'est le Big Data. Comme c'est le fonds de commerce actuel des consultants et fournisseurs en tous genres, que j'ai déjà fait un billet sur le sujet (voir ci-dessus), qu'il y a de multiples discours autour de ce concept, tenons-nous en aux bases consensuelles. Il s'agit de 3V : volume, variété, vélocité. Concrètement, il s'agit d'exploiter la totalité des données disponibles et d'en tirer des enseignements, par exemple (et c'est notre sujet du jour) en matière d'analyse et de prédiction de comportement. Les autres usages ne sont pas abordés ici.
La possibilité de stocker et de traiter des quantités incroyables de données est bien sûr liée au fait que les outils informatiques nécessaires ont désormais un coût raisonnable (autrement dit : ridiculement bas). De ce fait, il devient aisé et abordable de tout conserver et de tout analyser.
Et on en arrive à des absurdités telle que le chaton ouvrant le journal télévisé...
En effet, les données ont parfois un sens qui échappe aux analystes compulsifs et aux marketeurs fous. C'est un drame régulier de vouloir faire dire des choses à des données qui ne peuvent pas. Les données ont beau être torturées, elles ne peuvent pas révéler ce qu'elles ignorent. Alors, elles disent n'importe quoi.
Dans l'exemple du chaton, où est le problème ?
L'attitude des gens sur les réseaux sociaux (du moins Facebook) est plutôt ludique. On y partage des choses amusantes, distrayantes, ou d'usage ludique, à tendance émotionnelle. Il arrive, mais c'est rare, qu'il y ait des échanges sérieux. Mais ce n'est pas le lieu d'une réflexion profonde, argumentée.
Tout ce que l'on peut tirer des données extraites de Facebook, par exemple, c'est donc ce qui amuse les gens pour quelques secondes. Réponse : les chatons qui font des cabrioles.
Mais la vie ne se résume pas à des choses ludiques, amusantes, où règne l'émotion instantanée. Vouloir prédire des comportements à partir de ce type de données est juste une imbécilité sauf à se contenter de prédire ce qui relève de l'amusement ou du sentiment instantané.
Pire, toujours pour rester dans le même exemple, un journal télévisé qui ouvrirait sur des cabrioles de chatons perdrait immédiatement toute audience. En effet, les attentes vis-à-vis d'un journal télévisé sont aux antipodes de ce que l'on souhaite dans les échanges instantanés sur les réseaux sociaux. Pour vendre une assurance obsèques, filmeriez-vous des chatons en train de jouer dans des cercueils ? Je doute que ce serait efficace (sauf pour faire le buzz et attirer les gens vers un argumentaire sérieux).
Les exemples que j'ai pris ci-dessus sont simples, caricaturaux, etc. Mais j'espère vous avoir convaincu que vouloir faire dire des choses à des données est dangereux si l'on ne sait pas exactement ce que ces données peuvent signifier.