ENTRETIEN AVEC GEORGES BRESSANGE AUTOUR DU BIG DATA
Episode 1
07 février 2022
Qu'est-ce que le Big Data ? Histoire et raison d'être
Le “Big Data” désigne littéralement les “grosses données” ou “données massives”. On parle aussi de “déluge de données” ou de “data masse” par analogie avec la biomasse. Ce terme a commencé à apparaître à la fin des années 1990, à une époque où le volume des données numériques produites commençait à poser de sérieux problèmes. Mais comment s’explique cette augmentation considérable de volume ? Et quel(s) problème(s) exactement commençaient à se poser ?
Jusqu’à la fin des années 90, les quantités de données produites par les systèmes informatiques restaient relativement limitées. Le système de gestion de base de données relationnelles (SGBDR) était devenu la référence pour le stockage de données, sans avoir été remis en cause durant des années car il répondait à 90 % des besoins. Et quand les entreprises s’échangeaient des données entre elles, elles le faisaient au travers de flux de données normalisés et structurés.
Georges Bressange
Cependant, dans certains contextes, le volume de données recueillies pouvait être suffisamment important pour commencer à parler de “big data” (un article de la NASA pose le problème dès 1997 [1]) et mettre en lumière les limitations des bases de données relationnelles, à savoir aussi bien en termes de capacités de stockage que de temps de traitement des données.
Il faut se rappeler que l’internet est apparu en 1990 (son ancêtre était Arpanet, né en 1971 [2]) et avec lui, nous avons assisté progressivement à une augmentation toujours plus marquée du volume de données échangées et partagées jusqu’à l’explosion de la bulle internet en 2000.
Pour fixer les idées, donnons quelques chiffres concernant le nombre d’ordinateurs connectés sur le réseau depuis 1984 [3]
[1] Michael Cox and David Ellsworth, NASA, Managing Big Data for Scientific Visualization, 1 Mai 1997
[2] CIGREF “World Wide Web, toute une histoire !”
[3] Wikipedia “Histoire d’Internet”
Cette production de données a encore été amplifiée par l’émergence des géants du web (Google en particulier, créé en 1998 avec la mise au point de son moteur de recherche Google Search mais aussi Amazon Web Services lancé en 2002) et du Cloud Computing qui ont rendu possible l’accès à des infrastructures basées sur des ressources ajustables à coûts plus adaptés (stockage et traitement) et permis l’aboutissement de nombreux projets innovants.
Enfin, avec le développement des réseaux sociaux (LinkedIn en 2003, Facebook en 2004, YouTube en 2005, twitter en 2006, WhatsApp en 2009, Instagram en 2010, …), l’explosion de l’internet mobile sur les smartphones et les ordinateurs portables ainsi que de l’Internet des Objets (essentiellement des capteurs en tout genre), cette production de données a fini par croître de manière exponentielle.
Pour bien se rendre compte de l’évolution du volume de données créées annuellement, le tableau ci-dessous en donne des esimations en térabytes (TB) (Nous avons tous des disques durs qui contiennent quelques terabytes) [4] :
En termes de volume mondial de données générées, on considère que nous sommes aujourd’hui à l’ère du zettabyte (1 zettabyte vaut environ 1 milliard de TB). En 2021, on estime donc qu’on a produit 79 zettabytes soit 40 fois plus qu’en 2010. Une projection pour 2022 donne 97 zettabytes et le volume devrait approximativement doubler d’ici 2025.
Le concept et la définition du Big Data
Après avoir été une idée assez floue au départ, différents experts ont progressivement formalisé le concept de “Big Data”. La première caractérisation du Big Data date de 2001. Elle est due à Doug Laney [5] qui travaillait alors au Meta Group (qui sera acquis par Gartner en 2004).
Il caractérise le Big Data par les fameux “3 V” : Volume, Vélocité et Variété.
- Volume : le volume de données considéré doit être suffisammment grand. Que veut dire “grand” exactement ? Il s’agit en fait d’une valeur relative à l’exploitation qu’on veut en faire. Il peut s’agir d’un volume effectivement très important qui pose donc des problèmes de stockage (il faut une infrastructure adaptée et à moindre coût) mais il peut aussi s’agir d’un volume de données pas nécessairement très grand mais dont l’analyse nécessite trop de temps de traitement si on utilise l’informatique conventionnelle. Par exemple, si on 1 Terabyte de données (ce qui n’est pas grand du tout aujourd’hui) mais qu’on a besoin de l’analyser et de restituer certains résultats en 1 seconde, on sera quand même dans une problématique Big Data car l’informatique traditionnelle est trop lente. Il faut donc le plus souvent disposer à la fois d’infrastructures de stockage adaptées mais aussi de technologies performantes de traitement de la donnée.
- Vélocité (ou Vitesse) : Les données collectées arrivent de plus en plus vite ainsi que les données créées et nécessitent d’être traitées de plus en plus rapidement. La génération de données a changé par rapport aux applications traditionnelles telles que la facturation ou la production, où les données ne sont générées que pendant les heures de production et sont limitées au nombre de factures par jour ou à la quantité de production par jour. Les nouvelles applications telles que les alertes basées sur des événements ou la surveillance des flux de contrôle nécessitent un traitement rapide des données. Les entreprises veulent désormais consulter les résultats en temps réel et voir l’impact de chaque nouvelle transaction. Cela a donné naissance à une nouvelle dimension de l’analyse des données, appelée “analyse en continu”.
- Variété : Le volume ne provient pas uniquement des données structurées ou des applications basées sur des bases de données. Les ensembles de données ont beaucoup de nouveaux formats. Les médias sociaux sont l’une des nouvelles variétés les plus importantes qui ont émergé. Les entreprises veulent savoir ce que les utilisateurs pensent de leurs produits sur les médias sociaux et planifier leurs stratégies futures en conséquence. Les médias sociaux permettent également de connaître la propagation des maladies épidémiques et de planifier la distribution des vaccins en conséquence. Les applications RFID, les grandes quantités de PDF, les courriers électroniques, les messages vocaux et les vidéos enregistrés, etc. viennent s’ajouter à la variété des données.
[5] Douglas Laney, 3D Data Management: Controlling Data Volume, Velocity and Variety, Application Delivery Strategies, Meta Group, 6 Feb 2001, pp 1-4.
Plus récemment, de nouveaux “V” ont été ajoutés à la définition du Big Data :
- Véracité : Dans quelle mesure les données collectées sont-elles fiables ? Sont-elles “exactes” ? à jour ? Cela est d’autant plus important dans le contexte actuel d’intoxication médiatique et de fakenews.
- Valeur : Dans quelle mesure les données stockées sont-elles pertinentes pour le business de l’entreprise qui les collecte ? Quelles sont les données qui valent la peine d’analyser ? Les “bonnes données” à analyser sont apelées les “Smart Data”. Il existe aussi ce qu’on appelle les “Dark Data” qui sont les données dormantes stockées et non traitées. Dans quelle mesure faut-il les analyser ? Sachant que tout stockage et tout traitement génère des coûts.
- Variabilité : La structure contextuelle du flux de données est-elle régulière et fiable ? La signification des données peut être en constante évolution par rapport au contexte dans lequel elles sont générées.
En conclusion, il est important de souligner que le Big Data aujourd’hui ne se réfère pas seulement au volume énorme de données produites et à ses “3 V” ou “6 V” mais à l’ensemble des technologies qui vont permettre de stocker, de traiter ces données et surtout d’en extraire de la valeur.
Dans le prochain épisode, nous parlerons plus en détails des enjeux et des défis que pose le Big Data ainsi que des solutions technologiques qui ont été développées pour y répondre.