9 décembre 2020 4078 mots, 17 min. de lecture Dernière mise à jour : 21 avril 2023

Data visualisation : définition, exemples, outils, conseils [guide 2023]

Par Pierre-Nicolas Schwab Docteur en marketing, directeur de IntoTheMinds
La Data Visualisation (« visualisation des données » en français, ou « dataviz » pour les initiés) est la discipline qui s’attache à représenter sous forme graphique des données brutes. Visualiser les données doit avoir pour but de créer de la valeur. Ces dernières […]

La Data Visualisation (« visualisation des données » en français, ou « dataviz » pour les initiés) est la discipline qui s’attache à représenter sous forme graphique des données brutes. Visualiser les données doit avoir pour but de créer de la valeur. Ces dernières années ont vu l’émergence de nouveaux outils et pratiques autour de la data visualisation, mais également celle de nouveaux métiers. J’ai mis cet article à jour en Avril 2023 pour refléter les évolutions des solutions de dataviz et en particulier la perçée de PowerBI face aux autres solutions comme Tableau ou Qlik.

Dans cet article nous commencerons par vous donner la définition de data visualisation et illustrerons avec un exemple concret les 5 niveaux dans la visualisation des données. Nous couvrirons ensuite l’évolution des pratiques de data visualisation, puis passerons en revue les différents outils disponibles. Pour finir, nous vous donnerons des conseils pratiques pour vous mettre à la dataviz.

J’ai voulu couvrir l’essence du sujet et offrir différentes perspectives. Si vous avez des suggestions, n’hésitez pas à les mettre en commentaire. Si vous avez besoin de conseils en matière de dataviz, n’hésitez pas non plus à me contacter par email ou via Linkedin.

Si vous n’avez que 30 secondes

  • La data visualisation (ou visualisation des données, ou dataviz) vise à explorer de grandes quantités de données en utilisant un support visuel
  • On distingue 5 niveaux dans la data visualisation (0 à 4) selon les outils utilisés et les objectifs poursuivis
  • La data visualisation trouve ses racines dans la nécessité de faire sens de quantités de données brutes en quantité trop importante
  • Des exemples de visualisations très anciennes sont documentés dès le XVIème siècle
  • 3 phases peuvent être distinguées en matière de développement des outils de visualisation

Sommaire


Introduction

Il ne vous aura pas échappé que les données sont devenues un enjeu majeur pour toutes les entreprises. La « data science » est passée d’un buzzword il y a encore 5 ans, à une priorité pour beaucoup d’entreprises. Cela se retrouve d’ailleurs dans les termes de recherche sur Google (voir graphique ci-dessous). On notera à l’occasion que le terme « data visualisation » semble être largement préféré depuis 2010 à celui de « dataviz ».

La demande pour les data scientists a augmenté de 59% entre 2018 et 2019. La Harvard Business Review en faisait d’ailleurs le job le plus sexy du XXIème siècle dans un article de 2012. On aurait toutefois tort de penser que la data visualisation est une pratique nouvelle. Elle a été pratiquée de tout temps pour rendre compte sous forme visuelle de la complexité d’un problème ou de l’évolution d’une situation. Dès le XIXème siècle des chercheurs en sciences sociales comme Charles Booth ont visualisé les données qu’ils récoltaient pour matérialiser leurs découvertes. Visualiser un problème a ceci de positif que la compréhension en est facilitée. Ne dit-on pas qu’une bonne image vaut mieux qu’un long discours ?


Data visualisation : définition

Qu’est-ce que la data visualisation ? Il s’agit de la pratique qui consiste à représenter des données sous forme graphique pour en faciliter la compréhension. J’insiste sur la dimension « faciliter la compréhension » car c’est là l’intérêt d’une bonne visualisation par rapport à un tableau plein de chiffres. La masse de données dont les entreprises disposent augmente de manière exponentielle, renforçant par là l’importance de la visualisation des données.

Cet accroissement constant a été théorisé par la règle des 4V d’IBM (voir graphique ci-dessous, crédits IBM) et explique l’émergence d’outils de visualisation des données ad hoc. Les premiers outils à des fins business (Tableau, Qlik) sont apparus il y a déjà plus de 10 ans. Avec eux est également apparu un nouveau terme : la business intelligence (ou BI pour les intimes). Gartner fait chaque année un benchmark complet de tous les outils disponibles sur le marché.

4V du Big Data

Les 4V (Vélocité, Variété, Volume, Véracité) du Big Data ont été théorisé par IBM. Ces 4 attributs permettent de comprendre l’accélération à l’œuvre dans le domaine des données et d’apprécier l’importance de la data visualisation comme pratique permettant de créer de la valeur.


Visualisation des données : les 5 niveaux expliqués avec un exemple concret

Un exemple valant mieux qu’un long discours alors j’ai pensé qu’un cas concret serait à même de vous éclairer. Je vous propose de vous faire saisir l’intérêt de la visualisation des données en reprenant une thématique que j’ai traitée en 2020, celle des flux migratoires vers l’Union Européenne.

Niveau 0 : données brutes

Le Niveau 0 de la dataviz ce n’est bien entendu pas de dataviz du tout. Dans l’exemple qui nous occupe vous vous retrouverez dès lors avec un fichier de quelques milliers de lignes. Les données sont très granulaires et une ligne est donc créée pour chaque segment de migrants. De plus, la base de données comporte également beaucoup de valeurs nulles pour les segments vides. A titre d’exemple, l’Estonie n’a pas accueilli de migrants de plus de 18 ans en provenance d’Afghanistan.

Niveau 1 : visualisation agrégée sous Excel

Le niveau 1 de la data visualisation c’est ce que vous pouvez réaliser avec un outil comme Excel. Un histogramme, un camembert, une courbe, ce sont déjà des formes (simples) de visualisation des données et cela peut déjà suffire. Il n’est donc pas étonnant que beaucoup de sociétés y aient recours et s’en contentent. Pour poursuivre sur l’exemple précédent on se retrouve donc avec une visualisation de l’évolution du nombre de migrants par année. A ce stade le lecteur est donc face à une visualisation statique qui présente un niveau de granularité assez faible. Explorer les données plus en profondeur requérerait de multiplier les graphiques de ce type pour comparer par exemple les évolutions par pays, par classe d’âge, par sexe, etc … Ces informations étant de natures différentes et les pays de de provenance et de destination étant nombreux, il serait malaisé de représenter tout cela sur un seul graphique.

Niveau 2 : données de différentes natures sur un seul et même graphique

Faire abstraction des représentations graphiques simples (histogrammes, diagrammes circulaires, courbes, …) permet de rentrer de plain-pied dans ce qui constitue l’essence de la data visualisation. Passer du niveau 1 au niveau 2 requiert une certaine dose de créativité et d’expérience pour créer des représentations visuelles qui donnent accès à de vrais insights. Ce qui différencie d’après moi le spécialiste de la dataviz de l’utilisateur d’Excel c’est précisément cela : la capacité à créer une représentation visuelle qui permette d’aller au-delà des conclusions les plus évidentes. C’est cette même frontière qui sépare le monde de la BI de celui de la data science. Dans le cas qui nous occupe on peut donc imaginer qu’une visualisation de niveau 2 mêlerait des données de provenance, de genre et de volumes. C’est ce que j’ai rapidement essayé de faire ci-dessous.

Niveau 3 : visualisation interactive des données

Les outils les plus puissants du marché permettent de créer des visualisations interactives. L’utilisateur devient l’acteur de ses découvertes basées sur la data. Il a l’opportunité, en activant des filtres et des options, de faire varier la visualisation en fonction de ses besoins. On passe donc d’une représentation visuelle statique à une représentation dynamique. L’exemple ci-dessous, que j’ai mis en ligne sur Tableau Public, permet à l’utilisateur de passer d’un pays à l’autre, d’observer les variations années après année, pour chaque sexe. Des insights supplémentaires sont mis à disposition sous la forme de classements mis à jour automatiquement. Je vous invite à tester ce dashboard dynamique par vous-même en vous rendant sur ma page Tableau Public.

Niveau 4 : le data Art ou le niveau ultime de la visualisation des données

Le dernier niveau de la data visualisation (dont j’essaye à grand peine de m’approcher avec des réalisations comme celle-ci ou celle-là), ajoute une dimension esthétique à l’ensemble. L’exploration des données et la mise au jour d’insights ne sont plus suffisantes. Il faut encore que le résultat soit beau, digne de figurer sur le mur de votre living. La profession de « data artist » est d’ailleurs en vogue avec des artistes comme Nicholas Rougeux (que nous avons déjà reçu sur notre podcast) ou la fantastique Federica Fragapane. Dans cette catégorie, les outils utilisés relèvent plus de la palette du graphiste que de celle de l’analyste.

Sowerby mineralogy poster Nicholas Rougeux

Les visualisations de Nicholas Rougeux sont tellement belles qu’il les commercialise sous forme de poster. Sur cette photo on voit le travail qu’il a effectué sur le thème de la minéralogie.


Une perspective historique sur la visualisation des données

Lorenz Codomann, Chronographia (1596)

Lorenz Codomann, Chronographia (1596)

Si la pratique qui consiste à rendre compte de manière graphique d’un problème n’est pas neuve, le terme « data visualisation » l’est sans doute plus. En mesurant la popularité de ce terme sur Google, on s’aperçoit qu’il devient de plus en plus populaire à partir de 2010 (voir graphique ci-dessus). Curieusement le terme « dataviz » est devenu tout à fait anecdotique après avoir été au plus haut au début des années 2000 (une analyse géographique montre d’ailleurs que le terme « dataviz » semble aujourd’hui l’apanage des recherches réalisées en France, le reste de la planète ayant apparemment renoncé à utiliser ce terme).

La visualisation des données n’est toutefois pas une nouveauté. Si j’ai signalé l’exemple de Charles Booth au XIXème siècle dans l’introduction, on peut affirmer que des exemples encore plus lointains nous sont parvenus. Dans leur livre « Cartographies of Time » (2012), Daniel Rosenberg et Anthony Grafton montrent comment la représentation du temps a évolué à travers les âges. Dès le XVIème siècle on voit poindre des embryons de visualisation des données temporelles. Les deux exemples ci-contre (Lorenz Codomann, Chronographia, 1596) et ci-dessous (Johannes Temporarius, 1596) en témoignent.

Johannes Temporarius (1596)

Visualisation de données proposée par Johannes Temporarius en 1596.

Chacun des auteurs a imaginé, à son époque et avec les moyens dont il disposait, une manière plus visuelle de lire et d’analyser les données.

Certaines des visualisations les plus sophistiquées trouvent d’ailleurs leur origine dans des travaux assez anciens. Le graphe de Sankey est une évolution des diagrammes de flux dont certains sont parfois anciens. Ainsi en va-t-il par exemple du diagramme établi par Charles Minard en 1869 afin de représenter les pertes napoléoniennes lors de la campagne de Russie. Il s’agit typiquement d’une visualisation de niveau 2 (voir ma classification ci-dessus) qui mêle des données quantitatives (nombre de morts) à des données topologiques et temporelles. Le résultat est assez extraordinaire et révèle l’inventivité de son auteur, caractéristique des visualisations de niveau 2. Ce travail suscite encore aujourd’hui des analyses et se décline même sous la forme de posters.

En 1869 Charles Minard a réalisé une visualisation des pertes humaines lors de la campagne napoléonienne de 1812-1813 en Russie. Ce diagramme, dont l’épaisseur est proportionnelle aux pertes humaines, a servi d’inspiration pour de nombreuses autres visualisations. Sankey a laissé son nom en 1898 à des diagrammes de flux qui aujourd’hui sont à l’origine de belles data visualisations.

La campagne de Russie (diagramme Sankey) par Charles Minard en 1869

En 1869 Charles Minard a réalisé une visualisation des pertes humaines lors de la campagne napoléonienne de 1812-1813 en Russie. Ce diagramme, dont l’épaisseur est proportionnelle aux pertes humaines, a servi d’inspiration pour de nombreuses autres visualisations. Sankey a laissé son nom en 1898 à des diagrammes de flux qui aujourd’hui sont à l’origine de belles data visualisations.


L’informatisation croissante des entreprises et la production de données consécutive à la digitalisation des comportements, sont les deux éléments qui ont contribué au besoin de plus de data visualisations. Sans que cela soit une vérité absolue, je considère que la période moderne peut être divisée en 3 phases :

La phase Excel : les données non centralisées

La « phase Excel » correspond à la période durant laquelle Excel constituait l’outil unique des entreprises pour produire des représentations graphiques qui servaient à illustrer des rapports. Même si Excel est encore très largement utilisé aujourd’hui, il faut se souvenir qu’à une époque les entreprises n’avaient rien d’autre pour faire des graphiques. Une différence fondamentale entre la data visualisation d’aujourd’hui et celle d’avant 2000, c’est l’intention derrière le graphique. Avant 2000 le graphique était produit avec une intention de « reporting ». La visualisation était produite pour rentre compte. Les questions du destinataire étaient traitées de manière asynchrone.

La phase ERP : les données essentielles de l’entreprise sont centralisées

Au tournant des années 2000, les logiciels de planification d’entreprise (ERP) deviennent populaires et permettent aux entreprises de centraliser leurs données. Il s’agit d’un pas essentiel dans la connexion de différents métiers au sein de l’entreprise. Différentes sources de données deviennent connectables, faisant apparaître le besoin de les analyser et de les interpréter. Je considère que ce mouvement de centralisation marque la montée en puissance de la Business Intelligence (BI). Les fournisseurs de solutions d’ERP (SAP, Oracle) saisissent cette opportunité et proposent des solutions de BI intégrées qui sont d’ailleurs toujours d’actualité (voir plus loin le Magic Quadrant de Gartner). En étendant leurs tentacules dans tous les domaines de l’entreprise, la quantité de données centralisées n’a été que croissante, renforçant l’importance de la BI.

Le développement des solutions autonomes de dataviz

L’augmentation croissante des quantités de données a vu naître des solutions indépendantes de visualisation, plus performantes que celles qui étaient fournies au sein de suites logicielles. Rappelons-nous tout d’abord que Tableau (l’une des premières solutions autonomes sur le marché dès 2003), est né d’un projet de visualisation de grandes quantités de données. Pat Hanrahan et Chris Stolte  ont mis au point VizQL (Visual Query Language), un langage qui permettait d’interroger graphiquement des grandes bases de données. Le besoin sur lequel naissent les solutions de visualisations autonomes est donc bien celui-là : l’exploration de grandes quantités de données.



Data visualisation : challenges et opportunités en entreprise

Bien que la visualisation des données ait acquis ses lettres de noblesse, et malgré la démocratisation d’outils comme PowerBI (Microsoft),  Excel a encore de beaux jours devant lui. De nombreuses tâches de  reporting sont encore aujourd’hui effectuées sous Excel.  Cette omniprésence s’explique par l’équipement des postes de travail. Excel est devenu au fil des ans un « langage universel » que tout le monde a pu apprendre dès ses premiers pas avec un ordinateur.

Il n’aura échappé à personne que les stratégies autour de la donnée (data-centric) sont devenues très à la mode. De nombreuses entreprises revendiquent d’ailleurs être « data driven », c’est-à-dire baser leurs décisions sur l’analyse des données. Les opportunités que représente la data visualisation sont donc intimement liées à la production même de données en entreprise.

Les opportunités autour de la dataviz sont naturellement nombreuses et me semblent découler des challenges liés aux données elles-mêmes. J’en distingue trois.

  1. Le challenge principal des entreprises aujourd’hui est (encore) de faire passer la pratique de la data visualisation d’un usage de reporting à celui d’exploration des données. Libérer le pouvoir des données implique de les utiliser pour créer de la valeur. Or, trop souvent,  les visualisations sont banales et se contentent de rapporter des indicateurs jour après jour. On pourrait donc résumer en disant que les entreprises sont encore loin d’avoir toutes adopté une « culture » des données.
  2. Le 2ème challenge réside dans la capacité à mettre la data visualisation à la portée de tous. C’est ce que Microsoft essaye de faire en offrant la licence de PowerBI. Ce faisant, chaque collaborateur aura la possibilité de « jouer avec les données » et de chercher par lui-même les informations qui sont susceptibles d’impacter son travail.
  3. Le 3ème challenge est plus prosaïquement de collecter et centraliser les données afin de permettre leur exploration. La data visualisation n’a en effet de sens que si elle permet d’explorer des quantités de données qui vont au-delà de ce qui est possible avec les outils de bureautiques classiques.

Data visualisation : outils disponibles

Il serait difficile de prétendre dresser un inventaire exhaustif de toutes les solutions de dataviz ; d’abord parce que je ne les connais pas toutes, ensuite parce que d’autres le font déjà. Je vais donc commencer par vous parler du Magic Quadrant de Gartner (ci-dessous). Cet outil de benchmarking est publié une fois par an et évalue différents types de solutions informatiques, dont celles de data visualisation. Le benchmark est divisé en 4 catégories :

  • leaders
  • challengers
  • visionnaires
  • acteurs de niche

Les 4 sociétés qui dominent ce benchmark sont :

  • Microsoft avec PowerBI
  • Tableau
  • Qlik
  • ThoughtSpot
data visualisation magic quadrant gartner 2020

Le Magic Quadrant de Gartner est un benchmark des outils de data visualisation. Il est publié chaque année et classe les solutions de dataviz en 4 catégories (leaders, challengers, acteurs de niche, visionnaires). Ci-dessus l’édition 2020.


PowerBI

PowerBI est la solution de Microsoft. Elle est proposée gratuitement aux acheteurs d’une licence Office 365. C’est une stratégie très intelligente de la part de Microsoft qui entend ainsi faire de PowerBI un « langage universel » au sein de l’entreprise au même titre qu’Excel (voir plus haut). La facilité d’usage de PowerBI est assez déconcertante, surtout en ce qui concerne les visualisations les plus complexes. PowerBI propose une bibliothèque (crowdsourcée) de modèles de visualisations qui sont autant d’opportunités de casser la routine des histogrammes et autres diagrammes sectoriels. Un des désavantages de PowerBI (qui m’horripile vraiment), c’est l’impossibilité d’exporter des dashboards sous forme de fichiers png ou jpeg.

Tableau

Tableau a perdu du terrain par rapport à PowerBI mais reste à mon avis la solution la plus avancée sur le marché, la plus complète aussi du point de vue de la latitude offerte à l’utilisateur. Cette latitude vient toutefois au prix d’une plus grande complexité, surtout pour la mise en Å“uvre de visualisations complexes (diagrammes de Sankey, JoyPlot, …).

Là où PowerBI vous offre une solution clé en main, Tableau vous contraint à emprunter des chemins de traverse. Les fonctionnalités de Tableau restent à mon sens beaucoup plus avancées que celles de PowerBI, notamment dans la production de tableaux de bord (Dashboards) qui sortent de l’ordinaire (Niveaux 3 et 4 de la classification). Tableau a très tôt voulu créer une communauté d’évangélistes qu’elle fédère au travers de 2 véhicules : Tableau Public qui permet d’utiliser gratuitement Tableau à condition de mettre les visualisations produites à la portée de tous ;  l’IronViz, un concours de data visualisation qui voit s’affronter chaque année plusieurs centaines de programmeurs (dont je fais partie). En 2020 Tableau a ouvert une galerie virtuelle qui regroupe les plus belles visualisations produites ces dernières années (data Art).


Evolution du marché de la data visualisation

Ces dernières années je constate que PowerBI prend énormément de parts de marché, au détriment des autres outils, notamment Tableau. En fait, toutes les sociétés pour lesquelles la « data » n’est pas un « core business » s’équipent de PowerBI. Je trouve cela vraiment dommage car je pense sincèrement que Tableau a des capacités largement supérieures. Mais c’est un fait. Microsoft est un rouleau compresseur en termes commerciaux et écrase tout sur son passage.

Le fait que PowerBI soit disponible dans la suite Office365 est clairement un énorme avantage concurrentiel qui facilite la transition à paertir d’Excel.

C’est donc à regret que je vais dire à ceux qui me lisent qu’il vaut mieux parier sur PowerBI pour l’avenir de la dataviz. Si vous êtes un étudiant ou un professionnel en quête de nouvelles compétences, vous tirerez sans doute plus de bénéfices à vous former sur le logiciel de Microsoft.


Si vous êtes un étudiant ou un professionnel en quête de nouvelles compétences, vous tirerez sans doute plus de bénéfices à vous former sur le logiciel de Microsoft.



Conseils pratiques pour vous mettre à la data visualisation

Si je devais vous donner un conseil en or, ce serait celui de ne plus jamais faire de graphique sous Excel et de vous astreindre à utiliser un outil de dataviz professionnel (que ce soit PowerBi ou un autre). Si vous êtes étudiant, rappelez-vous que nombre de logiciels de data visualisation peuvent être utilisés gratuitement.

Pourquoi vous conseiller de ne plus faire de graphique sous Excel ?

La logique sous-jacente pour produire un graphique est en fait assez différente entre Excel et les logiciels de data visualisation. Cela conduit à devoir notamment « pivoter » les données. J’ai en outre la faiblesse de croire qu’en commençant dès que possible à visualiser les données dans une solution ad hoc, vous ne la maîtriserez que mieux et ferez la différence avec vos collègues. Le monde du travail est une jungle; autant être le roi de la jungle. Personnellement, j’ai initié mon fils à la dataviz et il raconte ses expériences dans ses vidéos YouTube (voir ci-dessous).

Faut-il suivre des cours de dataviz ?

Pour acquérir les bases, je pense honnêtement qu’il n’est pas nécessaire de suivre un cours. Chaque solution dispose en outre de forums et de tutoriels qui sont utiles pour « mettre le pied à l’étrier ». Par contre, passer d’un niveau à l’autre (en particulier la transition du niveau 2 au niveau 3),  nécessite à mon sens un accompagnement. Il me semble en effet assez compliqué de passer le palier sans avoir à ses côtés un mentor ou au moins un formateur qui puisse vous aiguiller rapidement vers les meilleurs chemins à prendre. Face à des situations compliquées, je trouve utile de pouvoir se reposer sur quelqu’un qui fasse gagner du temps en indiquant la direction à prendre.

Comment progresser tout seul ?

Mon expérience me montre qu’il est difficile de progresser seul sans une véritable motivation. Dans mon cas j’ai franchi un palier de compétences en participants à l’IronViz en 2020. Les multiples recherches que j’ai dû mener, et les solutions que j’ai dû développer, m’ont grandement aidé. Même si je n’ai pas gagné, je suis ressorti grandi de cette expérience comme je l’ai expliqué dans ce billet de blog.


Conclusions

La data visualisation est devenue aujourd’hui une compétence à part entière en entreprise, voire un métier pour celles qui sont les plus « data driven ». La montée en puissance de logiciels spécialisés, et le passage en force que tente Microsoft avec PowerBI, permettent d’espérer voir poindre de nouvelles pratiques au sein des entreprises. On peut raisonnablement penser qu’Excel, en tant qu’outil de visualisation, est condamné. Mais avant de faire de la visualisation des données un moteur de la transformation digitale, il va encore falloir attendre de nombreuses années. La dataviz n’a en effet de sens que si des données sont disponibles et si une « culture de l’insight » se développe, même parmi les PME.



Publié dans Data et IT.

Donnez votre avis

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *