All Posts By

Meinou de Vries

Het visualiseren van onzekere getallen

By | Infographics

Communiceren van onzekerheden in je data is ontzettend belangrijk in de besluitvorming, en dus is de vraag hoe we dit visualiseren essentieel. Het integreren van onzekerheden in je datavisualisatie is belangrijk: je wil dat mensen goed geïnformeerde beslissingen kunnen maken. Dus: je wil niet dat men bestaande en betekenisvolle variatie in de data negeert. Maar: je wil ook niet dat mensen onzekerheden als zekerheden interpreteren. Denk bijvoorbeeld aan peilingen in verkiezingstijd. Maar ook aan die visualisatie op je telefoon die aangeeft dat de boodschappenbezorger over vijf minuten voor bij jou voor de deur staat. Of de trein die tien minuten vertraging heeft. Daar zit een onzekerheidsmarge op die niet visueel gecommuniceerd wordt. Maar dat kan wel net dat ene kopje koffie schelen – en dat kan best relevante informatie zijn voor je besluitvorming op de vroege ochtend.

Ik schreef eerder al eens een blog over verschillende visualisatietechnieken om onzekerheid in datasets weer te geven. Maar nu kwam ik een techniek tegen die ik nog niet kende: de Value-Suppressing Uncertainty Palette, beschreven in een paper door Correll, Moritz en Heer in 2018. De naam zegt het eigenlijk al: een kleurenpalet waarbij de mate van onzekerheid bepaalt in hoeverre waardes van elkaar te onderscheiden zijn. Data met grote onzekerheid krijgen maar een kleur – er is dan dus niet te zien of een waarde hoog of laag is (vandaar dus ‘value-suppressing’). Dat werkt intuïtief: je wil immers dat er aan een getal dat met grote onzekerheid is omgeven, weinig betekenis wordt toegekend. Omgekeerd werkt het palet ook: naarmate de zekerheid groter wordt, zijn waardes beter van elkaar te onderscheiden, en wordt dus de informatie steeds preciezer.

Om de proef op de som te nemen, heb ik van de afgelopen tien jaar de gemiddelde dagtemperaturen opgezocht (zie de website van het KNMI). Van elk jaar heb ik het gemiddelde per maand berekend en de bijbehorende standaardafwijking. De standaardafwijking was in deze proef mijn ‘onzekerheidsfactor’, en bepaalde dus in hoeverre een waarde goed af te lezen was. Bij een grote standaardafwijking is er derhalve weinig onderscheid tussen hoge en lage temperaturen te zien. Bij een kleine standaardafwijking is dat onderscheid beter te zien. Hieronder zie je het resultaat. Vanzelfsprekend eigenlijk, maar tegelijkertijd ook verhelderend, oogt de visualisatie die rekening houdt met onzekerheid minder ‘spectaculair’ dan de visualisatie die dat niet doet. Extremiteiten gaan immers vaak gepaard met onzekerheid. Het lijkt mij interessant om dit door te trekken naar onderzoeksrapporten die de basis vormen voor advies en beleid.

Bronnen: meer lezen over het Value-Suppressing Uncertainty Palette? Ik maakte gebruik van dit artikel op Medium, en het paper door Correll, Moritz en Heer in 2018.

 

Visualisaties van pi

By | Infographics

Vandaag is het Pi Dag. Een jaarlijks terugkerend moment om het getal pi te vieren. In de maand/dag-notatie is 14 maart natuurlijk 3/14 – juist, de eerste drie cijfers van het getal pi -en ook de exacte verhouding tussen de omtrek van een cirkel en zijn diameter. Welke cirkel je ook tegen komt: als je zijn omtrek door zijn diameter deelt, krijg je pi. Pi is een bijzonder getal, omdat de reeks cijfers achter de komma eindeloos door gaat. En in een volstrekt willekeurig patroon. Alhoewel, willekeurig? Dat is nog nooit aangetoond. Het lijkt er in elk geval op dat het willekeurig is. Dat zou betekenen dat elke cijferreeks in pi zichzelf nooit kan herhalen. En tegelijkertijd, omdat pi oneindig is, zou het betekenen dat het alle reeksen die er zijn bevat. Dus welke cijfercombinatie je ook maar kunt bedenken: pi heeft het, hetzij ergens verstopt in die eindeloze reeks.

Voor de datavisualisatie-specialisten onder ons: ja, dat betekent dus in principe ook een oneindige dataset. 🙂 Maar wel eentje zonder duidelijke patronen. In onderstaande voorbeelden laat ik enkele pi-visualisaties zien. Wat een inspirerend getal!

Martin Krzywinski gebruikt hier gekleurde stippen om de cijfers van pi aan te duiden. Een is rood, drie is oranje, vier is geel. En zo verder. De stippen zijn in een grote cirkel gepositioneerd, te beginnen in het midden. Deze visualisatie laat de eerste 13.689 cijfers van pi zien:

Volgend voorbeeld is van Martin Krzywinski en Cristian Ilies Vasile (zijn werk is zelfs te koop, voor een echte pi aan je muur). Elk cijfer van pi is nu verbonden met het daaropvolgende cijfer. Dus de lijn loopt van drie, naar een, naar vier, en zo verder. De lijn verandert telkens van kleur, afhankelijk van het cijfer waar de lijn start:

 

Om de willekeur van de pi-cijfers te visualiseren, koppelde John Venn (in The Logic of Chance, 1888) de cijfers nul tot en met zeven aan acht kompasrichtingen. Op die manier laat hij het getal pi ‘rondwandelen’:

Een vergelijkbaar idee komt van Nadieh Bremer. Ook zij verbond elk cijfer aan een bepaalde richting, en laat op die manier het getal pi ronddwalen, eerst tot aan 100 cijfers, dan 1000, dan 10.000, 100.000 en uiteindelijk tot maar liefst 1 miljoen cijfers. De willekeur is visueel volstrekt duidelijk: de richting die ingeslagen wordt bij een volgend cijfer, is niet te voorspellen – dus we zien ook daadwerkelijk geen specifiek patroon. Maar wel een prachtige ontdekkingsreis van willekeur – ook mooi voor aan de muur:

The poster of the first 10000 digits of pi

Bronnen: meer lezen over visualisaties van pi? Ik maakte gebruik van dit artikel in de Washington Post, en dit artikel in The Guardian.

Inclusieve datavisualisatie

By | Infographics

De groeiende mogelijkheden om data te visualiseren zorgen ervoor dat complexe informatie bij een breed publiek terecht kan komen. En dat is toe te juichen: goed geïnformeerde mensen nemen weloverwogen beslissingen.

Toch is er ook een kanttekening te plaatsen. Want hoe bereik je mensen die niet, of minder, datavaardig zijn? Te veel informatie kan afschrikken en bovendien verlammend werken in de besluitvorming. Hoe kun je deze mensen goed informeren zodat ook zij weloverwogen beslissingen kunnen nemen? Want vaak zit waardevolle informatie juist (ook) in de details van een dataset. Denk aan uitschieters of aan de vorm van de onderliggende dataverdeling.

Het is enorm belangrijk om na te denken over (zoals ik het nu even noem) inclusieve datavisualisatie, dat betekent: datavisualisatie die toegankelijk is voor iedereen, zonder dat relevante inzichten verloren gaan voor minder datavaardige mensen. Dit is een vraagstuk dat me al langer bezighoudt. Ik wil in de komende weken op zoek gaan naar een manier waarop we inclusieve datavisualisatie kunnen vormgeven, en zal jullie op de hoogte houden van mijn zoektocht. Discussie, suggesties en commentaar: mail naar info@studioinfograph.nl!

 

 

Een voetbalveld vol

By | Infographics

Sinds mijn studententijd heb ik de neiging om afstanden te vertalen naar ‘zoveel keer de Bosbaan’. Nog vier kilometer hardlopen? Och, twee keer de Bosbaan. 500 meter? Sprint langs de tribune. Terwijl ik toch maar twee jaar wedstrijdroeier ben geweest. En dit ook al écht enige tijd geleden is.

De neiging om hoeveelheden in perspectief te zetten is iets van alle tijden. Getallen zijn abstract en daarom zoeken mensen naar bekende voorwerpen om aan te relateren. In infographics werkt dit vaak heel goed. Om in roeitermen te blijven: ‘bootlengte’ krijgt beeld op deze prachtige cover van Scientific American uit 1906 (bron):

Scientific American ship standard

Een andere bekende maat is een voetbalveld. Afgelopen zomer, toen een jong voetbalelftal uit Thailand vast kwam te zitten in een ondergelopen grot, werd in deze infographic in de South China Morning Post (die sowieso werkelijk prachtige graphics publiceert) concreet gemaakt hoeveel water er weggepompt zou moeten worden om deze jongens te redden. Veel water dus, heel veel. De kracht van het visualiseren van abstracte hoeveelheden is hier overduidelijk: we hebben nu een verhaal, in plaats van een getal.

Original photo by Serg Stallone

Vorige maand toen Apple de magische 1-biljoen-dollar grens doorbrak werd ook dit getal onder handen genomen door infographicmakers. Want waar hebben we het over: 1 biljoen? Dat is een 1 met twaalf nullen. Daar houdt het voorstellingsvermogen van de meeste mensen wel op. De New York Times maakte daarom deze interactieve visualisatie. Ook Information is Beautiful maakte inzichtelijk hoeveel 1 biljoen dollar was, vanuit het perspectief van de wereldeconomie:

In zijn blog wees Nathan Yau vorige week op het feit dat niet alleen grote getallen, maar juist ook kleine aantallen lastig voor te stellen zijn. Als we lezen over uitstervende diersoorten bijvoorbeeld, bij welk getal moet er dan een alarmbel afgaan? Bij deze illustratie (door Mona Chalabi voor The Guardian) wordt me dat wel duidelijk: de overgebleven Javaanse neushoorns passen met gemak in een metrowagon.

 

 

Infographics in de klas: visuele geletterdheid in het datatijdperk

By | Infographics

Onlangs liep ik voor het eerst in twintig jaar weer mijn oude school binnen, het Stedelijk Gymnasium in Leiden. Het bordes was leeg, de lessen waren aan de gang. De sfeer was nog steeds hetzelfde. Ik mocht een presentatie geven in het oude wiskundelokaal, niet per se mijn beste vak. De visualisatie van de driehoek van Pascal hing er nog. Nieuw was een grote poster over sandalen, het was duidelijk dat mijn oude wiskundeleraar hier nog steeds zijn toko had.

Een paar maanden geleden kreeg ik een mail doorgestuurd: er werden mensen gezocht die iets wilden vertellen over de onderzoekswereld, en wel aan vierde- en vijfdeklassers. Het leek mij een goede gelegenheid om eens te peilen of pubers bekend zijn met datavisualisatie – en hoe goed zij in staat zijn deze te interpreteren. Het aansporen van visuele geletterdheid bij scholieren is iets wat mij al langere tijd interesseert, omdat het zo noodzakelijk is. Juist in deze tijd, waarin data snel en visueel gecommuniceerd wordt.

Ik liet wat misleidende grafieken zien, aan hen de opdracht om ‘fouten’ op te sporen. Mijn (paar oplettende – het blijven pubers in het achtste uur) toehoorders toonden zich verrast dat mensen zich massaal lieten foppen door grafieken waarin verhoudingen verstoord zijn door een afgekapte nullijn. Of zelfs grafieken die omgekeerd afgelezen moeten worden. En waren verbaasd dat dit soort grafieken zomaar de wereld ingeslingerd worden. En daardoor mensen bewust of onbewust op het verkeerde been zetten.

Een jaar geleden verscheen een serie in The New York Times (in samenwerking met de American Statistical Society), gericht op docenten en hun studenten: ‘What’s going on in this graph?’. De filosofie hierachter is scholieren aan te zetten tot data-analyse met behulp van twee vaardigheden die elk kind al heeft: opmerken en verwonderen. Een prachtige manier om visuele geletterdheid onder de aandacht te brengen, en om van scholieren kritische informatieconsumenten te maken. Hard nodig in deze tijd, waarin data en beeld alom aanwezig zijn!

Voorspellingen, onzekerheid en infographics

By | Infographics

We hebben met zijn allen één ding gemeen: niemand weet hoe het ons in de toekomst zal vergaan. Maar morgen is het zeker weten Prinsjesdag. Een goed moment om eens stil te staan bij het visualiseren van onzekerheid in voorspellingen. Want onzekerheid is vaak moeilijk te begrijpen én moeilijk te communiceren. Terwijl juist hierin waardevolle informatie ligt besloten.

 

Het Nederlands kent een heel scala aan uitdrukkingen om onzekerheid te communiceren. Twee maanden geleden las ik een interessant artikel, afkomstig uit Harvard Business Review, over de interpretatie van deze bewoordingen (in het Engels). ‘Altijd’ blijkt dus niet letterlijk altijd te zijn. Heel lastig blijkt ook de interpretatie van bewoordingen als ‘reëele mogelijkheid’ of ‘een bescheiden kans’: de interpretaties liepen sterk uiteen, zoals in de figuur hiernaast te zien is.

W180614_MAUBOUSSIN_HOWPEOPLEBiedt visualiseren van onzekerheid meer eenduidigheid? Dat is lastig te zeggen. Wel is duidelijk dat niet iedereen hetzelfde begrip heeft van onzekerheid. Economen en beleidsmakers kunnen prima over medianen praten. Maar de gemiddelde (of moet ik zeggen doorsnee-) burger waarschijnlijk niet. Om hierover goed te communiceren is het dus belangrijk om je doelgroep in de gaten te houden. En wellicht zelfs verschillende visualisaties te maken voor verschillende doelgroepen.

Een bekende manier om onzekerheid te visualiseren is het weergeven van een betrouwbaarheidsbereik, bijvoorbeeld door boxplots (of ‘snorredoos’, de Nederlandse vertaling – al heb ik die nog nooit ergens in het echt gehoord). Het voordeel is dat de lezer ziet dat het niet alleen draait om dat ene cijfer, bijvoorbeeld de mediaan, maar dat het om een range gaat. De mediaan is dus slechts onderdeel van een voorspelling. Maar het blijft een concept dat lastig te begrijpen is voor veel mensen. Goede uitleg en heldere legenda zijn dus noodzakelijk. Een gedetailleerdere variant is de histogram. Deze geeft inzicht in de vorm van de verdeling. Ook deze visualisatie is best lastig te begrijpen voor het bredere publiek. Veel gebruikt in voorspellingen is de zogenaamde fan chart. Onzekerheid is hier goed in beeld gebracht, doordat er niet 1 pad is, maar meerdere. Hetzelfde principe wordt ook gebruikt bij bijvoorbeeld weersvoorspellingen (of, ook actueel, orkaanpaden zoals die van orkaan Florence). Echter, als er te veel mogelijke paden worden getoond, kan al die informatie soms ook besluitvorming in de weg staan. Te veel informatie over onzekerheid kan dan juist voor verwarring zorgen.

Beeld communiceert heel direct: hoofdzaken zijn letterlijk groot en opvallend gemaakt, waardoor details (zoals informatie over onzekerheid) soms over het hoofd worden gezien. Tel daarbij op dat mensen nogal eens geneigd zijn om een aantrekkelijke infographic te zien als ‘volledige informatie’ (want alles wat we nodig hebben staat toch in de infographic?) – en zie daar de uitdaging voor elke infographicmaker die te maken krijgt met onzekerheden!

 

Bronnen:

Mauboussin, A. & Mauboussin, M.J. (2018). If you say something is ‘likely’, how likely do people think it is?

Nathan, Y. – Visualizing the uncertainty in data (2018)

Spiegelhalter, D., Pearson, M., & Short, I. (2011). Visualizing uncertainty about the future. Science, 333(6048), 1393-1400.

 

It’s all in the details

By | Infographics

Vorige week had ik een inspirerende tweedaagse workshop van Federica Fragapane, die ik kende van de prachtige datavisualisaties voor de Corriere della Sera. We kregen een dataset die we uitwerkten tot een verhalende visualisatie – ik koos voor de gegevens over de correspondentie tussen Vincent en Theo van Gogh. Interessant aan Federica’s werk voor de Corriere della Sera is dat de lezer er echt voor moet gaan zitten: hoe langer hij kijkt, hoe meer hij ontdekt. Daar hou ik wel van, als tegenreactie op het idee dat beeld snel en makkelijk moet communiceren. Zie het als de visuele tegenhanger van een longread. Een longviz?

Kenmerkend hiervoor is dat er verschillende informatielagen in zitten. Een informatielaag, met de (complexe) datavisualisatie, maar ook een narratieve laag, waarin het verhaal wordt verteld, en een laag met meer gedetailleerde informatie, zoals de legenda. Deze laag is essentieel: de legenda vormt immers de sleutel tot de informatie. En het zijn juist deze details die een infographic zo aantrekkelijk maken.

Mijn uiteindelijke resultaat zie je hieronder.