Data out there!

Een informatiesysteem zonder informatie is als een vrachtschip zonder vracht, als een handelsroute zonder handel en als een maanmissie zonder maan. De waarde en kwaliteit van een informatiesysteem wordt bepaald door de waarde en kwaliteit van de informatie.

Maar wat is informatie precies? Volgens wikipedia is de definitie van informatie als volgt: Onder informatie (van Latijn informare: “vormgeven, vormen, instrueren”) verstaat men in algemene zin alles wat kennis of bepaaldheid toevoegt en zodoende onwetendheid, onzekerheid of onbepaaldheid vermindert.

Op basis van die definitie zou je kunnen concluderen dat een informatiesysteem zonder informatie een dom (onwetend) systeem is.

Ik hanteer zelf graag de volgende eenvoudige definitie:

Informatie is een combinatie van gegevens (data) waarop je een beslissing kunt nemen.

Een informatiesysteem met slechte informatie leidt dus, heel kort door de bocht, tot slechte beslissingen.

Je ziet in “mijn” definitie overigens ook mooi het onderscheid tussen gegevens en informatie. Informatie is een aggregatie van gegevens. In de ideale situatie is een gegeven een geregistreerd feit. In de praktijk is de feitelijke waarheid  van een gegeven niet altijd 100% zuiver of nauwkeurig, maar data hoeven ook niet 100% zuiver te zijn om er informatie van te kunnen maken. Er mogen best afwijkingen zijn van het daadwerkelijke feit. Geografische informatiesystemen (GIS) bevatten liggingsgegevens (coördinaten) die afhankelijk zijn van de nauwkeurigheid van de (destijds) gebruikte meetinstrumenten bij de driehoeksmeting. Een foutmarge van enkele meters rondom de feitelijke ligging is niet abnormaal. Ondanks deze onnauwkeurigheid zijn GIS-data toch heel nuttig.

In ons dagelijks bestaan worden we meer en meer afhankelijk van data. Organisaties worden meer en meer data-gestuurd. Om die data te beheren en de kwaliteit ervan te beheersen richten die organisaties datamanagementprocessen in. Eigenlijk moet je ook niet spreken van slechte of goede data, maar van bruikbare en onbruikbare data. En daarnaast van nuttige en nutteloze data. Het nut van data bepaalt het belang van de kwaliteit ervan. De mate van bruikbaarheid wordt bepaald door de kwaliteit.

Datamanagement zou zich dan moeten richten op het managen van data die nuttig zijn. Maar wie bepaalt wat nuttig is en wat niet? Op die vraag heb ik zelf geen pasklaar antwoord. Nut zal variëren over de tijd. Nut heb je ook in gradaties, van handig tot noodzakelijk. In ieder geval mag je concluderen dat het nut en de kwaliteit van data bepalend zijn voor het nut en de kwaliteit van informatie.

Naast kwaliteit is er nog een andere bepalende factor voor de bruikbaarheid van data: de toegankelijkheid. Als je er niet bij kunt op het moment dat je het nodig hebt, kun je het niet gebruiken, hoe hoog de kwaliteit ervan ook is. Ontoegankelijke of onbereikbare data zijn sowieso onbruikbaar. Data moet ongehinderd door systeemgrenzen door de processen van een organisatie kunnen stromen. Zodat ze op de plekken terecht kunnen komen waar ze van nut zijn. Zodat deze data kunnen worden gecombineerd met andere data en nuttige en bruikbare informatie kan ontstaan.

Een informatiesysteem moet gebruikers voorzien van bruikbare informatie. De waarde en kwaliteit van een informatiesysteem wordt bepaald door de waarde en kwaliteit van de informatie. Daar begon ik dit stuk mee. Data vormen de basis-ingrediënten van de informatie. Zonder data geen informatie. Waardevolle data maakt waardevolle informatie. Zonder informatie zijn we stuurloos, dus verzamelen en koesteren we de data die we waardevol (nuttig en bruikbaar) achten. Data is van strategisch belang geworden, al is dat besef vaak niet overal in de organisatie aanwezig. Vaak beseft degene die data moet verzamelen en registreren onvoldoende het belang ervan voor de processen verderop in de keten. Het gebruiksgemak van de systemen waarmee we data registreren zijn hierop natuurlijk sterk van invloed.

Als slogan om dat koesteren van waardevolle data te benadrukken dacht ik laatst aan “Data inside”, naar voorbeeld van stickers op auto’s met “Baby inside”, maar zag daar meteen vanaf. Bij “inside” denk ik namelijk meteen aan afschermen. Afgeschermde data is minder toegankelijk, en daarmee minder bruikbaar. Deze voelt veel beter: Data out there!

De essentie van Open Data

Ik ga maar geen poging doen om een antwoord te vinden op de vraag der vragen: Wat is de zin van ons bestaan? Zo knap ben ik niet. Maar ik doe wel een gooi naar een antwoord op een klein sub-vraagje daarvan: wat is de zin van Open Data?

Mijn gewoonlijke manier om zoiets aan te vliegen is om de vraag laagje voor laagje af te pellen tot ik bij de kern ben aangekomen. Om te beginnen pak ik eerst maar eens het woordje “data” bij de kop. Data is het meervoud van datum, een gegeven, een waargenomen en vastgelegd feit. Ofwel: data zijn geregistreerde feiten.

Maar die definitie voelt ongemakkelijk, en dat zit in het woordje “feit”. Een feit moet eigenlijk verifieerbaar zijn (let op “eigenlijk”). Het moet aantoonbaar zijn. De registratie behelst verder het persisteren op een opslagmedium. In dit tijdperk spring ik meteen maar naar een database. Op basis van de definitie van data zou een database louter aantoonbare feiten mogen bevatten. Waarom moet ik nu denken aan “An inconvenient truth”? Ik zei het al, ongemakkelijk…

Hoe dan ook, een gegeven zou in principe moeten kloppen, en een hele gegevensverzameling zou in principe moeten kloppen. Onjuiste gegevens zou je in principe niet moeten registreren. Dat heeft immers geen nut, toch? O, het gebeurt natuurlijk voortdurend, maar het leidt tot problemen, en problemen vinden we niet nuttig anders zouden we ze niet voortdurend willen oplossen. Dus alleen de registratie van juiste gegevens is nuttig. Ofwel: de zin van data is direct evenredig aan de juistheid van die data.

Tot zover getackeld: Wat is data? Wat is de zin van data? Het gaat lekker. Rest alleen nog: “open”. Zo gepiept. Ik hoef alleen nog maar te analyseren wat de zin is van de openheid van data.

Iets is open als het toegankelijk is. Er lijkt mij ook een mate van openheid. De toegankelijkheid van de inhoud van een kluis is bijvoorbeeld beperkt tot diegenen die de toegangscode kennen, maar de inhoud van een koektrommel is toegankelijk voor iedereen die bij de koektrommel kan en het deksel weet los te krijgen. Twee voorbeelden die eigenlijk over de mate van geslotenheid gaan.

Geslotenheid is het tegenovergestelde van openheid. Zowel openheid als geslotenheid kan zinvol zijn. Ik vind het bijvoorbeeld heel zinnig om de inhoud van de koektrommel tot op zekere hoogte gesloten te houden voor mijn kindertjes. Stel je voor dat ze zich ziek vreten aan een overdosis koekjes. Plaats in dit zelfde perspectief ook de kast met schoonmaakmiddelen, het medicijnenkastje en de kast met sterke drank. Bescherming van de inhoud zelf, maar vooral de consumentjes is hier feitelijk de drijfveer.

Data is inhoud. Dus is de zin van de geslotenheid van data afhankelijk van de mate waarin die data en/of dataconsumenten beschermd moeten worden? Ja, me dunkt dat Jan en Alleman geen toegang zou moeten hebben tot bijvoorbeeld de inloggegevens van de DigID’s van alle Nederlanders. En als iedereen in de wereld het feitelijke recept van Coca Cola zou kennen, is dat natuurlijk niet bevorderlijk voor de concurrentiepositie van Coke. Data kan de eigenaar ervan voordeel (winst, controle, macht)  opleveren. Openheid van die data verdunt en verdeelt dat voordeel. Als dat maatschappelijk wenselijk zou zijn, dan is de openheid van die data maatschappelijk zinvol. De zin van openheid van data is dan dus ook gekoppeld aan maatschappelijk belang. Maar dat geldt ook voor de zin van de geslotenheid van data.

Op de Open Data Estafette (ODE) benaderde Professor Nico Baken (TU Delft) de openheid van data meteen maar vanuit een filosofisch perspectief. Hoogdravend maar inspirerend. Wat bij me is blijven hangen, is het woordje “pneuma“. Het is een oud, Grieks woord dat letterlijk “adem” betekent, maar in religieuze zin “ziel”. De filosofische betekenis komt vooral neer op “essentie”. Kortom: Pneuma gaat over wezenlijk nut: levensbelang. Professor Baken sloeg dat allemaal plat tot “zin”, maar in de wezenlijke betekenis. De boodschap die ik eruit haalde was om na te denken over het wezenlijke belang van open data: Waarom, en voor wie is de te openen data belangrijk?

Op hetzelfde congres sprak Ed Nijpels over de maatschappelijk waarde die je creëert door data van verschillende bronnen (en eigenaars) te verbinden. Door data vrij beschikbaar te maken ontstaat vrijheid voor anderen om die verbindingen te maken en toepassingen te maken die eerst niet mogelijk waren. Toepassingen die belangrijke maatschappelijke vraagstukken kunnen oplossen. Ed Nijpels is voorzitter van de borgingscommissie van het energieakkoord, en beziet het maatschappelijk belang van Open Data vanuit dat akkoord. Hij vestigt grote hoop op Open Data voor het borgen van een duurzaam energiebeleid en het realiseren van duurzame groei. Data die van maatschappelijk belang is, zou vrij toegankelijk moeten zijn voor iedereen die er maatschappelijke waarde mee wil creëren.

Een mooi voorbeeld van een Open Data toepassing dat op de ODE werd gepresenteerd, is de combinatie van open data over zonkracht, kadastrale data en hoogtepunten data om te berekenen of het zinvol zou zijn om op een bepaald oppervlak (bijvoorbeeld je eigen dak) zonnepanelen te plaatsen. Door die drie losse databronnen te verbinden zijn we in staat wezenlijke vragen te beantwoorden. Absoluut zinvol door die verbondenheid. Het nut van het openbaar maken van data moet je dan kunnen bezien vanuit de combinatie met data die door anderen openbaar is gemaakt. Eigenlijk gaat het dus vooral om vrije uitwisseling van gegevens en de vrijheid in het verbinden van die gegevens. Openheid, vrijheid, verbondenheid.

Open, open, open moet het zijn. Thé Lau (The Scene)  zong dat in 1991 al. Dat ging dan wel niet over data, maar hun boodschap is er wel degelijk op van toepassing: Open, open, open je voor mij, en ik open, open, open me voor jou. Openheid leidt tot verbondenheid. En die verbondenheid is misschien wel de belangrijkste voorwaarde voor ons welvaren, en jawel, de zin van ons bestaan.

Wat als storingsinformatie openbaar zou zijn

Natuurlijk twitteren de netbeheerders er al lustig op los over stroom- en gasstoringen. In dat opzicht wordt er over storingen niet geheimzinnig gedaan. Ze treden op en ze worden zo snel mogeljk weer opgelost. De tweets vermelden doorgaans de begintijd en locatie van de storingen, beperkte informatie over de voortgang van het verhelpen ervan en de uiteindelijke eindtijd van de storing. Wettelijk gezien zijn netbeheerders verplicht om actuele storingen openbaar te maken. Daarom wordt alle actuele storingsinformatie online gepubliceerd.  

Via GasEnStroomstoringen.nl kun je doorklikken naar de de gepubliceerde storingen van de diverse netbeheerders. Je komt dan uit bij de storingenzoekmachines van de geselecteerde netbeheerder. De “ruwe data” die ten grondslag liggen aan de gepubliceerde storingsinformatie zitten in de informatiesystemen die de netbeheerder daarvoor gebruikt. De publicatie is een eindproduct. En hoewel ze handig via een centrale URL kunnen worden gevonden (http://www.gasenstroomstoringen.nl), moet je als mogelijke storingsgedupeerde nog teveel zoeken naar de informatie waar je wat aan hebt.

In een wereld waarin mensen altijd online zijn via hun mobiele apparaten zou die storingsinformatie die voor hen relevant is vanzelf onder hun aandacht moeten komen. De mensen bepalen zelf welke locaties voor hen belangrijk zijn: eigen woonplaats, woonplaatsen van familie & vrienden, vestigingsslocaties van ondernemingen, et cetera. Hier zitten veelal sociale motieven achter. Mensen staan via sociale media steeds in contact met vrienden, familie en collega’s. Het gegeven dat je zelf of iemand die je kent door een storing getroffen wordt is sociaal relevante informatie. Net als het weer, file-informatie, OV-informatie en financiële informatie willen mensen ook storingsinformatie in hun dagelijkse informatieconsumptie en de anticipatie daarop kunnen verweven.

In de huidige vorm kan dit niet. De gegevens zijn verspreid over verschillende websites en worden op verschillende manieren aan de gebruiker gepresenteerd. Als alle storingsdata centraal opvraagbaar zou zijn in een gestandaardiseerde, onopgemaakte vorm (geen presentatie) via een SOAP/REST Web Service en eventueel een Web API (Application Programming Interface), dan creëer je een voedingsbodem voor allerlei leuke en nuttige mashups, apps en zelfs games, geproduceerd door derden, die de verweving van de storingsinformatie met alle andere sociaal relevante informatie mogelijk maken.

Het is niet de vraag of dit gaat gebeuren, maar wanneer. Ik voorzie dat binnen afzienbare tijd alle storingsinformatie van alle gezamenlijke netbeheerders via een centrale databank beschikbaar zullen zijn. Openbare storingsgegevens. Ofwel: Open Data, een hot topic bij de nederlandse (semi)overheden. 

Hier wordt helder uitgelegd wat Open Data is. Onderstaande is een citaat:

Open Data is data waar geen restricties i.v.m. privacy, veiligheid of anderszins op rusten. In Nederland wordt steeds meer gesproken over ontsluiting van data die beschikbaar is bij overheid en bedrijfsleven. Denk bijvoorbeeld aan milieu- en demografische data, data over incidenten, mobiliteit, educatie, connectiviteit, infrastructuur en de planning en het gebruik van (publieke) ruimte. Die data is vaak niet publiek toegankelijk vanwege praktische, politieke, commerciële of andere redenen. Er ligt een kans en een noodzaak om daar iets aan te doen.

Data over incidenten, connectiviteit en infrastructuur. Daar heb je het.