zondag 26 april 2015

Voorwaarts en niet vergeten: over houdbaarheid van data en webservices

Afgelopen week las ik in een al wat ouder exemplaar van The NewYorker een interessant artikel over the Internet Archive. Dat is de organisatie die zich bezig houdt met de archivering van alles wat er op het Web verschijnt. Een dag later was ik op bezoek bij de UvA, om daar te praten over ontsluiting van historisch kaartmateriaal. Die twee zaken maakte dat ik me probeerde voor te stellen wat er morgen gebeurt met geodata die we vandaag als webservice aan de buitenwereld ter beschikking stellen.

Langzaam maar zeker worden geo-webservices zoals die door PDOK worden aangeboden niet alleen maar ingezet om een Proof op Concept op te tuigen maar ook "voor 't eggie". Daarmee komt een aandachtspunt dat een aantal jaar geleden al eens in het PDOK klantenpanel werd aangehaald: historie.
Laat ik voorop stellen dat ik het heel erg waardeer als PDOK en andere aanbieders hun data in zo actueel mogelijke vorm aanbieden. meestal wil je actuele gemeentegrenzen, recente luchtfoto's, en up-to-date adressen. Maar je hoeft geen archivaris te zijn om toch af en toe behoefte te hebben aan iets meer belegen services. Die behoefte aan historiek valt in een paar soorten uiteen.

Allereerst kan voor het in beeld brengen van een historische ontwikkeling het van belang zijn ook over data van gisteren, vorig jaar en vorige eeuw te beschikken. In het verlengde daarvan: het kan voor het kunnen koppelen van administratieve data nodig zijn om te beschikken over de gemeente-indeling, wijk en buurt grenzen of postcodes die in overeenstemming is met die administratieve data.

Een ander aspect is de reproduceerbaarheid. Instellingen zoals de planbureaus hebben de wettelijke plicht hun onderzoek gedurende 5 jaar te kunnen reproduceren. Dat vereist dat de services zoals ze vandaag worden aangeboden tot en met 25 april 2020 beschikbaar zijn. Dat geldt niet alleen voor de geodata waarop de WMS of WFS service is gebaseerd, maar ook de configuratie van die service zelf: de layernamen, de visualisatieregels, het schaalbereik etc. Bij gebruik van een externe SLD moet dus ook die SLD met een datumstempel van vandaag beschikbaar blijven. Zelfs als die configuratie aantoonbare fouten bevatte, en daarom ondertussen een update heeft gekregen.
Vergelijkbaar met de eis vanuit de planbureaus is de simpele wens te garanderen dat als ik vandaag naar een webkaart kijk en daar conclusies uit trek, ik hoop dat ik morgen diezelfde conclusies kan trekken, en kan delen met collega's, of kan verdedigen tegenover andere partijen. Als in de tussentijd a) de geodata en/of b) de configuratie van de service wijzigt wordt verkrijgen van inzichten op basis van die webkaart wel erg vergelijkbaar met het schieten op een bewegend doel.


Voor de geodata wordt er in de brondatabases vaak wel een "versioning" systeem gebruikt, waarin met behulp van delta tables of een vergelijkbaar mechanisme de stand van zaken van ieder willekeurig moment X kan worden teruggehaald. Voor de configuratie van de services geldt hetzelfde mits ze met behulp van een version control system zoals GIT of SVN worden beheerd. Maar voor zowel data als configuratie geldt dat deze vorige versies vaak alleen ten behoeve van het technisch beheer beschikbaar zijn. De eindgebruiker van die services (u en ik) hebben het maar te doen met die ene combinatie van actuele data en huidige configuratie die naar buiten wordt aangeboden.

Ik realiseer me dat dat een fikse inspanning kan zijn voor de aanbieder van de services. aan de andere kant, je kunt ook betogen dat de performance van zo'n historische service een tandje minder mag zijn. Het gros van de request zal immers op actuele data & configuratie betrekking hebben.

Misschien iets voor het Rijkscentrum voor het Cultureel Erfgoed om hier mee te experimenteren met hun geoservices? De geoservices van vandaag zijn immers de Atlas der Neederlanden van morgen!

zondag 19 april 2015

Een extra dimensie voor GeoSamen: van "gouden driehoek" naar "quadruple helix"

Al eerder kwam op deze plaats de Nederlandse geobeleidsvisie met de welluidende titel GeoSamen aan bod. In die visie staat de "Gouden driehoek" centraal: het samenspel van bedrijfsleven, kennisinstellingen en overheid. Nu is een term met daarin het woord "driehoek" voor met name het op inwinning gerichte deel van de geosector natuurlijk een aantrekkelijke metafoor maar het is toch wat zorgelijk dat buiten onze sector de term "Gouden driehoek" wegens iets teveel associatie met opiumproductie alweer op de mestvaalt der vergetelheid is gedumpt, en vervangen door de triple helix. (Voor niet-ingewijden: een helix is een driedimensionale spiraal: een triple helix zijn drie in elkaar draaiende spiralen)

Opmerkelijk is dat al tijdens de presentatie van GeoSamen, op het Geofort in april 2014, geconcludeerd werd dat er wellicht een punt aan de gouden driehoek ontbrak: de burger! Des te opvallender omdat in de tekst van Geosamen initiatief door burgers als een belangrijke sociale trend wordt herkend, en een pagina verder wordt geschreven dat "overheden, bedrijfsleven, wetenschap en burgers afspraken moeten maken over de inrichting van onze toekomstige informatievoorziening". Op de 20 resterende bladzijden van de visie wordt de burger hooguit een enkele keer genoemd maar dan slechts als consument aan wie "producten, wetenschappelijke doorbraken en innovatieve overheidsdienstverlening actief worden gecommuniceerd". Verder is het alleen de gouden driehoek wat de klok slaat.

Dat die burger er zo mager afkomt in GeoSamen is opmerkelijk in deze tijd van participatiesamenleving. Want de burger kan tegenwoordig twee petten op hebben. Ten eerste is de burger degene voor wie we het allemaal doen. Wellicht denkt het geobedrijfsleven precies te weten wat de burger wil, of denkt de geo-overheid nog dat overheid en samenleving synoniemen zijn, maar anno 2015 kom je met zo'n paternalistische instelling niet meer weg. De burger weet zélf, individueel of in diverse, snel wisselende, coalities heel goed wat-ie wil. En, en dat is de tweede rol van de burger; hij is dankzij gemakkelijk verkrijgbare gereedschappen (lees: open source software) en brandstoffen (lees: open data) ook steeds meer in staat om niet alleen aan te geven wat hij wil, maar dit ook zelf te realiseren.

Ondertussen zien we dat met name in regionale en lokale innovatieagenda's die vierde partij wel in beeld is. Soms wordt de burger daarbij nog wel geacht zich in een maatschappelijke organisatie te verbinden, zoals in de Noordelijke Innovatieagenda 2014-2020, soms mag die burger ook individueel aanschuiven. Dat zien we met name bij de ontwikkeling van stedenbouwkundige plannen, zoals Oostenburg in Amsterdam.
En we zien in de praktijk al diverse LivingLabs waarin ook de burger een partijtje mag meeblazen en ook de verse samenwerking tussen Rijkswaterstaat en de OpenStreetMap community is een mooi voorbeeld van invulling geven aan de quadruple helix.

Al met al een schone taak voor het klassieke geo-trio overheid, kennisinstellingen en bedrijfsleven om hun eigen positie ten opzichte van die calculerende burger te bepalen. Wat verwacht je van de burger? Wat kun je de burger bieden om te helpen die verwachting te realiseren? Misschien helpt het om even te gaan buurten in Eindhoven waar TU/e bestuursvoorzitter Jan Mengelers vorige maand een essay uitbracht waarin de noodzaak om grassroots ontwikkelingen te herkennen, erkennen en waar nodig te stimuleren wordt beschreven. En dat niet alleen in Geosamen versie 1.1 op te nemen, maar uiteraard ook als leidraad bij het handelen te nemen.

dinsdag 7 april 2015

Zachte cijfers in het trendrapport open data

Op 31 maart jl. verscheen het tweede trendrapport open data. Een vlot leesbaar verhaal met daarin de stand van het land met betrekking tot diverse aspecten van open data.
Daarbij wordt zowel de landelijke Nederlandse trend als de verhouding tot de ontwikkelingen in andere landen, waarbij met name de UK en de USA als vergelijkingsmateriaal dienen. Om met dat laatste te beginnen; dat gaat mij iets te snel in de richting van benchmarking, oftewel: lijstjes. We "scoren" beter of slechter dan andere landen. Daarbij leunt het rapport op diverse benchmarks, en daar komt de achilleshiel al naar voren. Volgens de open data barometer zijn we gestegen van plaats 10 (in 2013) naar plaats 6 (in 2014), terwijl we volgens de eveneens aangehaalde open data census gekelderd zijn van plaats 5 naar plaats 16. Als de barometers zó uiteen lopen moet er wel onweer op komst zijn...

Het trendrapport signaleert zelf ook deze beperking en schrijft op bladzijde 30: "We moeten dan ook voorzichtig zijn met de uitkomsten van dergelijke barometers. Daarom kijken we hieronder naast de scores op de Open Data Barometer ook naar het aanbod van open data op data.overheid.nl." Op dat open data portaal telde het trendrapport in februari 2015 bijna 3200 datasets. Blijkbaar is er sindsdien een lijntje gelegd naar het dataportaal van statistiekgrootgrutter CBS, want op 7 april 2015 staat de data.overheid.nl-teller al op 6731. Zo snel kan het blijkbaar gaan.
Verwarrend is wel dat volgens de voorpagina van het portaal van die ruim 6700 datasets er slechts 2989 een open data licentie hebben, een kleine meerderheid heeft daarentegen een "andere licentie". Iets verder speuren in het portaal zelf levert op dat zo'n 3000 datasets in het Publieke Domein zitten (en er dus geen auteursrecht meer van toepassing is) c.q. van een CC-0 verklaring is voorzien (en er op die datasets dus geen actief auteursrecht wordt uitgevoerd). De overige pakweg 3700 hebben op een enkele uitzondering na een CC-BY-licensie, waarbij dus de naamsvermelding van de bronhouder als restrictie geldt. Ik neem aan dat dat in het verband van het trendrapport ook onder open data wordt geschaard, al wordt dat niet expliciet gemaakt.

Hetzelfde data.overheid.nl bevat ook een overzicht van weliswaar bekende, maar niet rechtstreeks aan data.overheid.nl gekoppelde open data portalen. Daar staat een hele trits lokale, regionale en thematische portalen, waarbij alleen dat van de gemeente Den Haag al meer dan 8.000 dataset bevat.
Maar dan hebben we dus geen 3200 open datasets in Nederland, maar minstens het vijfvoudige daarvan!

Zo wordt steeds meer duidelijk dat het voor een heldere monitor ontbreekt aan een eenduidige, stabiele meetlat voor de beschikbaarheid van open data. De aantallen dataset worden bovendien nog enorm beïnvloed door de wijze waarop de data is georganiseerd: de Top10NL als landsdekkende dataset telt voor één, terwijl een uitsplitsing naar de aloude bladindeling die de Topografische Dienst hanteerde zou honderden datasets opleveren ,en als je dat allemaal nog eens uitsplitst naar thema's in die datasets kun je die ene top10nl "opvoeren" tot een reeks van duizenden datasets. Dat telt lekker aan!

Misschien moeten wel geen datasets meer tellen, maar moeten er bij wijze van meetlat pakweg 20-30 maatschappelijke vragen en commerciële toepassingen worden geformuleerd waarvoor een of meer open datasets nodig zijn. Zoals een website die inzicht geeft in de relatie tussen prestatie van ziekenhuizen en het stemgedrag, of een app waarmee de recreatievaarder niet alleen overdag zijn vaarweg, maar ook het naderhand nathouden van zijn keel kan faciliteren. Zo'n meetlat geeft inzicht in de mogelijkheden met open data.

Daarmee komen we bij wat ik het interessantste thema in het rapport vind; de impact van open data. Daarbij wordt onderscheid gemaakt tussen politieke, sociale en economische impact. Denk bij politiek aan verantwoording door en transparantie van bestuur, bij sociaal aan publieksparticipatie en bij economisch aan nieuwe handel op basis van open data. Het trendrapport geeft aan dat de politieke impact nog wel redelijk scoort, maar dat de economische, en vooral de sociale impact erg achterblijven ten opzichte van de UK en de USA. Dat juist die politieke impact nog redelijk scoort is vreemd gezien het feit dat even daarvoor wordt aangegeven dat juist op de beleidsterreinen verantwoording en aanbesteding het data-aanbod in ons land minimaal is.



Het verbinden van de diverse dataportalen zal waarschijnlijk wel bijdragen aan de impact. Het trendrapport signaleert die fragmentatie en suggereert daarom de ontwikkeling van een Nationale Informatie Infrastructuur zoals in de UK gaande is. Die gaat overigens heel erg over de data en datasets, en weinig over de onderliggende (ICT-)infrastructuur.  Maar om nu een heel eigen open data infrastructuur op te zetten kan toch niet de bedoeling zijn? Zorg voor verbinding van bestaande registers en infrastructuren. Bijvoorbeeld door die kanalen en portalen van een sterrensysteem te voorzien waarmee wordt aangegeven hoe open het portaal zélf is (los van de er in aangeboden datasets). Heeft het portaal een API? Is die gebaseerd op een standaard? Heeft het een beheerder? En bouw zo aan een netwerk van Open Datapleinen, Lanen van Leefomgeving en crowdsourced olifantenpaadjes.

woensdag 1 april 2015

De geosector, zij leefde in onschuld, in het paradijs. Totdat ze de vrucht met de nam GPS kreeg aangeboden en daar een hap van nam. Daarmee verruimde ze haar aandachtsgebied van het aloude verzamelen, registreren en analyseren van "gegevens met een vaste plaats op, boven, onder of in het aardoppervlak" naar het stoeien met "location based services"; locatie als dynamisch kenmerk van personen, in trains, planes & automobiles, te land, ter zee, en in de lucht.

Tot voor een paar jaar was privacy hierbij in de Nederlandse geosector nauwelijks punt van aandacht. Maar nu is er een "witboek" met de titel "Privacy op zijn plaats". In opdracht van Geonovum geschreven door Angélique van Oortmarssen, Marc de Vries en Bastiaan van Loene. Heel knap hoe de drie schrijvers dit ogenschijnlijk droge onderwerp in pakweg 40 pagina's niet alleen leesbaar maar zelfs levendig weten te maken.Technische ontwikkelingen, de wet, de interpretatie daarvan, ervaringen, en ethische aspecten passeren de revue, geïllustreerd met pakkende voorbeelden. En de schrijvers zijn niet te beroerd om aan te geven waar de onduidelijkheden zitten. Zij hebben de wijsheid ook niet in pacht.

Zomaar even een eye-opener uit het witboek waarmee duidelijke wordt dat de reikwijdte van privacywetgeving ten aanzien van ruimtelijke informatie ver blijkt te strekken; informatie over perceelsgrenzen, en zelfs gedetailleerde luchtfoto's moeten onder bepaalde omstandigheden als persoonsgegevens worden beschouwd (!)

Het eerste hoofdstuk is in tien pagina's de beste compacte inleiding over wat locatie-informatie is en wat het kan die ik ooit heb gezien. Dat kun je zo in een willekeurige geovisie opnemen. Vooral de zin "locatie-informatie is daarbij oliemannetje dat data uit verschillende databronnen aan elkaar kan relateren" kan mij erg bekoren. Hoofdstuk twee legt de juridische kaders op een begrijpelijke manier uit, en beschrijft daarbij uitdrukkelijk de grijze gebieden. Met een zevental praktijkcases uit overheid, onderzoek en bedrijfsleven wordt vervolgens de praktijk opgezocht.
Om het witboek niet als een nachtkaars uit te laten gaan wordt in het slothoofdstuk een goede aanzet voor vervolg gegeven. Door hierbij ene onderscheid te maken in 3 niveaus ("pistes") wordt degene die er hier en nu mee aan de slag wil niet wordt gedwongen zich met "Brussel" aan een tafel te zetten, maar in een voor hem of haar qua inhoud en tijdspad aantrekkelijke setting wordt uitgenodigd.

Eén interessant aspect pik ik er nog even uit: de Wet bescherming persoonsgegevens stelt dat de persoonsgegevens eerst en vooral verzameld moeten zijn voor een gerechtvaardigd, duidelijke bepaald en goed omschreven doel. Verdere verwerking -al dan niet binnen dezelfde organisatie- mag alleen als dit niet onverenigbaar met het oorspronkelijke doel, aldus artikel 9 van de Wpb. Altijd  bijzonder, zo'n dubbele ontkenning, maar lid 2 van hetzelfde artikel geeft aan dat er rekening moet worden gehouden met verwantschap tussen het beoogde nieuwe doel en het oorspronkelijk doel. Ik ben benieuwd hoe je dit moet toepassen op open data. Daar is het doel voor verdere veerwerking juist vaak juist een heel ander dan het oorspronkelijk doel van registratie. En hoe pas je dit toe op OpenStreetMap, een registratie die als doel heeft tot een vrij, zonder belemmeringen bruikbare kaart van de hele wereld te komen. Da's een breed doel, bijna net zo breed als de inhoud van deze crowdsourced registratie.


Lezen dus! En kom op donderdag 23 april naar de workshop "Privacy.. en wat er wel kan" op de beurs Overheid 360°