
Første steg var å finne et grensesnitt hvor skattelistene var lett tilgjengelige. Mediene får mange klikk fra skattelistene og konkurrerer derfor aggressivt om å få den beste søkesiden. Problemet er bare at det fort går på bekostning av personvernet. F.eks, la oss se på VG Nett sine skattelister (http://skattelister.no/): Her kan man få opp topp100-lister per postnummer, men man kan også filtrere på fødselsår. Er dette god beskyttelse av personvernet?
Hvor mange mennesker finnes det per postnummer? Det er 10.000 tilgjengelige postnummer, men ikke alle er i bruk, så la oss si 5000 postnr. Det finnes ca 4.8 millioner mennesker i Norge, noe som gir ca 1000 personer per postnummer. Her er oddsen stor for at det ikke finnes mer enn 100 personer med samme fødselsår per postnummer! I tillegg kan man generere topplister for både formue, inntekt og skatt, noe som gjør det enda lettere å sikre et komplett datasett.
Hva betyr dette i praksis? Jo, med to for-løkker og programmering du kan lære på et hvilket som helst grunnkurs i programmering på universitetet kan du hente ut hele skattelistene på noen timer. Dette er på ingen måte god nok beskyttelse av resultatene!
Det tok meg ikke lange tiden å ordne på plass et system for å hente ut data fra VG sine sider, men jeg begrenset meg til å hente ut topplistene for hvert enkelt postnummer. Jeg laget en django-server og ved hjelp av denne samlingen av koordinater (stor takk!) hadde jeg en komplett søkbar database over de ca 500.000 menneskene som tjener mest i Norge. I seg selv ikke så uetisk, men hva hvis jeg hadde laget en liste over Norges fattigste? Angivelige skattesnytere med veldig høy inntekt og ingen skatt? Folk på trygd (bare å finne ut grunnbeløpet, multiplum av det og lokale skattesatser, det)? Hva hvis jeg ville laget et kart over lett tilgjengelige innbruddssteder? I kampen om å trekke lesere har VG ikke tenkt nok på personvernet.
Heldigvis er de fleste datakyndige ganske etiske, måtte det være fordi vi er bevisste på problemstillingene eller ikke bryr oss om disse tingene. Jeg har derfor laget et eksempel på hvordan jeg mener dataene burde brukes: Anonymiserte, i et fritt tilgjengelig API kan man gjøre mye spennende som overgår medias kåthet etter kjappe inntekter på kjendisers likningsformue. Det burde fremdeles være mulig for pressen å gjøre oppslag for å avsløre alvorlige saker, men en blanko-fullmakt til å la samtlige personers inntekt være tilgjengelig for folk flest blir feil.
Applikasjonen min er en implementasjon av gheat med skattelistene. På google maps kan man se fargekodet intensitetsplotting av snittinntekten blant de rikeste per postnummer. Det hele ble snekret sammen på to kvelder, men jeg håper det kan være interessant allikevel.
Jeg kan rydde opp i kildekoden og publisere den hvis det skulle være ønskelig, men jeg har litt mye å gjøre for tiden, så jeg vet ikke hvor mye videreutvikling det blir. Det er ofte lurt å zoome en del inn for å få meningsfylte plott - da kan man fort se inndelingen mellom bydeler, nabolag og så videre. Intensiteten "drukner" litt på lang avstand når postnummer overlapper og siden postnummer korresponderer til postruter er ikke dataene eksakte.
Litt tekniske fakta:
- Kjører Django
- Plottet er per hundre tusen snittinntekt for de 100 rikeste per postnummer.
- Ting kan ta litt tid hvis du ser på en del av kartet som ingen har sett på før.
- Jeg vurderte å lage 1:1-mapping ved å bruke geoloc fra google på adressene, men det ble både teknisk vanskelig (2500 lookups per dag er grensen) og litt etisk betenkelig.
I løpet av kvelden bygger jeg om databasen så Nord-Norge også blir med, så det kan gå litt opp og ned.
Hva med å bruke kart fra statens kartverk i stedet for Google maps? Da hadde jo dette blitt et riktig skattekart. URL til hvordan: http://www.statkart.no/nor/Land/Kart_og_produkter/visningstjenester/ Kildekodeeksempel på bruk i Google Maps API er publisert på samme adresse.
SvarSlettHei «Fiskeslo». Løsningen din har vært mye omtalt på Twitter denne uken. På høy tid at også pressen vier den litt oppmerksomhet :)
SvarSletthttp://www.digi.no/854754/
Hei Marius! Det er moro at du nevner det. I forhold til nickbruk er jeg ikke egentlig anonym, men heter nå engang Olav Møyner, hvis du føler det bidrar med noe til artikkelen. :)
SvarSlettDette gjorde jeg å noen kompiser for rundt 10 år siden.
SvarSlettDen gang som ett resultat av fasinasjon over informasjon satt i sammenheng hvor små fragmenter satt i system ga mye ekkel informasjon.
Telefonkatlogen kunne den gang kjøpes i cdrom utgave. De som laget dette trodde nok at de brukte en sikker beskyttelse av data siden de inkluderte så mye ekkel "metainformasjon", en ren eksport fra deres interne SQLbase.
Legg til dårlig beskytta GPS kart (før google maps kom) og pluss på en long term low rate "looping" mot avisenes online skattesøk.
Resultat av diverse fritt tilgjengelig informasjon = personnummer, telefonnummer, addresse og inntekt mappet mot kart, grouped by gate, fylke, alder osv.
Det vil alltid være nok av folk som ikke tenker på datasikring overhode. Hvorfor måtte du legge ut det her på internett ? Hva oppnådde du annet enn 10 minutes of fame ? Takk for at du har gitt banditter ideen offentlig. En kjip pris for ola normann å betale for dine 10 minutes of fame.
Dette gjør du neste gang:
Kontakt de som gir ut informasjonen (it avd, sikkerhets avd først). Folks første reaksjon når det går opp for de hva de har gjort er alt fra takknemmelighet til fornektelse.
Skjønner ikke de som har driti seg ut så vis de eksempler på hva du kan gjøre med informasjonen. Hjelper ikke dette så gå til direktøren i firmaet eller beveg deg oppover i organisasjonen / kommune / stat / firma. Funker ikke dette så er last resort å bruke medie eller en blog som du har gjort her.
Ett sikkerhetshull er ikke noe problem så lenge ingen vet om hullet eller kun ærlige folk vet om dette. Problemet når du gjør det tilgjengelig offentlig er at ALLE får vite det.
Min er erfaring er snarere det motsatte: Uansett hvor mye man purrer og maser på de ansvarlige, skjer det ingenting før de aner at det kan bli konsekvenser for dem. Forøvrig tror jeg det er noe urealistisk å gå i dialog med samtlige lokalaviser som pumper ut skatteliste-apps, for med en gang man får en av dem til å behandle dataene vettugt, spretter det opp en ny som ikke gjør det.
SvarSlettPrøv heller datatilsynet. Tenk igjennom konsekvens så er desverre dette mer riktig instans. Skal være enig i at lite skjer. 10 år er gått så lite er skjedd. Problemet er vel at ledere generellt i dag driter i konsekvensene så lenge de kan komme seg unna eller at de kan plassere skyld og sparke en person. Men for ola normann er det uansett negativt at dette blir offentlig.
SvarSlettStort sett alle sikkerhetshull rapporteres og tettes etter formelen jeg nevnte ovenfor.
Microsoft begynte ikke med sikkerhets-patcher fordi de ønsket å sikre kunden. Heller trusler fra white hat hackers som meg og andre ildsjeler. All erfaring viser at offentliggjøring fører til verktøy for script kiddies og konsekvensen er at menigmann i gata må lide fordi maskinene deres blir fulle av virus og hacket.
I dette tilfellet er tema informasjon om egen inntekt satt i sammenheng.
For noen år siden hadde de captcha på skattesøket, nettopp for å forhindre at noen crawler resultatene.
SvarSlettIkke problem å hacke captcha herr anonym.
SvarSlettNår du først har koblet det opp til post.nr.. Burde det være en smal sak og koble hele sulamitten opp mot adresse.. For å sette det ennå mer på spissen.
SvarSlett