GDPR

Sambruk automatisering inventeringen
23 mar 2018

Automatisk inventering av personuppgifter i ostrukturerad text

//
Kommentarer0

Nu är det två månader kvar till dataskyddsförordningen (GDPR) träder i kraft den 25 maj. Då träder förmodligen också dataskyddslagen i kraft, om Riksdagen hinner behandla den proposition som finns.
En stor del av reglerna i dataskyddsförordningen och dataskyddslagen liknar dagens reglering i personuppgiftslagen, men det finns vissa betydande och uppmärksamma skillnader. En av skillnaderna som kanske inte uppmärksammats så mycket är att den så kallade missbruksregeln i nuvarande personuppgiftslagen försvinner. Regeln i personuppgiftslagen innebär att personuppgifter i löpande text till stor del inte omfattas av lagen.
Den 25 maj kommer samma regler att gälla för alla personuppgifter som är strukturerade i olika databaser och IT-system som för alla personuppgifter som finns i e-postmeddelanden, wordfiler och annat som till exempel lagras på filhanterare, i olika molntjänster eller på annat sätt.
I förberedelsearbete inför GDPR så har många organisationer arbetat med få en samlad kunskap om vilka personuppgifter som finns och som hanteras i organisationens olika delar. Detta inventeringsarbete bör dels koncentreras till de IT-system som finns och som hanterar strukturerade data och dels till att inventera uppgifter i löpande text. Det senare är svårare och mer krävande än man ofta inser.
I många fall finns det goda skäl att etablera tydligare och mer detaljerade regler för hur personuppgifter ska hanteras än hur det görs idag. I samband med det behöver ofta rutiner skapas och redigeras. Det finns troligen poänger med att, om möjligt, hantera personuppgifter på färre ställen och i större utsträckning strukturerat i IT-lösningar än idag. Det finns många skäl till detta; skydd, ordnad behörighetshantering, centrala funktioner för uppdatering och gallring kan skapas.

När det handlar om arbetet med att inventera ostrukturerad text så är det väldigt arbetskrävande. Peter Mankenskiöld, som leder ett projekt inom den kommunala samarbetsorganisationen Sambruk, har funderat på hur lång tid det skulle ta att inventera 1 TB ostrukturerad data. Om man antar att det tar en människa 3 minuter att läsa ett dokument som är 3 MB  så tar det 10 manår att läsa 1 TB data.

Det projekt som Peter leder syftar till att utveckla en e-tjänst som, delvis med artificiell intelligens, ska stödja det mänskliga sisyfosarbetet med att hitta personuppgifter i stora mängder information. Datorn kan snabbt skanna av och ge förslag på vad som är personuppgifter till en människa som slutligen avgör. Eftersom vad en personuppgift är kan variera från fall till fall (t. ex. är fastighetsbeteckningar för fastigheter som är privatägda personuppgifter medan fastigheter som ägs av bolag inte är det) kan AI-komponenten användas på ett sätt som gör att datorn blir mer och mer säker i bedömningen ju mer ostrukturerade data den får ta del av. Fokus är inventering och klassificering av text i stora mängder information, något som kan göras mycket bra idag om vi ger datorn mycket text att lära sig på.
Sambruks pilotprojektet avslutas under våren. Sedan planerar Sambruk att tillhandahålla en e-tjänst som medlemskommunerna  och andra kommer att kunna köpa för att få hjälp med kartläggning av sina personuppgifter.