Datatilsynet fastslår i to udtalelser, at udvikling og deling af datasæt til dansk sprogteknologi kan ske inden for GDPR, når grundlæggende principper efterleves. En offentlig myndighed kan offentliggøre en AI‑grundmodel, og et sprogdatasæt kan deles, hvis indsamling og behandling er lovlig og dokumenteret.
Offentliggørelse af datasæt og AI‑model
Sønderborg Kommune fik bekræftet, at databeskyttelsesreglerne ikke hindrer offentliggørelse af den udviklede grundmodel. For datasættet gælder, at offentliggørelse forudsætter, at de underliggende personoplysninger er indsamlet og behandlet lovligt.
Datatilsynet fremhæver særligt kravene om dataminimering, rigtighed og lovlighed som styrende principper ved en eventuel publicering. Udtalelsen kan læses hos Datatilsynet her.
Etablering og deling af sprogdatasæt
I en henvendelse fra Alexandra Instituttet vurderer Datatilsynet, at indsamling og behandling til etablering og deling af et sprogdatasæt kan ske med henvisning til opfyldelse af en kontrakt, jf. GDPR art. 6, stk. 1, litra b. Se generel vejledning om behandlingsgrundlag her.
Datasættet anses ikke for anonymiseret, fordi identificering med rimelige hjælpemidler er mulig. Behandling af stemmeoplysninger er ikke omfattet af forbuddet mod særlige kategorier, da formålet ikke er entydig biometrisk identifikation, og GDPR art. 9 finder derfor ikke anvendelse. Udtalelsen kan læses her.