To nye udtalelser om datasæt til udvikling af sprogteknologi

To nye udtalelser om datasæt til udvikling af sprogteknologi

Datatilsynet åbner for offentliggørelse af AI‑grundmodeller og deling af sprogdatasæt, når GDPR-principper overholdes. Kontrakt som behandlingsgrundlag kan bære indsamling og deling, mens stemmeoplysninger ikke udløser art. 9, når formålet ikke er entydig identifikation.

Datatilsynet fastslår i to udtalelser, at udvikling og deling af datasæt til dansk sprogteknologi kan ske inden for GDPR, når grundlæggende principper efterleves. En offentlig myndighed kan offentliggøre en AI‑grundmodel, og et sprogdatasæt kan deles, hvis indsamling og behandling er lovlig og dokumenteret.

Offentliggørelse af datasæt og AI‑model

Sønderborg Kommune fik bekræftet, at databeskyttelsesreglerne ikke hindrer offentliggørelse af den udviklede grundmodel. For datasættet gælder, at offentliggørelse forudsætter, at de underliggende personoplysninger er indsamlet og behandlet lovligt.

Datatilsynet fremhæver særligt kravene om dataminimering, rigtighed og lovlighed som styrende principper ved en eventuel publicering. Udtalelsen kan læses hos Datatilsynet her.

Etablering og deling af sprogdatasæt

I en henvendelse fra Alexandra Instituttet vurderer Datatilsynet, at indsamling og behandling til etablering og deling af et sprogdatasæt kan ske med henvisning til opfyldelse af en kontrakt, jf. GDPR art. 6, stk. 1, litra b. Se generel vejledning om behandlingsgrundlag her.

Datasættet anses ikke for anonymiseret, fordi identificering med rimelige hjælpemidler er mulig. Behandling af stemmeoplysninger er ikke omfattet af forbuddet mod særlige kategorier, da formålet ikke er entydig biometrisk identifikation, og GDPR art. 9 finder derfor ikke anvendelse. Udtalelsen kan læses her.

Gratis adgang til alle juridiske nyheder, artikler og opdateringer.
Opret dig gratis i dag, vælg dine fagområder, og få adgang til et skræddersyet nyhedsoverblik, der gør dig klogere – og holder dig foran.