EU AI Act Art. 10: Datakvalitet og Træningsdata for Høj-Risiko AI

Hvad kræver EU AI Act egentlig af de data, der bruges til at træne, validere og teste høj-risiko AI-systemer? Artikel 10 i forordning (EU) 2024/1689 er et af de mest teknisk krævende kapitler i hele lovteksten — og det er her, mange virksomheder undervurderer compliance-byrden. Denne artikel gennemgår alle stykker af Art. 10, koblingen til GDPR Art. 5 stk. 1 litra d og den internationale standard ISO/IEC 5259-serien, og giver dig en konkret tjekliste med otte dokumenter, du skal have på plads inden 2. august 2026.

1. Art. 10 stk. 1: Tre datasæt og deres formål

Udgangspunktet i Art. 10 stk. 1 er, at høj-risiko AI-systemer, der bygger på maskinlæring, skal udvikles på grundlag af tre distinkte datasæt:

Træningsdata — det datamateriale, systemet lærer fra

Valideringsdata — anvendt løbende under udviklingsprocessen til at justere og kalibrere modellen

Testdata — en adskilt datamængde til endelig evaluering af systemets ydeevne, inden det bringes i omsætning

Den vigtige pointe er, at disse tre datasæt skal holdes adskilt. Det er ikke tilstrækkeligt at splitte ét enkelt datasæt tilfældigt i 70/15/15 procent og kalde det compliance. Forordningen forventer, at hvert datasæt opfylder specifikke kvalitetskrav, der er relevante for det pågældende systems risikoeksponering.

For systemer der er klassificeret under Annex III — herunder rekrutteringsalgoritmer, lønfastsættelsessystemer og adgangsstyring til uddannelse — er disse krav gældende fra 2. august 2026.

2. Art. 10 stk. 2: Seks datakvalitetskrav

Art. 10 stk. 2 opstiller seks konkrete egenskaber, som praktikker for datastyring skal sikre, at alle tre datasæt har. Disse krav gælder uanset om data indsamles internt, licenseres fra tredjeparter eller genereres syntetisk:

2.1 Relevans

Data skal være relevante for det formål, systemet skal løse. Irrelevante features i træningsdataene er ikke blot ineffektive — de kan skabe falske korrelationer, der øger fejlraten eller forvrider output.

2.2 Repræsentativitet

Datasættene skal afspejle den population og de situationer, systemet vil møde i drift. En rekrutteringsalgoritme trænet primært på kandidater fra ét geografisk område eller én demografisk gruppe kan vise sig diskriminerende i praksis, uanset at diskrimination aldrig var hensigten.

2.3 Fejlfrihed

Data skal i videst muligt omfang være fri for fejl — herunder forkerte labels, duplikater og korrupte værdier. Forordningen bruger formuleringen "i videst muligt omfang", hvilket anerkender, at perfekte data sjældent eksisterer i virkelighedens datasæt. Kravet er dog, at der er etableret processer til løbende at identificere og korrigere fejl.

2.4 Fuldstændighed

Datasættet skal være tilstrækkeligt fyldestgørende til at understøtte det tilsigtede formål. Manglende data — eksempelvist systematisk underrepræsentation af bestemte brugergrupper — kan kompromittere systemets funktionsdygtighed.

2.5 Passende statistiske egenskaber

Data skal have statistiske egenskaber, der er passende til det formål, modellen skal tjene. Det indebærer bl.a. overvejelse af klassebalance ved klassifikationsproblemer og normaliseringsvalg.

2.6 Opdatering

Datasæt skal opdateres, efterhånden som de underliggende fænomener ændrer sig. Et kreditvurderingssystem trænet på adfærdsmønstre fra 2019 kan levere forkerte forudsigelser i et fundamentalt anderledes makroøkonomisk miljø. Art. 10 stk. 2 kræver, at systemer til data-vedligeholdelse er etableret, ikke blot at data engang har opfyldt kvalitetsstandarderne.

3. Art. 10 stk. 3: Bias-håndtering

Art. 10 stk. 3 er det stykke, der skaber mest bekymring i HR-tech-sektoren og andre Annex III-sektorer, fordi det stiller direkte krav om bias-identifikation og -korrektion.

Forordningen kræver, at praktikker for datastyring adresserer mulige bias, som kan påvirke folkesundhed, sikkerhed, grundlæggende rettigheder eller diskrimination baseret på beskyttede karakteristika som alder, køn, etnicitet, handicap eller seksuel orientering.

Det er ikke tilstrækkeligt at dokumentere, at man har haft bias i kikkerten under udviklingsprocessen. Art. 10 stk. 3 kræver:

Identifikation af potentielle biaskilder, inklusive historisk bias i indsamlede data

Vurdering af, om bias kan resultere i diskriminerende output

Korrigerende foranstaltninger, herunder gentræning, datakorrektion eller brug af teknis