Hvad kræver EU AI Act egentlig af de data, der bruges til at træne, validere og teste høj-risiko AI-systemer? Artikel 10 i forordning (EU) 2024/1689 er et af de mest teknisk krævende kapitler i hele lovteksten — og det er her, mange virksomheder undervurderer compliance-byrden. Denne artikel gennemgår alle stykker af Art. 10, koblingen til GDPR Art. 5 stk. 1 litra d og den internationale standard ISO/IEC 5259-serien, og giver dig en konkret tjekliste med otte dokumenter, du skal have på plads inden 2. august 2026.
1. Art. 10 stk. 1: Tre datasæt og deres formål
Udgangspunktet i Art. 10 stk. 1 er, at høj-risiko AI-systemer, der bygger på maskinlæring, skal udvikles på grundlag af tre distinkte datasæt:
Den vigtige pointe er, at disse tre datasæt skal holdes adskilt. Det er ikke tilstrækkeligt at splitte ét enkelt datasæt tilfældigt i 70/15/15 procent og kalde det compliance. Forordningen forventer, at hvert datasæt opfylder specifikke kvalitetskrav, der er relevante for det pågældende systems risikoeksponering.
For systemer der er klassificeret under Annex III — herunder rekrutteringsalgoritmer, lønfastsættelsessystemer og adgangsstyring til uddannelse — er disse krav gældende fra 2. august 2026.
2. Art. 10 stk. 2: Seks datakvalitetskrav
Art. 10 stk. 2 opstiller seks konkrete egenskaber, som praktikker for datastyring skal sikre, at alle tre datasæt har. Disse krav gælder uanset om data indsamles internt, licenseres fra tredjeparter eller genereres syntetisk:
2.1 Relevans
Data skal være relevante for det formål, systemet skal løse. Irrelevante features i træningsdataene er ikke blot ineffektive — de kan skabe falske korrelationer, der øger fejlraten eller forvrider output.
2.2 Repræsentativitet
Datasættene skal afspejle den population og de situationer, systemet vil møde i drift. En rekrutteringsalgoritme trænet primært på kandidater fra ét geografisk område eller én demografisk gruppe kan vise sig diskriminerende i praksis, uanset at diskrimination aldrig var hensigten.
2.3 Fejlfrihed
Data skal i videst muligt omfang være fri for fejl — herunder forkerte labels, duplikater og korrupte værdier. Forordningen bruger formuleringen "i videst muligt omfang", hvilket anerkender, at perfekte data sjældent eksisterer i virkelighedens datasæt. Kravet er dog, at der er etableret processer til løbende at identificere og korrigere fejl.
2.4 Fuldstændighed
Datasættet skal være tilstrækkeligt fyldestgørende til at understøtte det tilsigtede formål. Manglende data — eksempelvist systematisk underrepræsentation af bestemte brugergrupper — kan kompromittere systemets funktionsdygtighed.
2.5 Passende statistiske egenskaber
Data skal have statistiske egenskaber, der er passende til det formål, modellen skal tjene. Det indebærer bl.a. overvejelse af klassebalance ved klassifikationsproblemer og normaliseringsvalg.
2.6 Opdatering
Datasæt skal opdateres, efterhånden som de underliggende fænomener ændrer sig. Et kreditvurderingssystem trænet på adfærdsmønstre fra 2019 kan levere forkerte forudsigelser i et fundamentalt anderledes makroøkonomisk miljø. Art. 10 stk. 2 kræver, at systemer til data-vedligeholdelse er etableret, ikke blot at data engang har opfyldt kvalitetsstandarderne.
3. Art. 10 stk. 3: Bias-håndtering
Art. 10 stk. 3 er det stykke, der skaber mest bekymring i HR-tech-sektoren og andre Annex III-sektorer, fordi det stiller direkte krav om bias-identifikation og -korrektion.
Forordningen kræver, at praktikker for datastyring adresserer mulige bias, som kan påvirke folkesundhed, sikkerhed, grundlæggende rettigheder eller diskrimination baseret på beskyttede karakteristika som alder, køn, etnicitet, handicap eller seksuel orientering.
Det er ikke tilstrækkeligt at dokumentere, at man har haft bias i kikkerten under udviklingsprocessen. Art. 10 stk. 3 kræver: