Artikel ingezonden door Michiel A. Smit.
Memorization is geen zuivere koffie (en ook geen TDM): een eerste reactie op OpenAI v. GEMA
Artikel geschreven door: Michiel A. Smit [1]
Inleiding
De auteursrechtelijke strijd om het AI-model is ingeleid met een duidelijke nederlaag voor (Open)AI. In reactie op korte prompts toonde ChatGPT (van OpenAI) liedteksten van Duitse tekstdichters in de output, volgens GEMA was deze output inbreukmakend en bovendien symptomatisch voor een onderliggende verveelvoudiging in het AI-model zelf. De rechtbank in München geeft GEMA gelijk. In deze korte reactie concentreer ik me op de interne kopie in het model en op tekst- en datamining (TDM). Doel is om hiermee enige helderheid te scheppen omdat de uitspraak – gelet op de complexiteit – gemakkelijk tot misverstanden en verhaspelingen leidt.[2]
Zuivere training versus memorization.
Auteursrechtelijk bezien zijn er twee belangrijke en verschillende vragen aan de ‘inbreukmakende’ zijde van generatieve AI. De ene heeft betrekking op 1) ‘zuivere’ training en de andere op 2) permanente kopieën in een AI-model, ook wel ‘memorization’. Conceptueel en juridisch worden deze vragen van elkaar gescheiden – zoals ook in rechtszaken gebeurt - zelfs al zijn deze technisch gezien tijdens het eigenlijke trainen mogelijk slecht uit elkaar te houden.