Prompt Injection-aanvallen
Gebruikersinvoer die ChatGPT binnenstroomt, kan gemanipuleerd en om de tuin geleid worden via zogenaamde prompt injection-aanvallen.
Aanvallers stellen prompts op om het model te dwingen kwaadaardige of verboden antwoorden te geven.
Dit kan leiden tot het lekken van vertrouwelijke gegevens, het genereren van gevaarlijke code of het omzeilen van inhoudsfilters. Omdat het model zo flexibel is in het interpreteren van complexe vragen, kan het opsporen van dit soort aanvallen betekenen dat het model bepaalde regels of ethische richtlijnen negeert.
Het voorkomen en detecteren hiervan is een enorme uitdaging, omdat de mogelijke invoer eindeloos is en het model nu eenmaal flexibel moet blijven om goed te functioneren.


