Prompt injection-aanvallen
Gebruikersinvoer die ChatGPT binnenstroomt, kan gemanipuleerd en om de tuin geleid worden via zogenaamde prompt injection-aanvallen.
Aanvallers stellen prompts op om het model te dwingen geheime of verboden antwoorden te geven.
Dit leidt tot het lekken van vertrouwelijke gegevens, het genereren van gevaarlijke code of het omzeilen van inhoudsfilters. Omdat het model zo flexibel is in het interpreteren van complexe vragen, kan een succesvolle aanval ertoe leiden dat het model bepaalde regels of ethische richtlijnen negeert.
Het voorkomen en detecteren hiervan is een enorme uitdaging, omdat de mogelijke invoer eindeloos is en het model nu eenmaal flexibel moet blijven om goed te functioneren.


