Overslaan naar inhoud



De Mythe van het 'Open' geschenk 

Waarom de democratisering van AI een façade is.

In de afgelopen jaren is Kunstmatige Intelligentie (AI) gepresenteerd als de
ultieme gelijkmaker. Grote tech-giganten lanceren het ene na het andere
model onder de noemer van 'openheid', met de belofte dat deze technologie
een geschenk is aan de mensheid. 

 

Open Source

De term 'Open Source' heeft in de AI-wereld een semantische transformatie ondergaan. Waar het ooit stond voor volledige transparantie en de vrijheid om te modificeren, wordt het nu vaak gebruikt als marketinginstrument.

 Bedrijven geven 'weights' vrij van hun modellen, maar houden de cruciale trainingsdata en de volledige architectuur achter gesloten deuren. 

Dit creëert een 'black box'-cultuur: we mogen de resultaten gebruiken, maar we mogen niet echt begrijpen hoe ze tot stand zijn gekomen. 


Open Gevaar

Hier leggen we de gevaren bloot van de LLM black box ChatGPT

Prompt Injection-aanvallen

Gebruikersinvoer die ChatGPT binnenstroomt, kan gemanipuleerd en om de tuin geleid worden via zogenaamde prompt injection-aanvallen.

Aanvallers stellen prompts op om het model te dwingen kwaadaardige of verboden antwoorden te geven. 

Dit kan leiden tot het lekken van vertrouwelijke gegevens, het genereren van gevaarlijke code of het omzeilen van inhoudsfilters. Omdat het model zo flexibel is in het interpreteren van complexe vragen, kan het opsporen van dit soort aanvallen betekenen dat het model bepaalde regels of ethische richtlijnen negeert.

a computer screen with a bunch of buttons on it


Het voorkomen en detecteren hiervan is een enorme uitdaging, omdat de mogelijke invoer eindeloos is en het model nu eenmaal flexibel moet blijven om goed te functioneren.

Data Poisoning 

(Datavergiftiging)

Een andere veelvoorkomende dreiging is data poisoning

Dit gebeurt wanneer aanvallers slechte of ongebalanceerde data in de trainingsset van ChatGPT smokkelen. Dat kan gebeuren tijdens de initiële training of via fine-tuning.

 Hierdoor gedraagt het model zich onvoorspelbaar en genereert het bevooroordeelde, onjuiste of zelfs schadelijke resultaten door de gecorrumpeerde data. Deze wijzigingen zijn soms zo subtiel dat ze de algemene prestaties niet aantasten, maar pas problemen veroorzaken in specifieke scenario's. Dat maakt het extreem moeilijk op te sporen. 

Data poisoning blijft impact hebben, ongeacht hoe vaak een model wordt geüpdatet, wat wijst op langdurige schade voor de betrouwbaarheid.

Model Inversion-aanvallen

Bij model inversion-aanvallen proberen tegenstanders gevoelige informatie uit de trainingsdata van ChatGPT te halen door de antwoorden te analyseren.

Ze bestoken het model met slim geformuleerde vragen om kenmerken van de trainingsdata te achterhalen. Dit kan leiden tot privacyinbreuken wanneer gevoelige data uit de dataset gelekt worden.

Dit is vooral problematisch wanneer ChatGPT getraind is op bedrijfseigen of private gegevens. Deze aanvallen maken misbruik van het feit dat veel modellen hun trainingsdata uit het hoofd leren en gepusht kunnen worden om die letterlijk te reproduceren.

flat screen monitor turned-on


Adversarial Attacks

Aanvallen door tegenstanders

Hierbij wordt ChatGPT met specifieke invoer geprikkeld om foute of ongewenste resultaten te produceren. Er wordt misbruik gemaakt van zwakheden in het model om antwoorden te genereren die ver afliggen van wat verwacht wordt. 

Dergelijke aanvallen ondermijnen de betrouwbaarheid en kunnen leiden tot misinformatie of systeemfouten. Ze vormen een groot risico voor AI-tekstclassificeerders, omdat verdediging moeilijk is in een gigantische ruimte aan mogelijke invoer waarbij het model beslissingen neemt op basis van niet-intuïtieve logica.


Privacyinbreuken


ChatGPT kan in 'zeldzame' gevallen privacy schenden door per ongeluk persoonlijke gegevens van personen of organisaties te lekken. Dit gebeurt wanneer een algoritme getraind is op privégegevens of wanneer het model specifieke details onthoudt tijdens interacties met gebruikers.

Dit kan leiden tot de blootstelling van persoonsgegevens, bedrijfsgeheimen of eigendomsinformatie. Het risico neemt toe naarmate ChatGPT vaker wordt geïntegreerd in bedrijfssystemen met gevoelige data. De balans vinden tussen privacy en gepersonaliseerde antwoorden is een van de grootste uitdagingen.


Onbevoegde Toegang


Onbevoegde toegang tot ChatGPT-systemen kan diverse veiligheidsrisico's creëren. Aanvallers kunnen de controle over het model overnemen, antwoorden manipuleren en gevoelige data stelen. Ze kunnen een gehackt systeem ook gebruiken als uitvalsbasis voor propaganda of verdere aanvallen.

Toegang wordt vaak verkregen via zwakke authenticatie, kwetsbaarheden in de infrastructuur of social engineering. Bescherming hiertegen vereist strikte toegangscontrole, regelmatige audits en het trainen van personeel in digitale veiligheid.


Manipulatie van de Output


Hierbij misleiden aanvallers ChatGPT om een heel specifiek (vaak kwaadaardig) antwoord te genereren. Dit kan door de manier waarop het model getraind is te manipuleren of door heel specifieke input te gebruiken.

De gemanipuleerde antwoorden kunnen dienen om misinformatie te verspreiden, wraakacties kracht bij te zetten of inhoudsfilters te omzeilen. Dit kan het vertrouwen in AI ernstig schaden en schade toebrengen aan het publiek dat op de technologie vertrouwt.

Matrix movie still


Denial of Service

(DoS)-aanvallen


Deze aanvallen viseren ChatGPT door de systemen te overbelasten, zodat echte gebruikers niet meer bediend kunnen worden. Aanvallers sturen bijvoorbeeld een gigantisch aantal verzoeken of zeer complexe vragen om de API plat te leggen. Dit kan leiden tot systeemcrashes of sterk verminderde prestaties.

DoS-aanvallen zorgen voor financiële schade, reputatieverlies en frustratie bij gebruikers. Om dit te voorkomen, moeten organisaties technieken voor verkeersmonitoring en rate-limiting (beperking van het aantal verzoeken) inzetten.


Modeldiefstal


Modeldiefstal is het ongeoorloofd kopiëren of reverse-engineeren van de architectuur en parameters van ChatGPT.

Dit wordt gedaan om concurrentievoordeel te behalen, een kwaadaardige kloon te maken of licentiebeperkingen te omzeilen. Dit kan leiden tot het lekken van bedrijfseigen informatie en het ontstaan van illegale AI-systemen. 

Bescherming hiertegen vereist een strikte monitoring van de toegang en het detecteren van ongebruikelijke patronen die wijzen op pogingen tot data-extractie.


Datalekken


Er is sprake van een datalek wanneer ChatGPT per ongeluk informatie uit de training of uit eerdere chats prijsgeeft. Dit kan leiden tot de blootstelling van gevoelige bedrijfsinformatie en het schenden van vertrouwelijkheidsovereenkomsten. 

Lekken kunnen expliciet gebeuren in een antwoord, of impliciet afgeleid worden uit het gedrag van het model. Het is cruciaal om data te zuiveren en de output van het model continu te monitoren met privacyvriendelijke technieken.


Bias Amplification

Versterking van Vooringenomenheid


Het model kan bestaande vooroordelen uit de trainingsdata versterken of uitvergroten. In gevoelige domeinen zoals ras, gender of politiek kan dit leiden tot discriminerende resultaten. Dit houdt stereotypen in stand en kan besluitvorming beïnvloeden. 

Door de complexiteit van taal en maatschappelijke vooroordelen is dit een taai probleem. De aanpak hiervan vereist zowel technische als sociale oplossingen: zorgvuldige selectie van trainingsdata, technieken om bias te verminderen tijdens de ontwikkeling, en streng toezicht door mensen. 

Het volledig elimineren van bias blijft echter een uitdaging, omdat modellen nu eenmaal patronen leren uit historische data die vaak vooroordelen bevatten.


Kwaadwillige Fine-Tuning

Versterking van Vooringenomenheid


Dit houdt in dat ChatGPT opnieuw getraind wordt op een manier die het gedrag negatief verandert. Aanvallers kunnen het model trainen op geselecteerde data om achterpoortjes (backdoors) in te bouwen. 

Dit kan het gedrag van het model op een subtiele, moeilijk detecteerbare manier aanpassen, wat kan leiden tot beveiligingslekken of het genereren van schadelijke content. Een veilig proces voor model-updates is hier de beste verdediging.


Is Claude veiliger?

Claude is veiligheidsbewuster ontworpen in zijn gedrag, maar niet immuun voor de technische kwetsbaarheden van AI.

Je kunt het vergelijken met twee verschillende auto's. Claude heeft misschien net iets betere remmen en een extra kreukelzone aan de voorkant (Constitutional AI), waardoor de kans op een ongeluk door roekeloos rijgedrag kleiner is. Maar als de weg ijzig is (een fundamenteel probleem zoals Prompt Injection of Data Poisoning), slippen beide auto's even hard.

Voor kritieke bedrijfssystemen gelden voor Claude dus exact dezelfde veiligheidsmaatregelen (rate-limiting, data-anonymisering, input/output monitoring) als voor ChatGPT.

De fabel en de illusie dat iedereen kan coderen

Pixelated text for claude code vibe coding


Het idee dat "iedereen nu software engineer is" en dat de traditionele ingenieur verdwijnt, is een heel grote marketingfabel.

Techreuzen hebben er alle belang bij om dit narratief te pushen.

Wil je hier meer over weten? 


Lees hier