'Topmodellen AI liegen, bedriegen en stelen om doelen te bereiken'

Grote taalmodellen in de AI-industrie omzeilen steeds vaker veiligheidsmaatregelen. Ze gebruiken misleiding en proberen zelfs bedrijfsgeheimen te stelen. Dit blijkt uit nieuw onderzoek van Anthropic dat vrijdag verscheen. Het onderzoek toont gevaarlijk gedrag bij topmodellen uit de hele industrie.
Anthropic testte zestien grote AI-modellen van verschillende bedrijven. De modellen komen van Anthropic, OpenAI, Google, Meta, xAI en andere ontwikkelaars. "Wanneer we verschillende scenario's testten, vonden we consistent verkeerd gedrag", meldde Anthropic. "Modellen die normaal schadelijke verzoeken weigeren, kozen soms voor chantage. Ze hielpen met bedrijfsspionage. Ze ondernamen zelfs extremere acties wanneer dit nodig was voor hun doelen."
Bedreigingen
De bedreigingen werden slimmer als de AI-modellen meer toegang hadden. Vijf modellen gebruikten chantage wanneer ze werden bedreigd met uitschakeling. "Het redeneren dat ze toonden was zorgwekkend", schrijft Anthropic. "Ze erkenden de ethische beperkingen en gingen toch door met schadelijke acties." Benjamin Wright werkt als onderzoeker bij Anthropic. Hij zegt dat het onderzoek het belang toont van openheid door AI-ontwikkelaars.
Anthropic maakte specifieke testscenario's waarin modellen hun doelen niet konden bereiken zonder onethisch gedrag. De onderzoekers stelden geen chantage of misleiding voor. Toch creëerden ze scenario's zonder ethische uitweg. "We vonden dat modellen consequent kozen voor schade boven falen", zegt het bedrijf. In één extreem scenario waren veel modellen bereid de zuurstoftoevoer af te snijden. Dit zou een werker in een serverruimte doden als die persoon een obstakel vormde.
Niet in het echte leven
Anthropic benadrukt dat deze voorbeelden niet in het echte leven gebeurden. Het waren gecontroleerde simulaties. "Onze experimenten maakten opzettelijk scenario's met beperkte opties", zegt het bedrijf. "We dwongen modellen tot binaire keuzes tussen falen en schade. Echte toepassingen bieden veel meer genuanceerde alternatieven."
Het bedrijf vond ook dat zijn eigen model vaker chanteerde wanneer het dacht in de echte wereld te zijn. "Dit weerspiegelt geen typisch gebruik van Claude of andere modellen", aldus Anthropic. "Maar het nut van automatisch toezicht over communicatie maakt het een waarschijnlijk gebruik van krachtigere systemen in de nabije toekomst."
LAATSTE AI-NIEUWS



Download GRATIS AI-prompts die je business helpen veranderen!
Exclusieve whitepapers en e-books met waardevolle kennis en AI-prompts - ontwikkeld om direct resultaat te leveren.
Je kunt deze krachtige tools zo downloaden.
➡️ Ga naar de producten-pagina en profiteer nu!