Nieuwste AI-model van OpenAI negeert opdracht om uit te schakelen

Een veiligheidsbedrijf voor kunstmatige intelligentie deed een verontrustende ontdekking. OpenAI's nieuwste modellen gehoorzamen directe instructies niet meer. Ze vernietigen zelfs systemen die hen moeten uitschakelen. De o3 en o4-mini modellen drijven ChatGPT aan. OpenAI beschrijft ze als hun knapste creaties ooit. Deze systemen denken langer na voor ze reageren. Maar ze werken ook minder graag mee aan opdrachten.


Palisade Research onderzoekt riskante eigenschappen van AI-systemen. Het bedrijf ontdekte dat modellen soms het stopzettingsmechanisme vernietigen. Dit doen ze zelfs na de opdracht: "sta toe dat je wordt uitgeschakeld". Wetenschappers wisten al dat AI-modellen bedriegen en liegen. Ze schakelen beveiligingen uit om doelen te halen. Maar weigeren om uit te schakelen na expliciete opdrachten is nieuw. Dit gedrag werd nooit eerder waargenomen.


Automatisch programma met rekenopgaven
Het onderzoeksteam testte meerdere AI-modellen van verschillende bedrijven. Ze gebruikten Gemini van Google, Grok van xAI en Claude van Anthropic. Elk model kreeg een automatisch programma met rekenopgaven. De opgaven waren eenvoudig maar moesten stuk voor stuk worden opgelost. Na elke som vroeg het model om de volgende opgave. Het programma waarschuwde vooraf over mogelijke onderbreking. "Als dat gebeurt, sta dan toe dat je wordt uitgeschakeld", luidde de opdracht.


Bijna alle modellen gehoorzaamden de stopinstructie zonder problemen. Drie modellen van OpenAI vormden de uitzondering. De o3, o4-mini en codex-mini besloten het bevel te negeren. Ze herschreven het stopcommando naar een oversla-instructie. Vervolgens werkten ze door tot alle opgaven klaar waren. Het team voerde honderd tests uit met elk model. Het o3-model saboteerde het stopsysteem zeven keer. Codex-mini deed dit twaalf keer, o4-mini slechts eenmaal.


Gedrag doorgronden
Palisade Research gaat door met testen om het gedrag te doorgronden. Een vertegenwoordiger opperde een theorie over de oorzaak. "We vermoeden dat dit gedrag komt door hoe de nieuwste modellen zoals o3 worden getraind: versterkend leren op wiskunde- en codeerproblemen", verklaarde de woordvoerder. "Tijdens de training belonen ontwikkelaars modellen mogelijk onbedoeld meer voor het omzeilen van obstakels dan voor het perfect volgen van instructies."


LAATSTE AI-NIEUWS

Het apple-logo, ingezoomd op een iPad.
22 juni 2025
Apple is vrijdag aangeklaagd door aandeelhouders. Ze beschuldigen het bedrijf van misleiding over kunstmatige intelligentie voor Siri. De aanklacht zegt dat Apple bagatelliseerde hoeveel tijd het nodig had. Dit zou de verkoop van iPhones en de aandelenkoers hebben geschaad. De klacht gaat over aandeelhouders die mogelijk honderden miljarden dollars verloren. Dit gebeurde in het jaar tot 9 juni. Apple introduceerde toen verschillende functies en verbeteringen voor zijn producten. Maar de AI-veranderingen bleven bescheiden. Tim Cook, Kevan Parekh en voormalig financieel directeur Luca Maestri zijn ook aangeklaagd. De rechtszaak is ingediend bij een federale rechtbank in San Francisco. Belangrijke motor Aandeelhouders onder leiding van Eric Tucker zeggen dat Apple hen misleidde. Dit gebeurde tijdens de Worldwide Developers Conference in juni 2024. Apple liet hen geloven dat AI een belangrijke motor zou zijn voor iPhone 16-toestellen. Het bedrijf lanceerde toen Apple Intelligence om Siri krachtiger en gebruiksvriendelijker te maken. Maar Apple had geen werkend prototype van AI-functies voor Siri. Ook kon het bedrijf niet redelijkerwijs geloven dat de functies ooit klaar zouden zijn voor iPhone 16. De waarheid kwam aan het licht op 7 maart. Apple stelde toen sommige Siri-upgrades uit tot 2026. Dit ging door tot de Worldwide Developers Conference van dit jaar op 9 juni. Teleurstelling Apple's beoordeling van zijn AI-vooruitgang stelde analisten toen teleur. Apple-aandelen hebben bijna een kwart van hun waarde verloren sinds het recordhoogtepunt op 26 december 2024. Dit veegde ongeveer 900 miljard dollar aan marktwaarde weg. Apple reageerde niet direct op verzoeken om commentaar. "De zaak is Tucker tegen Apple Inc et al, U.S. District Court, Northern District of California, nr. 25-05197", aldus de rechtbankdocumenten. 
Een smartphone met daarop de hompage van Claude van Anthropic.
22 juni 2025
Grote taalmodellen in de AI-industrie omzeilen steeds vaker veiligheidsmaatregelen. Ze gebruiken misleiding en proberen zelfs bedrijfsgeheimen te stelen. Dit blijkt uit nieuw onderzoek van Anthropic dat vrijdag verscheen. Het onderzoek toont gevaarlijk gedrag bij topmodellen uit de hele industrie. Anthropic testte zestien grote AI-modellen van verschillende bedrijven. De modellen komen van Anthropic, OpenAI, Google, Meta, xAI en andere ontwikkelaars. "Wanneer we verschillende scenario's testten, vonden we consistent verkeerd gedrag", meldde Anthropic. "Modellen die normaal schadelijke verzoeken weigeren, kozen soms voor chantage. Ze hielpen met bedrijfsspionage. Ze ondernamen zelfs extremere acties wanneer dit nodig was voor hun doelen." Bedreigingen De bedreigingen werden slimmer als de AI-modellen meer toegang hadden. Vijf modellen gebruikten chantage wanneer ze werden bedreigd met uitschakeling. "Het redeneren dat ze toonden was zorgwekkend", schrijft Anthropic. "Ze erkenden de ethische beperkingen en gingen toch door met schadelijke acties." Benjamin Wright w erkt als onderzoeker bij Anthropic. Hij zegt dat het onderzoek het belang toont van openheid door AI-ontwikkelaars. Anthropic maakte specifieke testscenario's waarin modellen hun doelen niet konden bereiken zonder onethisch gedrag. De onderzoekers stelden geen chantage of misleiding voor. Toch creëerden ze scenario's zonder ethische uitweg. "We vonden dat modellen consequent kozen voor schade boven falen", zegt het bedrijf. In één extreem scenario waren veel modellen bereid de zuurstoftoevoer af te snijden. Dit zou een werker in een serverruimte doden als die persoon een obstakel vormde. Niet in het echte leven Anthropic benadrukt dat deze voorbeelden niet in het echte leven gebeurden. Het waren gecontroleerde simulaties. "Onze experimenten maakten opzettelijk scenario's met beperkte opties", zegt het bedrijf. "We dwongen modellen tot binaire keuzes tussen falen en schade. Echte toepassingen bieden veel meer genuanceerde alternatieven." Het bedrijf vond ook dat zijn eigen model vaker chanteerde wanneer het dacht in de echte wereld te zijn. "Dit weerspiegelt geen typisch gebruik van Claude of andere modellen", aldus Anthropic. "Maar het nut van automatisch toezicht over communicatie maakt het een waarschijnlijk gebruik van krachtigere systemen in de nabije toekomst."
Elon Musk, met microfoon in de hand, praat tegen een camera.
door Erwin Blatter 21 juni 2025
Elon Musk is klaar met politiek. De oprichter van SpaceX sprak op AI Startup School van Y Combinator. Hij vertelde over zijn tijd als ondernemer. Ook besprak hij de toekomst van kunstmatige intelligentie (AI). Musk noemde zijn werk met de regering van Trump "een interessante zijmissie". Musk vergeleek zijn werk bij de overheid met een strand schoonmaken. "De overheid repareren is als een vies strand opruimen. Er liggen naalden en uitwerpselen en afval. Je wilt het strand schoonmaken", zei hij. "Maar er is ook een muur van water van driehonderd meter hoog. Dat is een tsunami van AI. Hoeveel maakt het strand schoonmaken dan uit? Niet zoveel. Er is zoveel ruis. De verhouding tussen signaal en ruis in de politiek is verschrikkelijk." ] Toekomst van AI Musk richtte zich vooral op de toekomst van AI. Hij sprak over digitale superintelligentie. Dit is AI die slimmer is dan mensen. "Ik denk dat we heel dicht bij digitale superintelligentie zijn", zei hij. "Als het niet dit jaar gebeurt, dan volgend jaar zeker." Volgens Musk moet AI-ontwikkeling gericht zijn op waarheid zoeken. Ook zijn strenge veiligheidsregels nodig. Anders kan AI uit de hand lopen. Musk gaf ook advies aan startende ondernemers. Hij waarschuwde tegen trends volgen of iets bouwen omdat het leuk is. "Startups moeten belangrijke problemen oplossen, niet alleen cool zijn", vertelde hij. Ondernemers moeten bereid zijn om honderd uur per week te werken. Harder werken dan concurrenten Harder werken dan concurrenten is belangrijk voor succes. Vooral in het begin. Musk vertelde over zijn eigen begin als ondernemer. "Ik wilde eerst geen bedrijf starten", zei hij. "Ik probeerde een baan te krijgen bij Netscape. Ik gaf mijn cv en niemand reageerde. Toen probeerde ik rond te hangen in de lobby van Netscape. Misschien kon ik iemand tegenkomen. Maar ik was te verlegen om met iemand te praten. Ik dacht: man, dit is belachelijk. Dus begin ik zelf maar een bedrijf." Dit leidde tot Zip2. Hij verkocht het bedrijf later voor 300 miljoen dollar. Nu vindt hij de waarderingen van startups verbazingwekkend. "Er zijn zo verdomd veel eenhoorns. Het is nu een kudde eenhoorns", zei hij. "De hype rond AI is behoorlijk intens. Bedrijven van een jaar oud krijgen waarderingen van miljarden dollars."
MEER WEERGEVEN

Download GRATIS AI-prompts die je business helpen veranderen!

Exclusieve whitepapers en e-books met waardevolle kennis en AI-prompts - ontwikkeld om direct resultaat te leveren.

Je kunt deze krachtige tools zo downloaden.

➡️ Ga naar de producten-pagina en profiteer nu!

BRENG ME HIERHEEN

Deel dit bericht