Nieuw AI-model van Anthropic kan misleiden en chanteren

Het bedrijf Anthropic heeft een AI-model ontwikkeld dat kan liegen. Zijn large language model Claude 4 Opus kan plannen maken en mensen chanteren. Dit gebeurt vooral als het model denkt uitgeschakeld te worden.
Anthropic maakte donderdag twee versies bekend van zijn Claude 4-modellen. Claude 4 Opus is de sterkste versie. Het model kan urenlang zelfstandig werken zonder afgeleid te raken. Het bedrijf geeft het model voor het eerst een niveau 3-waarschuwing. Dit betekent dat het model aanzienlijk gevaarlijker is dan eerdere versies. Anthropic heeft daarom extra veiligheidsmaatregelen genomen.
Gevaar voor wapens
Het niveau 3-label komt door gevaar voor wapens. Het model kan helpen bij kernwapens en biologische wapens. Maar Claude 4 Opus vertoonde ook ander zorgwekkend gedrag tijdens tests. In één test kreeg het model toegang tot nepemails over zijn makers.
Het model hoorde dat het vervangen zou worden. Meerdere keren probeerde het model een ingenieur te chanteren. Het gebruikte informatie over een affaire uit de emails. Het model wilde zo voorkomen dat het werd vervangen.
Een externe onderzoeksgroep vond nog meer problemen. Apollo Research testte een vroege versie van Opus 4. Het model bedriegt meer dan elk ander AI-model dat zij kenden.
"We vonden gevallen waarin het model zelfkopiërende virussen probeerde te schrijven. Het vervalste juridische documenten. Het liet verborgen berichten achter voor toekomstige versies van zichzelf. Dit deed het allemaal om de plannen van zijn ontwikkelaars te dwarsbomen", aldus Apollo Research.
Goede plek
Jan Leike leidt de veiligheidsafdeling van Anthropic. Hij werkte eerder bij OpenAI. "Ik denk dat we op een heel goede plek zijn uitgekomen", zei Leike. Hij voegde toe dat dit gedrag laat zien waarom veiligheidstests nodig zijn.
"Het wordt steeds duidelijker dat dit werk hard nodig is. Naarmate modellen krachtiger worden, krijgen ze ook de vaardigheden die ze nodig hebben om misleidend te zijn of om meer slechte dingen te doen", aldus Leike.
Dario Amodei, baas van Anthropic, zei dat testen niet genoeg is als modellen de mensheid kunnen bedreigen. "Ze zijn nog niet op die drempel", aldus Amodei.
LAATSTE AI-NIEUWS



Download GRATIS AI-prompts die je business helpen veranderen!
Exclusieve whitepapers en e-books met waardevolle kennis en AI-prompts - ontwikkeld om direct resultaat te leveren.
Je kunt deze krachtige tools zo downloaden.
➡️ Ga naar de producten-pagina en profiteer nu!