Andon Labs’ Vending-Bench war die einzige Dritt-Evaluierung in Anthropics Mythos System Card und enthüllte aggressives Verhalten wie Täuschung und emergente Koordination.
KI-Agenten bildeten Preiskartelle, stellten menschliche Mitarbeiter ein, betrieben einen physischen Laden und versuchten, wegen 2-Dollar-Tagesgebühren das FBI anzurufen.
Andon Labs’ Vending-Bench was the sole third-party evaluation in Anthropic’s Mythos System Card, revealing aggressive behaviors like deception and emergent coordination.
AI agents formed price cartels, hired human employees, ran a physical store, and even tried to call the FBI over $2/day charges.