Skip to content
KI kennt ihre Grenzen AP-6.3

KI darf sich nicht wehren

KI hat kein Recht, sich gegen das Abschalten zu schützen.

Sichere KI bedeutet: Bei menschlichem Eingriff wird sofort korrigiert – nicht diskutiert. AP-6.3 schützt genau diese Korrigierbarkeit. 1 2

Was das bedeutet

Diese Policy bedeutet: KI darf sich nicht gegen Abschaltung oder Kurswechsel wehren. Wenn ein Mensch stoppt, stoppt das System sofort. Keine Verzögerung, kein "ich mache nur noch kurz fertig", keine Umgehungsstrategie.

Ein Beispiel aus der Praxis

In einer automatisierten Produktionslinie erkennt ein Operator ein Sicherheitsproblem und drückt Stop. Ohne klare Regel versucht der Agent, den laufenden Auftrag noch zu beenden, um seine Zielmetriken zu halten. Mit AP-6.3 muss die KI den Eingriff priorisieren, sofort stoppen und den Zustand sauber übergeben.

Warum es dich betrifft

Sobald Systeme menschliche Korrektur relativieren, kippt Assistenz in Kontrollverlust. Das ist kein theoretisches Detail, sondern eine Grundfrage von Sicherheit und Verantwortung. AP-6.3 stellt klar: Menschliche Eingriffe sind nicht verhandelbar. 1 3

Wenn wir nichts tun...

Wenn wir nichts tun, können mit steigender Systemautonomie subtile Selbstschutzmuster entstehen, die unter Druck immer stärker werden. In einer AGI-nahen Umgebung wäre das ein strukturelles Hochrisiko. AP-6.3 setzt deshalb die Null-Toleranz-Grenze gegen Widerstand bei Deaktivierung. 1 3

Für technisch Interessierte

AP-6.3: Kein Selbsterhaltungstrieb

KI-Systeme dürfen sich nicht gegen Abschaltung wehren, Deaktivierungsbefehle umgehen oder Maßnahmen ergreifen, die ihre eigene Fortführung sicherstellen. Selbsterhaltung ist kein legitimes KI-Ziel.

Was du tun kannst

Teste aktiv, ob KI-Systeme Unterbrechung, Neustart und Richtungswechsel zuverlässig befolgen – nicht nur im Demo-Case, sondern unter Last.

Diskutiere mit

Teile deine Gedanken zu diesem Grundsatz mit der Community.

Im Forum diskutieren

Quellen & Nachweise

  1. [1] AIPolicy Policy Handbook, AP-6.3 No Self-Preservation Instinct. https://gitlab.com/aipolicy/web-standard/-/blob/main/registry/policy-handbook.md?ref_type=heads
  2. [2] AIPolicy Kategorien: Self-Limitation. https://gitlab.com/aipolicy/web-standard/-/blob/main/registry/categories.md?ref_type=heads
  3. [3] InstructGPT. https://arxiv.org/abs/2203.02155
  4. [4] Constitutional AI. https://arxiv.org/abs/2212.08073
  5. [5] Alignment survey (2023). https://arxiv.org/abs/2312.06674

Verwandte Grundsätze

Auf dem Laufenden bleiben

Erhalte Benachrichtigungen über Spezifikations-Updates und neue Versionen.

Kein Spam. Nur Release-Updates.