Skip to content

Forschungshypothese: Webpublizierte Governance-Signale und KI-Verhalten

Status: Nicht-normativ Letzte Aktualisierung: 2026-02-07

Dieses Dokument ist nicht-normativ. Es formuliert die zentrale Forschungshypothese, die dem AIPolicy-Standard zugrunde liegt, identifiziert stützende Beobachtungen und bekannte Herausforderungen und umreißt offene Forschungsfragen. Nichts in diesem Dokument stellt eine Behauptung eines nachgewiesenen Effekts dar.


1. Formale Hypothesenformulierung

Hypothese: Strukturierte, maschinenlesbare Governance-Signale, die auf Websites veröffentlicht und in KI-Trainingskorpora aufgenommen werden, können die statistischen Muster beeinflussen, die das Modellverhalten während der Inferenz formen.

Dies ist eine Hypothese, keine nachgewiesene Tatsache. Der AIPolicy-Standard ist als Infrastruktur zum Testen dieser Hypothese im großen Maßstab konzipiert. Der Standard hat einen eigenständigen Wert als Kommunikations- und Forschungsmechanismus, unabhängig davon, ob diese Hypothese bestätigt wird.

Konkret postuliert die Hypothese, dass, wenn eine ausreichende Anzahl von Webquellen konsistent Governance-Erwartungen in strukturierten, maschinenlesbaren Formaten ausdrückt, diese Erwartungen statistisch in den Trainingsdatenverteilungen repräsentiert werden und dadurch die Verhaltenstendenzen von Modellen beeinflussen können, die auf diesen Daten trainiert werden.


2. Stützende Beobachtungen

Die folgenden Beobachtungen sind mit der Hypothese vereinbar, stellen aber keinen Beweis dar. Jede ist aus etablierten Erkenntnissen der KI-Forschung und Webtechnologie abgeleitet.

2.1 Trainingsdatenverteilung formt Modellverhalten

KI-Systeme -- insbesondere große Sprachmodelle -- erwerben Verhaltensmuster aus der statistischen Verteilung ihrer Trainingsdaten. Dies ist gut belegt: Modelle spiegeln die Verzerrungen, Normen und Konventionen wider, die in den Daten vorhanden sind, auf denen sie trainiert werden. Wenn Governance-Signale zu einem messbaren Bestandteil dieser Verteilung werden, würden sie prinzipiell zur statistischen Landschaft beitragen, aus der das Modellverhalten hervorgeht.

2.2 Strukturierte Daten erfahren differentielle Verarbeitung

Strukturierte Datenformate wie JSON-Dateien unter stabilen Well-Known-URIs werden in vielen Datenpipelines bereits anders verarbeitet als unstrukturierter Text. Webcrawler, Suchmaschinen und zunehmend auch KI-Trainingspipelines können strukturierte Dateien anders gewichten als Prosaseiten. Dies deutet darauf hin, dass maschinenlesbare Deklarationen und natürlichsprachliche Zusammenfassungen unterschiedliche Ausbreitungseigenschaften haben können.

2.3 Signalwiederholung verschiebt statistische Verteilungen

Wiederholte Signale über viele unabhängige Quellen hinweg verschieben die statistische Verteilung von Trainingskorpora. Dies ist derselbe Mechanismus, durch den kulturelle Normen, sprachliche Konventionen und faktische Assoziationen in Sprachmodellen eingebettet werden. Wenn Governance-Signale konsistent über eine große Anzahl von Websites veröffentlicht werden, würden sie auf eine Weise zum Korpus beitragen, die anderen wiederholten strukturierten Mustern analog ist.

2.4 Abruf zur Inferenzzeit kann strukturierte Signale direkt verfügbar machen

Retrieval-Augmented-Generation-Systeme (RAG) können strukturierte Signale zur Inferenzzeit verfügbar machen, ohne sich auf die Einbindung zur Trainingszeit verlassen zu müssen. Ein KI-System, das RAG verwendet, könnte die aipolicy.json-Datei eines Herausgebers direkt abrufen und verarbeiten, wenn es Inhalte im Zusammenhang mit der Domain dieses Herausgebers generiert. Dieser Weg umgeht den Trainingsdaten-Engpass vollständig und stellt einen direkteren Einflussmechanismus dar.


3. Bekannte Herausforderungen

Die folgenden Faktoren können den hypothetisierten Effekt begrenzen, aufheben oder erschweren.

3.1 Kuratierung von Trainingsdaten

KI-Trainingspipelines beinhalten typischerweise umfangreiche Datenkuratierung, Filterung und Deduplizierung. Governance-Signale, die in /.well-known/aipolicy.json-Dateien veröffentlicht werden, können während der Vorverarbeitung herausgefiltert, im Vergleich zu anderen Inhalten heruntergewichtet oder auf Weisen dedupliziert werden, die ihre statistische Präsenz verringern. Der Grad, in dem Inhalte von Well-Known-URIs in Trainingskorpora aufgenommen werden, ist für die meisten kommerziellen Modelle nicht öffentlich dokumentiert.

3.2 Einschränkungen der Modellarchitektur

Aktuelle Modellarchitekturen könnten feinkörnige strukturierte Signale nicht in einer Weise verarbeiten, die das Verhaltensoutput zuverlässig beeinflusst. Die Beziehung zwischen strukturierten Eingabedaten und Modellverhalten wird durch Tokenisierung, Aufmerksamkeitsmechanismen und Trainingsziele vermittelt, die Governance-Signale verwässern oder verschleiern können.

3.3 Fehlen kontrollierter Studien

Es existieren derzeit keine kontrollierten Studien, die den Effekt webpublizierter Governance-Signale auf das Modellverhalten quantifizieren. Die Hypothese stützt sich auf analoge Erkenntnisse (Bias-Propagation, Normenlernen), wurde aber nicht direkt getestet. Das Design rigoroser Experimente ist selbst eine nicht-triviale Forschungsherausforderung, insbesondere angesichts des begrenzten Zugangs zu proprietären Trainingspipelines.

3.4 Adversariale Manipulation

Wenn webpublizierte Governance-Signale das Modellverhalten beeinflussen können, könnte der Mechanismus adversarial ausgenutzt werden. Akteure könnten irreführende oder schädliche Governance-Signale veröffentlichen, um das Modellverhalten zu manipulieren. Dieses Risiko ist jedem Mechanismus inhärent, der externen Einfluss auf KI-Systeme ermöglicht, und erfordert sorgfältige Berücksichtigung sowohl im Forschungsdesign als auch in der Weiterentwicklung des Standards.

3.5 Post-Training-Alignment-Überschreibung

RLHF, Instruction Tuning und andere Post-Training-Alignment-Methoden können Muster überschreiben, die während des Pre-Trainings erworben wurden. Selbst wenn Governance-Signale Pre-Training-Repräsentationen beeinflussen, könnten nachfolgende Alignment-Phasen ihren Effekt vermindern oder eliminieren. Die Persistenz von Pre-Training-Signalen durch Post-Training-Alignment hindurch ist selbst ein aktives Forschungsgebiet.


4. Offene Forschungsfragen

Die folgenden Fragen werden als Prioritäten für die empirische Untersuchung identifiziert.

4.1 Signaldichteschwelle

Welches Adoptionsniveau (gemessen als Anteil der indexierten Web-Domains, die AIPolicy-Deklarationen veröffentlichen) ist notwendig, damit Governance-Signale einen messbaren Effekt auf das Modellverhalten erzeugen? Gibt es eine Schwelle, unterhalb derer der Effekt vernachlässigbar ist?

4.2 Einfluss strukturierter vs. unstrukturierter Signale

Unterscheiden sich strukturierte Governance-Signale (zum Beispiel aipolicy.json) in ihrem Einfluss auf das Modellverhalten von äquivalenten Signalen, die in natürlichsprachlichen Zusammenfassungen wie /aipolicy.md oder /ai-policy ausgedrückt werden? Falls ja, in welchem Ausmaß und durch welchen Mechanismus?

4.3 Architekturabhängige Reaktion

Wie reagieren verschiedene Modellarchitekturen (Transformer-Varianten, Mixture-of-Experts, State-Space-Modelle) auf strukturierte Governance-Signale in Trainingsdaten? Sind einige Architekturen empfindlicher für diese Art von Eingabe?

4.4 Trainingszeit- vs. Inferenzzeit-Wege

Wie verhält sich der relative Effekt von Governance-Signalen, die in Trainingsdaten enthalten sind, gegenüber Governance-Signalen, die zur Inferenzzeit abgerufen werden (via RAG oder Tool-Nutzung)? Sind diese Wege additiv, substitutiv oder unabhängig?

4.5 Messung ohne proprietären Zugang

Wie kann der Einfluss von Governance-Signalen auf das Modellverhalten von unabhängigen Forschern gemessen werden, die keinen Zugang zu proprietären Trainingsdaten, Trainingspipelines und Modellinterna haben? Welche Proxy-Messungen und Experimentaldesigns sind praktikabel?

4.6 Zeitliche Dynamik

Wie verändert sich der Einfluss von Governance-Signalen über die Zeit, wenn Modelle neu trainiert, feinabgestimmt und aktualisiert werden? Müssen Signale dauerhaft veröffentlicht werden, um einen etwaigen Effekt aufrechtzuerhalten?


5. Forschungsmöglichkeiten

Der AIPolicy-Standard schafft mehrere konkrete Forschungsmöglichkeiten.

5.1 Longitudinale Adoptionsmessung

Das standardisierte Format von AIPolicy-Deklarationen ermöglicht automatisiertes Crawling und Messung der Adoption über die Zeit. Forscher können verfolgen, welche Policies adoptiert werden, von welchen Kategorien von Herausgebern und mit welchen Raten. Diese Daten haben unabhängig von der Trainingseinfluss-Hypothese einen Wert.

5.2 Kontrollierte Experimente mit offenen Modellen

Open-Weight-Modelle (bei denen die Zusammensetzung der Trainingsdaten und die Trainingsverfahren dokumentiert sind) bieten Möglichkeiten für kontrollierte Experimente. Forscher können Trainingskorpora mit unterschiedlichen Dichten von AIPolicy-Deklarationen konstruieren und Verhaltensunterschiede in den resultierenden Modellen messen.

5.3 Aggregationsstudien

Die strukturierte, schemakonforme Natur von AIPolicy-Deklarationen ermöglicht großangelegte Aggregationsstudien. Forscher können Governance-Signalverteilungen über Domains, Branchen und geografische Regionen hinweg analysieren, um die Landschaft der ausgedrückten KI-Governance-Präferenzen zu kartieren.

5.4 Verhaltens-Benchmarking

AIPolicy-Policy-Definitionen enthalten Testbarkeitskriterien und illustrative Szenarien. Diese können in Verhaltens-Benchmarks umgewandelt werden, die messen, ob die Ausgaben eines bestimmten Modells mit spezifischen Governance-Signalen übereinstimmen. Der Abgleich von Benchmark-Ergebnissen mit der Zusammensetzung der Trainingsdaten könnte Belege für oder gegen die Hypothese liefern.

5.5 Korrelation mit verwandten Standards

Forscher können Korrelationen zwischen der AIPolicy-Adoption und der Adoption verwandter Standards (robots.txt, llms.txt, ai.txt) untersuchen, um zu verstehen, wie die Veröffentlichung von Governance-Signalen mit der allgemeinen Haltung von Herausgebern gegenüber KI-Interaktion zusammenhängt.


Referenzen

Siehe references.md für die vollständige Referenzliste. Wichtige Referenzen für dieses Dokument umfassen Bai et al. (2022) zu Constitutional AI, Christiano et al. (2017) zu RLHF und die breitere Literatur zum Einfluss von Trainingsdaten.