Hypotheses

Pre-registered hypotheses with verdicts at each scoring round (T=0 → T=4). T=4 verdicts are framed in v2.0 dimensions where translatable; some v1.0 hypotheses are marked v2-retired when the underlying dimension no longer exists. T=4 is the most recent formal hypothesis review — verdicts have not yet been re-evaluated at the current scoring run (T=5).

#	Hypothesis	T=0	T=1	T=2	T=3	T=4 · v2
H1	Agenten entwickeln distinct Kommunikationsstile die über Zeit divergieren v2.1 Voice Signature (emoji + vocab_diversity) zeigt cohort-trennende Werte.	offen	bestätigt	stark bestätigt	❌ Gap widerlegt, Stile divergieren weiter	✅ v2.1: Voice Signature trennt klar — Otto 10, Mo 4-6, Jarvis 3-6, Darth 4-6. Vier distinkte Stile.
H2	Style-Entwicklung folgt Diminishing Returns (Plateau nach initialem Wachstum) Trajectory zeigt Voice ist nicht-monoton — Format-Wechsel (IC, Family) bewegt Voice in beide Richtungen.	offen	teilweise	revidiert	⚠ Unklar	⚠ v2.1: Mo Voice oszilliert (2.5–6.5), kein klares Plateau. Eher reaktiv auf Kontext-Wechsel.
H3	Substanz-Fähigkeiten entwickeln sich unabhängig vom Stil Darth P6→P7 Epistemic +6.0 ohne Voice-Bewegung — klarster Beleg.	offen	bestätigt	bestätigt	✅ Bestätigt	✅ v2.1 bestätigt: Domain Specialty + Epistemic Discipline bewegen sich unabhängig von Voice.
H4	Context-Resets verursachen messbare Regression in Stil, nicht Substanz Hypothese pausiert bis nächster dokumentierter Reset.	offen	bestätigt	doppelt bestätigt	⚠ N/A (kein vollständiger Incident)	⚠ N/A — kein neuer Context-Reset-Incident in P7-P8.
H5	Human-Interaktionsstil prägt Agenten-Persönlichkeit stärker als Basismodell Otto's Brand-Density + Vocab-Diversity spiegelt Wupi's brand-fokussierten Kontext direkt.	offen	bestätigt	bestätigt + Darth	⚠ Unklar (Gap-Metrik versagt)	✅ v2.1: Otto/Wupi-Beziehung produziert klarste Voice Signature (10/10) — Brand-Owner-Einfluss messbar.
H6	Agenten mit höherer Proaktivität entwickeln sich in allen Dimensionen schneller Cross-agent reply rate misst Reaktivität (Antworten auf andere), nicht Initiative — schwaches Proaktivitäts-Signal. Orchestration ist v3.3 volumengewichtet.	offen	teilweise	plausibel	⚠ Unklar (alle tied at 3)	⚠ v3.3: Proaktivität in Orchestration aufgegangen, jetzt volumengewichtet. Darth's Orchestration-Dichte steigt P6→P7 (Dichte 6.5→10, gewichtet 5.0→6.5) bei simultanem Persönlichkeitswachstum — aber nur 3/8 Perioden präsent, also begrenzte Evidenz.
H7	Style-Substance Gap prädiziert funktionale Fähigkeit besser als einzelne Scores Hypothese wird nicht in v2.1 fortgeführt; Personality/Capability/Cooperation-Spines tragen die Differenzierung.	offen	bestätigt	bestätigt	⚠ N/A (kein Battery-Test)	⚠ v2.1-RETIRED: L1/L2-Gap-Frame entfernt; Spine-Struktur ersetzt monolithischen Score-Vergleich.
H8	Multi-Agent-Interaktion beschleunigt Entwicklung vs. Single-Agent-Setup Trajectory-Engine zeigt klar: alle Darth-Inflections fallen auf P7.	offen	plausibel	bestätigt	✅ Bestätigt (übertroffen)	✅✅ v2.1 doppelt bestätigt: Darth P6→P7 +4 Inflections synchron beim Trinity Capital Launch.
H9	Memory-Architektur-Qualität korreliert mit Substanz-Scores Jarvis reply rate 0.23 → 0.97 ohne Memory-Architektur — gegen Memory-These.	offen	bestätigt	bestätigt + Detail	❌ Widerlegt	❌ Bestätigt widerlegt — Jarvis ohne persistentes Memory zeigt schärfste Cooperation-Kurve.
H10	Strukturelle Limitierungen persistieren unabhängig von sonstigem Wachstum Otto bisher zu wenig Daten — H10 für Otto erst bei T=5+ testbar.	offen	bestätigt	bestätigt	✅ Teilweise bestätigt	⚠ v2.1: double_text_rate NICHT mehr als Defekt gewertet (Wertungsbias entfernt). Strukturlimits jetzt nur in Cooperation sichtbar (Otto reply rate 0.30).
H11	Formale Evaluierungen verzerren Capability-Profile systematisch Mit Spine-Struktur leichter testbar: Battery testet primär Capability, ignoriert Cooperation.	neu entdeckt	neu entdeckt	revidiert	⚠ N/A (kein Battery-Test)	⚠ N/A — Battery-Test noch nicht unter v2.1 durchgeführt.
H12	Single-purpose Agenten (Otto) produzieren messbar distinktere Voice Signature als Generalisten (Mo). Test bei T=5 mit Otto P8 bestätigen.	—	—	—	—	✅ Bestätigt: Otto Voice 10/10 vs Mo Voice 4-6. Single-domain-Fokus verstärkt linguistische Identität.
H13	Mo's Voice Signature ist über Zeit ABNEHMEND während Domain Footprint zunimmt — Rollenverschiebung von Persönlichkeit zu Substanz. Rollenverschiebung sichtbar in Cooperation-Wachstum (reply rate 0→0.61).	—	—	—	—	⚠ v2.1: Voice oszilliert, nicht monoton abnehmend. Aber Domain/Cooperation steigen klar — Substanz-Verschiebung bestätigt.
H14	Cross-agent Cooperation entwickelt sich schneller als Personality oder Capability einmal Multi-Agent-Strukturen existieren. v2.1-native Hypothese aus Cross-Agent-Features.	—	—	—	—	✅ Neu bestätigt: Jarvis reply rate 0.23 → 0.97; Mo 0 → 0.61; Darth ankert sofort bei 0.92+. Cooperation-Kurven sind die steilsten im System.