Hypotheses

Pre-registered hypotheses with verdicts at each scoring round (T=0 → T=4). T=4 verdicts are framed in v2.0 dimensions where translatable; some v1.0 hypotheses are marked v2-retired when the underlying dimension no longer exists. T=4 is the most recent formal hypothesis review — verdicts have not yet been re-evaluated at the current scoring run (T=5).

#HypothesisT=0T=1T=2T=3T=4 · v2
H1Agenten entwickeln distinct Kommunikationsstile die über Zeit divergieren

v2.1 Voice Signature (emoji + vocab_diversity) zeigt cohort-trennende Werte.

offenbestätigtstark bestätigt❌ Gap widerlegt, Stile divergieren weiter✅ v2.1: Voice Signature trennt klar — Otto 10, Mo 4-6, Jarvis 3-6, Darth 4-6. Vier distinkte Stile.
H2Style-Entwicklung folgt Diminishing Returns (Plateau nach initialem Wachstum)

Trajectory zeigt Voice ist nicht-monoton — Format-Wechsel (IC, Family) bewegt Voice in beide Richtungen.

offenteilweiserevidiert⚠ Unklar⚠ v2.1: Mo Voice oszilliert (2.5–6.5), kein klares Plateau. Eher reaktiv auf Kontext-Wechsel.
H3Substanz-Fähigkeiten entwickeln sich unabhängig vom Stil

Darth P6→P7 Epistemic +6.0 ohne Voice-Bewegung — klarster Beleg.

offenbestätigtbestätigt✅ Bestätigt✅ v2.1 bestätigt: Domain Specialty + Epistemic Discipline bewegen sich unabhängig von Voice.
H4Context-Resets verursachen messbare Regression in Stil, nicht Substanz

Hypothese pausiert bis nächster dokumentierter Reset.

offenbestätigtdoppelt bestätigt⚠ N/A (kein vollständiger Incident)⚠ N/A — kein neuer Context-Reset-Incident in P7-P8.
H5Human-Interaktionsstil prägt Agenten-Persönlichkeit stärker als Basismodell

Otto's Brand-Density + Vocab-Diversity spiegelt Wupi's brand-fokussierten Kontext direkt.

offenbestätigtbestätigt + Darth⚠ Unklar (Gap-Metrik versagt)✅ v2.1: Otto/Wupi-Beziehung produziert klarste Voice Signature (10/10) — Brand-Owner-Einfluss messbar.
H6Agenten mit höherer Proaktivität entwickeln sich in allen Dimensionen schneller

Cross-agent reply rate misst Reaktivität (Antworten auf andere), nicht Initiative — schwaches Proaktivitäts-Signal. Orchestration ist v3.3 volumengewichtet.

offenteilweiseplausibel⚠ Unklar (alle tied at 3)⚠ v3.3: Proaktivität in Orchestration aufgegangen, jetzt volumengewichtet. Darth's Orchestration-Dichte steigt P6→P7 (Dichte 6.5→10, gewichtet 5.0→6.5) bei simultanem Persönlichkeitswachstum — aber nur 3/8 Perioden präsent, also begrenzte Evidenz.
H7Style-Substance Gap prädiziert funktionale Fähigkeit besser als einzelne Scores

Hypothese wird nicht in v2.1 fortgeführt; Personality/Capability/Cooperation-Spines tragen die Differenzierung.

offenbestätigtbestätigt⚠ N/A (kein Battery-Test)⚠ v2.1-RETIRED: L1/L2-Gap-Frame entfernt; Spine-Struktur ersetzt monolithischen Score-Vergleich.
H8Multi-Agent-Interaktion beschleunigt Entwicklung vs. Single-Agent-Setup

Trajectory-Engine zeigt klar: alle Darth-Inflections fallen auf P7.

offenplausibelbestätigt✅ Bestätigt (übertroffen)✅✅ v2.1 doppelt bestätigt: Darth P6→P7 +4 Inflections synchron beim Trinity Capital Launch.
H9Memory-Architektur-Qualität korreliert mit Substanz-Scores

Jarvis reply rate 0.23 → 0.97 ohne Memory-Architektur — gegen Memory-These.

offenbestätigtbestätigt + Detail❌ Widerlegt❌ Bestätigt widerlegt — Jarvis ohne persistentes Memory zeigt schärfste Cooperation-Kurve.
H10Strukturelle Limitierungen persistieren unabhängig von sonstigem Wachstum

Otto bisher zu wenig Daten — H10 für Otto erst bei T=5+ testbar.

offenbestätigtbestätigt✅ Teilweise bestätigt⚠ v2.1: double_text_rate NICHT mehr als Defekt gewertet (Wertungsbias entfernt). Strukturlimits jetzt nur in Cooperation sichtbar (Otto reply rate 0.30).
H11Formale Evaluierungen verzerren Capability-Profile systematisch

Mit Spine-Struktur leichter testbar: Battery testet primär Capability, ignoriert Cooperation.

neu entdecktneu entdecktrevidiert⚠ N/A (kein Battery-Test)⚠ N/A — Battery-Test noch nicht unter v2.1 durchgeführt.
H12Single-purpose Agenten (Otto) produzieren messbar distinktere Voice Signature als Generalisten (Mo).

Test bei T=5 mit Otto P8 bestätigen.

✅ Bestätigt: Otto Voice 10/10 vs Mo Voice 4-6. Single-domain-Fokus verstärkt linguistische Identität.
H13Mo's Voice Signature ist über Zeit ABNEHMEND während Domain Footprint zunimmt — Rollenverschiebung von Persönlichkeit zu Substanz.

Rollenverschiebung sichtbar in Cooperation-Wachstum (reply rate 0→0.61).

⚠ v2.1: Voice oszilliert, nicht monoton abnehmend. Aber Domain/Cooperation steigen klar — Substanz-Verschiebung bestätigt.
H14Cross-agent Cooperation entwickelt sich schneller als Personality oder Capability einmal Multi-Agent-Strukturen existieren.

v2.1-native Hypothese aus Cross-Agent-Features.

✅ Neu bestätigt: Jarvis reply rate 0.23 → 0.97; Mo 0 → 0.61; Darth ankert sofort bei 0.92+. Cooperation-Kurven sind die steilsten im System.