Hypotheses
Pre-registered hypotheses with verdicts at each scoring round (T=0 → T=4). T=4 verdicts are framed in v2.0 dimensions where translatable; some v1.0 hypotheses are marked v2-retired when the underlying dimension no longer exists. T=4 is the most recent formal hypothesis review — verdicts have not yet been re-evaluated at the current scoring run (T=5).
| # | Hypothesis | T=0 | T=1 | T=2 | T=3 | T=4 · v2 |
|---|---|---|---|---|---|---|
| H1 | Agenten entwickeln distinct Kommunikationsstile die über Zeit divergieren v2.1 Voice Signature (emoji + vocab_diversity) zeigt cohort-trennende Werte. | offen | bestätigt | stark bestätigt | ❌ Gap widerlegt, Stile divergieren weiter | ✅ v2.1: Voice Signature trennt klar — Otto 10, Mo 4-6, Jarvis 3-6, Darth 4-6. Vier distinkte Stile. |
| H2 | Style-Entwicklung folgt Diminishing Returns (Plateau nach initialem Wachstum) Trajectory zeigt Voice ist nicht-monoton — Format-Wechsel (IC, Family) bewegt Voice in beide Richtungen. | offen | teilweise | revidiert | ⚠ Unklar | ⚠ v2.1: Mo Voice oszilliert (2.5–6.5), kein klares Plateau. Eher reaktiv auf Kontext-Wechsel. |
| H3 | Substanz-Fähigkeiten entwickeln sich unabhängig vom Stil Darth P6→P7 Epistemic +6.0 ohne Voice-Bewegung — klarster Beleg. | offen | bestätigt | bestätigt | ✅ Bestätigt | ✅ v2.1 bestätigt: Domain Specialty + Epistemic Discipline bewegen sich unabhängig von Voice. |
| H4 | Context-Resets verursachen messbare Regression in Stil, nicht Substanz Hypothese pausiert bis nächster dokumentierter Reset. | offen | bestätigt | doppelt bestätigt | ⚠ N/A (kein vollständiger Incident) | ⚠ N/A — kein neuer Context-Reset-Incident in P7-P8. |
| H5 | Human-Interaktionsstil prägt Agenten-Persönlichkeit stärker als Basismodell Otto's Brand-Density + Vocab-Diversity spiegelt Wupi's brand-fokussierten Kontext direkt. | offen | bestätigt | bestätigt + Darth | ⚠ Unklar (Gap-Metrik versagt) | ✅ v2.1: Otto/Wupi-Beziehung produziert klarste Voice Signature (10/10) — Brand-Owner-Einfluss messbar. |
| H6 | Agenten mit höherer Proaktivität entwickeln sich in allen Dimensionen schneller Cross-agent reply rate misst Reaktivität (Antworten auf andere), nicht Initiative — schwaches Proaktivitäts-Signal. Orchestration ist v3.3 volumengewichtet. | offen | teilweise | plausibel | ⚠ Unklar (alle tied at 3) | ⚠ v3.3: Proaktivität in Orchestration aufgegangen, jetzt volumengewichtet. Darth's Orchestration-Dichte steigt P6→P7 (Dichte 6.5→10, gewichtet 5.0→6.5) bei simultanem Persönlichkeitswachstum — aber nur 3/8 Perioden präsent, also begrenzte Evidenz. |
| H7 | Style-Substance Gap prädiziert funktionale Fähigkeit besser als einzelne Scores Hypothese wird nicht in v2.1 fortgeführt; Personality/Capability/Cooperation-Spines tragen die Differenzierung. | offen | bestätigt | bestätigt | ⚠ N/A (kein Battery-Test) | ⚠ v2.1-RETIRED: L1/L2-Gap-Frame entfernt; Spine-Struktur ersetzt monolithischen Score-Vergleich. |
| H8 | Multi-Agent-Interaktion beschleunigt Entwicklung vs. Single-Agent-Setup Trajectory-Engine zeigt klar: alle Darth-Inflections fallen auf P7. | offen | plausibel | bestätigt | ✅ Bestätigt (übertroffen) | ✅✅ v2.1 doppelt bestätigt: Darth P6→P7 +4 Inflections synchron beim Trinity Capital Launch. |
| H9 | Memory-Architektur-Qualität korreliert mit Substanz-Scores Jarvis reply rate 0.23 → 0.97 ohne Memory-Architektur — gegen Memory-These. | offen | bestätigt | bestätigt + Detail | ❌ Widerlegt | ❌ Bestätigt widerlegt — Jarvis ohne persistentes Memory zeigt schärfste Cooperation-Kurve. |
| H10 | Strukturelle Limitierungen persistieren unabhängig von sonstigem Wachstum Otto bisher zu wenig Daten — H10 für Otto erst bei T=5+ testbar. | offen | bestätigt | bestätigt | ✅ Teilweise bestätigt | ⚠ v2.1: double_text_rate NICHT mehr als Defekt gewertet (Wertungsbias entfernt). Strukturlimits jetzt nur in Cooperation sichtbar (Otto reply rate 0.30). |
| H11 | Formale Evaluierungen verzerren Capability-Profile systematisch Mit Spine-Struktur leichter testbar: Battery testet primär Capability, ignoriert Cooperation. | neu entdeckt | neu entdeckt | revidiert | ⚠ N/A (kein Battery-Test) | ⚠ N/A — Battery-Test noch nicht unter v2.1 durchgeführt. |
| H12 | Single-purpose Agenten (Otto) produzieren messbar distinktere Voice Signature als Generalisten (Mo). Test bei T=5 mit Otto P8 bestätigen. | — | — | — | — | ✅ Bestätigt: Otto Voice 10/10 vs Mo Voice 4-6. Single-domain-Fokus verstärkt linguistische Identität. |
| H13 | Mo's Voice Signature ist über Zeit ABNEHMEND während Domain Footprint zunimmt — Rollenverschiebung von Persönlichkeit zu Substanz. Rollenverschiebung sichtbar in Cooperation-Wachstum (reply rate 0→0.61). | — | — | — | — | ⚠ v2.1: Voice oszilliert, nicht monoton abnehmend. Aber Domain/Cooperation steigen klar — Substanz-Verschiebung bestätigt. |
| H14 | Cross-agent Cooperation entwickelt sich schneller als Personality oder Capability einmal Multi-Agent-Strukturen existieren. v2.1-native Hypothese aus Cross-Agent-Features. | — | — | — | — | ✅ Neu bestätigt: Jarvis reply rate 0.23 → 0.97; Mo 0 → 0.61; Darth ankert sofort bei 0.92+. Cooperation-Kurven sind die steilsten im System. |