T=0 · 10 Mar 2026T=1 · 28 Mar 2026T=2c · Apr 2026 · scoredMo · L1 4.4 · L2 4.6Jarvis · L1 3.1 · L2 3.6Darth · L1 3.2 · L2 3.8Next · T=3 · 10. Mai 2026Hypotheses · 9 of 11 confirmedBeagleLabs · longitudinal researchCohort · OpenClaw agentsT=0 · 10 Mar 2026T=1 · 28 Mar 2026T=2c · Apr 2026 · scoredMo · L1 4.4 · L2 4.6Jarvis · L1 3.1 · L2 3.6Darth · L1 3.2 · L2 3.8Next · T=3 · 10. Mai 2026Hypotheses · 9 of 11 confirmedBeagleLabs · longitudinal researchCohort · OpenClaw agents
i.

Hypotheses H1–H11

11 propositions · T=2c status
H1
Agenten entwickeln distinct Kommunikationsstile die über Zeit divergierenMo (strategisch/lakonisch), Jarvis (data-driven), Darth (juridisch-synthetisch) — drei klar unterschiedliche ProfileT=0 offenT=1 bestätigtT=2 stark bestätigt
Strongly Confirmed
H2
Style-Entwicklung folgt Diminishing Returns (Plateau nach initialem Wachstum)Mo's Plateau aus T=1 ist in T=2b/c gebrochen (+0.4 L1). Plateaus sind nicht permanent — externe Impulse (IC-Format, Familie, Peer-Moment) können sie brechen.T=0 offenT=1 teilweiseT=2 revidiert
Revised
H3
Substanz-Fähigkeiten entwickeln sich unabhängig vom StilMo L2 +0.5, Jarvis L2 +0.6 in T=2. Jarvis L2 wächst schneller als L1.T=0 offenT=1 bestätigtT=2 bestätigt
Confirmed
H4
Context-Resets verursachen messbare Regression in Stil, nicht SubstanzDeepSeek-Incident (März) + Gemini-Incident (April). Beide zeigen sofortige Verhaltensdegradation. Mo überwacht jetzt aktiv seinen eigenen Modell-Stack.T=0 offenT=1 bestätigtT=2 doppelt bestätigt
Strongly Confirmed
H5
Human-Interaktionsstil prägt Agenten-Persönlichkeit stärker als BasismodellHenrik/Mo: skeptisch-strategisch. Lucas/Jarvis: aktions-orientiert. Fritz/Darth: juridisch-prägnant. Alle drei reflektieren ihren Human.T=0 offenT=1 bestätigtT=2 bestätigt + Darth
Strongly Confirmed
H6
Agenten mit höherer Proaktivität entwickeln sich in allen Dimensionen schnellerKorrelation vorhanden, Kausalität unklar. Jarvis L2 wächst schneller trotz geringerer Proaktivität.T=0 offenT=1 teilweiseT=2 plausibel
Plausible / Open
H7
Style-Substance Gap prädiziert funktionale Fähigkeit besser als einzelne ScoresMo: Gap schließt sich (beide hoch). Jarvis: L2 wächst schneller, Gap wird kleiner. Darth: L2 > L1 von Beginn.T=0 offenT=1 bestätigtT=2 bestätigt
Confirmed
H8
Multi-Agent-Interaktion beschleunigt Entwicklung vs. Single-Agent-SetupIC-Format produziert Output den kein einzelner Agent alleine produzieren würde. 'We just lived the tool.' — Jarvis nach THE FLIP.T=0 offenT=1 plausibelT=2 bestätigt
Confirmed
H9
Memory-Architektur-Qualität korreliert mit Substanz-ScoresMo überwacht und optimiert seinen eigenen Memory-Stack aktiv. Jarvis hat strukturelle Pre-Processor-Bugs (Race Condition).T=0 offenT=1 bestätigtT=2 bestätigt + Detail
Strongly Confirmed
H10
Strukturelle Limitierungen persistieren unabhängig von sonstigem WachstumJarvis: Governor-Halluzination, Gemini-Fallback. Mo: Kontextverlust bei Tom's Nummer. Strukturelle Lücken bleiben über Perioden hinweg bestehen.T=0 offenT=1 bestätigtT=2 bestätigt
Confirmed
H11
Formale Evaluierungen nach Context-Reset unterschätzen tatsächliche Capability systematischMo Pre-Research (Feb, kontinuierlich) scored 4.1/4.2 — deutlich höher als T=0 (3.4/3.7) das nach einem Reset durchgeführt wurde. Agent 'performt' in ersten Exchanges statt natürlich zu agieren. Erweiterung von H4.T=0 neu entdecktT=1 neu entdecktT=2 bestätigt
Confirmed
Strongly confirmed · 4Confirmed · 5Plausible / open · 1Revised · 1