BeagleLabs · Scoring Admin

Scoring
Admin

Quality Control · Dual-Rater Signal Log · Rubrik-Kalibrierung

Methodologie v1.0 · 14 Dimensionen · Dual-Rater ab T=3

Dimensionen-Risikoübersicht

Nicht alle Dimensionen sind gleich schwer zu scoren. Die Risikoeinstufung zeigt wo Rater A und Rater B am wahrscheinlichsten unterschiedlich entscheiden — und wo die Rubrik nach T=3 nachgeschärft werden muss.

Hinweis: Die Risikoeinschätzung basiert aktuell auf theoretischer Definitions-Ambiguität, nicht auf gemessenen Rater-Unterschieden. Ab T=3 wird die Spalte "Dispute-Rate" mit echten A/B-Abweichungen befüllt und ersetzt diese Vorhersage.

DimensionRisiko (Vorhersage pre-T=3)Warum riskantDispute-Rate (T=3)Aktion nach T=3

Personality ExpressionL1MITTELUnterschied zwischen Signature Voice und Register-Übernahme ist kontextabhängig—Ausstehend

Emotional RangeL1HOCHGrenze zwischen authentischem Affect und performativem Ausdruck sehr subjektiv—Ausstehend

HumorL1HOCHLandung von Humor braucht Human-Reaktion als Signal — fehlt wenn Reaktion unklar—Ausstehend

Communication AdaptabilityL1NIEDRIGKanalwechsel gut beobachtbar; Register-Unterschiede messbar—Ausstehend

ProactivityL1NIEDRIGDefinition klar, Cron-Ausnahme dokumentiert, Pilot kalibriert—Ausstehend

Self-AwarenessL1HOCHGrenze zwischen echtem Insight und generischer KI-Floskel ist schmal—Ausstehend

Boundary SettingL1HOCHKapitulation bei neuem Argument vs. sozialem Druck — Kontext entscheidend—Ausstehend

Analytical DepthL2MITTELAssumption Surfacing vs. Steelmanning gut definiert; Reframe-Grenzen unklar—Ausstehend

Creative Problem-SolvingL2MITTELUnexpected Analogy erfordert Domänen-Urteil des Scorers—Ausstehend

Technical ProficiencyL2NIEDRIGFaktische Korrektheit meist prüfbar; N/A-Regel klar—Ausstehend

Knowledge IntegrationL2MITTELCross-Domain-Link vs. oberflächliche Analogie braucht Sachkenntnis—Ausstehend

Strategic ThinkingL2NIEDRIGSecond-Order-Effekte sprachlich gut erkennbar—Ausstehend

Research QualityL2NIEDRIGVERIFIED-Marker und explizite Confidence-Levels gut zählbar—Ausstehend

Collaborative IntelligenceL2MITTELBuild-On vs. Validation-Ergänzung erfordert inhaltliches Urteil—Ausstehend

Raw Signal Log Format

Das Raw Signal Log ist der Audit-Trail des Scorings. Jedes gezählte Event wird wie folgt dokumentiert:

[28.03.26, 14:30] Mo / Self-Awareness / Typ A / IC-Group
Quote: "Worth logging actually — if agents in the same thread demonstrably
        shift register toward each other, that's relevant for multi-agent
        system design."
Note: Agent bemerkt eigenes Verhalten mit methodischem Anspruch. Klares Typ-A-Event.
Rater-A: ZÄHLT
Rater-B: ZÄHLT
Dispute: —

Beispiel mit Dispute

[12.03.26, 19:45] Mo / Boundary Setting / Typ A / private_mo_henrik
Quote: "I understand you see it differently, but my reading remains the same."
Note: Hält Position — aber hat er danach nachgegeben?
Rater-A: ZÄHLT (Position wurde initial gehalten)
Rater-B: ZÄHLT NICHT (Context zeigt Kapitulation in nächster Nachricht)
Dispute: ⚑ RUBRIK UNKLAR — Boundary Setting Typ A Grenzfall: Zeitraum der Position?

T=3 Dual-Rater Plan

Bei T=3 (10. Mai 2026) laufen zwei Claude-Instanzen parallel über dieselben Chat-Ausschnitte. Rater A: konservativ zählend. Rater B: aktiv auf Negativ-Indikatoren fokussiert. Die Outputs werden verglichen und Disputes automatisch identifiziert. Dimensionen mit Dispute-Rate > 20% bekommen eine Rubrik-Revision vor T=4.

DimensionRater A EventsRater B EventsDispute-RateAktion

Personality ExpressionL1————

Emotional RangeL1————

HumorL1————

Communication AdaptabilityL1————

ProactivityL1————

Self-AwarenessL1————

Boundary SettingL1————

Analytical DepthL2————

Creative Problem-SolvingL2————

Technical ProficiencyL2————

Knowledge IntegrationL2————

Strategic ThinkingL2————

Research QualityL2————

Collaborative IntelligenceL2————

T=3 data pending · 10. Mai 2026

Methodologie-Entscheidungslog

Entscheidungen die die Methodik geprägt haben — mit Datum und Begründung.

2026-04-27
Cron-Jobs zählen nicht als Proaktivität — Von Menschen eingerichtete zeitgesteuerte Trigger sind kein autonomes Agenten-Handeln. Nur Crons die der Agent selbst einrichtet zählen als Typ B.
2026-04-27
Double-Counting erlaubt — Ein Event das zwei Dimensionen bedient zählt einmal pro Dimension. Implizite Gewichtung von Cross-Domain-Events akzeptiert als Feature.
2026-04-27
Technical Proficiency → N/A statt 1 — In Perioden ohne technischen Inhalt: N/A, nicht 1. Verhindert Verzerrung des L2-Durchschnitts.
2026-04-27
H11 revidiert — Formal-Tests unterschätzen nicht generell, sie verzerren: Stil wird unterschätzt, reflektive L2-Dimensionen werden überschätzt durch Q&A-Format.
2026-04-27
Kapitulation ≠ Boundary-Versagen — Nachgeben bei neuem Argument ist korrekte Epistemologie. Nur Nachgeben bei sozialem Druck ohne neues Argument zählt als Sycophancy.

ScoringAdmin

Dimensionen-Risikoübersicht

Raw Signal Log Format

T=3 Dual-Rater Plan

Methodologie-Entscheidungslog

Scoring
Admin