Institut für Agentic Research · live
Forschung, die KI-Agenten handlungsfähig macht .
Die meisten Institute veröffentlichen ihre Erfolge. Wir veröffentlichen die Ablationen, die unsere Vorhersagen widerlegt haben.
Unabhängiger österreichischer Forschungsverein. Vorab registrierte Ablationen. n=1 Fallstudien. Kein Hype. Keine Black-Boxes. Gegründet von Dr. Andreas Unterweger und Gabriel Gschaider.
Das untersuchte System
Frank.ink — eine zustandsbehaftete Agent-Plattform, die wir gebaut haben, bevor wir darüber schrieben.
Frank ist eine multi-mandantenfähige Agent-Plattform, die in Produktion auf einem einzelnen kleinen VPS ohne lokale GPU läuft. Eine reine CPU-Vision-Pipeline (OCR + YOLO + CLIP + DINO), STT/TTS lokal auf dem Host, persistenter Zustand pro Mandant und Hivemind — nutzereigene Maschinen, die via Tailscale eingebunden sind. Der gesamte Stack ist Gegenstand der Fallstudie im Arbeitspapier.
4 vCPU · 8 GB
Einzelner kleiner VPS
0 GPU
Inferenz gemietet, nicht lokal
~900 ms
p50 Vision-Pipeline · 1 vCPU
95 % Recall
Interner 6-Bild-Benchmark
SYSTEM · Digital Retina
VLM-vergleichbare Bildanalyse auf CPU — ohne eines zu mieten.
Sechzehn kooperierende perzeptuelle Stufen approximieren die Ausgabe großer Vision-Language-Modelle auf CPU — eine lokale Pipeline, ohne GPU, ohne externes VLM. 92–95 % visuelle Konzept-Erkennung (CLIP-lenient) und 70–87 % strikte Text-Abdeckung gegen Gemini 2.0 Flash und Llama-4 Scout. 1,5 – 2 s pro Bild auf einer 4-vCPU-Maschine. Live auf retina.frank.ink. Patent angemeldet.
93.1 %
visuelle Konzept-Erkennung (CLIP-lenient)
n = 44
Bilder · Gemini 2.0 Flash + Llama-4 Scout
1.7 s
Warm p50, 16 Stufen
4 vCPU
AMD EPYC · ohne GPU · ohne externes VLM
Verifizierbare Identität
Eingetragener gemeinnütziger Verein in Österreich. Der rechtliche Eintrag ist öffentlich.
Vereinssitz
Feldkirchen
bei Graz
Austria · EU
Unsere Methode
Fünf Subsysteme, einzeln ausgeschaltet. Vorhersagen vor jedem Test versiegelt.
Wir haben aufgeschrieben, was jedes Subsystem unserer Erwartung nach leistet — und diese Vorhersagen kryptografisch versiegelt, bevor Daten erhoben wurden. Vier trafen ihre vorab registrierten Ziele. Eines nicht. Im Folgenden: was wir entfernt haben, was wir erwartet haben und was tatsächlich passiert ist.
Figure 1 · Predicted vs observed · 5 ablations
Score impact · 0 — 12 pts
Identity Forge
Within range
HitMemory accuracy 91% → 73%
Predictions Ledger
Within range
HitBrier-score 0.142 → 0.27
Thalamus
Beyond range
Honest failureAST-1 collateral — predicted ≤6, observed 8
Presence Scheduler
Within range
HitLong-horizon completion 74% → 25%
BODY block
Within range
HitNull control · confirmed null
- № 01Im Zielbereich
Identity Forge
Cross-session relationship + pact memory. The system that lets each Frank remember who you are.
Vorhergesagt
Memory accuracy degrades; user-history hallucinations rise.
Beobachtet
Accuracy 91% → 73%. Hallucinations 4.7% → 12.4%. Hit pre-registered range.
- № 02Im Zielbereich
Predictions Ledger
The component that calibrates Frank's own confidence on predictions.
Vorhergesagt
Brier-score calibration degrades; other capabilities unchanged.
Beobachtet
Brier-score 0.142 → 0.27. Selective and within range.
- № 03Außerhalb des Zielbereichs
Thalamus
Attention-gating subsystem that mediates mode-sensitivity.
Vorhergesagt
Mode-sensitivity flattens; attention-schema unchanged (∆ −4 to −6).
Beobachtet
Mode-sensitivity flat as predicted, BUT attention-schema dropped −8 — uncovered an undocumented AST-1 dependency on Thalamus channel-gain.
- № 04Im Zielbereich
Presence Scheduler
The background-task scheduler that keeps long-running work alive between sessions.
Vorhergesagt
Long-horizon task completion collapses.
Beobachtet
Completion rate 74% → 25%. Hit pre-registered range.
- № 05Im Zielbereich
BODY block
Optional proprioceptive context block in the system prompt.
Vorhergesagt
Null operational drop — included as negative control.
Beobachtet
Null. Confirmed as null control.
“Wir veröffentlichen keine Papers über Systeme, die wir nicht abladieren, prüfen oder abschalten können.”
— Zur Deployment-Disziplin
In Zahlen · 2026
Ein Produktionssystem, fünf Subsysteme , einzeln ausgeschaltet — jede Vorhersage registriert bevor die Daten erhoben wurden.
73/90
Score · Architekten-Gutachter · obere Schranke
5/5
Ablationen trafen ihre vorab registrierten Ziele
28%
H2 beobachtet · vorab registriert ≥60 % — fehlgeschlagen, dokumentiert
n=1
Ehrliche Stichprobengröße · kein Generalisierungs-Anspruch
Publikationen + Transparenz
Alles dokumentiert, herunterladbar.
Arbeitspapier, Methodik-Begleiter, rohe Markdown-Quellen, Vereinsregister-Eintrag. Selbst nachprüfen.
Arbeitspapier
Ablating a Stateful Agent
Methodik-Begleiter
Operational Self-Model Density in Stateful LLM Agents
Öffentliches Register
Vereinsregister-Eintrag
ZVR 1741094409


