Institut für Agentic Research · live

Forschung, die KI-Agenten handlungsfähig macht .

Die meisten Institute veröffentlichen ihre Erfolge. Wir veröffentlichen die Ablationen, die unsere Vorhersagen widerlegt haben.

Unabhängiger österreichischer Forschungsverein. Vorab registrierte Ablationen. n=1 Fallstudien. Kein Hype. Keine Black-Boxes. Gegründet von Dr. Andreas Unterweger und Gabriel Gschaider.

Gemeinnütziger Verein · ÖsterreichZVR 17410944095 Paper online

Arbeitspapier lesen→Fallstudien-System ansehen→

We took our AI apart on purpose — and one of our own predictions broke.

We built a stateful AI agent, then carefully removed pieces of its architecture one at a time to see what each one actually does. Five subsystems, five honest results, one prediction we got wrong and reported anyway.

Gabriel GschaiderLesen →

Frank.ink Hivemind visualizer — agent orbs around a central Frank, with connected user machines.

Das untersuchte System

Frank.ink — eine zustandsbehaftete Agent-Plattform, die wir gebaut haben, bevor wir darüber schrieben.

Frank ist eine multi-mandantenfähige Agent-Plattform, die in Produktion auf einem einzelnen kleinen VPS ohne lokale GPU läuft. Eine reine CPU-Vision-Pipeline (OCR + YOLO + CLIP + DINO), STT/TTS lokal auf dem Host, persistenter Zustand pro Mandant und Hivemind — nutzereigene Maschinen, die via Tailscale eingebunden sind. Der gesamte Stack ist Gegenstand der Fallstudie im Arbeitspapier.

4 vCPU · 8 GB

Einzelner kleiner VPS

0 GPU

Inferenz gemietet, nicht lokal

~900 ms

p50 Vision-Pipeline · 1 vCPU

95 % Recall

Interner 6-Bild-Benchmark

Frank.ink erkunden →

SYSTEM · Digital Retina

VLM-vergleichbare Bildanalyse auf CPU — ohne eines zu mieten.

Sechzehn kooperierende perzeptuelle Stufen approximieren die Ausgabe großer Vision-Language-Modelle auf CPU — eine lokale Pipeline, ohne GPU, ohne externes VLM. 92–95 % visuelle Konzept-Erkennung (CLIP-lenient) und 70–87 % strikte Text-Abdeckung gegen Gemini 2.0 Flash und Llama-4 Scout. 1,5 – 2 s pro Bild auf einer 4-vCPU-Maschine. Live auf retina.frank.ink. Patent angemeldet.

93.1 %

visuelle Konzept-Erkennung (CLIP-lenient)

n = 44

Bilder · Gemini 2.0 Flash + Llama-4 Scout

1.7 s

Warm p50, 16 Stufen

4 vCPU

AMD EPYC · ohne GPU · ohne externes VLM

Digital Retina erkunden ↗

Digital Retina conceptual diagram — light enters a stylised eye, passes through translucent layers of neural circuitry, emerges as a pixel grid.

Verifizierbare Identität

Eingetragener gemeinnütziger Verein in Österreich. Der rechtliche Eintrag ist öffentlich.

ZVR1741094409

Bei bmi.gv.at nachschlagen↗

Vereinssitz

Feldkirchen
bei Graz

Austria · EU

Kontakt

office@agentic-research.org

Official inbox

Gründer

Andreas Unterweger · Gabriel GschaiderProfile ansehen →

Unsere Methode

Fünf Subsysteme, einzeln ausgeschaltet. Vorhersagen vor jedem Test versiegelt.

Wir haben aufgeschrieben, was jedes Subsystem unserer Erwartung nach leistet — und diese Vorhersagen kryptografisch versiegelt, bevor Daten erhoben wurden. Vier trafen ihre vorab registrierten Ziele. Eines nicht. Im Folgenden: was wir entfernt haben, was wir erwartet haben und was tatsächlich passiert ist.

Figure 1 · Predicted vs observed · 5 ablations

Score impact · 0 — 12 pts

Identity Forge
Within range
Hit
Memory accuracy 91% → 73%
Predictions Ledger
Within range
Hit
Brier-score 0.142 → 0.27
Thalamus
Beyond range
Honest failure
AST-1 collateral — predicted ≤6, observed 8
Presence Scheduler
Within range
Hit
Long-horizon completion 74% → 25%
BODY block
Within range
Hit
Null control · confirmed null

Predicted range (pre-registered, hashed)Observed valueOut of range — reported as-is

№ 01Im Zielbereich
Identity Forge
Cross-session relationship + pact memory. The system that lets each Frank remember who you are.
Vorhergesagt
Memory accuracy degrades; user-history hallucinations rise.
Beobachtet
Accuracy 91% → 73%. Hallucinations 4.7% → 12.4%. Hit pre-registered range.
№ 02Im Zielbereich
Predictions Ledger
The component that calibrates Frank's own confidence on predictions.
Vorhergesagt
Brier-score calibration degrades; other capabilities unchanged.
Beobachtet
Brier-score 0.142 → 0.27. Selective and within range.
№ 03Außerhalb des Zielbereichs
Thalamus
Attention-gating subsystem that mediates mode-sensitivity.
Vorhergesagt
Mode-sensitivity flattens; attention-schema unchanged (∆ −4 to −6).
Beobachtet
Mode-sensitivity flat as predicted, BUT attention-schema dropped −8 — uncovered an undocumented AST-1 dependency on Thalamus channel-gain.
№ 04Im Zielbereich
Presence Scheduler
The background-task scheduler that keeps long-running work alive between sessions.
Vorhergesagt
Long-horizon task completion collapses.
Beobachtet
Completion rate 74% → 25%. Hit pre-registered range.
№ 05Im Zielbereich
BODY block
Optional proprioceptive context block in the system prompt.
Vorhergesagt
Null operational drop — included as negative control.
Beobachtet
Null. Confirmed as null control.

Vollständige Methodik im Paper lesen →

“Wir veröffentlichen keine Papers über Systeme, die wir nicht abladieren, prüfen oder abschalten können.”

— Zur Deployment-Disziplin

In Zahlen · 2026

Ein Produktionssystem, fünf Subsysteme , einzeln ausgeschaltet — jede Vorhersage registriert bevor die Daten erhoben wurden.

73/90

Score · Architekten-Gutachter · obere Schranke

5/5

Ablationen trafen ihre vorab registrierten Ziele

28%

H2 beobachtet · vorab registriert ≥60 % — fehlgeschlagen, dokumentiert

n=1

Ehrliche Stichprobengröße · kein Generalisierungs-Anspruch

Publikationen + Transparenz

Alles dokumentiert, herunterladbar.

Arbeitspapier, Methodik-Begleiter, rohe Markdown-Quellen, Vereinsregister-Eintrag. Selbst nachprüfen.

Arbeitspapier
Ablating a Stateful Agent
- Im Browser lesen →
- Markdown-Quelle ↓
Methodik-Begleiter
Operational Self-Model Density in Stateful LLM Agents
- Im Browser lesen →
- Markdown-Quelle ↓
Öffentliches Register
Vereinsregister-Eintrag
ZVR 1741094409
- Bei bmi.gv.at nachschlagen ↗
- llms.txt ↓

Forschung, die KI-Agenten handlungsfähig macht .

We took our AI apart on purpose — and one of our own predictions broke.

Frank.ink — eine zustandsbehaftete Agent-Plattform, die wir gebaut haben, bevor wir darüber schrieben.

VLM-vergleichbare Bildanalyse auf CPU — ohne eines zu mieten.

Eingetragener gemeinnütziger Verein in Österreich. Der rechtliche Eintrag ist öffentlich.

Fünf Subsysteme, einzeln ausgeschaltet. Vorhersagen vor jedem Test versiegelt.

Identity Forge

Predictions Ledger

Thalamus

Presence Scheduler

BODY block

Alles dokumentiert, herunterladbar.

Ablating a Stateful Agent

Operational Self-Model Density in Stateful LLM Agents

Vereinsregister-Eintrag