Institut für Agentic Research · live

Forschung, die KI-Agenten handlungsfähig macht .

Die meisten Institute veröffentlichen ihre Erfolge. Wir veröffentlichen die Ablationen, die unsere Vorhersagen widerlegt haben.

Unabhängiger österreichischer Forschungsverein. Vorab registrierte Ablationen. n=1 Fallstudien. Kein Hype. Keine Black-Boxes. Gegründet von Dr. Andreas Unterweger und Gabriel Gschaider.

Gemeinnütziger Verein · ÖsterreichZVR 17410944095 Paper online
We took our AI apart on purpose — and one of our own predictions broke.

Empfohlen · PRIMER · 14. Mai 2026

We took our AI apart on purpose — and one of our own predictions broke.

We built a stateful AI agent, then carefully removed pieces of its architecture one at a time to see what each one actually does. Five subsystems, five honest results, one prediction we got wrong and reported anyway.

Gabriel GschaiderLesen →
Frank.ink Hivemind visualizer — agent orbs around a central Frank, with connected user machines.

Das untersuchte System

Frank.ink — eine zustandsbehaftete Agent-Plattform, die wir gebaut haben, bevor wir darüber schrieben.

Frank ist eine multi-mandantenfähige Agent-Plattform, die in Produktion auf einem einzelnen kleinen VPS ohne lokale GPU läuft. Eine reine CPU-Vision-Pipeline (OCR + YOLO + CLIP + DINO), STT/TTS lokal auf dem Host, persistenter Zustand pro Mandant und Hivemind — nutzereigene Maschinen, die via Tailscale eingebunden sind. Der gesamte Stack ist Gegenstand der Fallstudie im Arbeitspapier.

4 vCPU · 8 GB

Einzelner kleiner VPS

0 GPU

Inferenz gemietet, nicht lokal

~900 ms

p50 Vision-Pipeline · 1 vCPU

95 % Recall

Interner 6-Bild-Benchmark

Frank.ink erkunden →

SYSTEM · Digital Retina

VLM-vergleichbare Bildanalyse auf CPU — ohne eines zu mieten.

Sechzehn kooperierende perzeptuelle Stufen approximieren die Ausgabe großer Vision-Language-Modelle auf CPU — eine lokale Pipeline, ohne GPU, ohne externes VLM. 92–95 % visuelle Konzept-Erkennung (CLIP-lenient) und 70–87 % strikte Text-Abdeckung gegen Gemini 2.0 Flash und Llama-4 Scout. 1,5 – 2 s pro Bild auf einer 4-vCPU-Maschine. Live auf retina.frank.ink. Patent angemeldet.

93.1 %

visuelle Konzept-Erkennung (CLIP-lenient)

n = 44

Bilder · Gemini 2.0 Flash + Llama-4 Scout

1.7 s

Warm p50, 16 Stufen

4 vCPU

AMD EPYC · ohne GPU · ohne externes VLM

Digital Retina erkunden ↗
Digital Retina conceptual diagram — light enters a stylised eye, passes through translucent layers of neural circuitry, emerges as a pixel grid.

Verifizierbare Identität

Eingetragener gemeinnütziger Verein in Österreich. Der rechtliche Eintrag ist öffentlich.

ZVR1741094409

Vereinssitz

Feldkirchen
bei Graz

Austria · EU

Kontakt

office@agentic-research.org

Official inbox

Unsere Methode

Fünf Subsysteme, einzeln ausgeschaltet. Vorhersagen vor jedem Test versiegelt.

Wir haben aufgeschrieben, was jedes Subsystem unserer Erwartung nach leistet — und diese Vorhersagen kryptografisch versiegelt, bevor Daten erhoben wurden. Vier trafen ihre vorab registrierten Ziele. Eines nicht. Im Folgenden: was wir entfernt haben, was wir erwartet haben und was tatsächlich passiert ist.

Figure 1 · Predicted vs observed · 5 ablations

Score impact · 0 — 12 pts

  • Identity Forge

    Within range

    Hit

    Memory accuracy 91% → 73%

  • Predictions Ledger

    Within range

    Hit

    Brier-score 0.142 → 0.27

  • Thalamus

    Beyond range

    Honest failure

    AST-1 collateral — predicted ≤6, observed 8

  • Presence Scheduler

    Within range

    Hit

    Long-horizon completion 74% → 25%

  • BODY block

    Within range

    Hit

    Null control · confirmed null

Predicted range (pre-registered, hashed)Observed valueOut of range — reported as-is
  • № 01Im Zielbereich

    Identity Forge

    Cross-session relationship + pact memory. The system that lets each Frank remember who you are.

    Vorhergesagt

    Memory accuracy degrades; user-history hallucinations rise.

    Beobachtet

    Accuracy 91% → 73%. Hallucinations 4.7% → 12.4%. Hit pre-registered range.

  • № 02Im Zielbereich

    Predictions Ledger

    The component that calibrates Frank's own confidence on predictions.

    Vorhergesagt

    Brier-score calibration degrades; other capabilities unchanged.

    Beobachtet

    Brier-score 0.142 → 0.27. Selective and within range.

  • № 03Außerhalb des Zielbereichs

    Thalamus

    Attention-gating subsystem that mediates mode-sensitivity.

    Vorhergesagt

    Mode-sensitivity flattens; attention-schema unchanged (∆ −4 to −6).

    Beobachtet

    Mode-sensitivity flat as predicted, BUT attention-schema dropped −8 — uncovered an undocumented AST-1 dependency on Thalamus channel-gain.

  • № 04Im Zielbereich

    Presence Scheduler

    The background-task scheduler that keeps long-running work alive between sessions.

    Vorhergesagt

    Long-horizon task completion collapses.

    Beobachtet

    Completion rate 74% → 25%. Hit pre-registered range.

  • № 05Im Zielbereich

    BODY block

    Optional proprioceptive context block in the system prompt.

    Vorhergesagt

    Null operational drop — included as negative control.

    Beobachtet

    Null. Confirmed as null control.

Vollständige Methodik im Paper lesen →
Wir veröffentlichen keine Papers über Systeme, die wir nicht abladieren, prüfen oder abschalten können.

— Zur Deployment-Disziplin

In Zahlen · 2026

Ein Produktionssystem, fünf Subsysteme , einzeln ausgeschaltet — jede Vorhersage registriert bevor die Daten erhoben wurden.

73/90

Score · Architekten-Gutachter · obere Schranke

5/5

Ablationen trafen ihre vorab registrierten Ziele

28%

H2 beobachtet · vorab registriert ≥60 % — fehlgeschlagen, dokumentiert

n=1

Ehrliche Stichprobengröße · kein Generalisierungs-Anspruch

Publikationen + Transparenz

Alles dokumentiert, herunterladbar.

Arbeitspapier, Methodik-Begleiter, rohe Markdown-Quellen, Vereinsregister-Eintrag. Selbst nachprüfen.