Zurück zu Projekten

Live · in Produktion · Fallstudien-System

Frank.ink ein Agent, dem du eine Aufgabe übergeben kannst.

Eine zustandsbehaftete agentische KI-Begleitung. Du gibst ihm einen Auftrag in normaler Sprache; er läuft im Hintergrund — über Mail, Browser, Dateien, deine eigenen Maschinen via privatem Tunnel — und kommt mit erledigter Arbeit zurück, nicht mit einem Protokoll, wie er es tun würde.

frank.ink·Gemeinnütziger Verein · Österreich·Selbstgehostet auf Commodity-VPS
Frank.ink Hivemind dashboard — orbiting agent nodes around a central Frank, with connected user-owned machines visualized as a galaxy of orbs.
Hivemind ·Jedes Projekt bekommt seinen eigenen Spezialisten-Frank, der auf deinen verbundenen Maschinen läuft — visualisiert als kreisende Kugel um einen zentralen Master.

Frank.ink ist eine multi-mandantenfähige agentische KI-Plattform. Jeder Nutzer betreibt seinen eigenen isolierten Master-Frank, der gezielt entwickelte Spezialisten-Franks für einzelne Projekte hervorbringen kann — langlaufende Aufgaben, die eigenen Speicher, Werkzeugzugriff und Ausführungs-Scope benötigen.

Anders als ein Chat-Produkt ist Frank um Persistenz herum gebaut. Ein Spezialisten-Frank behält Zustand über Sitzungen hinweg: Beziehungs-Graph, Stimm-Drift, Pakte mit dem Nutzer, Projekt-Erinnerung, laufende TODOs. Du kannst den Tab schließen. Er arbeitet weiter.

Die Plattform läuft auf einem einzelnen kleinen VPS, erweitert um nutzereigene Hardware (Laptops, Desktops, Server), die in einen privaten Tailscale-Tunnel eingegliedert ist. Diese verteilte Schicht heißt Hivemind — jede verbundene Maschine wird für die eigenen Franks des Nutzers als SSH-Administration und Rechenressource zugänglich, niemals aber für die eines anderen.

  • Master-Chat

    Ein einziger Gesprächsfaden, der alles orchestriert — Projekte, Mail, Dateien, System-Aufgaben.

  • Projekt-Franks

    Spezialisten-Agenten pro Projekt, mit isoliertem Zustand, Werkzeugen und langlaufenden Heartbeats.

  • Mail · Cloud · Kalender

    Lesen und Handeln im Auftrag via IMAP/SMTP, R2-Objektspeicher und CalDAV. Löscht nie, versendet nie massenhaft ohne Freigabe.

  • Web-Hosting

    Jeder Nutzer bekommt einen Slug — name.frank.ink — und kann sich von Frank live eine Seite bauen lassen, deployed hinter einem Wildcard-Zertifikat.

  • Hivemind

    Verbinde deine eigenen Maschinen via Tailscale. Frank loggt sich per SSH ein, installiert, debuggt, deployed — unter deinem Audit-Log.

  • Marktplatz + Browser

    Strukturierte Suche über Amazon und eBay mit echten Einträgen, plus ein sandboxed Chromium für beliebige Web-Aufgaben.

  • Identity Forge

    Jeder Projekt-Frank baut seinen eigenen Beziehungs-Graphen zum Nutzer auf — eingehaltene oder gebrochene Pakte, Stimm-Drift, Stimmung.

  • Terminal

    Browser-Shell, pro Chat mit bwrap + gVisor sandboxed — voller Root im eigenen Dateisystem, unsichtbar für andere.

Wenn ein Nutzer einen Screenshot einfügt oder ein Bild per Drag-and-Drop ablegt, leitet Frank es durch eine vierstufige rein CPU-basierte Vision-Pipeline. Keine GPU im Einsatz. Die Stufen der Reihe nach:

Stufe 1

OCR

PaddleOCR · text layer

Stufe 2

Object det.

YOLOv8n · INT8 · 80 COCO classes

Stufe 3

Open-vocab

CLIP-B/32 · INT8 · ~280 phrases

Stufe 4

Embed

DINOv2 · scene similarity

Stufe 5

Narrative

VLM-style 2–5 sentence describe

Ein intelligenter Router entscheidet, welche Stufen laufen. Ein reiner UI-Screenshot schaltet die semantischen Modelle aus dem Pfad — OCR + ein Blick auf das Layout reichen. Ein Foto mit möglichen Menschen, Objekten oder Szenen durchläuft die volle Pipeline. Die letzte Stufe schreibt eine natürlichsprachliche Zusammenfassung ("ein Roboterkopf im Profil aufgeschnitten, Kupferdraht hinter dem Auge…") — worüber Frank dann nachdenkt.

p50-Latenz: ~900 ms auf 1 vCPU. Concept-Recall: 95 % auf einem internen 6-Bild-Benchmark. Die ganze Pipeline kostet ungefähr so viel wie ein zusätzlicher LLM-Round-trip — und der Screenshot des Nutzers verlässt nie den VPS des Instituts.

Sprache in Frank ist standardmäßig Push-to-Talk, zwei Stufen pro Richtung:

Stufe 1

Mic

WebRTC capture · 16 kHz

Stufe 2

STT

faster-whisper · small · INT8

Stufe 3

LLM turn

Frank's normal text path

Stufe 4

TTS

Piper · per-user voice profile

Stufe 5

Stream

WS frames · sub-200ms first byte

STT läuft lokal auf dem VPS — Aufnahmen werden nicht an Dritte gesendet. TTS verwendet Piper-Stimmen, pro Nutzer ausgewählt; das Voice-Drift-System verschiebt Tempo und Intonation über die Zeit langsam in Richtung des Sprechmusters des Nutzers (derselbe Drift-Mechanismus, der Franks Text-Stimme prägt). Ende-zu-Ende-Latenz bei einer kurzen Nutzer-Nachricht: etwa 1,2–1,8 Sekunden.

§5 · Der Fußabdruck

Ein kleiner VPS. Vier vCPU. Acht GB. Keine GPUs im Spiel.

Franks Produktions-Deployment läuft auf einem einzelnen VPS der Hetzner-Klasse, erweitert um nutzerbereitgestellte Hivemind-Maschinen. Inferenz wird von externen Token-Anbietern gemietet; alles andere — Orchestrierung, State, Präsenz, Vision, Audio, Sandboxes — läuft auf der Kiste selbst.

4 vCPU

Rechen-Budget

8 GB

RAM-Decke bei Spitze

0 GPU

Inferenz gemietet, nicht lokal

900 ms

p50 Vision-Pipeline · 1 vCPU

95%

Concept-Recall · interner 6-Bild-Benchmark

93%

Prompt-Cache-Trefferquote · Chitchat-Pfad

~$0.06

Kosten pro 20-Turn-Chitchat-Sitzung

5 sub

Subsysteme abladiert · Fallstudie

Die Zahlen sind operativ, nicht Benchmark-kuratiert. Vision- und Audio-Latenzen wurden auf dem Produktions-VPS unter typischer Last gemessen; Kostenangaben stammen aus echten Provider-Abrechnungs-Dashboards nach dem Patch des Cache-Doppelzähl-Bugs (12. Mai 2026).

Das Arbeitspapier des Instituts hat genau dieses System als Fallstudie verwendet — fünf Subsysteme einzeln abladiert.

Paper lesen