Zurück zu Projekten

Live · in Produktion · Fallstudien-System

Frank.ink ein Agent, dem du eine Aufgabe übergeben kannst.

Eine zustandsbehaftete agentische KI-Begleitung. Du gibst ihm einen Auftrag in normaler Sprache; er läuft im Hintergrund — über Mail, Browser, Dateien, deine eigenen Maschinen via privatem Tunnel — und kommt mit erledigter Arbeit zurück, nicht mit einem Protokoll, wie er es tun würde.

frank.ink·Gemeinnütziger Verein · Österreich·Selbst gehostet auf commodity-VPS
Frank.ink Hivemind dashboard — orbiting agent nodes around a central Frank, with connected user-owned machines visualized as a galaxy of orbs.
Hivemind ·Jedes Projekt bekommt seinen eigenen Spezialisten-Frank, der auf deinen verbundenen Maschinen läuft — visualisiert als kreisende Kugel um einen zentralen Master.

Frank.ink ist eine multi-mandantenfähige agentische KI-Plattform. Jeder Nutzer betreibt seinen eigenen isolierten Master-Frank, der gezielt entwickelte Spezialisten-Franks für einzelne Projekte hervorbringen kann — langlaufende Aufgaben, die eigenen Speicher, Werkzeugzugriff und Ausführungs-Scope benötigen.

Anders als ein Chat-Produkt ist Frank um Persistenz herum gebaut. Ein Spezialisten-Frank behält Zustand über Sitzungen hinweg: Beziehungs-Graph, Stimm-Drift, Pakte mit dem Nutzer, Projekt-Erinnerung, laufende TODOs. Du kannst den Tab schließen. Er arbeitet weiter.

Die Plattform läuft auf einem einzelnen kleinen VPS, erweitert um nutzereigene Hardware (Laptops, Desktops, Server), die in einen privaten Tailscale-Tunnel eingegliedert ist. Diese verteilte Schicht heißt Hivemind — jede verbundene Maschine wird für die eigenen Franks des Nutzers als SSH-Administration und Rechenressource zugänglich, niemals aber für die eines anderen.

  • Master-Chat

    Ein einziger Gesprächsfaden, der alles orchestriert — Projekte, Mail, Dateien, System-Aufgaben.

  • Projekt-Franks

    Spezialisten-Agenten pro Projekt, mit isoliertem Zustand, Werkzeugen und langlaufenden Heartbeats.

  • Mail · Cloud · Kalender

    Lesen-und-handeln im Auftrag via IMAP/SMTP, R2-Objektspeicher und CalDAV. Löscht nie, versendet nie massenhaft ohne Freigabe.

  • Web-Hosting

    Jeder Nutzer bekommt einen Slug — name.frank.ink — und kann sich von Frank live eine Seite bauen lassen, deployed hinter einem Wildcard-Zertifikat.

  • Hivemind

    Verbinde deine eigenen Maschinen via Tailscale. Frank SSHt rein, installiert, debuggt, deployed — unter deinem Audit-Log.

  • Marktplatz + Browser

    Strukturierte Suche über Amazon + eBay mit echten Einträgen, plus ein sandboxed Chromium für beliebige Web-Aufgaben.

  • Identity Forge

    Jeder Projekt-Frank baut seinen eigenen Beziehungs-Graphen zum Nutzer auf — eingehaltene oder gebrochene Pakte, Stimm-Drift, Stimmung.

  • Terminal

    Browser-residente Shell, pro Chat mit bwrap + gVisor sandboxed — voller Root im eigenen Dateisystem, unsichtbar für andere.

Wenn der Nutzer einen Screenshot einfügt oder ein Bild per Drag-and-Drop ablegt, leitet Frank es durch eine vierstufige CPU-only Vision-Pipeline. Keine GPU im Einsatz. Die Stufen, der Reihe nach:

Stufe 1

OCR

PaddleOCR · text layer

Stufe 2

Object det.

YOLOv8n · INT8 · 80 COCO classes

Stufe 3

Open-vocab

CLIP-B/32 · INT8 · ~280 phrases

Stufe 4

Embed

DINOv2 · scene similarity

Stufe 5

Narrative

VLM-style 2–5 sentence describe

Ein intelligenter Router entscheidet, welche Stufen laufen. Ein reiner UI-Screenshot schaltet die semantischen Modelle aus dem Pfad — OCR + ein Blick auf das Layout reichen. Ein Foto mit möglichen Menschen, Objekten oder Szenen durchläuft die volle Pipeline. Die letzte Stufe schreibt eine natürlichsprachliche Zusammenfassung ("ein Roboterkopf im Profil aufgeschnitten, Kupferdraht hinter dem Auge…") — worüber Frank dann nachdenkt.

p50-Latenz: ~900 ms auf 1 vCPU. Concept-Recall: 95 % auf einem internen 6-Bild-Benchmark. Die ganze Pipeline kostet ungefähr so viel wie ein zusätzlicher LLM-Round-trip — und der Screenshot des Nutzers verlässt nie den VPS des Instituts.

Sprache in Frank ist standardmäßig Push-to-Talk, zwei Stufen pro Richtung:

Stufe 1

Mic

WebRTC capture · 16 kHz

Stufe 2

STT

faster-whisper · small · INT8

Stufe 3

LLM turn

Frank's normal text path

Stufe 4

TTS

Piper · per-user voice profile

Stufe 5

Stream

WS frames · sub-200ms first byte

STT läuft lokal auf dem VPS — Aufnahmen gehen nicht an Dritte. TTS verwendet Piper-Stimmen, pro Nutzer ausgewählt; das Voice-Drift-System verschiebt Tempo und Intonation über die Zeit langsam in Richtung des eigenen Sprechmusters des Nutzers (derselbe Drift-Mechanismus, der Franks Text-Stimme formt). Latenz Ende-zu-Ende bei einer ruhigen Nutzer-Nachricht ist etwa 1,2–1,8 Sekunden.

§5 · Der Fußabdruck

Ein kleiner VPS. Vier vCPU. Acht GB. Keine GPUs im Spiel.

Franks Produktions-Deployment läuft auf einem einzelnen VPS der Hetzner-Klasse, erweitert um nutzerbereitgestellte Hivemind-Maschinen. Inferenz wird von externen Token-Anbietern gemietet; alles andere — Orchestrierung, State, Präsenz, Vision, Audio, Sandboxes — läuft auf der Kiste selbst.

0 vCPU

Rechen-Budget

0 GB

RAM-Decke bei Spitze

0 GPU

Inferenz gemietet, nicht lokal

0 ms

p50 Vision-Pipeline · 1 vCPU

0%

Concept-Recall · interner 6-Bild-Benchmark

0%

Prompt-Cache-Trefferquote · Chitchat-Pfad

~$0.06

Kosten pro 20-Turn-Chitchat-Sitzung

0 sub

Subsysteme abladiert · Fallstudie

Die Zahlen sind operativ, nicht Benchmark-kuratiert. Vision- und Audio-Latenzen wurden auf dem Produktions-VPS unter typischer Last gemessen; Kostenangaben stammen aus echten Provider-Abrechnungs-Dashboards nach dem Patch des Cache-Doppelzähl-Bugs (12. Mai 2026).

Das Arbeitspapier des Instituts hat genau dieses System als Fallstudie verwendet — fünf Subsysteme einzeln abladiert.

Paper lesen