Live · Self-Serve-Beta · Patent angemeldet

Wir haben einer 4-vCPU-Maschine beigebracht zu sehen wie ein VLM — ohne eines zu mieten.

Digital Retina ist eine modulare, VLM-nahe Inferenzarchitektur, die die Ausgabe großer Vision-Language-Modelle auf Standard-CPU-Hardware approximiert — eine lokale Pipeline ohne GPU und ohne externes VLM-API. 92–95 % visuelle Konzept-Erkennung (CLIP-lenient) und 70–87 % strikte Text-Abdeckung gegen Gemini 2.0 Flash und Llama-4 Scout, in 1,5 – 2 s pro Bild.

retina.frank.ink·Hostinger KVM 4 · AMD EPYC 9354P (4 vCPU)·Beta · kostenlos · 50 Bilder/Key/Tag

retina.frank.ink besuchen↗Paper lesen

Conceptual diagram — light enters a stylised eye, passes through translucent layers of neural circuitry rendered as cooperative neuron sheets, and emerges as a reconstructed pixel grid on the right. — ARCHITEKTUR (konzeptionell)Licht tritt ein; kooperierende perzeptuelle Schichten transformieren es durch 16 Stufen; eine gelernte Muster-Bücherei stabilisiert die Auslese; die resultierende Nominalphrasen-Menge ist, was nachgelagerte Agenten sehen.

93.1 %

visuelle Konzept-Erkennung (CLIP-lenient), vs Gemini 2.0 Flash + Llama-4 Scout

n=44

Bilder · zwei VLM-Orakel · 70–87 % strikte Text-Abdeckung

1.7 s

Warm-Worker p50-Latenz, 16 kooperierende Stufen

kooperierende neuronale / dynamische Stufen, 4 vCPU

Was es macht

Digital Retina nimmt ein Bild und produziert eine strukturierte Nominalphrasen-Beschreibung, die dem nahekommt, was ein Frontier-Vision-Language-Modell (Gemini, Llama-4-Scout, GPT-4V) zum selben Bild sagen würde — auf Standard-CPU-Hardware, in 1,5 – 2 s, zu Grenzkosten unter 10⁻⁶ USD pro Bild.

Die API hat zwei Oberflächen: einen Retina-nativen Endpunkt mit vollständiger strukturierter Ausgabe (Konzepte, Objekte, OCR-Text, Gesichter, Szenentyp, dominante Farben, Feindetails, Komposition und Textur-/Muster-Deskriptoren) sowie einen Gemini-kompatiblen Shim, der google.genai's generateContent-Aufruf ersetzen kann.

Sie läuft live auf retina.frank.ink als kostenlose Self-Serve-Beta — 50 Bilder pro API-Key pro Tag, keine Kreditkarte. Mit Clerk anmelden; in 30 Sekunden API-Key erhalten.

Dictionary-Growth-Ablation — Coverage mit wachsender Bücherei

Komplementäre Ablation auf einem separaten 47-Bild-Held-out-Set bei der strengeren Schwelle τ = 0,22 (der Headline-Benchmark oben nutzt das 44-Bild-Gemini/Llama-Set bei τ = 0,20). Fünf sequentielle Runden, die Bewertungsbilder jeder Runde sind im Moment der Bewertung strikt disjunkt von der Bücherei. Neue Orakel-Labels werden nach der Messung angefügt, niemals vorher. Runde 5 erreicht 99,1 % auf fünf bisher ungesehenen Bildern — der klarste Einzelbeleg dafür, dass die Auslese generalisiert statt memoriert.

Runde	Bücherei-Größe	Zurückgehaltene Bilder	Phrasen	Coverage
1	15	10	255	78.4 %
2	25	10	262	81.7 %
3	37	12	328	79.9 %
4	47	10	239	82.8 %
5	57	5	112	99.1 %
Σ	—	47	1 196	82.4 %

Schwelle τ = 0,22 (realistische-FPR-korrigierte Untergrenze: 68,8 %). Zwei Orakel: Gemini 2.0 Flash (Runde 0 — nur Seed) und Llama 4 Scout 17B via Groq (Runden 1 – 5).

Architektur, abstrahiert

Sechzehn Stufen, angeordnet als gerichteter azyklischer Graph, fallen in drei Klassen:

Perzeptuelle Stufen — Etablierte Bildverarbeitungsmodelle (open CLIP, COCO-Objektdetektor, OCR, Gesichtsdetektor + Emotionsklassifikator). Skalare Ähnlichkeiten oder strukturierte Detektionen.
Kompositionelle Stufen — Konsumieren stromaufwärts liegende Ausgaben und re-scoren das Bild (oder Teilbereiche) unter kontextkonditionierten Vokabularen. Produzieren Phrasen feinerer Granularität als Gesamtbild-Scoring.
Emergente-Muster-Stufen mit gelernter Bücherei — Transformieren das Bild in eine niedrigdimensionale Signatur in einem strukturierten dynamischen System und lesen via Nearest-Neighbour gegen eine gelernte Bücherei beschrifteter Archetypen aus. Liefern Textur-, Kompositions-, Atmosphären- und Stildeskriptoren.

Die konkreten Kompositionsregeln, die Signaturdefinition und der Bücherei-Mechanismus sind Gegenstand einer angemeldeten Patentanmeldung. Details werden hier bewusst zurückgehalten.

Was die Messungen ehrlich macht

Zwei unabhängige VLM-Orakel (Google Gemini 2.0 Flash und Meta Llama 4 Scout 17B) lieferten Phrasen-Ground-Truth über 62 Bilder. Cross-Oracle-Stabilität, die Single-Oracle-Protokolle verfehlen.

False-Positive-Rate gegen *realistische* Negative kalibriert — Phrasen aus anderen natürlichen Bildern ähnlicher Herkunft — nicht nur völlig unbezogene Probes. Bei τ = 0,22 ist die realistische FPR 13,6 %, was eine korrigierte Untergrenze-Coverage von 68,8 % ergibt.

Zurückgehaltene Bilder jeder Runde waren im Moment der Bewertung strikt disjunkt von der Bücherei. Kein Bild war jemals in der Bücherei, die es bewertet hat. Runde 5's 99,1 % auf fünf neuen Bildern, kein Lookup.

Was das nicht zeigt

Die Bücherei ist klein (62 beschriftete Bilder), aus zwei Orakeln geseedet, aus einer relativ schmalen Bildverteilung (Stock-Fotografie, KI-Illustration, traditionelle Kunst, Welt-Architektur). Out-of-Distribution-Verhalten auf medizinischer Bildgebung, Mikroskopie, Satelliten, industrieller Inspektion etc. ist unmessen und vermutlich schlecht.

Die Coverage-Metrik akzeptiert Substring-, Lemma- und zerlegte Phrasenübereinstimmungen; sie testet NICHT die Korrektheit kompositioneller Bindungen. Eine strengere Metrik würde die absoluten Zahlen senken, die relative Ordnung der Architekturentscheidungen aber erhalten.

Hyperspezifische Eigennamen (Proper Nouns, Markentexte, benannte kulturelle Objekte) sind der dominante Fehlmodus und würden entweder OCR-Verstärkung oder dedizierte Entity-Recognition-Stufen erfordern. Dies ist eine Coverage-Scope-Limitation, keine architektonische.

Probier's aus

Anmelden. 50 Bilder pro Tag. Kostenlos in der Beta.

Self-Serve-API-Keys über Clerk. Retina-natives JSON oder Gemini-kompatibler Drop-in. Lies das Paper für den empirischen Fall; bring ein Bild mit, um die Systemantwort zu sehen.

retina.frank.ink öffnen↗Working Paper lesen