Zurück zu Projekten

Live · Self-Serve-Beta · Patent angemeldet

Wir haben einer 4-vCPU-Maschine beigebracht zu sehen wie ein VLM ohne eines zu mieten.

Digital Retina ist ein mehrstufiges Bildverstehens-System, das die Ausgabeverteilung großer Vision-Language-Modelle auf Standard-CPU-Hardware approximiert. Sechzehn kooperierende perzeptuelle Stufen speisen eine gelernte Muster-Bücherei, die die Auslese stabilisiert. 82,4 % Out-of-Sample-Phrasen-Coverage gegen zwei unabhängige VLM-Orakel auf 47 strikt zurückgehaltenen Bildern, in 1,5 – 2 s pro Bild, ohne GPU.

retina.frank.ink·Hostinger KVM 4 · AMD EPYC 9354P (4 vCPU)·Beta · kostenlos · 50 Bilder/Key/Tag
Conceptual diagram — light enters a stylised eye, passes through translucent layers of neural circuitry rendered as cooperative neuron sheets, and emerges as a reconstructed pixel grid on the right.
ARCHITEKTUR (konzeptionell)Licht tritt ein; kooperierende perzeptuelle Schichten transformieren es durch 16 Stufen; eine gelernte Muster-Bücherei stabilisiert die Auslese; die resultierende Nominalphrasen-Menge ist, was nachgelagerte Agenten sehen.
82.4 %

Out-of-Sample-Phrasen-Coverage, n = 47 zurückgehaltene Bilder, 1 196 Phrasen

n=47

strikt zurückgehaltene Bilder, zwei unabhängige VLM-Orakel

1.7 s

Warm-Worker p50-Latenz, 16 kooperierende Stufen

16

kooperierende neuronale / dynamische Stufen, 4 vCPU

Was es macht

Digital Retina nimmt ein Bild und produziert eine strukturierte Nominalphrasen-Beschreibung, die dem nahekommt, was ein Frontier-Vision-Language-Modell (Gemini, Llama-4-Scout, GPT-4V) zum selben Bild sagen würde — auf Standard-CPU-Hardware, in 1,5 – 2 s, zu Grenzkosten unter 10⁻⁶ USD pro Bild.

Die API hat zwei Oberflächen: einen Retina-nativen Endpunkt mit vollständiger strukturierter Ausgabe (Konzepte, Objekte, OCR-Text, Gesichter, Szenentyp, dominante Farben, Feindetails, Komposition und Textur-/Muster-Deskriptoren) sowie einen Gemini-kompatiblen Shim, der google.genai's generateContent-Aufruf ersetzen kann.

Sie läuft live auf retina.frank.ink als kostenlose Self-Serve-Beta — 50 Bilder pro API-Key pro Tag, keine Kreditkarte. Mit Clerk anmelden; in 30 Sekunden API-Key erhalten.

Out-of-Sample-Coverage mit wachsender Bücherei

Fünf sequentielle Runden, die Bewertungsbilder jeder Runde sind im Moment der Bewertung strikt disjunkt von der Bücherei. Neue Orakel-Labels werden nach der Messung angefügt, niemals vorher. Runde 5 erreicht 99,1 % auf fünf bisher ungesehenen Bildern — der klarste Einzelbeleg dafür, dass die Auslese generalisiert statt memoriert.

RundeBücherei-GrößeZurückgehaltene BilderPhrasenCoverage
1151025578.4 %
2251026281.7 %
3371232879.9 %
4471023982.8 %
557 511299.1 %
Σ471 19682.4 %

Schwelle τ = 0,22 (realistische-FPR-korrigierte Untergrenze: 68,8 %). Zwei Orakel: Gemini 2.0 Flash (Runde 0 — nur Seed) und Llama 4 Scout 17B via Groq (Runden 1 – 5).

Architektur, abstrahiert

Sechzehn Stufen, angeordnet als gerichteter azyklischer Graph, fallen in drei Klassen:

  • Perzeptuelle StufenEtablierte Bildverarbeitungsmodelle (open CLIP, COCO-Objektdetektor, OCR, Gesichtsdetektor + Emotionsklassifikator). Skalare Ähnlichkeiten oder strukturierte Detektionen.
  • Kompositionelle StufenKonsumieren stromaufwärts liegende Ausgaben und re-scoren das Bild (oder Teilbereiche) unter kontextkonditionierten Vokabularen. Produzieren Phrasen feinerer Granularität als Gesamtbild-Scoring.
  • Emergente-Muster-Stufen mit gelernter BüchereiTransformieren das Bild in eine niedrigdimensionale Signatur in einem strukturierten dynamischen System und lesen via Nearest-Neighbour gegen eine gelernte Bücherei beschrifteter Archetypen aus. Liefern Textur-, Kompositions-, Atmosphären- und Stildeskriptoren.

Die konkreten Kompositionsregeln, die Signaturdefinition und der Bücherei-Mechanismus sind Gegenstand einer angemeldeten Patentanmeldung. Details werden hier bewusst zurückgehalten.

Was die Messungen ehrlich macht

01

Zwei unabhängige VLM-Orakel (Google Gemini 2.0 Flash und Meta Llama 4 Scout 17B) lieferten Phrasen-Ground-Truth über 62 Bilder. Cross-Oracle-Stabilität, die Single-Oracle-Protokolle verfehlen.

02

False-Positive-Rate gegen *realistische* Negative kalibriert — Phrasen aus anderen natürlichen Bildern ähnlicher Herkunft — nicht nur völlig unbezogene Probes. Bei τ = 0,22 ist die realistische FPR 13,6 %, was eine korrigierte Untergrenze-Coverage von 68,8 % ergibt.

03

Zurückgehaltene Bilder jeder Runde waren im Moment der Bewertung strikt disjunkt von der Bücherei. Kein Bild war jemals in der Bücherei, die es bewertet hat. Runde 5's 99,1 % auf fünf neuen Bildern, kein Lookup.

Was das nicht zeigt

Die Bücherei ist klein (62 beschriftete Bilder), aus zwei Orakeln geseedet, aus einer relativ schmalen Bildverteilung (Stock-Fotografie, KI-Illustration, traditionelle Kunst, Welt-Architektur). Out-of-Distribution-Verhalten auf medizinischer Bildgebung, Mikroskopie, Satelliten, industrieller Inspektion etc. ist unmessen und vermutlich schlecht.

Die Coverage-Metrik akzeptiert Substring-, Lemma- und zerlegte Phrasenübereinstimmungen; sie testet NICHT die Korrektheit kompositioneller Bindungen. Eine strengere Metrik würde die absoluten Zahlen senken, die relative Ordnung der Architekturentscheidungen aber erhalten.

Hyperspezifische Eigennamen (Proper Nouns, Markentexte, benannte kulturelle Objekte) sind der dominante Fehlmodus und würden entweder OCR-Verstärkung oder dedizierte Entity-Recognition-Stufen erfordern. Dies ist eine Coverage-Scope-Limitation, keine architektonische.

Probier's aus

Anmelden. 50 Bilder pro Tag. Kostenlos in der Beta.

Self-Serve-API-Keys über Clerk. Retina-natives JSON oder Gemini-kompatibler Drop-in. Lies das Paper für den empirischen Fall; bring ein Bild mit, um die Systemantwort zu sehen.