geisten – Eigene Sprachmodelle & CPU-Inference-Engine

Nutzen

Lokale KI eröffnet Möglichkeiten, die Cloud-Lösungen nicht bieten.

Viele Unternehmen wissen, was KI leisten soll. Gleichzeitig gibt es gute Gründe, Daten im eigenen Haus zu halten, Kosten planbar zu gestalten oder unabhängig von externer Infrastruktur zu bleiben. Hier entsteht der Raum für lokale KI.

Souveränität

Vertrauliche Daten bleiben in deiner Umgebung

Patientenakten, Verträge, Produktionsdaten — alles bleibt dort, wo es hingehört. Das stärkt Vertrauen und erleichtert Compliance.

Kostenkontrolle

Wiederkehrende KI-Kosten werden planbar

Lokale Ausführung macht Kosten transparent und vorhersehbar — besonders bei hohem Dokumentenvolumen ein spürbarer Unterschied.

Betrieb

Verfügbar, auch wenn das Netz es nicht ist

In der Produktionshalle, im Außendienst oder im abgesicherten Netz — lokale KI arbeitet zuverlässig, unabhängig von der Verbindungsqualität.

Eigenes Modell & Engine

Alpha in Entwicklung

Eigener Stack: Modell, Engine, Training — alles aus einer Hand.

Wir entwickeln einen eigenen Stack aus Modell, Engine und Training, damit KI-Lösungen auf kostengünstiger Hardware lauffähig werden. Das eröffnet neue Produktideen, auch für den Konsumermarkt, und macht zugleich unternehmenseigene Speziallösungen möglich, ohne sofort in teure GPU-Infrastruktur investieren zu müssen. Weil die Systeme lokal laufen, bleiben sie auch dort einsetzbar, wo keine permanente Internetverbindung besteht, und sind für Deployments im Einklang mit europäischen Vorgaben wie der DSGVO ausgelegt.

Kennzahlen · 1.58-Bit-Modell · Mamba2

2,2B Parameter

183 tok/s auf x86 CPU

30+ tok/s auf Raspberry Pi 5

DE / EN zweisprachig

Mamba2 (SSM) statt Transformer
Echte 1-Bit/1.58-Bit-Quantisierung
Eigene Inference-Engine - Hardwarenah implementiert
AVX2 & NEON optimiert
Zero-Copy Memory (mmap)
Eigene Trainingspipeline

Architektur

Mamba2 statt Transformer — konstant schnell

Transformer werden bei langen Texten langsamer und speicherhungriger. Unsere Mamba2-basierte Architektur skaliert linear: gleiche Geschwindigkeit bei einer Zeile oder einem ganzen Buch.

1.58-Bit

Binäres Denken statt 4-Bit-Kompromisse

Wo andere Modelle auf 4-Bit quantisieren, arbeiten wir mit echtem 1-Bit (A1W1) und ternärer Präzision (A8W1.58). Ein einziger AVX2-Befehl verarbeitet 256 binäre Gewichte gleichzeitig — auf gewöhnlichen CPUs, ohne Spezialhardware.

Engine

In C geschrieben, für CPUs gebaut

Die Geist Engine nutzt handoptimierte Befehlssätze (AVX2, NEON), Zero-Copy-Speicher und deterministisches Threading. Ergebnis: identische, reproduzierbare Ausgaben auf jeder Hardware.

Roadmap

Mixture of Experts — Spezialwissen auf Abruf

Kleine Experten-Modelle (je < 800 MB) für Domänen wie Recht, Medizin oder Technik — ein Router aktiviert pro Anfrage den passenden Experten. Alle Modelle liegen als Memory-Mapped Files bereit: aktive Experten sofort verfügbar, inaktive belegen keinen Arbeitsspeicher. Mamba2 ermöglicht saubere Experten-Wechsel ohne den KV-Cache-Overhead von Transformern.

Was bedeutet das in der Praxis?

Bei 183 Tokens pro Sekunde auf einem Standard-PC generiert die Engine rund 140 Wörter pro Sekunde. Eine Zusammenfassung eines 10-seitigen Dokuments entsteht in unter 4 Sekunden. Chat-Antworten erscheinen in unter einer Sekunde. Auf einem Raspberry Pi 5 erreicht die Engine 30+ Tokens pro Sekunde — genug für Echtzeit-Antworten auf Edge-Geräten und in IoT-Anwendungen.

Benchmark

Geist Engine 2,2B · 1.58-Bit · Mamba2

llama.cpp 1,5B · Q4

llama.cpp 3B · Q4

Raspberry Pi 5 30+ tok/s ~12 tok/s ~6 tok/s

x86 CPU 183 tok/s ~45 tok/s ~25 tok/s

Kontextlänge O(1) konstant O(n²) O(n²)

RAM-Bedarf < 800 MB ~1,0 GB ~1,8 GB

Hardware CPU-nativ GPU bevorzugt GPU bevorzugt

Gantt-Diagramm: Roadmap Modellentwicklung — Textmodelle, Sprachverarbeitung, Bildverarbeitung ab März 2026.

Beratung & Zusammenarbeit

Neben eigenen Modellen: Beratung, Integration und Begleitung.

Wir unterstützen Unternehmen auch beim Einsatz bewährter Open-Source-Modelle — von der Evaluierung über die Integration bis zum produktiven Betrieb. Der Einstieg passt sich eurem Reifegrad an.

Beratung & Integration

Open-Source-Modelle gezielt einsetzen

Wir evaluieren Modelle wie Llama, Qwen oder Mistral und binden sie an eure Unternehmensdaten an — angepasst an Branche, Hardware und Datenlage. So entstehen tragfähige Lösungen auf bestehender Infrastruktur.

Corporate LLM

Eine Plattform für das gesamte Unternehmen

Unsere eigene LLM-Anwendung verbindet eigene oder externe Modelle mit einer einheitlichen Wissensbasis. So entsteht ein zentraler, lokaler Zugang zu KI — verteilt, aber konsistent.

Diagramm: Drei Schritte zur laufenden Lösung — Einordnung, Pilotprojekt, Betrieb.

Industrie 4.0
Gesundheitswesen
Öffentlicher Sektor
Automotive
Legal & Compliance
On-Prem
0 Cloud-Abhängigkeiten

Gründer

Von der Physik zur lokalen KI.

Dr. Germar Schlegel hat in experimenteller physikalischer Chemie promoviert — mit dem Schwerpunkt auf der Analyse von Zerfallsdynamiken in CdSe-Nanokristallen. Dabei ging es um schlecht gestellte inverse Probleme: aus verrauschten Messdaten das Maximum an belastbarer Information herauszuholen.

Genau dieses Prinzip treibt heute geisten an: aus begrenzten Ressourcen — gewöhnliche CPUs, kompakte Modelle, lokale Infrastruktur — maximale Leistung herausholen. Eigene Trainingspipelines, eine eigene Inference-Engine und spezialisierte Sprachmodelle unter 800 MB sind das Ergebnis.

Kontakt

Ein guter Ausgangspunkt ist ein konkreter Anwendungsfall.

Dokumente verarbeiten, interne Assistenz aufbauen, Geräte intelligent machen — wir sprechen gerne über Machbarkeit, Aufwand und einen sinnvollen nächsten Schritt.