Vertrauliche Daten bleiben in deiner Umgebung
Patientenakten, Verträge, Produktionsdaten — alles bleibt dort, wo es hingehört. Das stärkt Vertrauen und erleichtert Compliance.
Eigene Sprachmodelle & Inference-Engine
geisten entwickelt seit 2026 eigene Sprachmodelle und eine CPU-optimierte Inference-Engine. Das Ziel: sichere, lokale KI, die ohne teure Spezialhardware auskommt — für Unternehmen, Produkte und Endanwender.
Entwickelt in Deutschland, ausgelegt auf europäische Vorgaben: eigene Modelle, eigene Engine, eigenes Training — für Unternehmen, Produkte und Endanwender.
Nutzen
Viele Unternehmen wissen, was KI leisten soll. Gleichzeitig gibt es gute Gründe, Daten im eigenen Haus zu halten, Kosten planbar zu gestalten oder unabhängig von externer Infrastruktur zu bleiben. Hier entsteht der Raum für lokale KI.
Patientenakten, Verträge, Produktionsdaten — alles bleibt dort, wo es hingehört. Das stärkt Vertrauen und erleichtert Compliance.
Lokale Ausführung macht Kosten transparent und vorhersehbar — besonders bei hohem Dokumentenvolumen ein spürbarer Unterschied.
In der Produktionshalle, im Außendienst oder im abgesicherten Netz — lokale KI arbeitet zuverlässig, unabhängig von der Verbindungsqualität.
Eigenes Modell & Engine
Alpha in EntwicklungWir entwickeln einen eigenen Stack aus Modell, Engine und Training, damit KI-Lösungen auf kostengünstiger Hardware lauffähig werden. Das eröffnet neue Produktideen, auch für den Konsumermarkt, und macht zugleich unternehmenseigene Speziallösungen möglich, ohne sofort in teure GPU-Infrastruktur investieren zu müssen. Weil die Systeme lokal laufen, bleiben sie auch dort einsetzbar, wo keine permanente Internetverbindung besteht, und sind für Deployments im Einklang mit europäischen Vorgaben wie der DSGVO ausgelegt.
Kennzahlen · 1.58-Bit-Modell · Mamba2
Transformer werden bei langen Texten langsamer und speicherhungriger. Unsere Mamba2-basierte Architektur skaliert linear: gleiche Geschwindigkeit bei einer Zeile oder einem ganzen Buch.
Wo andere Modelle auf 4-Bit quantisieren, arbeiten wir mit echtem 1-Bit (A1W1) und ternärer Präzision (A8W1.58). Ein einziger AVX2-Befehl verarbeitet 256 binäre Gewichte gleichzeitig — auf gewöhnlichen CPUs, ohne Spezialhardware.
Die Geist Engine nutzt handoptimierte Befehlssätze (AVX2, NEON), Zero-Copy-Speicher und deterministisches Threading. Ergebnis: identische, reproduzierbare Ausgaben auf jeder Hardware.
Kleine Experten-Modelle (je < 800 MB) für Domänen wie Recht, Medizin oder Technik — ein Router aktiviert pro Anfrage den passenden Experten. Alle Modelle liegen als Memory-Mapped Files bereit: aktive Experten sofort verfügbar, inaktive belegen keinen Arbeitsspeicher. Mamba2 ermöglicht saubere Experten-Wechsel ohne den KV-Cache-Overhead von Transformern.
Bei 183 Tokens pro Sekunde auf einem Standard-PC generiert die Engine rund 140 Wörter pro Sekunde. Eine Zusammenfassung eines 10-seitigen Dokuments entsteht in unter 4 Sekunden. Chat-Antworten erscheinen in unter einer Sekunde. Auf einem Raspberry Pi 5 erreicht die Engine 30+ Tokens pro Sekunde — genug für Echtzeit-Antworten auf Edge-Geräten und in IoT-Anwendungen.
Benchmark
Beratung & Zusammenarbeit
Wir unterstützen Unternehmen auch beim Einsatz bewährter Open-Source-Modelle — von der Evaluierung über die Integration bis zum produktiven Betrieb. Der Einstieg passt sich eurem Reifegrad an.
Wir evaluieren Modelle wie Llama, Qwen oder Mistral und binden sie an eure Unternehmensdaten an — angepasst an Branche, Hardware und Datenlage. So entstehen tragfähige Lösungen auf bestehender Infrastruktur.
Unsere eigene LLM-Anwendung verbindet eigene oder externe Modelle mit einer einheitlichen Wissensbasis. So entsteht ein zentraler, lokaler Zugang zu KI — verteilt, aber konsistent.
Gründer
Dr. Germar Schlegel hat in experimenteller physikalischer Chemie promoviert — mit dem Schwerpunkt auf der Analyse von Zerfallsdynamiken in CdSe-Nanokristallen. Dabei ging es um schlecht gestellte inverse Probleme: aus verrauschten Messdaten das Maximum an belastbarer Information herauszuholen.
Genau dieses Prinzip treibt heute geisten an: aus begrenzten Ressourcen — gewöhnliche CPUs, kompakte Modelle, lokale Infrastruktur — maximale Leistung herausholen. Eigene Trainingspipelines, eine eigene Inference-Engine und spezialisierte Sprachmodelle unter 800 MB sind das Ergebnis.
Kontakt
Dokumente verarbeiten, interne Assistenz aufbauen, Geräte intelligent machen — wir sprechen gerne über Machbarkeit, Aufwand und einen sinnvollen nächsten Schritt.