Embedded Agentic-RAG-Platform · Capability Compensation

Kleine LLMs auf eurer Hardware — 85 % Cloud-Quality bei 1/100 der OpEx.

Geisten ist eine drei-schichtige Open-Core-Platform für Embedded-Agentic-AI: Engine (C23, statisch linkbar, ARM-NEON-optimiert) plus Agent-Framework (Tool-Calling + RAG + ROS-2-Bridges) plus Modelle (Qwen3, Gemma 3, Llama 3.2, Phi-3-mini — Custom-Distillation ab 2027). Für Engineering-Teams, die LLMs auf Robotik-, Industrie- und Audio-Hardware deployen wollen — ohne Cloud-Abhängigkeit, ohne GPU-Zwang, ohne Audit-Risiko.

Capability-Compensation-These

Kleine Modelle + Tools = große Modelle — in spezifischen Vertikalen.

Für Tool-Use, Retrieval und strukturierte Ausgabe in DACH-Robotik, Industrial-Control, Field-Service liefert ein 0.5–1.7B-Modell mit Agentic-RAG-Framework ≥ 85 % der GPT-4-Mini-Quality — auf ARM-CPU, deterministisch, audit-tauglich. Was wir nicht beanspruchen: offenes Reasoning (MMLU), Code-Generation (HumanEval), kreative Synthese. Das bleibt Cloud-LLM-Domain. Unser Geisten-Bench misst monatlich Stärken und Schwächen transparent.

Produkt

Eure Hardware soll per Sprache bedienbar werden

Komplexe Befehle, Konfiguration, Diagnose, Multi-Step-Aktionen — Nutzer geben Anweisungen, das System plant und führt aus. Nicht Sub-Sekunden-Voice-Assistant.

Betrieb

Cloud passt wegen DSGVO, Latenz oder Offline-Betrieb nicht

EU-AI-Act (Aug 2026), CRA (Dez 2027) und DSGVO Art. 22 machen Cloud-LLM in Industrial-Setups oft unzulässig. On-Device-Deployment löst das strukturell.

Hardware

Die Ziel-Hardware ist ARM-CPU mit < 4 GB RAM

Raspberry Pi 5, Jetson Orin Nano, Rockchip RK3588, Hailo-8L, Cortex-A-Class-Devices. Kein GPU-Zwang, kein NVIDIA-Lock-in.

Agenten-Review

Der niedrigschwellige Einstieg: prüfen, bevor ein Pilot gebaut wird.

Der Review ist für Teams gedacht, die ein konkretes Gerät, eine Maschine, ein Produkt oder einen lokalen Prozess im Blick haben. Wir bewerten nicht abstrakt "KI", sondern welche Aufgabe ein lokaler Agent auf der Zielhardware zuverlässig übernehmen kann, welche Modellklasse dafür passt und welcher nächste Schritt wirtschaftlich sinnvoll ist.

Zielhardware

Auf welchem Edge-Gerät muss die Lösung laufen?

Raspberry Pi 5, Industrie-PC, ARM/x86-System, internes On-Prem-Setup oder bereits verbaute Hardware mit engen Ressourcen.

Aufgabe & Daten

Was soll der Agent lokal übernehmen?

Mit Nutzern in natürlicher Sprache arbeiten, Text verstehen, Sprache erkennen, Bilder auswerten, Sensordaten einordnen oder lokale Workflows ausführen.

Fit

Wann lohnt sich ein Pilot?

Wenn ein spezialisierter lokaler Agent fachlich genug kann und Datenschutz, DSGVO-Anforderungen, Latenz oder Betriebskosten den lokalen Ansatz rechtfertigen.

Ergebnis

Was bekommt ihr nach dem Review?

Eine klare Empfehlung: Pilot bauen, kleiner starten, technische Vorarbeit leisten oder den lokalen Agenten bewusst nicht verfolgen.

Anfrage vorbereiten

Drei Angaben reichen für eine erste Einschätzung

  • Edge-Gerät oder Hardwareklasse
  • Aufgabe des Agenten und Datenart: Text, Audio, Bild oder Sensorik
  • Offline-, Latenz- oder Datenschutzanforderung
Engagement-Anfrage senden

Engagement-Tiers

Drei Tiers + T&M-Backup — Festpreis, Latenz-Garantie, 12 Monate Maintainer-Support inklusive.

Vier Engagement-Formate mit transparenten Preisen, jeweils auf eine Schicht der Geisten-Plattform fokussiert. Der Prozess ist immer derselbe — Review, Pilot, Stack, Betrieb — der Umfang skaliert mit dem Tier. Kein SaaS-Abo, kein Cloud-Lock-in, keine versteckten Stundenkontingente.

1

Review

Wir klären Ziel-Hardware, Modell-Familie, Use-Case, Latenz-Anforderungen, Compliance-Bedarf und wirtschaftlichen Fit.

2

Pilot

Inferenz läuft auf der Ziel-Hardware im dokumentierten Mess-Setup. Latenz, Memory, Quality validiert.

3

Stack

Open-Weight-Modell, Geisten-Engine, eventuell Fine-Tuning, Bridges (ROS-2 / HTTP) und Tool-Anbindung werden zusammengeführt.

4

Betrieb

Deployment, Updates, Monitoring. 12 Monate Maintainer-Support inklusive, Verlängerung €3k/Jahr.

Tier 1 · Inference-Optimization

€8 – 15k Festpreis · 3 – 4 Wochen

Wann sinnvoll: Wenn euer Modell gewählt ist (Qwen3, Gemma 3, Llama 3.2, Phi-3-mini), aber auf der Ziel-Hardware nicht performant läuft.

  • NEON-Quantisierung + Kernel-Optimierung
  • Latenz-Garantie im dokumentierten Mess-Setup
  • Benchmark-Report (Latenz, Memory, Power)
  • 12 Monate Maintainer-Support
Tier 1 anfragen
Tier 3 · Custom-Distillation (ab Q2 2027)

€80 – 200k Festpreis · 12 – 16 Wochen

Wann sinnvoll: Wenn Open-Weight-Lizenzen nicht passen oder Memory-Budget < 200 MB — wir destillieren euer Modell via HALO/CAB-Pipeline.

  • Custom 0.5–1.5B Modell auf eure Ziel-Hardware
  • 2–4× Geschwindigkeitsvorteil vs. FP16-Baselines
  • IP-Übertragung optional, Royalty-Klausel ab hohen Stückzahlen
  • Hardware-Rev-spezifische Kernel-Profile (A55 / A76 / A78AE)
Tier 3 anfragen
T&M-Backup · Stundensatz

€1.500 / Tag · 2 – 10 Tage

Wann sinnvoll: Wenn ihr nur einen Audit, einen Mid-Engagement-Pivot oder kleinere Engineering-Hilfe braucht.

  • Tages-Reports + Stunden-Log
  • 5-Tage-Kündigungsfrist
  • Kein Festpreis-Commitment
  • Wartungs-Support nur via Tier 1 / 2 / 3
T&M-Termin anfragen

Use-Case-Familien

Vier Anwendungs-Familien — wo 0.5–1.7B-Modelle GPT-4-Mini-Quality erreichen.

Diese vier Use-Case-Familien sind die Capability-Compensation-Sweet-Spots: Tool-Use, Retrieval, strukturierte Ausgabe — Tasks, bei denen ein kleines Modell mit Agentic-RAG-Framework die Lücke zu Cloud-Large-LLMs schließt. Geisten ist nicht für Sub-Sekunden-Voice-Assistant-Reaktionen wie Alexa/Siri und nicht für offenes Reasoning (MMLU/GSM8K) — das bleibt Cloud-LLM-Domain.

Konfiguration

Konfigurations- und Programmier-Befehle

Komplexe Befehle, bei denen der Nutzer sowieso auf eine Antwort wartet — Eco-Modus erklären, Zeitprogramme setzen, Workflows einrichten.

Beispiele: Robotik („Programmiere Pick-Position bei Werkstück Y"), Hausgerät („Wasche 60°C, aber starte erst morgen 5 Uhr"), HVAC („Heizung morgens 6 Uhr auf 21°"). Latenz-Toleranz: 2–4 s.

Diagnose

Status & Diagnose

Abfragen und Erklärungen, bei denen Inhalt wichtiger ist als Sub-Sekunden-Reaktion — Fehlercode-Erklärung, Verbrauchsanalyse, Wartungs-Diagnose.

Beispiele: Industrial-Control („Erkläre Fehler 4023"), Hausgerät („Wann ist die Maschine fertig und warum dauert es länger?"), Field-Service („Diagnose-Anweisung für Symptom X bei Modell Y"). Latenz-Toleranz: 2–5 s.

Multi-Step

Multi-Step-Aktionen & Tool-Use

Mehrere Schritte aus einem Befehl: Plan, Ausführung, Rückmeldung. Hier wird LLM-Tool-Calling produktionsreif.

Beispiele: Smart-Home („Wenn Wäsche fertig, schicke Nachricht und schalte Trockner ein"), Robotik („AGV 1 fertig → AGV 2 zu Station C senden"), Voice-Picking („Nimm 3× Teil A, prüfe Bestand, drucke Etikett"). Latenz-Toleranz: 3–5 s.

Async

Voice-to-Document & Async-Workflows

Sprache wird zu strukturiertem Output — Memos, Reports, Protokolle. User-Eingabe und Ergebnis-Verarbeitung sind zeitlich entkoppelt.

Beispiele: Field-Service („Reparatur-Protokoll: Wärmetauscher getauscht, 45 Min, Teile siehe Liste"), Industrial („Schicht-Report aus Sensor-Events"), Audio-Hardware („Voice-Memo zu Aufgabenliste strukturieren"). Latenz-Toleranz: 5–15 s.

Wirtschaftlicher Nutzen

Vier Argumente, die CTO und CFO überzeugen.

Embedded-LLM-Engineering ist 2026 eine knappe Skill-Kombination (< 500 Engineers weltweit). Inhouse-Aufbau dauert 12–18 Monate und verbrennt typisch €270k Loaded Cost. Geisten-Engagements lösen das in 3–7 Wochen.

Time-to-Market

6 Wochen statt 12–18 Monate Inhouse-Aufbau

ARM-NEON-Quantisierung + LLM-Engineering + Embedded-Deployment in einer Person ist global rar (< 500 Engineers weltweit). Inhouse-Aufbau kostet typisch 1,5 FTE × 18 Monate × €120k Loaded Cost = ~€270k. Ein Geisten-Engagement liefert in 3–7 Wochen für €8–40k.

OpEx-Reduktion

Cloud-LLM-OpEx skaliert nicht über 100+ Geräten

200 Geräte × 1.000 Queries/Tag × Cloud-Inferenz-Preise ergeben ~€18.000/Monat OpEx pro Roboter-Flotte. On-Device-Deployment ist eine Einmal-Investition statt laufender Kosten — und spart zusätzlich ~95 % Energie pro Inferenz-Query gegenüber Cloud-LLM.

Compliance

Audit-tauglich für ISO 26262, IEC 62304, MDR, DO-178C

~10.000 Zeilen pures C23, statisch linkbar, deterministisches Memory-Modell. Was generische LLM-Engines mit ~70k Zeilen Template-C++ strukturell nicht leisten, ist hier Design-Prinzip. Audit-Whitepaper mit externem TÜV-Auditor in Q4 2026.

Souveränität

DSGVO + EU-AI-Act + CRA — strukturell ohne Cloud-Konflikt

Cloud-LLM in Industrial-Setups kollidiert mit DSGVO Art. 22, EU-AI-Act Art. 6 + Annex III (ab August 2026) und CRA (ab Dezember 2027). On-Device-Deployment löst das strukturell. Event-sourced Sessions als DSGVO Art. 30 Verarbeitungsverzeichnis-ready.

Drei-Schicht-Plattform

Engine Q2/Q3 2026 · Agent Q4 2026 · Bench Q3 2026

Engine + Agent-Framework + Modelle — kohärenter Open-Core-Stack.

Statt drei konkurrierender Produkte: eine kohärente Open-Core-Platform mit drei Schichten. Engine (C23-Core, ARM-NEON-Quantisierung, GGUF-Reader) läuft auf Modellen (Open-Weight in Year 1 · Custom-Distillation als Tier 3 ab Year 2 · eigenes 0.7B Mamba-3 als OSS-Release Year 3). Das Agent-Framework addiert Tool-Calling, RAG und ReAct-Pattern — und schließt die Capability-Compensation-Lücke zu Cloud-LLMs auf vertikalen Tasks. Alle drei Schichten unter MIT-Lizenz.

Drei Schichten · alle MIT-OSS · GGUF-kompatibel

Layer 3 Agent-Framework · Q4 2026
Layer 2 Engine C23 · Q2/Q3 2026
Layer 1 Modelle: Open-Weight → Custom-Distill → eigenes Mamba-3
Bench Hypothesen-Validation monatlich, reproduzierbar
Architektur-Diagramm: Geisten Core (Inferenz) + Shell (HTTP, ROS-2, CLI), Deployment auf ARM-Cortex-A.
Layer 2 · Engine

C23, hochoptimiert für ARM-Cortex-A

~10.000 Zeilen pures C23, statisch linkbar, NEON-W3A8/W4A8-Quantisierung handgeschrieben, GGUF-Reader (llama.cpp-Format-kompatibel). 100 % Engineering-Energie in ARM-NEON-Pfad. Kein GPU-Code. Cortex-A55 / A76 / A78AE Hardware-Rev-spezifische Kernels in Planung Q3 2027.

Layer 3 · Agent-Framework

Tool-Calling + RAG + ReAct auf 0.5–1.7B-Modellen

Native Tool-Calling, lokaler Vector-Index für Domain-RAG, Multi-Step-ReAct-Pattern, Eval-Harness. ROS-2-Bridge für Robotik, OPC-UA-Bridge für Industrial, HTTP/MQTT für Smart-Home. Public-Release Q4 2026 unter MIT-Lizenz.

Layer 1 · Modelle

Open-Weight in Year 1, Custom-Distillation ab Year 2

Year 1: Qwen3 (0.5B / 1.7B / 4B), Gemma 3 (1B / 4B), Llama 3.2 (1B / 3B), Phi-3-mini — hand-getuned mit Quality-Garantie pro Hardware. Year 2: Custom-Distillation-as-a-Service (Tier 3, HALO/CAB). Year 3: eigenes 0.7B Mamba-3-A8W1.58 als Open-Weight-Release.

Compliance + Validation

Audit-tauglich nach Design + Capability-Compensation-These reproduzierbar belegt

~10.000 Zeilen pures C23 (kein C++, keine Template-Metaprogrammierung), statisch linkbar, deterministisches Memory-Modell. Event-sourced Sessions als DSGVO Art. 30 Verarbeitungsverzeichnis. Audit-Whitepaper mit externem TÜV-Auditor (TÜV Süd oder SGS-TÜV Saar) in Vorbereitung Q4 2026 — Eignungsnachweis für ISO 26262, IEC 62304, DO-178C, MDR. Hypothesen-Validation der Capability-Compensation-These erfolgt monatlich transparent via Geisten-Bench mit vier Custom-Benches plus ehrlicher Limitations-Disclosure auf MMLU/GSM8K/HumanEval.

Positionierung — wofür ist Geisten gemacht?

Geisten spezialisiert · Embedded-ARM
Generische OSS-Inferenz llama.cpp · vLLM
Cloud-LLM OpenAI · Anthropic
Fokus Embedded-ARM spezialisiert universell API-Service
Linking statisch 1 Binary dynamisch extern
Hardware ARM-NEON CPU-only breit · GPU extern
Audit-Track ISO/MDR-Eignung nicht angestrebt nein
Daten on-device on-device extern
Lieferform Engagement + OSS OSS-Library API-Sub

Wir konkurrieren nicht head-on mit llama.cpp — für 80 % aller Use-Cases ist llama.cpp die richtige Wahl. Geisten ist komplementär: spezialisiert auf den Embedded-ARM-Use-Case-Ausschnitt, wo Audit-Tauglichkeit, statisches Linking und deterministische Latenz strukturell zählen.

Roadmap-Diagramm: OSS-Release Q2/Q3 2026, ROS-2-Bridge Q3, Audit-Whitepaper Q4, Multimodal-Audio-Action Q1 2027.

Zielbranchen

Embedded-Engineering-Teams im DACH-Mittelstand.

Wir adressieren primär Engineering-Leads in Robotik-Startups, Audio-Hardware-OEMs, Industrial-Sensorik, Field-Service-Software- Vendoren und Medical-Embedded — Mittelstand-Setups mit Engineering-Lead-Authority, kurzen Sales-Zyklen und ARM-CPU- Ziel-Hardware unter 4 GB RAM.

Robotik

Cobots, AGV/AMR, Industrie-Roboter

Voice-Programmierung, Tool-Use-Action-Planning, Multimodal-Perception. Reference-Integration via ROS-2-Bridge. Targets: Magazino, Robco, Neura, Franka, Wandelbots, Synapticon, Roboception, Fruitcore und ~30 weitere DACH-Robotik-Firmen.

Industrial

SCADA, Industrial-Control, Wartungs-Software

Voice-Status-Abfragen, Fehler-Erklärungen, Schicht-Reports, Maintenance-Diagnose. On-Device wegen Werks-IT-Trennung und DSGVO-Industrial-Setups. Audit-Track für IEC-62443-Anforderungen.

Audio-Hardware

Premium-Audio-OEMs und Hörakustik-Adjacent

Multimodal-Audio-Action ohne Whisper-Cascade. Reference-Use-Cases: Voice-Memo-Strukturierung, Premium-Headset-Konfiguration, Sprach-Notiz-zu-Aufgabenliste.

Field-Service

Service-Management-Software-Vendoren

Voice-Field-Reports, Diagnose-Helfer, Reparatur-Anweisungs-Lookup im Mobile/Tablet-Workflow. DSGVO-konform bei Kunden-/Maschinen-Daten der Endkunden.

Diagramm: Engagement-Prozess in drei Schritten — Discovery, Pilot-Lieferung, Wartung.

Gründer

Von der Physik zur lokalen KI.

Dr. Germar Schlegel hat in experimenteller physikalischer Chemie promoviert — mit dem Schwerpunkt auf der Analyse von Zerfallsdynamiken in CdSe-Nanokristallen. Dabei ging es um schlecht gestellte inverse Probleme: aus verrauschten Messdaten das Maximum an belastbarer Information herauszuholen.

Genau dieses Prinzip treibt heute geisten an: aus begrenzten Ressourcen — gewöhnliche CPUs, kompakte Open-Weight-Modelle, lokale Infrastruktur — maximale Leistung herausholen.

Tech-Basis

20+ Jahre C-Engineering, eigene Inferenz-Engine

Über 20 Jahre C-Engineering, davon mehrere Jahre Embedded- und Audio-Processing. Die eigene C23-Multimodal-Inferenz-Engine (~10.000 Zeilen, handgeschriebene NEON-W3A8/W4A8-Quantisierung, validiert auf Raspberry Pi 5) ist global rare Skill-Kombination — geschätzt < 200 Engineers weltweit haben in den letzten 5 Jahren eine production-ready LLM-Inferenz-Engine from-Scratch geschrieben.

Team-Aufbau

Solo-Founder mit aktiver Co-Founder-Suche

Profil gesucht: DACH-Embedded-BD/Sales mit Engineering-Netzwerk, 20–30 % Equity. Advisory-Board in Akquise: Embedded-Industrie-Veteran, B2B-SDK-Sales-Insider, DACH-VC-Operator.

Sitz: Neuss, NRW.

Kontakt

Erste technische Einschätzung in 3 Angaben.

Daraus lässt sich schnell ableiten, welcher Engagement-Tier für den Use-Case passt — und ob ein 25-Minuten Discovery-Call oder eine schriftliche Anfrage der bessere Erst-Schritt ist.