Corporate AI · lokale KI · Umsetzung

KI, die im Unternehmen bleibt.

Ich bin Germar Schlegel und ich baue KI-Systeme, die mit Ihren internen Daten arbeiten, ohne dass diese das Haus verlassen: On-Prem-RAG, Assistenten und Agenten — von der Use-Case-Analyse über den Prototyp bis zum Betrieb auf Ihrer Hardware.

Angebote

Vier Einstiege — von der Roadmap bis zur lokalen Implementierung.

Jedes Format endet mit einem konkreten Ergebnis: einer Entscheidungsgrundlage, einem Prototyp oder einem laufenden System. Der Ablauf ist immer derselbe:

1

Verstehen

Prozesse, Daten, IT-Vorgaben und wirtschaftlichen Nutzen klären.

2

Validieren

Prototyp mit echten Daten und klaren Abbruchkriterien.

3

Implementieren

RAG, Agenten, Tool-Anbindung, On-Prem- oder Edge-Deployment.

4

Übergeben

Dokumentation, Monitoring und Übergabe an Ihr Team. Keine Blackbox.

AI-Potenzialcheck

Use Cases, Daten und Risiken priorisieren

Wenn klar ist, dass KI relevant ist — aber nicht, welcher Prozess zuerst dran ist.

  • Use-Case-Workshop und Prozessauswahl
  • Daten- und Systemlandkarte
  • Roadmap mit Aufwand, Risiko und Nutzen
Potenzialcheck anfragen
Lokale KI-Implementierung

On-Prem-RAG, Agenten und Betrieb

Wenn sensible Daten, Compliance oder Kosten gegen reine Cloud-Lösungen sprechen.

  • On-Prem- oder hybride Architektur
  • Lokaler Vector-Index, Agenten, Rechtekonzept
  • Deployment, Monitoring und Übergabe
Implementierung anfragen
Edge- und Engine-Spezialfall

KI auf kleiner Hardware

Wenn KI auf begrenzter Hardware laufen muss oder Standard-Runtimes nicht reichen.

  • Small-Model-Auswahl und Quantisierung
  • Benchmarks auf Ihrer Zielhardware
  • Eigene Inference Engine als Option
Spezialfall anfragen

Use Cases

Wo sich der Einstieg schnell lohnt.

Die besten Kandidaten sind Prozesse mit wiederkehrenden Fragen, vielen internen Dokumenten oder strukturierten Outputs — dort lässt sich schnell messen, ob ein Assistent oder Agent fachlich belastbar ist.

Wissen

Lokaler Wissensassistent

Handbücher, Richtlinien, Tickets und Projektwissen werden durchsuchbar und zitierbar — etwa für Support, interne IT oder Qualitätsmanagement.

Service

Service- und Wartungsagent

Fehlercodes, Wartungsanleitungen und Ersatzteildaten werden zu konkreten Handlungsvorschlägen — für Field-Service, Helpdesk oder Maschinenwartung.

Prozesse

Agenten für interne Workflows

Ein Agent liest Daten, ruft Tools auf und erzeugt strukturierte, nachvollziehbare Ergebnisse — etwa Angebotsvorbereitung, Ticket-Triage oder Berichte.

Edge

KI auf Geräten und kleinen Systemen

Kleine Modelle und lokale Agenten für Industrie-PCs, ARM-Geräte und Offline-Szenarien — wenn Daten nicht zentral verarbeitet werden können.

Technik

Warum ich lokale KI wirklich umsetzen kann.

Viele AI-Projekte bleiben bei Tool-Auswahl und Prompting stehen. Ich gehe tiefer: Ich entwickle eine eigene Inference Engine für kleine CPU-Systeme — ~10.000 Zeilen C23, handgeschriebene NEON-Kernels, statisch linkbar unter 1 MB. Code, Benchmarks und Messmethodik sind öffentlich: github.com/geisten/geisten.

Das braucht nicht jedes Projekt. Aber es heißt: Wenn Datenschutz, Offline-Betrieb, Latenz oder begrenzte Hardware zum Problem werden, endet meine Arbeit nicht an der Konfigurationsoberfläche.

Performance-Messungen — Raspberry Pi 5 und Apple M1 Max

Geisten C23 · CPU-only
Referenz llama.cpp · bitnet.cpp
Einordnung gleiche Hardware
Pi 5 · Gemma 4 E2B-it 8.4 tok/s end-to-end 8.3 tok/s Parität zu llama.cpp
Pi 5 · BitNet b1.58 17.4 tok/s decode 8.2 tok/s ~2× bitnet.cpp
M1 Max · Prefill 1024 144 tok/s prefill 97 tok/s 1.48× llama.cpp
Lieferform statisch < 1 MB ARM OpenBLAS/runtime copy-and-run Edge-Binary

Messbasis: identische GGUF-Gewichte auf beiden Engines, CPU-only. Vollständige Messreihen und Methodik im Repository.

Über mich

Von der Physik zur lokalen KI.

Ich habe in experimenteller physikalischer Chemie promoviert — schlecht gestellte inverse Probleme: aus verrauschten Messdaten das Maximum an belastbarer Information holen. Genau dieses Prinzip treibt geisten an: aus begrenzten Ressourcen — gewöhnliche CPUs, kompakte Open-Weight-Modelle, lokale Infrastruktur — maximale Leistung herausholen.

Dahinter stehen über 20 Jahre Software- und C-Engineering, mehrere Jahre Embedded- und Audio-Processing und die aktuelle Arbeit an eigener Inferenz und autonomen Agenten. Ich arbeite umsetzungsnah: klare Use Cases, messbare Prototypen, nachvollziehbare Entscheidungen. Sitz: Neuss, NRW.

Kontakt

Schreiben Sie mir Ihren Use Case.

Prozess, Datenlage, Vorgaben — mehr braucht es nicht für eine erste Einschätzung. Antwort innerhalb von 24 Stunden, direkt von mir.