# BLUEPRINT-AWS-PRIVATE-KI

Private LLM-Plattform auf AWS

Betreiben Sie private KI-Workflows auf dedizierter GPU-Kapazität in Ihrem eigenen AWS-Konto — Open-Weight-Modelle, null Standby-Kosten, mandantenfähig von Grund auf.

// verfasst von Oleks Saloid· veröffentlicht 2026-04-24· zuletzt geprüft 2026-04-24

Ein Blueprint ist ein Muster, das bereits in Produktion läuft. Die Zahlen unten beschreiben das System, das die Evidenz erzeugt hat — kein hypothetisches Projekt. Wir passen Blueprints an den Stack und die Größe jedes Kunden an.

# THE-PROBLEM

warum es dieses Muster gibt.

Gehostete KI-APIs sind einfach im Einstieg — doch sobald Sie sensible Prompts, regulierte Daten oder relevantes Inferenzvolumen haben, kehren sich die Abwägungen um. Sie senden geschäftskritischen Kontext an einen Dritten, zahlen pro Token auf der Preiskurve eines anderen und sind an die Modelle gebunden, die dieser Anbieter bereitstellt.

Selbst gehostet behebt alle drei Punkte — aber nur, wenn es keine 24/7-GPU-Rechnung verursacht, nur wenn es für echte Arbeit wirklich zuverlässig ist und nur wenn ein kleines Team es aufsetzen und betreiben kann. Was Sie tatsächlich wollen, ist private, dedizierte Kapazität, die auf null skaliert, wenn niemand sie nutzt, im Subsekundenbereich anspringt, sobald jemand sie braucht, und es Ihnen erlaubt, Modelle zu tauschen oder Anwendungsfälle hinzuzufügen, ohne von Grund auf neu zu bauen.

# ARCHITECTURE

wie es gebaut ist.

Private KI-Infrastruktur
Ihre Modelle, Ihre Daten, Ihre VPC, Ihr AWS-Konto. Prompts und Ausgaben verlassen niemals Ihren Perimeter — keine Vertragsverhandlungen über Auftragsverarbeitung mit Dritten, keine Ausnahmen bei der Datenresidenz, keine geteilte Mandantenschaft mit den Kunden anderer Anbieter.
Null Standby-Kosten
GPUs werden bei Bedarf bereitgestellt und freigegeben, sobald die Arbeit abebbt. Sie zahlen für Inferenzminuten, nicht für geparkte Kapazität. Ein untätiges Team kostet nichts; ein ausgelastetes Team skaliert automatisch hoch und nach getaner Arbeit wieder herunter.
Freiheit bei Open-Weight-Modellen
Betreiben Sie jedes Open-Weight-Modell, das Ihre Workloads benötigen — Gemma, Qwen, Llama und weitere — und tauschen Sie Modelle, ohne die Plattform neu zu strukturieren. Passen Sie jeden Anwendungsfall auf das Modell zu, das wirklich passt, nicht auf das, das ein Anbieter für Sie ausgewählt hat.
Mandantenfähig von Grund auf
Isolation pro Team, Authentifizierung pro Nutzer (inklusive SSO via SAML), Zugangsdaten pro Anwendung für Service-zu-Service-Aufrufe. Verschiedene Teams teilen sich GPU-Kapazität sicher, ohne Prompts, Verlauf oder Kontingente zu teilen.
Produktionsreife Zuverlässigkeit
Lang laufende Generierungen sind vor Terminierung geschützt, eingereihte Arbeit übersteht Kapazitätswechsel und die API bleibt im Subsekundenbereich, selbst wenn die GPU-Flotte kalt ist oder skaliert. Die Plattform ist darauf ausgelegt, über Nacht auf null zu stehen und am nächsten Morgen ohne verlorene Arbeit fortzusetzen.
Überall einsetzbar, vollständig kodifiziert
Die gesamte Plattform ist Infrastructure as Code (IaC). Setzen Sie sie in jedem AWS-Konto oder jeder Region innerhalb von Stunden auf; erweitern Sie sie um neue Endpunkte oder Anwendungsfälle, indem Sie einen weiteren Stack anhängen — keine Neubauten, keine umgebungsspezifischen Codepfade.

# KEY-PRIMITIVE

die tragende Idee.

Null Standby-Kosten, ohne Arbeit zu verlieren

Die Entscheidung, die diesen Blueprint kommerziell tragfähig macht, ist die gemeinsame Lösung von Kosten und Zuverlässigkeit: GPUs laufen nur, wenn es Arbeit für sie gibt, und eine Terminierung beendet niemals eine laufende Generierung. Die Flotte kehrt erst auf null zurück, wenn die Arbeit wirklich abgeschlossen ist; löst das Herunterskalieren aus, signalisieren die Instanzen, dass sie noch beschäftigt sind, und bleiben aktiv, bis sie tatsächlich untätig sind. Das Ergebnis ist eine Plattform, die über Nacht auf null Ausgaben stehen und am nächsten Morgen im Subsekundenbereich fortsetzen kann, ohne dazwischen Arbeit zu verlieren — das Kostenprofil von Bezahlung pro Token, die Privatsphäre und Kontrolle einer selbst gehosteten Lösung.

# TECH-STACK

was es betreibt.

AWS LambdaAPI GatewayCognito (SSO, S2S)SQSSNSDynamoDBEC2 GPU Auto ScalingNetwork Load BalancerVPCCloudWatchKMSIAMServerless FrameworkCloudFormationNode.js 24AWS SDK v3OllamaOpen-Weight-LLMs (Gemma, Qwen, Llama, …)Docker

# PRODUCTION-EVIDENCE

was wir gemessen haben.

Private KI auf dedizierter AWS-Infrastruktur. Seit Jahren produktiv.

Dies ist eine funktionierende Plattform — kein POC, keine Demo. Unternehmen betreiben ihre eigenen LLM-Workflows auf dedizierter GPU-Kapazität innerhalb ihres eigenen AWS-Kontos, mit Prompts und Ausgaben, die niemals ihren Perimeter verlassen. Open-Weight-Modelle geben ihnen Modellwahl ohne Vendor-Lock-in; die serverlose Control Plane hält die Leerlaufkosten bei null; die IaC-Grundlage bedeutet, dass neue Anwendungsfälle als zusätzliche Endpunkte ausgeliefert werden, nicht als weitere Plattform zum Betreiben. Es ist das Kostenprofil von Bezahlung pro Token mit der Privatsphäre und Kontrolle einer selbst gehosteten Lösung.

GPU-Leerlaufkosten: Null
Ihr AWS-Konto: Privat
API-Latenz: Subsekunde
Im Produktivbetrieb: Jahre

eines davon in Produktion bringen?

Ein 30-minütiges Erstgespräch. Wir passen den Blueprint an, wir verkaufen ihn nicht weiter.

termin-buchen

// oder schreib uns: hello@saloid.com · gräfelfing · de

Private KI-Infrastruktur

Null Standby-Kosten

Freiheit bei Open-Weight-Modellen

Mandantenfähig von Grund auf

Produktionsreife Zuverlässigkeit

Überall einsetzbar, vollständig kodifiziert

Null Standby-Kosten, ohne Arbeit zu verlieren

eines davon in Produktion bringen?