# BLUEPRINT-AWS-EMR
EMR-Plattform für gemischte Teams
Visuelles Pipeline-Authoring, Batch-Jobs auf EMR Classic, interaktives Spark auf EMR Serverless, ein S3-Datei-Explorer und teambezogenes Kostenreporting — eine Web-App für Engineers, Data Scientists und Analysten.
# THE-PROBLEM
warum es dieses Muster gibt.
Heterogene Teams — Software-Engineers, Data Engineers, Data Scientists und der Betrieb auf Kundenseite — benötigen alle Spark auf EMR, sowohl für geplante Batch-ETL als auch für interaktive Exploration. Doch jedes Team erfindet Cluster-Bootstrapping, IAM, Zugriffssteuerung und Kostenzuordnung neu. Das Ergebnis: duplizierte Pipelines, eine uneinheitliche Sicherheitslage und keine Möglichkeit, Compute-Ausgaben zuzuordnen.
Sobald mehr als ein Team auf EMR arbeitet, summieren sich die Kosten einer fehlenden geteilten Control Plane. Teams kollidieren entweder auf gemeinsamen Clustern oder betreiben eigene — und beides skaliert nicht. Was Sie eigentlich wollen: eine UI, die Batch-DAGs, Ad-hoc-Spark-Sessions, Dateiverwaltung und Kostenreporting abdeckt, mit einer Plattform-Infrastruktur, die solide genug ist, dass ein kleines Team sie über Jahre verantworten kann.
# ARCHITECTURE
wie es gebaut ist.
Einheitliche Plattform für Authoring und Ausführung
Eine einzige Cognito-gesicherte Web-App deckt jeden Schritt ab — einen Spark-Workflow in einem React-Flow-DAG-Editor entwerfen, ausführen, überwachen, Ein- und Ausgaben prüfen. Kein separater Scheduler, keine teamspezifischen UIs, kein von Hand geschriebenes YAML. Workflow-Definitionen werden in DynamoDB persistiert; Ausführungen streamen über SQS. Dieselbe Oberfläche steuert sowohl Batch- als auch interaktive Jobs.
Batch-Jobs auf EMR Classic
Langlaufende Spark-Batch-Workloads laufen auf dedizierten EMR-Classic-Clustern mit in S3 gehosteten Bootstrap-Skripten und Ausführungskontexten über angenommene Rollen. Steps werden über dasselbe Workflow-Modell eingereicht, verfolgt und an die UI zurückgespiegelt, das auch für interaktive Jobs genutzt wird.
Interaktives Spark auf EMR Serverless
Ad-hoc-Exploration und kurzlebige Analyse-Workloads laufen auf EMR Serverless, sodass Data Scientists Job-Starts unter einer Minute erhalten, ohne ein Cluster warmhalten zu müssen. Ein Workflow-Modell, zwei Ausführungssubstrate — Batch oder interaktiv wird pro Job gewählt.
Datei-Explorer und Kostenreporting
Ein S3-Explorer und ein über Cost Explorer gespeistes Reporting-Dashboard, beide durch dieselbe Cognito-Identität abgegrenzt, die auch die Ausführung steuert. Durchsuchen, hochladen und Vorschauen von Pipeline-Ein- und -Ausgaben, ohne sich in Einzelfall-Skripte einloggen zu müssen; Ausgaben nach Team, Workflow und Ausführungssubstrat zuordnen, ohne Tabellen-Exporte.
Infrastructure as Code, überall deploybar
Jede Lambda, Queue, Tabelle, IAM-Rolle, WAF-Regel und CloudFront-Distribution ist als Serverless Framework v4 + CloudFormation kodifiziert, zusammengesetzt aus einer einzigen config.yml mit umgebungsspezifischen Overrides unter stages/. Ein neues AWS-Konto oder eine neue Region in Stunden bereitstellen, nicht in Wochen — deterministische Deployments ohne Ausfallzeit; keine umgebungsspezifischen Code-Pfade.
Security und Well-Architected ab Werk
KMS-verschlüsselte Daten im Ruhezustand, Cognito-Authentifizierung mit endpunktbezogenen API-Keys auf einem gemeinsamen API Gateway, WAF auf öffentlichen Routen, Secrets Manager für Zugangsdaten, blockierter öffentlicher S3-Zugriff, je Service abgegrenztes IAM nach dem Least-Privilege-Prinzip, strukturiertes Pino-Logging mit 90 Tagen CloudWatch-Retention. Die AWS-Well-Architected-Säulen — Operational Excellence, Security, Reliability, Performance Efficiency, Cost Optimization, Sustainability — sind per Konstruktion adressiert, nicht nachgerüstet.
# KEY-PRIMITIVE
die tragende Idee.
Eine config.yml. Jedes AWS-Konto. Stunden statt Wochen.
Die Entscheidung, die in diesem Blueprint Zinseszinsen abwirft, ist die vollständige Reproduzierbarkeit der Plattform aus einer einzigen Quelle der Wahrheit. Eine einzige config.yml plus umgebungsspezifische Overrides unter stages/ ergibt zusammen mit Serverless Framework v4 deterministische Deployments ohne Ausfallzeit — keine umgebungsspezifischen Code-Pfade, keine manuellen Click-Ops, kein Drift. Bringen Sie die gesamte Plattform in einem frischen AWS-Konto oder einer neuen Region in wenigen Stunden hoch: jede Lambda, Queue, IAM-Rolle, WAF-Regel und jeder KMS-Key sind vorhanden, sobald das Deployment abgeschlossen ist. Genau das macht den Blueprint deploybar und nicht bloß beschreibbar.
# TECH-STACK
was es betreibt.
// compute & infrastruktur
- AWS Lambda
- API Gateway
- CloudFormation
- EMR (Classic & Serverless)
- CloudFront
- WAF
// daten
- S3
- S3 Tables
- DynamoDB
- Glue
// messaging
- SQS
- SNS
- SES
// identity & ops
- Cognito
- Secrets Manager
- IAM (cross-account)
- Cost Explorer
// backend
- Node.js 22
- Serverless Framework v4
- esbuild
- Pino
// frontend
- React 19
- Vite
- Redux Toolkit
- React Flow
// testing & ci
- Jest
- Jenkins (19 Pipelines)
# PRODUCTION-EVIDENCE
was wir gemessen haben.
Mehr als 30 AWS-Services, vereint zu einem Produkt. Seit Jahren in Produktion.
Dies ist eine laufende Plattform — kein POC, kein Foliensatz. Das Serverless-First-Design bedeutet keine Standby-Kosten: Sie zahlen, wenn ein Job läuft, und nichts, wenn nicht. Die einheitliche, Cognito-gesicherte Oberfläche bedeutet, dass neue Teams ohne maßgeschneidertes Tooling onboarden. Alles ist als IaC kodifiziert, sodass Änderungen als Deployments ohne Ausfallzeit ausgeliefert werden und der operative Aufwand klein genug ist, dass eine einzelne Person ihn sicher verantworten und weiterentwickeln kann. Diese Plattform hat ihre Nutzer durch Qualität gewonnen, nicht durch Vorschrift.
- AWS-Services vereint
- 30+
- Leerlauf- / Standby-Kosten
- Null
- EMR-Compute-Einsparung
- ~90%
- In Produktion
- 5+ J.
eines davon in Produktion bringen?
Ein 30-minütiges Erstgespräch. Wir passen den Blueprint an, wir verkaufen ihn nicht weiter.
termin-buchen// oder schreib uns: hello@saloid.com · gräfelfing · de