Hochverfügbarkeit und Skalierbarkeit in der Cloud | Viktor Stoitschev

Hochverfügbarkeit und Skalierbarkeit in der Cloud

Architekturpatterns und Best Practices für robuste und elastische Cloud-Anwendungen

Von Viktor Stoitschev | DevOps & Cloud Engineer | Veröffentlicht am 28. April 2025

Moderne Cloud-Anwendungen müssen nicht nur funktional sein, sondern auch höchsten Anforderungen an Verfügbarkeit und Skalierbarkeit genügen. Ausfälle können zu erheblichen Umsatzeinbußen und Reputationsschäden führen, während mangelnde Skalierbarkeit das Wachstumspotenzial begrenzt. In diesem Artikel stelle ich bewährte Architekturpatterns und Best Practices vor, mit denen Sie hochverfügbare und elastisch skalierbare Anwendungen in der Cloud entwickeln und betreiben können.

Die Herausforderung

Die Entwicklung von Systemen, die sowohl Ausfälle einzelner Komponenten tolerieren als auch auf schwankende Lastanforderungen reagieren können, erfordert ein grundlegendes Umdenken in der Anwendungsarchitektur und im Infrastrukturdesign. Die Cloud bietet die notwendigen Bausteine, aber deren effektive Nutzung erfordert Know-how und sorgfältige Planung.

1. Grundprinzipien: Design for Failure

Das zentrale Prinzip für hochverfügbare Systeme lautet “Design for Failure”. Das bedeutet, dass Systeme von Grund auf so konzipiert werden, dass sie den Ausfall einzelner Komponenten oder sogar ganzer Rechenzentren tolerieren können, ohne dass der Gesamtdienst beeinträchtigt wird.

Schlüsselkonzepte dabei sind:

Redundanz: Mehrfache Auslegung kritischer Komponenten.
Fehlerisolierung: Begrenzung der Auswirkungen eines Ausfalls auf einen kleinen Teil des Systems.
Automatische Fehlererkennung und -behebung: Systeme, die Ausfälle selbstständig erkennen und darauf reagieren.
Keine Single Points of Failure: Vermeidung einzelner Komponenten, deren Ausfall das gesamte System lahmlegt.

Skalierbarkeit bezieht sich auf die Fähigkeit eines Systems, seine Kapazität an steigende oder fallende Last anzupassen:

Vertikale Skalierung (Scale Up): Erhöhung der Ressourcen einer einzelnen Instanz (CPU, RAM). Begrenzt und oft mit Ausfallzeiten verbunden.
Horizontale Skalierung (Scale Out): Hinzufügen weiterer Instanzen zur Verteilung der Last. Flexibler und typischerweise ohne Ausfallzeiten.

Moderne Cloud-Architekturen setzen primär auf horizontale Skalierung.

2. Architekturpatterns für Hochverfügbarkeit und Skalierbarkeit

Mehrere bewährte Architekturpatterns bilden die Grundlage für robuste Cloud-Anwendungen:

2.1 Verteilte Multi-AZ/Multi-Region-Architektur

Cloud-Anbieter strukturieren ihre Infrastruktur in Regionen und Availability Zones (AZs). Eine AZ ist ein oder mehrere Rechenzentren innerhalb einer Region mit unabhängiger Stromversorgung, Kühlung und Netzwerkverbindung.

Multi-AZ-Deployment: Verteilung von Anwendungsinstanzen über mehrere AZs innerhalb einer Region. Dies schützt vor dem Ausfall eines einzelnen Rechenzentrums.
Multi-Region-Deployment: Verteilung über mehrere geografische Regionen. Dies bietet höchste Verfügbarkeit (Schutz vor regionalen Ausfällen) und verbessert die Latenz für globale Benutzer.

Abbildung 1: Beispiel einer Multi-AZ-Architektur mit Load Balancer und verteilten Instanzen

# Terraform-Konfiguration für eine Multi-AZ Auto Scaling Group in AWS
resource “aws_autoscaling_group” “multi_az_asg” {
  name_prefix = “multi-az-asg-“
  desired_capacity = 4
  max_size = 10
  min_size = 2

  launch_template {
    id = aws_launch_template.app_template.id
    version = “$Latest”
  }

# Verteilung über mehrere Availability Zones
vpc_zone_identifier = [aws_subnet.private_a.id, aws_subnet.private_b.id, aws_subnet.private_c.id]

target_group_arns = [aws_lb_target_group.app_tg.arn]

health_check_type = “ELB”
health_check_grace_period = 300

  tag {
    key = “Name”
    value = “multi-az-instance”
    propagate_at_launch = true
  }
}

2.2 Microservices-Architektur

Die Aufteilung einer monolithischen Anwendung in kleine, unabhängige Microservices bietet erhebliche Vorteile für Skalierbarkeit und Verfügbarkeit:

Unabhängige Skalierung: Jeder Service kann individuell skaliert werden, basierend auf seinem spezifischen Bedarf.
Fehlerisolierung: Der Ausfall eines Service beeinträchtigt nicht notwendigerweise das gesamte System.
Technologievielfalt: Verschiedene Technologien können für verschiedene Services genutzt werden.
Schnellere Deployments: Kleinere Codebasen ermöglichen schnellere und risikoärmere Deployments.

Allerdings erhöht eine Microservices-Architektur auch die Komplexität in Bezug auf Kommunikation, Deployment und Monitoring.

2.3 Stateless Design

Zustandslose (stateless) Anwendungskomponenten speichern keine sitzungsspezifischen Daten lokal. Jeder Request kann von jeder beliebigen Instanz bearbeitet werden. Dies ist eine Grundvoraussetzung für effektive horizontale Skalierung und Hochverfügbarkeit:

Einfache Skalierung: Neue Instanzen können problemlos hinzugefügt werden, ohne den Zustand synchronisieren zu müssen.
Hohe Verfügbarkeit: Bei Ausfall einer Instanz kann der Request einfach von einer anderen Instanz übernommen werden.
Zustandsverwaltung: Der Zustand wird in externen Diensten wie verteilten Caches (Redis, Memcached) oder Datenbanken gespeichert.

Praxistipp: Stateless vs. Stateful

Während Web- und API-Layer idealerweise stateless sein sollten, sind Datenbanken und einige spezialisierte Anwendungen naturgemäß stateful. Für stateful Anwendungen in der Cloud sind spezielle Strategien erforderlich, z.B. die Verwendung von StatefulSets in Kubernetes oder verwalteten Datenbankdiensten mit integrierter Replikation und Failover.

2.4 Asynchrone Kommunikation und Entkopplung

Die Entkopplung von Systemkomponenten durch asynchrone Kommunikation verbessert die Resilienz und Skalierbarkeit:

Message Queues (SQS, RabbitMQ, Kafka): Anfragen werden in eine Warteschlange gestellt und von Worker-Prozessen asynchron abgearbeitet. Dies entkoppelt Sender und Empfänger und puffert Lastspitzen ab.
Event-Driven Architecture: Komponenten reagieren auf Ereignisse, anstatt direkt miteinander zu kommunizieren. Dies fördert lose Kopplung und Skalierbarkeit.
Circuit Breaker Pattern: Verhindert, dass ein fehlerhafter Service das gesamte System durch wiederholte, erfolglose Aufrufe blockiert.

# Python-Beispiel für asynchrone Verarbeitung mit AWS SQS und Lambda
import boto3
import json

sqs = boto3.client(‘sqs’)
queue_url = ‘YOUR_SQS_QUEUE_URL’

# Funktion zum Senden einer Nachricht an die Queue (z.B. von einer API)
def send_task_to_queue(task_data):
    response = sqs.send_message(
        QueueUrl=queue_url,
        MessageBody=json.dumps(task_data)
    )
    return response[‘MessageId’]

# Lambda-Funktion (Worker), die durch SQS-Nachrichten ausgelöst wird
def process_sqs_message(event, context):
    for record in event[‘Records’]:
        payload = record[“body”]
        task_data = json.loads(payload)

        print(f“Processing task: {task_data}”)

        # Führe die eigentliche Verarbeitung durch
        try:
            # … langwierige Verarbeitung …
            result = perform_long_running_task(task_data)
            print(f“Task completed with result: {result}”)
        except Exception as e:
            print(f“Error processing task: {e}”)
            # Fehlerbehandlung, z.B. Nachricht in Dead Letter Queue verschieben

3. Technische Implementierung

Die Umsetzung dieser Architekturpatterns erfordert den Einsatz spezifischer Cloud-Dienste und Technologien:

3.1 Load Balancing

Load Balancer verteilen eingehenden Traffic auf mehrere Anwendungsinstanzen und sind entscheidend für Skalierbarkeit und Verfügbarkeit:

Verteilung der Last: Gleichmäßige Verteilung auf gesunde Instanzen.
Health Checks: Automatische Erkennung und Entfernung fehlerhafter Instanzen aus dem Pool.
SSL-Terminierung: Entlastung der Anwendungsinstanzen von SSL-Verschlüsselung.
Verschiedene Typen: Application Load Balancer (Layer 7), Network Load Balancer (Layer 4), Gateway Load Balancer.

3.2 Auto-Scaling

Wie bereits im Kostenoptimierungs-Artikel erwähnt, ist Auto-Scaling zentral für die elastische Anpassung der Kapazität an die Last:

Skalierungsrichtlinien: Definition von Regeln basierend auf Metriken (CPU, Speicher, Anfragen etc.).
Geplante Skalierung: Anpassung der Kapazität zu vorhersehbaren Zeiten.
Predictive Scaling: Nutzung von Machine Learning zur Vorhersage und Anpassung der Kapazität.

3.3 Datenbank-Skalierung und -Verfügbarkeit

Datenbanken sind oft der Engpass in skalierbaren Architekturen:

Verwaltete Datenbankdienste (RDS, Azure SQL, Cloud SQL): Bieten integrierte Hochverfügbarkeit (Multi-AZ-Replikation) und vereinfachen das Management.
Read Replicas: Entlastung der primären Datenbank durch Auslagerung von Lesezugriffen auf Replikate.
Sharding: Horizontale Partitionierung großer Datenbanken auf mehrere Instanzen.
Caching (Redis, Memcached): Reduzierung der Datenbanklast durch Zwischenspeicherung häufig abgerufener Daten.
NoSQL-Datenbanken (DynamoDB, Cosmos DB, Firestore): Oft von Grund auf für hohe Skalierbarkeit und Verfügbarkeit konzipiert.

# Terraform-Konfiguration für eine AWS RDS Multi-AZ-Datenbank mit Read Replica
resource “aws_db_instance” “primary” {
  allocated_storage = 100
  engine = “mysql”
  engine_version = “8.0”
  instance_class = “db.m5.large”
  identifier = “mydb-primary”
  username = “admin”
  password = “SehrGeheimesPasswort123”
  parameter_group_name = “default.mysql8.0”
  db_subnet_group_name = aws_db_subnet_group.main.name
  vpc_security_group_ids = [aws_security_group.db.id]

# Multi-AZ für Hochverfügbarkeit aktivieren
multi_az = true

backup_retention_period = 7
skip_final_snapshot = false

  tags = {
    Name = “mydb-primary”
  }
}

resource “aws_db_instance” “read_replica” {
  identifier = “mydb-read-replica”
  replicate_source_db = aws_db_instance.primary.identifier
  instance_class = “db.m5.large”
  skip_final_snapshot = true

  tags = {
    Name = “mydb-read-replica”
  }
}

3.4 Container-Orchestrierung mit Kubernetes

Kubernetes ist der De-facto-Standard für die Orchestrierung containerisierter Anwendungen und bietet native Funktionen für Hochverfügbarkeit und Skalierbarkeit:

Self-Healing: Automatischer Neustart oder Ersatz fehlerhafter Container/Pods.
Horizontale Pod-Autoskalierung (HPA): Automatische Anpassung der Anzahl der Pods basierend auf CPU-, Speicher- oder benutzerdefinierten Metriken.
Cluster-Autoskalierung: Automatische Anpassung der Anzahl der Worker Nodes im Cluster.
Rolling Updates / Canary Deployments: Ermöglichen Deployments ohne Ausfallzeiten.
Service Discovery und Load Balancing: Integrierte Mechanismen zur Verteilung des Traffics auf Pods.

                # Kubernetes HorizontalPodAutoscaler (HPA) Konfiguration

apiVersion: autoscaling/v2

kind: HorizontalPodAutoscaler

metadata:

  name: myapp-hpa

spec:

  scaleTargetRef:

    apiVersion: apps/v1

    kind: Deployment

    name: myapp-deployment

  minReplicas: 3

  maxReplicas: 10

  metrics:

  – type: Resource

    resource:

      name: cpu

      target:

        type: Utilization

        averageUtilization: 70 # Ziel-CPU-Auslastung 70%

  – type: Pods

    pods:

      metric:

        name: requests-per-second

      target:

        type: AverageValue

        averageValue: 100 # Ziel: 100 Anfragen pro Sekunde pro Pod

4. Monitoring und Testing

Die Sicherstellung von Hochverfügbarkeit und Skalierbarkeit erfordert kontinuierliches Monitoring und proaktives Testen:

4.1 Umfassendes Monitoring und Alerting

Health Checks: Regelmäßige Überprüfung des Zustands von Instanzen und Diensten durch Load Balancer und Orchestrierungstools.
Performance-Metriken: Überwachung von Latenz, Fehlerraten, Ressourcenauslastung etc.
Synthetisches Monitoring: Simulation von Benutzerinteraktionen zur Überprüfung der End-to-End-Verfügbarkeit.
Real User Monitoring (RUM): Erfassung der tatsächlichen Benutzererfahrung.
Alerting: Proaktive Benachrichtigung bei Abweichungen von definierten Schwellenwerten oder bei Ausfällen.

4.2 Chaos Engineering

Chaos Engineering ist die Praxis des kontrollierten Experimentierens an einem verteilten System, um Vertrauen in die Fähigkeit des Systems zu gewinnen, turbulenten Bedingungen in der Produktion standzuhalten.

Kontrollierte Experimente: Gezielte Einführung von Fehlern (z.B. Ausfall von Instanzen, Netzwerkverzögerungen, Ressourcenauslastung).
Hypothesenbildung: Formulierung von Annahmen über das Systemverhalten bei Fehlern.
Messung und Validierung: Überprüfung, ob das System wie erwartet reagiert.
Automatisierung: Integration von Chaos-Experimenten in die CI/CD-Pipeline.
Tools: Chaos Monkey (Netflix), Gremlin, AWS Fault Injection Simulator.

Praxistipp: Game Days

Führen Sie regelmäßig “Game Days” durch, bei denen Sie gezielt Ausfallszenarien simulieren und die Reaktion Ihres Teams und Ihrer Systeme testen. Dies hilft, Schwachstellen aufzudecken und die Reaktionsfähigkeit zu verbessern.

5. Best Practices Zusammenfassung

Design for Failure: Bauen Sie Systeme, die Ausfälle tolerieren.
Redundanz auf allen Ebenen: Nutzen Sie Multi-AZ und ggf. Multi-Region.
Horizontale Skalierung bevorzugen: Entwerfen Sie stateless Anwendungen.
Entkoppeln Sie Komponenten: Nutzen Sie asynchrone Kommunikation und Message Queues.
Nutzen Sie verwaltete Dienste: Profitieren Sie von integrierter HA und Skalierbarkeit (Load Balancer, Datenbanken, Kubernetes).
Implementieren Sie Auto-Scaling: Passen Sie Kapazitäten dynamisch an.
Optimieren Sie Datenbanken: Setzen Sie Read Replicas, Caching und ggf. Sharding ein.
Überwachen Sie kontinuierlich: Implementieren Sie umfassendes Monitoring und Alerting.
Testen Sie proaktiv: Nutzen Sie Lasttests und Chaos Engineering.
Automatisieren Sie: Nutzen Sie IaC und CI/CD für konsistente und zuverlässige Deployments.

6. Fazit

Hochverfügbarkeit und Skalierbarkeit sind keine nachträglichen Add-ons, sondern müssen von Anfang an in die Architektur von Cloud-Anwendungen integriert werden. Durch die Anwendung der vorgestellten Architekturpatterns und Best Practices sowie den gezielten Einsatz von Cloud-Diensten können Sie robuste, resiliente und elastische Systeme aufbauen, die den Anforderungen moderner Geschäftsanwendungen gerecht werden.

Der Aufbau solcher Systeme erfordert Expertise und Erfahrung. Wenn Sie Unterstützung bei der Konzeption oder Umsetzung Ihrer hochverfügbaren und skalierbaren Cloud-Architektur benötigen, stehe ich Ihnen gerne zur Verfügung.

Möchten Sie mehr erfahren?

Ich biete eine kostenlose initiale Beratung zu Hochverfügbarkeits- und Skalierbarkeitsstrategien an. Kontaktieren Sie mich unter kontakt@stoitschev.de, um einen Termin zu vereinbaren.

Architektur-Patterns Toolkit herunterladen

← Zurück zur FAQ-Seite