2026 OpenClaw auf gemietetem Mac Mini: Grafana OnCall-Webhook für 7×24-Nachtbatches — Stillefenster, Eskalation und Backoff-Retries
Solo-Entwickler und 7×24-Betreiber, die einen Mac Mini mieten und OpenClaw-Nachtbatches fahren, brauchen Paging mit Stillefenster, Eskalation und Retry-Budget — kein rohes curl um zwei Uhr nachts.
Dieses Runbook richtet sich an unbeaufsichtigte Apple-Silicon-Mietknoten mit Grafana OnCall-Webhooks: OnCall-Parametertabelle, sechs Umsetzungsschritte, zitierbare Schwellen. Intern verlinkt: 7×24-Batch-Entscheidungsmatrix, Langzeit-Batch-Hosting-Vergleich, launchd-Daemon-Healthcheck.
Drei Betriebsschmerzen ohne orchestrierte OnCall-Webhooks
- Unbegrenzte Retries: Ein hängendes Segment feuert dieselbe OnCall-Payload jede Minute — ohne Dedupe-Keys an
batch_id. - Policy-Drift: Stillefenster in Grafana OnCall weichen vom realen launchd-Kalender ab; erwarteter Disk-Druck paget, echte Fehler verschwinden in Wartung.
- Gateway-Exposition: OpenClaw auf allen Interfaces binden macht die Miete zum offenen Relay, sobald eine Firewall-Regel rutscht.
Mac Mini mieten: openclaw onboard --install-daemon und Loopback-Gateway
Pinnen Sie Node 24, installieren Sie OpenClaw v2026.5.x, führen Sie openclaw onboard --install-daemon unter einem dedizierten Automationsbenutzer aus. OPENCLAW_HOME gehört in launchd EnvironmentVariables, nicht in interaktive Shell-Profile.
- Gateway an 127.0.0.1 und hohen Port binden;
X-OpenClaw-Secretauf jeder Route, die OnCall-Emits auslöst. - Caddy oder nginx nur vorschalten, wenn SaaS inbound POSTen muss; TLS lokal terminieren und an Loopback weiterleiten.
- JSON-Zeilen mit
batch_id,segment,oncall_grouploggen, bevor HTTP-Clients laufen.
openclaw onboard --install-daemon
openclaw gateway status
# Erwartung: bind 127.0.0.1:18789, keepalive launchd
Grafana OnCall: Routing, Stillefenster und Eskalationsparameter
Diese Werte in Versionskontrolle einfrieren; Verhältnisse überleben Consumer-Uplinks und Single-Disk-Mieten.
| Steuerung | Startwert | Stabilität / Sicherheit |
|---|---|---|
| Incoming-Webhook-URL | Eine Integration pro Umgebung | URL im Schlüsselbund; vierteljährlich rotieren |
| Dedupe-Key | host:batch_id:segment |
Verhindert parallele Segment-Retries als Incident-Forks |
| UTC-Stille (Nachtbatch) | 22:00–06:00 + 30 min Puffer | Tag night_batch; P1 bei Datenverlust trotzdem |
| Eskalationsverzögerung | 15 → 30 → 60 Minuten | Längstes gesundes Segment plus Retry-Deckel |
| Route: erwarteter Druck | Verzögerte Notify-Policy | Disk-Gelb hier; Rot umgeht Stille |
| Resolve bei Erfolg | Pflicht | OpenClaw POST resolve bei Checkpoint-Fortschritt |
Nacht-DAG: segmentierte Checkpoints und Backoff-Vorlage
Behandeln Sie jede Nachtspur als DAG mit drei bis sechs Segmenten. Checkpoints unter $OPENCLAW_HOME/checkpoints persistieren, damit Gateway-Neustarts ohne erneutes OnCall-Firing für fertige Slices fortsetzen.
# Backoff-Vorlage (bash)
BASE=3; CAP=60; MAX=5; JITTER=0.2
for attempt in $(seq 1 $MAX); do
sleep $(( BASE * 2 ** (attempt-1) < CAP ? BASE * 2 ** (attempt-1) : CAP ))
curl -fsS -X POST "$ONCALL_URL" -d @"payload.json" && break
done
- firing nur, wenn ein Segment das Fehlerbudget überschreitet; Stdout-Tails in einen OnCall-Textblock mergen.
- HTTP 429 mit
Retry-Aftervor der eigenen Exponentialkurve respektieren. - launchd Throttle und IO-Priorität lesen, damit Segment zwei Segment eins auf derselben Disk nicht verhungert.
APFS-Wasserlinie und launchd-Log-Rotationsschwellen
Alert-Stürme beginnen oft auf vollen Disks, nicht auf flaky Webhooks. Lokale Gates vor jedem Emit koppeln.
- Gelb bei 15 Prozent freiem APFS; Rot bei 10 Prozent — neue Segmente pausieren, nicht-verzögerte Route paget.
~/Library/Logs/openclaw/gateway.logper newsyslog bei 256 MB, sieben Tageskopien.- launchd
ThrottleInterval90–120 Sekunden am Gateway-Label gegen Restart-Loops.
Sechs reproduzierbare Umsetzungsschritte
- Miete bereitstellen: kaufen.html abschließen, SSH aus dem Hilfe-Center testen, Baseline-
df -hvon der Startseite-Onboarding-Mail sichern. - OpenClaw onboarden:
openclaw onboard --install-daemon, Loopback-Bind prüfen, launchd-Plist mit KeepAlive installieren. - OnCall-Integration: Incoming-Webhook-URL erzeugen, Schweregrad-Tabelle mappen, Eskalationskette und UTC-Stille für
night_batch-Tags. - Ein Sender-Modul: Interne Events auf eingefrorenes JSON mappen; Dedupe-Key und resolve-Payload bei Checkpoint-Erfolg.
- DAG verdrahten: Nachtspur segmentieren, State-Dateien persistieren, Backoff mit fünf Versuchen und 60-Sekunden-Deckel.
- Feueralarm: Staging-Alert auslösen, Stille unterdrückt erwartetes Rauschen, Eskalation erst nach Policy-Verzögerung; Emit-Latenz im Metrics-Store charten.
Zitierbare Kennzahlen für Runbooks und SLA-Dokumente
- Loopback-Bind: 127.0.0.1; Stille 22:00–06:00 UTC plus 30 Minuten Überlauf.
- Eskalation: Verzögerungen 15 / 30 / 60 Minuten; Backoff-Basis 3 s, Deckel 60 s, max 5 Versuche, Jitter ±20 %.
- APFS: Gelb 15 %, Rot 10 % frei; Gateway-Log 256 MB × 7 Tage; ThrottleInterval 90–120 s.
Alert-Sturm-FAQ
OnCall hat den Webhook angenommen, aber niemand wurde benachrichtigt?
Incident in Grafana OnCall verfolgen: Routing, On-Call-Lücken, aktive Stille — nicht API-Fehler raten. Zurückgegebene Alert-Group-ID neben OpenClaw-batch_id loggen.
Uptime-Kuma-Pfad für OnCall wiederverwenden?
Getrennte Pfade. Kuma-Fan-in auf /hooks/uptime; OnCall nutzt eigene Integration und Schema — siehe Uptime-Kuma-Webhook-Leitfaden nur für Monitor-Seite.
Wann Langzeit-Mac-Mini-Miete statt kurzer Knoten?
Wenn Checkpoints, OnCall-Integrationen und launchd-Labels Monate überdauern müssen — Langzeit-Batch-Matrix vor dem Einfrieren von Stille-Kalendern.
Fazit. Koppeln Sie OpenClaw-Loopback-Gateways mit Grafana OnCall-Webhooks, eingefrorenen Routing-Tabellen, segmentierten Nacht-Checkpoints und gedeckeltem Backoff. Kapazität über die 7×24-Batch-Matrix, dann Startseite für Fleet-Gesundheit nach der ersten stillen Nacht.
Mac Mini für OpenClaw plus Grafana OnCall mieten
RunMini Apple Silicon für 7×24-Wächter und Nacht-DAGs. Langzeit-Pakete, kaufen.html ohne Login, SSH/VNC Hilfe nach Checkout.
Weitere Lesestoffe: Tech-Blog; Langzeit-Hosting-Matrix; 7×24-Batch-Matrix; Daemon-Healthcheck.