Infra Doctrine – Autonomie, Scale & Ops Exzellenz
Ergänzt das 00_Meta/Manifest und macht klar, wie wir Infrastruktur betreiben, ohne von Fremdplattformen abhängig zu sein. Owner: Ops Captain · Deputies: Server Pilot, Data Platform Lead.
1. Zweck & Scope
- Autonomie: Core-Services (Panel, Game Nodes, Bots, Datenplattform) laufen auf von uns kontrollierten Maschinen (Colo/Dedicated). SaaS nutzen wir nur für Austauschbare (Status Page, Alerts).
- Scale by Design: Alles wird so dokumentiert, dass wir 1 → 20 Server über denselben Blueprint ausrollen können (IaC + Observability + Runbooks).
- Community Impact: Jede Infra-Entscheidung dient Member Experience, Creator-Schutz und Vertrauen (siehe Vision 2026, Regelwerke/Privacy-Notice).
2. Leitprinzipien
- Code before Clicks – Infrastrukturänderungen kommen aus Repos (Terraform/Ansible) → Templates/Server-Change-Template → Deploy.
- Vendor Agnostic – Keine Abhängigkeit von proprietären Panels/Cloud-Features, die sich nicht self-hosten lassen. Datenexporte sind Pflicht.
- Defense in Depth – Netzsegmente, Secrets, Monitoring, Backups. Kein alleinstehender Server ohne Observability (siehe 04_Infrastruktur/Server Setup & 04_Infrastruktur/Incident Playbook).
- Forward Deployed Pods – Plattformkern liefert Templates; Mission Pods passen sie an Games an und dokumentieren Lessons im 03_Rollen/Lessons Hub.
- Operational Transparency – Auslastung, Kosten, Incidents werden monatlich im Council geteilt (verlinkt nach 07_Naechste_Schritte/State of the Guild Deck).
3. Layered Architecture
| Layer | Inhalt | Tools / Standards |
|---|---|---|
| Physical / Host | Dedicated Roots / Colo Nodes (node01+), Management Network, IP + DNS | Debian 13 LTS, Tailscale/WireGuard, nodeXX.gg-n.de Namensschema |
| Control Plane | Pterodactyl Panel, GitOps Repo, Secrets Vault | Pterodactyl, Terraform Modules, SOPS + age, GitHub Actions CI |
| Workload Pods | Game Servers, Discord Bots, Web Services | Docker, Game-specific Eggs, bot-* Profiles |
| Data & Observability | Metrics, Logs, Dashboards, Data Platform | Prometheus, Loki, Grafana, 04_Infrastruktur/Data Platform |
| Access & Governance | RBAC, Secrets, On-Call, Audits | 1Password/Bitwarden Vault, SSH CA, 03_Rollen/Projektleitungen, 04_Infrastruktur/Incident Playbook |
4. Unabhängigkeits-Playbook
- Hardware Mix: 70 % Dedizierte Server/Colo (Leistung + Datenhoheit), 30 % Cloud Burst (Events). Für jedes Cloud-Asset muss ein „Bring-Home“-Pfad dokumentiert sein.
- Mirrors & Escape Hatches: Automatische Backups (PBS/S3), Config Dumps, Export-Skripte für Bots und Metrics, damit ein Provider-Wechsel < 7 Tage möglich ist.
- License Hygiene: Nur Open-Source oder kaufbare One-Time Licenses. Bei SaaS (z. B. BetterStack) wird Self-Hosted Alternative benannt (Uptime Kuma) und funktionsfähig gehalten.
- Network Sovereignty: Eigene DNS bei demselben Registrar, IPv4/6 Adressen dokumentiert. Notfall-Liste mit Support-Kontakten der Provider.
- Dependency Register: Tabelle im Ops Repo: Dienst → Owner → Hosting → Exit-Plan. Monatscheck im 00_Meta/Manifest#Operating Rhythm (CEO-Perspektive).
5. Skalierungsmodell (10–20 Server)
- Capacity Model: Spreadsheet + Grafana-Dashboard
GGN-Capacityzeigen CPU/RAM-Auslastung, „Time to 80 %“. Ab 65 % Auslastung → Pre-order nächster Node. - Node Archetypes: Control Tower, Sandbox, Survival, Competitive, Experiment (siehe 00_Meta/Manifest#Server-Archetypen (V1)). Neue Server müssen einem Archetyp entsprechen oder einen neuen per Council ADR definieren.
- Deployment Packs: Jede Node-Klasse hat ein Pack (Terraform Vars, Ansible Playbook, Monitoring Dashboards, Runbook). Packs liegen im Git Repo
infra/manifests. - Rollout Ritual:
- Draft Change → Review (Ops Captain + Mission Lead)
- Staging Deploy (wenn vorhanden)
- Production Deploy
- Post-Deploy Check (Monitoring green, Security scan)
- Documentation Update (
Notes/node0X.md, Templates/Server-Change-Template)
- Lifecycle: Commission → Active → Warm Standby → Sunset. Sunset bedeutet: Backups archivieren, DNS entfernen, Costs/Tickets schließen, Lessons in 03_Rollen/Lessons Hub.
6. Automation Stack
- Terraform Modules: DNS, Proxmox/LXC, Pterodactyl Nodes, Prometheus Stack. Module katalogisiert in
infra/terraform/README. - Ansible Playbooks: OS Hardening, Docker Setup, Bot Deployment, Backup Agents. Playbooks signiert; CI lint per
ansible-lint. - GitHub Actions Pipelines:
planJob auf PR → Terraform Plan, Ansible Dry Run.deployJob nur via Manual Approval (Ops Captain).- Secrets via OIDC + Vault token exchange.
- Config Drift Checks: Nightly job ruft
terraform plan+ansible --checkgegen alle Nodes, posted Delta in#ops-alerts. - Inventory Source of Truth:
inventory.yaml+hosts.csv(synced). Wird von Runbooks, Monitoring, On-Call benutzt.
7. Observability & Ops
- Golden Signals: Latency, Traffic, Errors, Saturation für Panel, API, Game Ports.
- Tracing & Logs: Loki Stack sammelt Panel Logs, Game Server stdout/stderr, Bot Logs. Retention 14 Tage, Critical 90 Tage.
- Alerting Policy: Severity 1 = Incident Bridge + Council, Severity 2 = Ops Channel + Status Update, Severity 3 = Async Backlog. Siehe 04_Infrastruktur/Incident Playbook.
- SLOs:
- Panel Uptime 99.3 % / Monat.
- Game Nodes 99 % / Node, 0 Major incidents ohne Postmortem.
- Ticket Bots Response < 5 Min.
SLO-Reviews laufen im Monthly Manifest Check-In.
- Runbooks: Jede Service-Gruppe pflegt Troubleshooting Steps (DNS, Wings, Game-specific). Runbooks liegen neben Service Repo und verlinken ins Meeting Template.
8. Security & Access
- Identity: SSH Keys via
ssh-ca gg-n+ short-lived certs. Panel logins SSO (Keycloak) oder TOTP. - Secrets: SOPS + age Files, stored encrypted in Git. Rotationsplan quartalsweise (siehe Risk Register).
- Network: Default Deny Firewall, Ports per Service. Private mgmt network via Tailscale. Game Ports offen via
ufw allow <port>. - Audits: Halbjährliche Security Review (Logs, Access, Backups). Findings → Risiken und Gegenmassnahmen.
- Compliance Prep: DSGVO/Privacy Mapping – wo liegen Daten, wer hat Zugriff, Retention. Data Processing Agreements archiviert in
Legal/.
9. Execution Roadmap (2025)
| Quartal | Fokus | Deliverables |
|---|---|---|
| Q1 (Phase 2) | Core Blueprint | Terraform + Ansible Repo live, Node01 voll dokumentiert, Capacity Dashboard, Change Template Pflicht. |
| Q2 (Phase 3) | Multi-Node Ops | Node02 live, IaC tested via Game Day, Vault rollout, Config Drift Alerts aktiv. |
| Q3 (Phase 4/5) | Observability & Bots | Loki Stack, Status Page, Bot Fleet CI/CD, Data Platform Bronze→Silver Automations. |
| Q4 (Phase 6) | Resilience | Warm Standby Node, Backup Restore Drills, Chaos Test, Playbook Update für Expansion. |
10. ToDos & Ownership
↩ 04_Infrastruktur/Server Setup · 00_Meta/Manifest · 04_Infrastruktur/Data Platform · 04_Infrastruktur/Incident Playbook