Infra Doctrine – Autonomie, Scale & Ops Exzellenz

Ergänzt das 00_Meta/Manifest und macht klar, wie wir Infrastruktur betreiben, ohne von Fremdplattformen abhängig zu sein. Owner: Ops Captain · Deputies: Server Pilot, Data Platform Lead.

1. Zweck & Scope

2. Leitprinzipien

  1. Code before Clicks – Infrastrukturänderungen kommen aus Repos (Terraform/Ansible) → Templates/Server-Change-Template → Deploy.
  2. Vendor Agnostic – Keine Abhängigkeit von proprietären Panels/Cloud-Features, die sich nicht self-hosten lassen. Datenexporte sind Pflicht.
  3. Defense in Depth – Netzsegmente, Secrets, Monitoring, Backups. Kein alleinstehender Server ohne Observability (siehe 04_Infrastruktur/Server Setup & 04_Infrastruktur/Incident Playbook).
  4. Forward Deployed Pods – Plattformkern liefert Templates; Mission Pods passen sie an Games an und dokumentieren Lessons im 03_Rollen/Lessons Hub.
  5. Operational Transparency – Auslastung, Kosten, Incidents werden monatlich im Council geteilt (verlinkt nach 07_Naechste_Schritte/State of the Guild Deck).

3. Layered Architecture

Layer Inhalt Tools / Standards
Physical / Host Dedicated Roots / Colo Nodes (node01+), Management Network, IP + DNS Debian 13 LTS, Tailscale/WireGuard, nodeXX.gg-n.de Namensschema
Control Plane Pterodactyl Panel, GitOps Repo, Secrets Vault Pterodactyl, Terraform Modules, SOPS + age, GitHub Actions CI
Workload Pods Game Servers, Discord Bots, Web Services Docker, Game-specific Eggs, bot-* Profiles
Data & Observability Metrics, Logs, Dashboards, Data Platform Prometheus, Loki, Grafana, 04_Infrastruktur/Data Platform
Access & Governance RBAC, Secrets, On-Call, Audits 1Password/Bitwarden Vault, SSH CA, 03_Rollen/Projektleitungen, 04_Infrastruktur/Incident Playbook

4. Unabhängigkeits-Playbook

5. Skalierungsmodell (10–20 Server)

  1. Capacity Model: Spreadsheet + Grafana-Dashboard GGN-Capacity zeigen CPU/RAM-Auslastung, „Time to 80 %“. Ab 65 % Auslastung → Pre-order nächster Node.
  2. Node Archetypes: Control Tower, Sandbox, Survival, Competitive, Experiment (siehe 00_Meta/Manifest#Server-Archetypen (V1)). Neue Server müssen einem Archetyp entsprechen oder einen neuen per Council ADR definieren.
  3. Deployment Packs: Jede Node-Klasse hat ein Pack (Terraform Vars, Ansible Playbook, Monitoring Dashboards, Runbook). Packs liegen im Git Repo infra/manifests.
  4. Rollout Ritual:
    • Draft Change → Review (Ops Captain + Mission Lead)
    • Staging Deploy (wenn vorhanden)
    • Production Deploy
    • Post-Deploy Check (Monitoring green, Security scan)
    • Documentation Update (Notes/node0X.md, Templates/Server-Change-Template)
  5. Lifecycle: Commission → Active → Warm Standby → Sunset. Sunset bedeutet: Backups archivieren, DNS entfernen, Costs/Tickets schließen, Lessons in 03_Rollen/Lessons Hub.

6. Automation Stack

7. Observability & Ops

8. Security & Access

9. Execution Roadmap (2025)

Quartal Fokus Deliverables
Q1 (Phase 2) Core Blueprint Terraform + Ansible Repo live, Node01 voll dokumentiert, Capacity Dashboard, Change Template Pflicht.
Q2 (Phase 3) Multi-Node Ops Node02 live, IaC tested via Game Day, Vault rollout, Config Drift Alerts aktiv.
Q3 (Phase 4/5) Observability & Bots Loki Stack, Status Page, Bot Fleet CI/CD, Data Platform Bronze→Silver Automations.
Q4 (Phase 6) Resilience Warm Standby Node, Backup Restore Drills, Chaos Test, Playbook Update für Expansion.

10. ToDos & Ownership

04_Infrastruktur/Server Setup · 00_Meta/Manifest · 04_Infrastruktur/Data Platform · 04_Infrastruktur/Incident Playbook