Incident Manager
Ein Incident Manager ist die Person oder Rolle, die bei IT-Störungen (Incidents) die Bearbeitung steuert, die Kommunikation koordiniert und die schnelle Wiederherstellung eines Services sicherstellt. Ziel ist es, Ausfallzeiten und Geschäftsschäden zu minimieren – unabhängig davon, welche Fachteams die technische Lösung umsetzen.
Was macht ein Incident Manager konkret?
Der Incident Manager ist „Dirigent“ im Störungsfall. Er sorgt dafür, dass aus vielen Einzelaktivitäten ein geordneter Prozess wird: Wer arbeitet woran, was ist der aktuelle Status, welche Priorität hat die Störung, und wie werden Betroffene informiert? Typische Aufgaben sind:
- Priorisierung & Eskalation: Einstufung nach Auswirkung (Impact) und Dringlichkeit (Urgency), Anstoßen von Eskalationen an 2nd/3rd Level, Hersteller oder externe Dienstleister.
- Koordination der Bearbeitung: Einberufen von War-Room/Incident-Calls, Aufgabenverteilung, Entfernen von Blockern, Nachhalten von Maßnahmen.
- Kommunikation: Regelmäßige Status-Updates an Fachbereiche, Management, ggf. Kunden; Abstimmung von Formulierungen und Erwartungsmanagement.
- Wiederherstellung vor Perfektion: Fokus auf Workarounds und Service-Restore, nicht auf die endgültige Ursachenbehebung (die folgt oft im Problem Management).
- Dokumentation & Nachbereitung: Zeitleiste, Entscheidungen, Maßnahmen, Lessons Learned; Übergabe an Problem Management und Verbesserungen für Monitoring/Runbooks.
Wie funktioniert Incident Management (typischer Ablauf)?
- 1) Erkennen & Melden: Alarm aus Monitoring oder Ticket/Anruf aus dem Business.
- 2) Triage: Erste Einordnung, Scope klären, Priorität festlegen.
- 3) Mobilisieren: Richtige Teams/Provider dazuholen, Kommunikationskanal öffnen.
- 4) Stabilisieren: Workaround, Rollback, Failover – Hauptsache Service läuft wieder.
- 5) Abschluss & Review: Ticket schließen, Post-Incident-Review, Maßnahmenplan.
Warum ist die Rolle für Unternehmen ohne eigene IT-Abteilung wichtig?
Ohne klare Incident-Steuerung entsteht im Ernstfall Chaos: Mehrere Dienstleister arbeiten parallel, aber niemand hat den Gesamtüberblick. Ein Incident Manager schafft klare Verantwortlichkeiten, verkürzt die Time-to-Restore und sorgt für belastbare Kommunikation. Gerade bei Managed Services ist er oft der zentrale Ansprechpartner, der SLA/SLO-Ziele (z. B. Reaktions- und Wiederherstellungszeiten) einfordert und Entscheidungen dokumentiert.
Beispiel aus der Praxis
Ein Onlineshop ist nicht erreichbar. Der Incident Manager priorisiert als „kritisch“, organisiert innerhalb weniger Minuten einen Call mit Hosting, Netzwerk und Applikation, lässt parallel eine Statusmeldung an Vertrieb/Support veröffentlichen und entscheidet nach 20 Minuten für ein Rollback auf die letzte stabile Version. Der Shop läuft wieder, anschließend wird die Root Cause analysiert und ein Fix geplant.
Welche Tools und Methoden unterstützen?
Häufig genutzt werden Ticketing (z. B. Jira Service Management/ServiceNow), On-Call- und Alerting, Statuspages, Runbooks sowie Automatisierung. In reifen Organisationen können auch AI Agents (KI-Agenten) und Automatisierung (Automation) helfen, z. B. beim Sammeln von Logs, dem Erstellen von Incident-Zeitleisten oder dem Entwurf von Kundenupdates – mit klaren Leitplanken, damit keine falschen Informationen kommuniziert werden.
Abgrenzung: Incident Manager vs. Problem Manager
Der Incident Manager stellt den Betrieb schnell wieder her. Der Problem Manager sorgt dafür, dass die Ursache dauerhaft beseitigt wird. Beide Rollen ergänzen sich, sollten aber im Stressfall klar getrennte Ziele haben.