GitHub Copilot wird Multi-LLM: Gemini 3 Pro, Claude Opus 4.5 & GPT-5 in der Public Preview
Multi-LLM wird zum Standard in Copilot
Bei GitHub Copilot verschiebt sich der Fokus spürbar: Weg vom „ein Modell für alles“ hin zu einer Multi-LLM-Strategie, bei der Teams je nach Aufgabe das passende Modell wählen (oder wählen lassen). Das ist mehr als ein Feature-Update – es betrifft direkt Codequalität, Durchsatz im Alltag und die Planbarkeit in größeren Organisationen, weil unterschiedliche Modelle unterschiedliche Stärken und Verfügbarkeiten mitbringen.
Die drei Kern-Updates im Überblick
- Gemini 3 Pro in Public Preview – breit in IDEs: Gemini ist in Copilot als Option angekommen und zielt darauf, anspruchsvollere Coding-Aufgaben mit starkem Kontextverständnis zu unterstützen. Praktisch für Teams: Ihr könnt in eurer Standard-IDE bleiben und trotzdem für bestimmte Workflows ein anderes Modell nutzen, ohne Tool-Wechsel oder Parallel-Setups.
- Mehr Modelle: Claude Opus 4.5 sowie GPT-5.x (inkl. GPT-5.2): Claude Opus 4.5 ist besonders interessant, wenn es um komplexe Refactorings, Architektur-Entscheidungen oder „Warum bricht das hier?“–Debugging mit vielen Abhängigkeiten geht. GPT-5.2 spielt seine Stärken oft bei formalen Problemen aus, etwa wenn ihr knifflige Algorithmen, numerische Logik oder Testfall-Herleitungen braucht.
- Agent Skills + Auto-Model-Picker: Copilot kann Aufgaben stärker agentisch abarbeiten (z. B. mehrstufige Änderungen, Tests anpassen, Fehler iterativ beheben) und im „Auto“-Modus das Modell passend zur Anfrage auswählen. Das reduziert Reibung, wenn nicht jeder im Team Modell-Expertise mitbringt.
Warum das für Teams sofort relevant ist
In der Praxis heißt das: Ihr könnt Modellwahl als Teil eurer Engineering-Routine etablieren. Beispiel: Für ein riskantes Refactoring wählt ihr bewusst Claude Opus 4.5, für schnelle Prototypen oder „skizziere mir eine Lösung“ eher ein schnelles Modell, und für mathematisch saubere Edge-Case-Analysen greift ihr zu GPT-5.2. Ein pragmatischer Tipp: Legt in euren Coding-Guidelines fest, wann „Auto“ reicht und wann ein bewusstes Modell-Override erwartet ist (z. B. bei Security-kritischem Code oder großen API-Migrationen).
Zeitstrahl: Die wichtigsten Copilot-Updates im Dezember
Schritt 1: Deprecation als Startsignal für die neue Modell-Ära
Label: Vorlauf (Deprecation-Phase)
Schritt 1: Deprecation als Startsignal für die neue Modell-Ära
Alte Modelle raus, Platz für Multi-LLM
Noch vor den Dezember-Updates hat GitHub die Weichen gestellt und mehrere ältere Copilot-Modelle offiziell abgekündigt. Für Teams ist das mehr als ein Wartungshinweis: Es ist ein klares Signal, dass Copilot künftig auf neuere Modellgenerationen optimiert wird. Praktischer Tipp: Prüft in euren IDE-Setups und Team-Guidelines, ob irgendwo feste Modellnamen dokumentiert sind (z. B. in Onboarding-Docs), damit niemand auf ein auslaufendes Modell setzt.
Schritt 2: Model Picker & „Auto“-Modus werden zum Standard-Workflow
Dezember 2025
Schritt 2: Model Picker & „Auto“-Modus werden zum Standard-Workflow
Manuell wechseln oder automatisch optimieren
Im Dezember rückt die Modellwahl direkt in die Entwicklungsumgebung: Entwickler können zwischen mehreren LLMs umschalten oder den „Auto“-Modus nutzen, der je nach Aufgabe und aktuellen Ratenlimits ein passendes Modell auswählt. Das ist besonders hilfreich in gemischten Workloads: schnelle Code-Vervollständigung vs. tiefes Debugging. Praxisbeispiel: Nutzt „Auto“ für den Alltag, aber wechselt gezielt manuell, wenn ihr eine heikle Aufgabe habt (z. B. Sicherheitsfix oder komplexe Refaktorierung), um reproduzierbare Ergebnisse im Team zu bekommen.
Schritt 3: Multi-Model wird real – Claude Opus 4.5, GPT-5.x und Gemini 3 Pro in Copilot
Ende Dezember 2025 (GA für Claude Opus 4.5 & GPT-5.2)
Schritt 3: Multi-Model wird real – Claude Opus 4.5, GPT-5.x und Gemini 3 Pro in Copilot
Mehr Auswahl, mehr Spezialisierung
Copilot unterstützt nun mehrere führende Modelle, darunter Claude Opus 4.5, Gemini 3 Pro sowie OpenAI-Varianten wie GPT-5.1 und GPT-5.2. Das ermöglicht eine Aufgaben-orientierte Modellstrategie: Claude Opus 4.5 eignet sich besonders für anspruchsvolle Änderungen am Codebestand (z. B. große Refaktorierungen), während GPT-5.2 häufig bei mathematisch geprägten Aufgaben punktet. Tipp für Teams: Definiert eine einfache „Model-Matrix“ (Aufgabe → bevorzugtes Modell), damit Reviews nachvollziehbar bleiben und ihr weniger Zeit mit Trial-and-Error verliert.
Schritt 4: Gemini 3 Pro Rollout in mehrere IDEs (Public Preview)
Dezember 2025 (Public Preview)
Schritt 4: Gemini 3 Pro Rollout in mehrere IDEs (Public Preview)
Breitere Verfügbarkeit im Alltag der Entwickler
Gemini 3 Pro wird in der Public Preview in mehreren Entwicklungsumgebungen ausgerollt, darunter VS Code, JetBrains, Xcode und Eclipse. Das ist relevant, weil Teams selten nur eine IDE nutzen: Frontend in VS Code, Backend in JetBrains, mobile Komponenten in Xcode. Praktischer Tipp: Legt fest, welche IDEs offiziell unterstützt werden, und testet Gemini 3 Pro zuerst in einem repräsentativen Teilprojekt, um Prompting-Stil, Antwortlänge und Code-Formatierung teamweit zu standardisieren.
Schritt 5: Agent Skills – wiederkehrende Aufgaben als „Skills“ operationalisieren
Dezember 2025
Schritt 5: Agent Skills – wiederkehrende Aufgaben als „Skills“ operationalisieren
Von Chat-Antworten zu wiederholbaren Abläufen
Mit Agent Skills verschiebt Copilot den Fokus von einzelnen Prompts hin zu vordefinierten Anweisungen und Skripten, die typische Engineering-Aufgaben beschleunigen. Das kann z. B. das Erstellen von Migrationsschritten, das Aktualisieren von Tests nach API-Änderungen oder das Durchführen von Codebase-Checks nach einem Refactoring sein. Tipp: Startet mit 2–3 Skills, die euch wirklich Zeit sparen (z. B. „Refactor + Tests aktualisieren“), und koppelt sie an klare Akzeptanzkriterien, damit Ergebnisse konsistent bleiben – unabhängig davon, welches Modell gerade genutzt wird.
Gemini 3 Pro: Public Preview in mehreren IDEs (breit einsetzbar)
Gemini 3 Pro ist seit dem 12. Dezember 2025 in GitHub Copilot integriert und in der Public Preview direkt in Visual Studio, JetBrains IDEs, Xcode und Eclipse verfügbar. Das ist besonders praktisch für Teams mit gemischten Toolchains, weil das gleiche Modell über verschiedene Entwicklungsumgebungen hinweg genutzt werden kann. Plane für den Preview-Status dennoch Rollout-Unterschiede ein: Je nach Organisation, Region oder IDE-Version kann die Option früher oder später erscheinen.
- Tipp: Wenn du zwischen IDEs wechselst, halte Copilot und die IDE-Plugins aktuell, um den Modellzugriff konsistent zu bekommen.
Modellwahl im Copilot Chat: Gemini 3 Pro gezielt aktivieren
Du nutzt Gemini 3 Pro über den Modell-Picker in Copilot Chat und kannst es damit bewusst für Aufgaben auswählen, bei denen du seine Stärken testen willst. Das ist ideal, wenn du Ergebnisse vergleichen möchtest, etwa bei einer kniffligen Fehlersuche oder bei Architekturfragen, ohne deinen Workflow zu verlassen. Für Teams erleichtert die klare Modellwahl zudem reproduzierbare Ergebnisse in Pairing-Sessions („Nimm bitte Gemini 3 Pro für den nächsten Schritt“).
- Praxis: Lege dir eine kurze Prompt-Vorlage an („Kontext, Ziel, Constraints, gewünschtes Output-Format“), damit Modellwechsel wirklich vergleichbar bleibt.
Ask/Edit/Agent: Drei Modi, die Gemini 3 Pro sinnvoll ausspielen
Gemini 3 Pro lässt sich je nach Copilot-Modus unterschiedlich effektiv einsetzen: In Ask für Erklärungen und Review-Fragen, in Edit für präzise Änderungen am bestehenden Code und im Agent-Modus für mehrstufige Aufgaben, die Planung und Umsetzung verbinden. Typische Use-Cases sind komplexe Refactors (z. B. „Repository-Layer entkoppeln“), verständliche Code-Erklärungen für Onboarding sowie das Erstellen von Tests inklusive Edge-Cases. Gerade bei größeren Änderungen hilft es, den Agenten auf kleine, überprüfbare Schritte zu lenken.
- Tipp: Bitte um einen „Plan in 5 Schritten“ und lasse nach jedem Schritt kurz validieren (Build, Tests, Lint), bevor der nächste folgt.
Preview-Workflow: Qualität sichern trotz Rollout- und Ergebnis-Varianz
Da Gemini 3 Pro in der Public Preview läuft, lohnt sich ein bewusstes Vorgehen, um Stabilität und Codequalität hochzuhalten. Nutze das Modell bevorzugt dort, wo schnelle Iteration zählt (z. B. Test-Generierung, Dokumentation, Refactor-Vorschläge) und kombiniere es mit klaren Guardrails wie CI-Checks und Code-Review. So profitierst du von den neuen Fähigkeiten, ohne Produktivcode unnötig zu riskieren.
- Praktisch: Lass dir Änderungen als diff-nahe Schritte ausgeben („zeige nur die betroffenen Dateien und eine Begründung pro Änderung“), damit Reviews schneller und sauberer werden.
Vorher
- Ein weitgehend einheitlicher Copilot-Workflow mit einem dominierenden Modell: Du passt deinen Prompt an das Tool an, nicht das Tool an die Aufgabe.
- Komplexe Refactorings, Architekturentscheidungen und große Codebasen fühlen sich oft wie ein Kompromiss an: entweder gründlich oder schnell, selten beides.
- Wenn die Antwortqualität schwankt, bleibt dir meist nur: Prompt umformulieren, Kontext kürzen oder die Aufgabe in viele kleine Schritte zerlegen.
- Ausfälle, Kapazitätsengpässe oder harte Ratenlimits bremsen Teams spürbar, weil es keinen echten Ausweichpfad gibt.
- Team-Konsistenz ist einfacher: gleiche Antworten, ähnliche Code-Patterns, weniger Diskussionen über „warum Copilot das so schreibt“.
- Kosten- und Policy-Steuerung ist grob: ein Modellprofil, weniger Variablen, aber auch weniger Optimierungsmöglichkeiten.
Nachher
- Multi-LLM im Modellwähler: Du wählst je nach Bedarf zwischen Gemini 3 Pro, Claude Opus 4.5 und GPT-5.x – oder nutzt „Auto“, das Modell und Ratenlimits passend zur Aufgabe berücksichtigt.
- Spezialisierung statt Kompromiss: Claude Opus 4.5 spielt seine Stärken bei tiefen Refactorings und anspruchsvollen Änderungen aus, während Gemini 3 (z. B. Flash für Speed) schnelle Iterationen und kurze Schleifen unterstützt.
- Modellwechsel als praktischer Hebel: Für mathematisch/analytische Teile greifst du eher zu GPT-5.x, für breit angelegte Code-Reviews oder Umstrukturierungen zu Claude, für schnelle Code-Generierung und Erklärungen zu Gemini – ohne den Arbeitskontext zu verlassen.
- Mehr Resilienz im Alltag: Mit mehreren Modellen und „Auto“-Auswahl kannst du bei Engpässen auf Alternativen ausweichen, ohne den Flow zu verlieren – besonders wertvoll in CI-nahen Phasen oder kurz vor Releases.
- Mehr Governance-Bedarf: Teams sollten festlegen, welches Modell für welche Task-Klasse genutzt wird (z. B. „Refactor = Claude“, „schnelle Snippets = Gemini“, „Reasoning = GPT-5.x“), plus gemeinsame Prompt-/Skill-Vorlagen, damit Stil, Tests und Security-Checks konsistent bleiben.
- Feinere Steuerung je Plan und Use-Case: Du kannst teurere, stärkere Modelle für kritische Aufgaben reservieren und schnelle Modelle für Routine nutzen; zugleich müssen Policies (z. B. erlaubte Modelle, Datenhandling, Logging) sauber pro Plan/Organisation definiert werden.
Agent Skills: So wird Copilot wiederholbar und teamfähig
Was Agent Skills sind
Skills statt Einmal-Prompts
Agent Skills sind ein strukturierter Weg, wiederkehrende Aufgaben als wiederverwendbare „Fähigkeiten“ abzulegen: Anweisungen, Skripte und begleitende Ressourcen liegen in definierten Ordnern im Projekt. So wird aus ad-hoc Chat-Anleitung ein teamweit nutzbarer Standard, der sich wie Code versionieren und reviewen lässt.
- Inhalt: Guidelines, Prompt-Templates, Shell-/Python-Skripte, Checklisten
- Ziel: gleiche Aufgabe → gleiches Vorgehen → reproduzierbare Ergebnisse
Automatisch laden, wenn es passt
Kontextsensitiv statt manuell
Copilot kann Agent Skills automatisch heranziehen, sobald eine Aufgabe zu einem Skill passt – etwa beim Erstellen eines PR-Reviews oder beim Generieren von Tests. Das reduziert Prompt-Länge, erhöht Konsistenz und sorgt dafür, dass Teams nicht jedes Mal dieselben Regeln neu erklären müssen.
- Praxis-Tipp: Skills klar auf Aufgaben zuschneiden (z. B. „review-pr“, „generate-tests“)
- Praxis-Tipp: Skill-Anweisungen kurz halten und mit konkreten Do/Don’t ergänzen
Beispiele, die sofort Nutzen bringen
Von Review bis Migration
Ein „PR-Reviewer“-Skill kann z. B. prüfen: Breaking Changes, Logging, Error-Handling, Performance-Hotspots und ob Tests aktualisiert wurden. Ein „Migration Helper“ führt Schrittfolgen aus (Schema-Änderungen, Backfills, Feature Flags), während „Test Generator“ projektübliche Patterns (Fixtures, Naming, Coverage-Ziele) erzwingt; „Security Check“ fokussiert auf Secrets, Injection-Risiken und Dependency-Hygiene.
- Beispiel: PR-Reviewer verlangt immer eine Liste „Risiken + Rollback-Plan“
- Beispiel: Security Check blockt Commits mit verdächtigen Token-Strings
Wo du Agent Skills nutzen kannst
In mehreren Copilot-Umgebungen verfügbar
Agent Skills sind in Umgebungen wie Copilot CLI, dem Copilot Coding Agent und im Agent-Modus von VS Code Insiders nutzbar. Damit lassen sich Skills sowohl lokal im Terminal als auch in agentischen Workflows anwenden, etwa wenn Copilot Aufgaben in mehreren Dateien ausführt oder PRs vorbereitet.
- Workflow-Idee: CLI-Skill für „release-notes“ + IDE-Skill für „refactor-guidelines“
- Hinweis: Rollouts können je nach Umgebung/Plan variieren
Best Practices für Teams
Skills wie Produktfeatures behandeln
Lege Skills im Repo ab, versioniere sie und führe Reviews wie bei normalem Code durch – inklusive Changelog und Ownership. Einheitliche Namen, klare Eingaben/Ausgaben und kurze Dokumentation („Wann nutzen?“, „Was prüft der Skill?“) verhindern Wildwuchs und erhöhen die Trefferquote beim automatischen Laden.
- Konvention: Prefixe wie
skill-und sprechende Verben („skill-pr-review“, „skill-migrate-db“) - Qualität: Beispiel-Inputs/Outputs als Testszenarien im Skill-Ordner ablegen
Mini-Beispiel: Agent-Skills-Ordnerstruktur (Template)
Dieses Template zeigt eine pragmatische Agent-Skills-Struktur, die du in ein Repo legen kannst. Die Idee: klare Instruktionen (für konsistente Outputs), kleine Skripte (für wiederholbare Checks) und optionale Ressourcen (Policies, Beispiele, Mappings). Benenne Skills so, dass ihr Team sie sofort versteht (z. B. pr-reviewer, migration-helper).
.
└─ agent-skills/
├─ pr-reviewer/
│ ├─ instructions.md
│ ├─ scripts/
│ │ └─ changed-files.js
│ └─ resources/
│ ├─ review-checklist.md
│ └─ security-baseline.md
└─ test-generator/
├─ instructions.md
└─ resources/
└─ test-styleguide.md
1) Beispiel: agent-skills/pr-reviewer/instructions.md
# Skill: PR Reviewer
## Ziel
Prüfe Pull Requests auf Correctness, Security, Tests, Maintainability.
## Do
- Antworte im Format: Findings, Risk, Suggested Patch, Test Notes.
- Referenziere konkrete Dateien/Zeilen, wenn vorhanden.
- Priorisiere nach Severity: Critical, High, Medium, Low.
## Don't
- Keine großflächigen Refactors ohne explizite Anfrage.
- Keine neuen Dependencies vorschlagen, wenn nicht nötig.
## Output-Format (Markdown)
### Findings
- [Severity] Kurzbeschreibung
### Suggested Patch
```diff
...minimaler Patch...
```
### Test Notes
- Welche Tests ausführen, welche Edge-Cases prüfen
2) Script-Stub: agent-skills/pr-reviewer/scripts/changed-files.js
#!/usr/bin/env node
/**
* changed-files.js
* Liest eine Liste geänderter Dateien aus STDIN (z. B. aus git diff) und filtert irrelevante Pfade.
* Nutzung:
* git diff --name-only origin/main...HEAD | node agent-skills/pr-reviewer/scripts/changed-files.js
*/
const fs = require('fs');
const input = fs.readFileSync(0, 'utf8');
const files = input
.split(/\r?\n/)
.map(s => s.trim())
.filter(Boolean);
// Beispiel: ignoriere Build-Artefakte, Lockfiles, generierte Ordner
const ignore = [
/^dist\//,
/^build\//,
/^coverage\//,
/package-lock\.json$/,
/pnpm-lock\.yaml$/,
/yarn\.lock$/,
];
const relevant = files.filter(f => !ignore.some(rx => rx.test(f)));
// Ausgabe als JSON, damit ein Agent es leicht weiterverarbeiten kann
process.stdout.write(JSON.stringify({
changedFiles: relevant,
total: files.length,
relevantCount: relevant.length
}, null, 2));
process.stdout.write('\n');
Praxis-Tipp: Lege in resources/ eine Team-Checkliste ab (Naming, Logging, Threat-Model, Test-Policy). So bleibt der Skill stabil, auch wenn ihr zwischen Modellen wechselt.
Claude Code
- Claude Code als bevorzugtes Tool, wenn du „ein Modell, ein Workflow“ willst: ein klarer, durchgängiger Stil bei größeren Aufgaben wie Refactors, Architektur-Entscheidungen und PR-Reviews – aber mit weniger Flexibilität, wenn du je nach Task andere Stärken brauchst.
- Stark bei agentischen, längeren Sessions in einem Tool-Kontext: Claude Code eignet sich gut, wenn du Schritt-für-Schritt mit einem Agenten arbeitest und der Fokus auf einem konsistenten Plan/Output liegt.
- Integration oft stärker auf den „Coding-Assistant als Produkt“ ausgerichtet: gut für Terminal-nahe Workflows, aber weniger nahtlos, wenn dein Team über VS Code, JetBrains, Visual Studio, Xcode und Eclipse verteilt arbeitet.
- Feinsteuerung erfolgt eher manuell: Du entscheidest selbst, wann du Tempo gegen Qualität tauschst, und passt dein Vorgehen an Rate-Limits oder Latenz an (z. B. kürzere Prompts, kleinere Schritte).
- Team-Governance ist stärker „konventionell“: gemeinsame Prompting-Regeln, Copy-Paste von Checklisten, und Wissen steckt in Köpfen oder Wiki-Seiten – schwerer durchzusetzen.
GitHub Copilot
- GitHub Copilot mit Multi-LLM als „Werkzeugkasten“: Du kannst gezielt Claude Opus 4.5 für schwere Refactorings, GPT-5.x für logisches Debugging/Prototyping und Gemini 3 (Flash/Pro) für schnelle Iterationen wählen – oder den Auto-Model-Picker die Entscheidung treffen lassen.
- Copilot verteilt Agentik in die IDE: Agent/Ask/Edit-Modi plus Agent Skills machen wiederholbare Abläufe möglich (z. B. „PR-Reviewer“, „Migration Helper“), die im Team versioniert und in mehreren IDEs genutzt werden können.
- Copilot als Plattform im Alltag der IDEs: Modellwahl direkt im Copilot Chat, gleiche Grundfunktionen in mehreren Entwicklungsumgebungen und damit weniger Reibung bei gemischten Toolchains im Team.
- Automatisierung der Modellentscheidung: Der Auto-Modus wählt je nach Aufgabe und Limits das passende Modell, was besonders bei schnellen Kontextwechseln hilft (Bugfix → Test-Generierung → Refactor).
- Skills als Governance-Mechanik: Agent Skills bündeln Do/Don’t, Output-Formate und Skripte (z. B. Security-Checks, Test-Standards) und sorgen dafür, dass Reviews, Migrationen oder Release-Routinen reproduzierbar laufen.
Ein Tool, um sie alle zu steuern – oder nur ein neuer Standard-Client?
Für IT-Systemhäuser und Agenturen ist Copilots Schritt zur Multi-LLM-Plattform vor allem ein Governance-Thema: Statt Teams auf ein einziges Modell festzunageln, lässt sich pro Aufgabe das passende Modell wählen – und im „Auto“-Modus übernimmt Copilot die Auswahl anhand von Kontext und Limits. Das kann die operative Reibung senken, weil weniger Tool-Wechsel nötig ist: ein Chat-Workflow, mehrere Modelle (u. a. Claude Opus 4.5, GPT-5.x und Gemini 3) – je nach IDE und Rollout-Status.
Wann ein Wechsel realistisch ist
Ein kompletter Umstieg passiert meist dort, wo Standardisierung mehr wert ist als maximale Spezialisierung: große Kundenprojekte, gemischte Tech-Stacks, mehrere IDEs (VS Code, Visual Studio, JetBrains, Xcode, Eclipse) und wechselnde Teams. Praktisch: Ein Onboarding-Playbook kann sich auf einen Copilot-Workflow stützen, während die Modellwahl je nach Task variiert (z. B. Claude für große Refactors, GPT-5.x für knifflige Logik/Math, Gemini für schnelle Iterationen).
- Projekt-Setups: Definiere pro Repo eine „Default“-Empfehlung (Auto oder ein fixes Modell) und Ausnahmen für Spezialfälle.
- Qualitätssicherung: Lege fest, wann Antworten als „Entwurf“ gelten (z. B. bei Architekturentscheidungen) und wann zwingend Review/Tests laufen müssen.
- Team-Konsistenz: Nutze einheitliche Agent Skills für wiederkehrende Aufgaben (PR-Review, Test-Generator, Security-Check), damit Output-Formate und Regeln stabil bleiben – unabhängig vom Modell.
Wo Copilot nicht automatisch „alles ersetzt“
Viele Agenturen werden nicht vollständig wechseln, sondern konsolidieren: Copilot als zentrale Oberfläche, Spezialtools bleiben für Nischen (z. B. stark terminalbasierte Flows oder sehr spezifische Code-Agents). Entscheidend ist, ob eure Delivery-Prozesse (Branching, PR-Policies, Compliance) von Agent Skills und dem Modell-Picker profitieren. Wenn ihr heute viel Zeit in Prompt-Standards, Review-Checklisten und Tool-Training steckt, kann Copilot als Orchestrator die Komplexität reduzieren – ohne dass ihr euch auf ein einziges Modell festlegt.