Computer Vision (Bildverstehen)
Computer Vision (Bildverstehen) ist ein Bereich der Künstlichen Intelligenz, der Computern beibringt, Inhalte in Bildern und Videos zu „sehen“ und zu interpretieren – z. B. Objekte zu erkennen, Text per OCR auszulesen oder Qualitätsmängel zu finden. Statt nur Pixel zu speichern, werden Muster, Bedeutungen und Zusammenhänge automatisch erkannt und in verwertbare Daten übersetzt.
Was bedeutet Computer Vision (Bildverstehen)?
Der Begriff beschreibt Methoden und Modelle, die visuelle Daten (Fotos, Scans, Kamerastreams) analysieren. Typische Aufgaben sind Klassifikation (Was ist zu sehen?), Objekterkennung (Wo ist es?), Segmentierung (Welche Pixel gehören wozu?) sowie Texterkennung (OCR). Moderne Computer-Vision-Systeme sind oft Teil von Multimodale KI (Multimodal AI), weil sie Bild-/Videoinformationen mit Text, Sprache oder Sensordaten kombinieren können.
Wie funktioniert Computer Vision?
In der Praxis folgt Computer Vision häufig einem wiederkehrenden Ablauf:
- 1) Daten erfassen: Bilder/Videos aus Kameras, Dokumentenscans, Smartphone-Fotos oder Produktionsanlagen.
- 2) Vorverarbeitung: Zuschneiden, Normalisieren, Rauschreduktion, ggf. Anonymisierung (z. B. Gesichter/Nummernschilder).
- 3) Modell-Inferenz: Ein trainiertes Modell erkennt Muster und gibt Ergebnisse aus (Labels, Bounding Boxes, Masken, Text).
- 4) Postprocessing: Regeln, Plausibilitätschecks, Confidence-Schwellen, Zusammenführung mehrerer Signale.
- 5) Integration in Prozesse: Übergabe an Apps, Dashboards oder Workflows (z. B. via n8n und Automatisierung (Automation)).
Technologisch kommen oft Deep-Learning-Modelle (z. B. CNNs, Vision Transformer) zum Einsatz. Für den Betrieb zählt die effiziente Inference (Laufzeit-Auswertung). Für spezielle Domänen wird häufig nachtrainiert – etwa per Fine-Tuning oder LoRA – um z. B. bestimmte Defekte, Dokumenttypen oder Produktvarianten zuverlässig zu erkennen.
Wofür wird Computer Vision eingesetzt? (Beispiele)
- Qualitätsprüfung in der Industrie: Erkennung von Kratzern, Fehlmontagen oder Maßabweichungen in Echtzeit.
- Dokumentenverarbeitung (OCR): Rechnungen, Lieferscheine, Ausweise – Extraktion von Feldern wie Betrag, Datum, IBAN.
- Retail & Logistik: Regalüberwachung, Inventur per Kamera, Paket- und Labelerkennung.
- Sicherheit & Compliance: Zutrittskontrolle, PPE-Erkennung (Helm/Schutzbrille), Anomalie-Detektion.
- Assistenzsysteme: Fahrerassistenz, medizinische Bildanalyse, visuelle Suche.
Warum ist Computer Vision wichtig – gerade im KI-Stack?
Viele Geschäftsprozesse enthalten visuelle Informationen, die bisher manuell geprüft wurden. Computer Vision macht diese Daten maschinenlesbar und damit automatisierbar. In Kombination mit Large Language Model (LLM)-Systemen (z. B. ChatGPT), AI Agents (KI-Agenten) und Function Calling / Tool Use können aus Bilddaten handlungsfähige Workflows entstehen: Ein Agent liest per OCR eine Rechnung, validiert sie gegen ERP-Daten und startet eine Freigabe – inklusive Protokollierung und Benachrichtigung.
Wichtig ist dabei die Qualität der Ergebnisse: Wie bei Text-KI können auch visuelle Modelle Fehler machen oder unsichere Vorhersagen liefern. Deshalb sind Confidence-Schwellen, menschliche Stichproben und Governance wichtig – insbesondere mit Blick auf AI Governance, EU AI Act und Datenschutz (DSGVO/GDPR) & KI.
Was kostet Computer Vision?
Die Kosten hängen stark vom Use Case ab: Datenmenge und Labeling-Aufwand, Modellkomplexität, Echtzeit-Anforderungen, Edge vs. Cloud, sowie Integrationen in bestehende Systeme. Typische Kostenblöcke sind (1) Entwicklung/Training, (2) Betrieb pro Bild/Minute Video (Compute), (3) Wartung & Monitoring. Für Pilotprojekte sind oft schlanke MVPs möglich; produktive Qualitätssicherung mit mehreren Kameras, hoher Taktung und Compliance-Anforderungen ist deutlich aufwendiger.