Warum Computer Vision Schwierigkeiten mit Gebäuden hat (und wie man das löst)

Computer Vision ist inzwischen sehr gut darin, zu erkennen, was in einem Bild sichtbar ist. Objekte, Muster und Oberflächen lassen sich mit hoher Präzision identifizieren. Doch sobald die Technologie auf Gebäude angewendet wird, entstehen Probleme. Nicht, weil die Modelle schlecht sind, sondern weil ihnen etwas Grundlegendes fehlt: Kontext.

Das Problem: Ein Gebäude ist kein einfaches Objekt

Eine der meistübersehenen Herausforderungen ist zugleich eine der wichtigsten. Wie definiert man eigentlich ein Gebäude?

In der Praxis stehen Gebäude selten isoliert. Sie liegen dicht beieinander, überlappen visuell und erscheinen je nach Perspektive, Höhe und Umgebung unterschiedlich. Für Menschen ist intuitiv klar, was zusammengehört. Für ein Modell ist das nicht der Fall.

Wenn ein Modell ein Gebäude nicht eindeutig von einem anderen abgrenzen kann, wird alles, was darauf folgt, weniger zuverlässig. Ergebnisse sind zwar möglich, aber deutlich schwerer zu interpretieren und in der Praxis anzuwenden.

Warum Computer Vision im Gebäudekontext an Grenzen stößt

Die meisten Computer-Vision-Modelle sind für allgemeine Bildanalyse entwickelt worden, nicht für strukturierte Objekte wie Gebäude.

Sie erkennen, was sichtbar ist, verstehen aber keine funktionalen Grenzen. Sie wissen nicht, welche Pixel zu welchem Gebäude gehören, und damit auch nicht, was tatsächlich analysiert wird.

Das wird zum Problem, sobald die Ergebnisse für konkrete Anwendungsfälle genutzt werden sollen. Ohne klare Abgrenzung verliert die Datenbasis an Präzision und damit an Wert.

Unser Ansatz: Das Gebäude vor der Analyse definieren

Statt mit dem Bild zu beginnen, beginnen wir mit dem Gebäude.

Wir kombinieren Gebäudegrundrisse (Polygone) mit Höhendaten, um genau die Struktur zu isolieren, die analysiert werden soll. Intern bezeichnen wir das als „Cookie-Cutter-Methode“.

Die Idee ist einfach, aber entscheidend. Indem das Gebäude vor der Analyse aus seiner Umgebung herausgelöst wird, stellen wir sicher, dass das Modell mit einem klar definierten und konsistenten Input arbeitet. Es analysiert keine unstrukturierte Szene mehr, sondern eine eindeutig abgegrenzte Einheit.

Was sich dadurch in der Praxis verändert

Sobald das Gebäude isoliert ist, verbessert sich die Qualität der Ergebnisse deutlich.

Materialien, sichtbare Bauteile und deren Verteilung lassen sich konsistenter und zuverlässiger bestimmen. Diese Daten können anschließend strukturiert und direkt in Zustandsbewertungen und Instandhaltungsplanung integriert werden.

Der Unterschied ist nicht nur technisch. Er entscheidet darüber, ob Daten tatsächlich als Entscheidungsgrundlage genutzt werden können.

Von Bilderkennung zu entscheidungsrelevanten Daten

Das Ziel ist nicht nur zu erkennen, was sichtbar ist, sondern daraus nutzbare Daten zu machen.

Durch die Kombination von domänenspezifischen Daten mit Computer Vision entwickeln wir uns von allgemeiner Bildanalyse hin zu einem Ansatz, der konkrete operative Entscheidungen unterstützen kann.

An diesem Punkt beginnt die Technologie, im Gebäudekontext echten Mehrwert zu schaffen.

So funktioniert es in der Praxis

‍

Im Video erklären Mikkel Jensen (Co-Founder & CDSO) und Anders Johannesen Berner (Data Engineer), wie der Ansatz funktioniert und was er ermöglicht.

Warum das relevant ist

Computer Vision wird eine wichtige Rolle in der Zukunft von Gebäudedaten spielen. Damit die Technologie echten Mehrwert schafft, muss sie an die Realität angepasst werden, in der Gebäude geplant, betrieben und instand gehalten werden.

Das beginnt mit etwas so Einfachem und zugleich so Entscheidenden wie der Frage, wo ein Gebäude beginnt.