Hvorfor computer vision har svært ved bygninger (og hvordan man løser det)

Computer vision er blevet ekstremt dygtig til at genkende, hvad der er synligt i et billede. Objekter, mønstre og overflader kan identificeres med høj præcision. Men når teknologien anvendes på bygninger, opstår der ofte problemer. Ikke fordi modellerne er dårlige, men fordi de mangler noget helt grundlæggende: kontekst.

Problemet: En bygning er ikke bare et objekt

En af de mest oversete udfordringer er også en af de vigtigste. Hvordan definerer man egentlig en bygning?

I praksis står bygninger sjældent alene. De ligger tæt, overlapper visuelt og fremstår forskelligt afhængigt af vinkel, højde og omgivelser. For et menneske er det intuitivt, hvad der hører sammen. For en model er det ikke.

Hvis modellen ikke tydeligt kan afgrænse én bygning fra en anden, bliver alt, der følger, mindre pålideligt. Output kan stadig genereres, men det bliver sværere at stole på og sværere at bruge i praksis.

Hvorfor computer vision falder kort i en bygningskontekst

De fleste computer vision-modeller er udviklet til generel billedforståelse, ikke til strukturerede aktiver som bygninger.

De kan genkende, hvad der er synligt, men de forstår ikke funktionelle grænser. De ved ikke, hvilke pixels der hører til hvilken bygning, og dermed heller ikke, hvad der reelt analyseres.

Det bliver et problem, så snart man vil bruge output til noget konkret. Uden en klar afgrænsning mister data både præcision og værdi.

Vores tilgang: Definér bygningen før analysen

I stedet for at starte med billedet starter vi med bygningen. Vi kombinerer bygningspolygoner med højdedata for at isolere præcis den struktur, vi vil analysere. Internt kalder vi det “cookie cutter-metoden”.

Idéen er enkel, men afgørende. Ved at “skære” bygningen ud af omgivelserne, før den sendes til modellen, sikrer vi, at inputtet er klart og konsistent. Modellen arbejder ikke længere med et komplekst, udefineret billede, men med en tydeligt afgrænset enhed.

Hvad det ændrer i praksis

Når bygningen først er isoleret, ændrer kvaliteten af output sig markant.

Det bliver muligt at estimere materialer, identificere synlige bygningsdele og forstå deres fordeling på en mere konsistent måde. Den data kan derefter struktureres og indgå direkte i tilstandsvurderinger og vedligeholdsplanlægning.

Forskellen er ikke kun teknisk. Den ligger i, om data kan bruges til beslutninger eller ej.

Fra billedgenkendelse til beslutningsgrundlag

Målet er ikke at genkende, hvad der er synligt, men at skabe data, der kan anvendes i praksis.

Når computer vision kombineres med domænespecifik data, bevæger vi os væk fra generel billedanalyse og hen imod noget, der kan understøtte reelle driftsmæssige beslutninger.

Det er her, teknologien begynder at skabe værdi i en bygningskontekst.

Se hvordan det fungerer i praksis

‍

I videoen gennemgår Mikkel Jensen (Co-Founder & CDSO) og Anders Johannesen Berner (Data Engineer), hvordan metoden fungerer, og hvad den gør muligt.

Hvorfor det er vigtigt

Computer vision kommer til at spille en vigtig rolle i arbejdet med bygningsdata. Men hvis teknologien skal skabe reel værdi, skal den tage udgangspunkt i, hvordan bygninger faktisk er struktureret og forvaltet.

Det starter med noget så enkelt, og så afgørende, som at definere hvor en bygning begynder.