Capturing the Shape and Pose of Horses in 3D
Tid: Må 2025-01-13 kl 14.00
Plats: F3 (Flodis), Lindstedtsvägen 26 & 28, Stockholm
Videolänk: https://kth-se.zoom.us/j/66272186963
Språk: Engelska
Ämnesområde: Datalogi
Respondent: Ci Li , Robotik, perception och lärande, RPL
Opponent: Associate Professor Tilo Burghardt, University of Bristol
Handledare: Hedvig Kjellström, Robotik, perception och lärande, RPL; Silvia Zuffi, IMATI-CNR; Elin Hernlund, Swedish University of Agricultural Sciences, SLU
QC 20241129
Abstract
Djur spelar en betydande roll i jordens ekologi och har levt tillsammans med människor genom historien. Att studera och förstå deras rörelser och beteenden är viktigt för att främja vetenskaplig kunskap och gynna praktiska tillämpningar. I detta examensarbete fokuserar vi specifikt på hästar, som är nyckelämnen inom både datorseende och biologisk forskning på grund av deras styrka i hastighet och unika rörelsesystem.
Traditionella system för att fånga hästens rörelser förlitar sig ofta på att fästa sensorer eller markörer på hästens kropp. Dessa system är dock ofta begränsade till begränsade miljöer och svåra att använda i naturliga, oinskränkta miljöer. Att fånga hästar med vanliga videokameror, där hästar observeras i sina naturliga miljöer, är däremot en mer praktisk lösning. Men att fånga hästar i 3D, särskilt 3D-formen och posituren, från 2D-bilder är ett mycket utmanande problem på grund av tvetydigheten med endast 2D-data.
För att möta dessa utmaningar föreslår vi modellbaserade metoder för att fånga hästars 3D-form och ställning från monokulära bilder eller videor. Vi börjar med att presentera hSMAL, en hästspecifik 3D-parameteriserad modell, kapabel att uttrycka olika hästformer, som lärs från 3D-skanningsdata. Vi visar också den praktiska användbarheten av denna modell för att upptäcka hälta, en viktig veterinäruppgift för att bedöma hästars välbefinnande. Dessutom presenterar vi en omfattande datauppsättning för häströrelser, som samlar in data från hästar med olika former och utför olika rörelser med hjälp av markörer för täta rörelsefångst. Denna motion capture-data tillåter oss att animera hSMAL med riktiga häströrelser, tillhandahålla detaljer om hur hästar rör sig och även ta itu med det vanliga problemet med begränsad data inom djurforskning.
Med utgångspunkt i den föreslagna modellen och datamängden utvecklar vi datadrivna regressionsmetoder för att fånga hästar i 3D från monokulära bilder och videor på ett heltäckande sätt. Först integrerar vi multimodal data, kombinerar videoklipp och ljud. Våra resultat visar att inkorporering av ljud ökar robustheten i metoden, särskilt i situationer med visuell tvetydighet och ocklusion. För det andra integrerar vi grundmodeller för vision och inlärning av disentanglement med en pipeline för generering av syntetisk data i farten. Pipelinen gör det möjligt att skapa parad data under nätverksträning, vilket underlättar inlärningen av disentangled funktionsutrymmen. Tillsammans förbättrar dessa tillvägagångssätt generaliseringen och anpassningsförmågan hos metoden, vilket förbättrar prestandan på bilder från olika domäner och andra fyrbenta djur. Genom experiment på både våra egna insamlade datamängder och offentliga dataset visar vi effektiviteten hos de föreslagna metoderna för att främja hästspecifik fångst från monokulära bilder och videor.
Denna avhandling bidrar med metoder för att fånga hästar från vanliga videokameror, speciellt med fokus på 3D-formen och posituren, vilket öppnar nya möjligheter för rörelsefångning och analys av djur.