Scene understanding is paramount in robotics, self-navigation, augmented reality, and many other fields. To fully accomplish this task, an autonomous agent has to infer the 3D structure of the sensed scene (to know where it looks at) and its content (to know what it sees). To tackle the two tasks, deep neural networks trained to infer semantic segmentation and depth from stereo images are often the preferred choices. Specifically, Semantic Stereo Matching can be tackled by either standalone models trained for the two tasks independently or joint end-to-end architectures. Nonetheless, as proposed so far, both solutions are inefficient because requiring two forward passes in the former case or due to the complexity of a single network in the latter, although jointly tackling both tasks is usually beneficial in terms of accuracy. In this paper, we propose a single compact and lightweight architecture for real-time semantic stereo matching. Our framework relies on coarse-to-fine estimations in a multi-stage fashion, allowing: i) very fast inference even on embedded devices, with marginal drops in accuracy, compared to state-of-the-art networks, ii) trade accuracy for speed, according to the specific application requirements. Experimental results on high-end GPUs as well as on an embedded Jetson TX2 confirm the superiority of semantic stereo matching compared to standalone tasks and highlight the versatility of our framework on any hardware and for any application. The work described in this thesis is also available in [1], ICRA 2020. iv Sammanfattning Scenförståelse spelar en viktig roll inom robotik, självnavigering, augmented reality och många andra områden. För att fullständigt kunna utföra denna uppgift måste en autonom agent kunna förstå 3D-strukturen i sin omgivning (för att veta var det den tittar på är) och omgivningens innehåll (för att veta vad det är den ser). För att lösa dessa uppgifter är ofta det föredragna valet att träna djupa neurala nätverk till att beräkna semantisk segmentering och pixeldjup från stereobilder. Specifikt kan semantisk stereomatchning hanteras antingen genom fristående modeller tränade att utföra de två uppgifterna oberoende av varandra eller genom en gemensam end-to-end arkitektur. Såsom föreslagits hittills är båda lösningarna däremot ineffektiva eftersom det krävs två framåtpasseringar i det tidigare fallet och på grund av komplexiteten hos det sammanslagna nätverket i det senare, även om gemensam träning av båda uppgifterna vanligtvis är fördelaktigt när det gäller noggrannhet. I den här artikeln föreslår vi en kompakt och beräkningslätt arkitektur för gemensam semantisk stereomatchning i realtid. Vårt ramverk bygger på att uppskatta scenmodellen i flera steg från grovt till noggrant, vilket tillåter: i) mycket snabb inferens även på inbyggda enheter, med minimal minskning i noggrannhet jämfört med moderna nätverk, ii) övervägning mellan hastighet och noggrannhet enligt de specifika tillämpningskraven. Experimentella resultat på högpresterande grafikkort samt på en inbyggd Jets...