Il funzionale di Mumford-Shah

Autore: Marco De Zotti
Relatore: Prof. Roberto Monti

Vedere può essere inteso non solo come l’acquisizione di una “fotografia” bidimensionale di una determinata area, ma anche come l’interpretazione del suo contenuto. Quando si guarda un’immagine infatti si riconoscono delle strutture che il nostro cervello interpreta e riconosce. Le informazioni che arrivano alla nostra retina però non sono strutturate; la struttura viene data dal nostro cervello che elabora le informazioni locali che gli vengono trasmesse dall’occhio. Il mio lavoro di tesi magistrale ha mostrato un’applicazione non banale di alcune moderne tecniche di analisi matematica applicate al problema del riconoscimento di immagini. Una delle applicazioni più importanti di queste tecniche si ha in ambito medico.

Un esempio di segmentazione dell’immagine di una risonanza magnetica di un cervello umano. (Fonte: https://soundray.org/maper/)

Diamo un idea di quello che è possibile trovare nella tesi. Lascio il link al testo completo qui sotto.

Dal punto di vista matematico un’immagine è una funzione \(g(x)\) dove \(x\) è un punto del dominio \(\Omega\subset\mathbb{R}^2\), che usualmente è un rettangolo o l’intero piano, e il valore \(g(x)\) rappresenta le caratteristiche principali dell’immagine. Solitamente il valore \(g(x)\) è un numero nell’intervallo \([0,1]\) che rappresenta l’intensità di grigio di un determinato punto; nulla vieta però di considerare \(g\) come una funzione a valori vettoriali in un qualche sottoinsieme di \(\mathbb{R}^N\): se \(N=3\) di solito le componenti indicano il livello di intensità dei colori fondamentali rosso (R), verde (G) e blu (B), dando luogo quindi alla codifica RGB del colore; per \(N=4\) le componenti di \(g\) indicano i livelli di ciano (C), magenta (M), giallo (Y) e nero (K) (codifica CMYK, usata in tipografia).

Questo dato senza alcuna struttura, la funzione \(g\), è il punto di partenza dell’analisi di un’immagine ed è anche il dato che dalla retina viene inviato al nostro cervello.

Il problema della segmentazione di immagini è quello di passare da un dato non strutturato ad uno con struttura. Segmentare un’immagine significa trovare (per mezzo di un algoritmo numerico) le sue regioni omogenee e i suoi contorni: le prime infatti corrispondono alle parti significative dell’immagine.

Uno dei modelli analitici maggiormente studiati (e essenzialmente, anche il più semplice, ma già abbastanza significativo) è quello proposto da David B. Mumford e Jayant Shah in “Optimal approximations by piecewise smooth functions andassociated variational problems”. Si tratta di un modello variazionale che cerca di minimizzare un determinato funzionale energia definito su un certo insieme. Questa energia misura quanto “lisce” siano le regioni nelle quali viene suddivisa l’immagine e quanto fedeli siano l’immagine ottenuta e i suoi contorni rispetto all’immagine originale.

Possiamo allora specificare quale sia il problema proposto da Mumford e Shah: data un’immagine \(g\) si tratta di trovare simultaneamente una versione “liscia” dell’immagine \(u\) con un insieme \(K\) di discontinuità, i “contorni” di \(g\). Allora la segmentazione migliore di una data immagine è ottenuta minimizzando il funzionale

\(\displaystyle E(u,K)=\int_{\Omega\setminus K}|\nabla u(x)|^2\,dx+\alpha\,\int_{\Omega\setminus K}(u-g)^2\,dx+\beta\,\mathcal{H}^{1}(K),\)


dove \( \alpha,\beta>0\) sono due parametri reali.
Il primo termine fa sì che la norma di \( \nabla u\) sia piccola fuori dai contorni e che quindi \( u\) sia liscia, il secondo termine che \( u\) approssimi \( g\) e il terzo che l’insieme dei contorni \( K\) abbia lunghezza minima (e quindi, in un certo senso, sia il più regolare possibile).

Quello che bisogna aspettarsi da un algoritmo che minimizza il funzionale di Mumford-Shah è una versione abbozzata dell’immagine, quasi una vignetta.

Per quanto riguarda la questione della regolarità, Mumford e Shah hanno congetturato l’esistenza di segmentazioni minimali fatte di un insieme finito di curve \( \mathcal{C}^1\) che si incontrano solo in alcune configurazioni particolari: un esempio in dettaglio per il modello costante a tratti è stato trattato nel Capitolo 1 della tesi. La congettura generale è ancora aperta.

Uno dei metodi per dimostrare l’esistenza di una segmentazione ottimale si basa sulla teoria delle funzioni \( SBV\) e sul relativo teorema di compattezza, dovuto a Luigi Ambrosio.

Nella mia tesi, invece, ho seguito un approccio diverso basato sul lavoro di Jean-Michel Morel e di Sergio Solimini, Variational Methods in Image Segmentation.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *