Introduzione
Il termine effetto cocktail party fu coniato da uno scienziato cognitivo inglese Colin Cherry, negli anni ’50. Era interessato a capire come le persone ascoltavano, conducendo alcuni esperimenti. Nel suo primo esperimento, suonò due diversi messaggi sovrapposti registrati nella voce della stessa persona, attraverso le cuffie. Ai partecipanti fu chiesto di ascoltare attentamente e cercare di scrivere uno dei messaggi su carta. Se ci mettevano abbastanza concentrazione, i partecipanti di solito ci riuscivano.
Ora, se qualcuno vi chiede di descrivere l’effetto cocktail party. La definizione formale dell’effetto cocktail party è la seguente:
Definizione dell’effetto cocktail party:
L’effetto cocktail party è il fenomeno della capacità di concentrare la propria attenzione uditiva su un particolare stimolo, filtrando una serie di altri stimoli, allo stesso modo in cui un partecipante a una festa può concentrarsi su una singola conversazione in una stanza rumorosa.
Psicologia dell’effetto cocktail
Immaginatevi ad una festa con decine di persone che cercano di parlare tra loro. Ci sono un certo numero di voci sovrapposte che parlano, la musica che suona, i bicchieri delle bevande che tintinnano e quant’altro. Tra questa cacofonia di suoni c’è un amico che parla di fronte a voi, non molto più forte del rumore di fondo stesso. C’è qualcosa nel discorso umano, nel sistema uditivo e nel sistema di elaborazione del linguaggio di alto livello che ti permette di evocare un’attenzione altamente selettiva verso il tuo amico, permettendoti di ascoltarlo mentre parla, come se mettessi a tacere tutto ciò che c’è in sottofondo. Succede così naturalmente e in modo così sottile che potresti anche non apprezzare la presenza di qualsiasi elaborazione fuori dal mondo che il tuo cervello sta facendo per farti capire il discorso del tuo amico in tali eventi.
Questo effetto, noto come effetto cocktail party è noto da molto tempo e l’esatta meccanica di come il cervello umano riesce a gestirlo ha sconcertato gli scienziati per diversi anni. Tuttavia anni di contemplazione e l’aumento della potenza di calcolo ha permesso alcune sorprendenti scoperte in questo settore. Come dire, prendiamo questo esperimento per esempio.
Come funziona l’effetto cocktail party per i computer?
Diciamo che un cocktail party dove tu e un’altra persona state prendendo allo stesso tempo, ha due microfoni tenuti a una certa distanza l’uno dall’altro. Entrambi i microfoni registreranno entrambe le vostre voci. Per ascoltare solo una voce, almeno per farlo fare a un computer, può sembrare un lavoro estremamente difficile da fare. Ma ecco il punto. Un microfono, che è più vicino a voi registra la vostra voce leggermente più forte e leggermente più debole nell’altro microfono. Se entrambe queste registrazioni vengono fatte passare attraverso una singola linea di codice molto intelligente, il codice può quasi chiaramente produrre due file con la vostra voce pulita in un file e quella dell’altra persona nel secondo file. Questa singola linea di codice è l’algoritmo Cocktail party, il cui nome generico è – Independent Component Analysis (ICA). L’ICA è un caso speciale di qualcosa chiamato Blind Source Separation (BSS) o Blind Signal Separation. Implica un alto livello di algebra lineare e usa qualcosa chiamato decomposizione del valore singolare.
Guarda una dimostrazione che riproduce gli input del microfono e l’output del codice. Un esempio di effetto Cocktail party qui sotto:
Questa dimostrazione faceva parte del corso per principianti di machine learning di cui parlavo ieri.
Ora questa stessa cosa può anche essere estesa a un numero maggiore di fonti e anche tutte possono essere separate. Ma da quello che ho capito, ci vorrebbe n numero di microfoni per separare n numero di voci (Sì, è corretto). Ecco una dimostrazione con tre microfoni e tre voci miste.
Puoi provare tu stesso una versione estesa di una semplice ICA qui. (Link)
Altre versioni dell’effetto Cocktail Party
Un approccio simile può essere usato anche sulle immagini. Ad esempio, se avete mai provato a scattare una bella foto al tramonto dalla finestra dell’hotel, o una foto di un bel vestito dentro la vetrina di un negozio, e vi siete ritrovati con una foto contenente riflessi fastidiosi, dovete considerare questo. Il documento del MIT che descrive questo metodo in dettaglio è collegato qui. E un esempio pittorico tratto dal documento è mostrato qui sotto.
Vedete come l’input è preso dall’immagine di sinistra. In realtà l’input era costituito da due immagini di questo tipo. Una con una riflessione aumentata e una con una diminuita, proprio come le registrazioni audio. Ottenuto nel caso della cattura dell’immagine, utilizzando un filtro polarizzato. Cioè, solo la parte in cui viene visualizzato il quadro. L’uscita fornisce due immagini, una del riflesso e una del dipinto sottostante.
In un’applicazione simile, può essere usato per rimuovere il rumore dalle immagini, o da una registrazione audio. O in un’applicazione molto diversa, un approccio simile può essere usato per rilevare fattori nascosti nei dati finanziari.
Credito immagine in evidenza: Mark Probst, Flickr (Link)
Condividi la conoscenza
0 commenti