Introduction
O termo efeito cocktail party foi cunhado por um cientista cognitivo britânico Colin Cherry, nos anos 50. Ele estava interessado em compreender como as pessoas escutavam, conduzindo algumas experiências. Na sua primeira experiência, tocou duas mensagens diferentes sobrepostas gravadas na voz da mesma pessoa, através de auscultadores. Os participantes foram convidados a ouvir atentamente e a tentar escrever uma das mensagens no papel. Se colocarem concentração suficiente, os participantes geralmente conseguiram.
Agora, se alguém lhe pedir para descrever o efeito de cocktail party. A definição formal do efeito cocktail party é a seguinte:
Cocktail Party Effect Definition:
O efeito cocktail party é o fenómeno de ser capaz de concentrar a atenção auditiva num determinado estímulo enquanto filtra uma série de outros estímulos, da mesma forma que um frequentador de um cocktail pode concentrar-se numa única conversa numa sala barulhenta.
Psicologia do efeito cocktail
Imagine-se numa festa com dezenas de pessoas a tentarem falar umas com as outras. Há uma série de vozes sobrepostas a falar, a música a tocar, a beber copos a tilintar e o que não. Entre essa cacofonia de sons está um amigo a falar à sua frente, não muito mais alto do que o próprio ruído de fundo. Ainda se pode perceber o que ele está a dizer.
Há algo sobre o discurso humano, o sistema auditivo e o sistema de processamento de linguagem de alto nível que lhe permite conjurar uma atenção altamente selectiva para com o seu amigo, deixando-o ouvi-lo falar, como se murmurasse tudo o que está ao fundo. Acontece tão naturalmente e de forma tão subtil que poderá nem sequer apreciar a presença de qualquer processamento fora do mundo que o seu cérebro esteja a fazer para o fazer compreender o discurso do seu amigo em tais eventos.
Este efeito, conhecido como o efeito cocktail party, é conhecido há muito tempo e a mecânica exacta de como o cérebro humano consegue lidar com ele desconcertou os cientistas durante vários anos. No entanto, anos de contemplação e o aumento do poder computacional permitiram alguns avanços surpreendentes nesta área. Como por exemplo, tomemos esta experiência.
Como funciona o efeito cocktail party para computadores?
Vamos dizer que um cocktail party onde você e outra pessoa estão a tomar ao mesmo tempo, tem dois microfones mantidos a uma certa distância um do outro. Ambos os microfones irão gravar ambas as suas vozes. Ouvir apenas uma voz, pelo menos para fazer um computador fazer isso pode parecer um trabalho extremamente difícil de fazer. Mas o problema é o seguinte. Um microfone, que está mais perto de si, grava a sua voz ligeiramente mais alta e ligeiramente mais fraca no outro microfone. Se ambas as gravações forem feitas para passar por uma única linha de código muito inteligente, o código pode quase claramente emitir dois ficheiros com a sua voz limpa num ficheiro e a da outra pessoa no segundo ficheiro. Esta única linha de código é o algoritmo Cocktail party, sendo o seu nome genérico – Independent Component Analysis (ICA). ICA é um caso especial de algo chamado Separação de Fonte Cega (BSS) ou Blind Signal Separation (Separação de Sinal Cego). Envolve um alto nível de álgebra linear e usa algo chamado de decomposição de valor Singular.
cocktail party algoritmo código.png
Veja uma demonstração tocando as entradas do microfone e a saída do código. Um exemplo do efeito cocktail party abaixo:
Esta demonstração fazia parte do curso de iniciação à aprendizagem da máquina de que falei ontem.
Agora, esta mesma coisa também pode ser alargada a mais fontes e todas elas podem ser separadas também. Mas pelo que entendi, seria necessário n número de microfones para separar n número de vozes (Sim, isso é correcto). Aqui está uma demonstração com três microfones e três vozes mistas.
P>Pode experimentar uma versão ampliada de um simples ICA aqui. (Link)
Outras versões do Cocktail Party Effect
Uma abordagem semelhante pode ser usada em imagens também. Por exemplo, se alguma vez tentou tirar uma bela fotografia do pôr-do-sol da janela do hotel, ou uma fotografia de um belo vestido dentro da vitrina de uma loja, e acabou com uma fotografia contendo reflexos irritantes, deve considerar isto. O documento do MIT que descreve este método em pormenor está aqui ligado. E um exemplo pictórico retirado do papel é mostrado abaixo.
Ver como a entrada é retirada da imagem da esquerda. Na realidade, a entrada foram duas dessas imagens. Uma com aumento de reflexão e outra com diminuição, tal como as gravações de áudio. Realizado no caso da captura de imagem, utilizando filtro polarizado. Ou seja, apenas a parte em que a pintura é exibida. A saída dá duas imagens, uma da reflexão e outra da pintura subjacente.
Numa aplicação semelhante, pode ser utilizada para remover ruído de imagens, ou de uma gravação de áudio. Ou numa aplicação muito diferente, uma abordagem semelhante pode ser utilizada para detectar factores ocultos em dados financeiros.
Crédito da imagem em destaque: Mark Probst, Flickr (Link)
0 comentários