É fato que um dos maiores hypes da atualidade é o Project Natal da Microsoft para o Xbox 360. Desde o anúncio oficial feito no ano passado, não se fala em mais nada na indústria a não ser em “captura de movimento”. Uns acham que simplesmente não dará certo,enquanto outros dizem que não só poderá dar certo, como também marcará o início de uma nova era de entretenimento como o próprio nome do projeto propõem: Natal.
Entretanto, apesar de muito se falar nas ditas “tecnologias de captura de movimento”, muito pouco se sabe sobre elas.
MoCap
O ano era 1995 e há bastante tempo a indústria do entretenimento buscava uma maneira de trazer a nós, consumidores, uma nova experiência para nos vender. Há tempos o cinema alcançara sua maturidade e parecia não ter mais para onde correr. Os vídeo games ameaçavam cada vez mais a indústria cinematográfica – desde o surgimento do primeiro console, os gráficos e a forma de trabalhar o entretenimento nessa “mídia” só evoluia.
Entretanto, naquele ano, o lançamento de Toy Story mudou por completo a forma como a indústria via o entretenimento. Toy Story foi o primeiro filme da história feito totalmente em computação gráfica e inaugurou uma forma de produzir filmes e, porque não, jogos. Não adiantava mais tapar o sol com a peneira – as coisas dali pra frente mudariam e o Playstation, lançado no ano anterior, reforçava essa ideia.
Tanto a indústria cinematográfica, quanto a dos vídeo games entraram em transição – do tradicional 2D para a computação gráfica 3D com modelagem e logo em seguida com captura de movimento.
Aos poucos vários métodos e sistemas foram desenvolvidos, mas foi o método óptico por marcadores passivos que mais se popularizou ao longo do tempo. Os sistemas ópticos capturam dados a partir de sensores de imagem para triangular a posição do objeto nos espaço tridimensional. Isso é feito utilizando uma ou mais câmeras capazes de projetar imagens soprepostas.
Na técnica de captura por marcadores passivos, o “ator” utiliza uma roupa com marcadores retrorefletores que refletem a luz emitida por pequenos LEDs próximos às lentes das câmeras. Basicamente, se duas ou mais câmeras “enxergarem” o mesmo ponto ao mesmo tempo, um ponto tridimensional é obtido. Tipicamente são utilizadas de 6 a 24 câmeras para obter uma boa cobertura e captura dos pontos para situar o “ator” no espaço 3D.
Dois pontos interessantes sobre essa técnica é que ela não captura nenhum aspecto físico do “ator”, apenas os seus pontos no espaço tridimensional – após capturados, esses pontos são processados e inseridos em um software computacional para que o personagem seja renderizado. O segundo é que cada “sisteminha” desse custa algo entre US$ 50.000 e US$ 100.000, tornando-o proibitivo para nós, meros mortais.
As técnicas de MoCap já vem sendo desenvolvidas há bastante tempo – tanto é que existem inúmeros métodos de captura de movimento utilizando sistemas ópticos e não-ópticos. Porém, essa é uma técnica que exige bastante do hardware e do software.
A EyeToy
Como esperado, as técnicas de captura de movimento rapidamente se popularizaram nos bastidores das produções gamísticas e cinematográficas. Em pouco tempo mudou-se o paradigma de produção de jogos – os gráficos 2D foram deixados de lado e os jogos 3D se tornaram absolutos. Então, se a experiênca (e porque não o paradigma) de desenvolver um jogo mudou, porque a experiência de jogar não poderia mudar também?
Eis o problema: como baratear uma tecnologia que custava pra lá de US$50.000 a ponto de torná-la acessível aos consumidores? A resposta veio com a GDC (Game Developers Conference) de 2009 na apresentação do Playstation 2. À época, o Playstation 2 era uma promessa e sua grande capacidade de processamento instigou Richard Marks a levar adiante a sua ideia de desenvolver uma webcam barata e acessível a todos os donos do console. Rapidamente o problema deixou de ser o hardware, já que o Playstation 2 daria conta de todo o recado, e passou a ser um problema de software.
A batata quente foi passada para a equipe de desenvolvimento da SCE London Studio, que ficou responsável por toda a parte lógica da ideia de Marks. Por se tratar de uma simples webcam que apenas capturaria a imagem do jogador, a SCE London Studio teve como desafio fazer com que a imagem capturada interagisse com os objetos virtuais exibidos em tela. A solução encontrada foi a utilização da técnica de Edge Detection (Detecção de Bordas). A ideia principal dessa técnica é determinar os pontos de uma imagem digital e disparar eventos assim que a intensidade luminosa é alterada neles.
Por determinar apenas os pontos da borda de uma imagem, a técnica de Edge Detection reduz a quantidade de dados que devem ser processados, descartando informações consideradas “inúteis” mas preservando as propriedades estruturais da imagem.
Por se preocupar apenas em capturar a imagem do jogador, a EyeToy possuia limitações que frustravam os jogadores. Sem dúvidas a mais grave delas é a necessidade de iluminação ótima para funcionar. O ruído causado pela falta de iluminação fazia com que bordas “fantasmas” fossem criadas na imagem, tornando o divertimento em transtorno. Limitações como essa fizeram com que o aparelho não passasse de um mero figurante na gloriosa história do Playstation 2. A proposta de oferecer uma interface natural de interação do usuário com o jogo por captura de gestos (que não deixam de ser movimento) acabou indo para o ralo.
Playstation Eye e Move
Apesar do aparente fracasso da EyeToy, sua sucessora foi lançada em 2007 para o Playstation 3. A Playstation Eye faz basicamente a mesma coisa da EyeToy – captura a imagem do jogador, a processa e mostra em tela dentro de algum jogo. Ao contrário da sua antecessora, a Eye não evoluiu conceitualmente, apenas tecnicamente. Em parceria com a OmniVision Technologies, a Sony desenvolveu um novo chip sensor que proporciona o dobro de sensibilidade à câmera, eliminando o problema da detecção de imagem.
Além disso, a Eye possui o quádruplo de resolução e qualidade de imagem em relação a sua antecessora – isso se dá ao fato dela dar saída nos dados de vídeo sem a necessidade de comprími-los. Um microfone ainda está presente no acessório.
Mas o que torna a Eye realmente diferente é que ela é a responsável por capturar os movimentos do recém-batizado controle de movimentos da empresa: o Move.
Similar ao sistema óptico por marcadores passivos, o Move funciona com marcadores ativos. Ou seja, ao invés de refletir as luzes vindas da Eye, o Move possui um marcador capaz de emitir luzes coloridas, que são capturadas pela Eye – no caso, esse marcador é a esfera no topo do controle. O tamanho único da esfera permite que a câmera identifique a que distância o jogador está através do tamanho da luz emitida.
Graças a essa padronização, o cálculo realizado para identificar a distância do jogador é bastante simples, fazendo com que a jogatina não sofra com os enormes lags causados pelas demais técnicas utilizadas na captura de gestos no próprio Playstation 3. A Eye ainda é capaz de identificar quem é o jogador 1, 2, 3 ou 4 apenas pela cor da esfera do controle – cada cor corresponde a um único jogador.
Ao contrário das tradicionais técnicas de MoCap, a Eye e o Move utilizam essencialmente software para realizar tarefas tão complexas. Todo o processamento é feito na processador do console e, em alguns casos, no SPU (Synergistic Processing Unit).
O Project Natal
Ao contrário dos dois últimos, o Project Natal funciona de maneira completamente diferente. Tudo bem, a essência é a mesma e o propósito também. A grande diferença, segundo os engenheiros da Microsoft, é como o negócio é feito. Há 2 meses foi lançado no Youtube, no canal oficial do projeto, um vídeo entitulado The Innovation Journey. No vídeo, vários pesquisadores, diretores e pessoas da alta cúpula do projeto falam sobre as possibilidades e de como o projeto funciona.
No vídeo, Andrew Blake, diretor adjunto da Microsoft Research, explica como o aparelho capturará os movimentos do jogador. No Project Natal não haverá necessidade de colocarmos marcadores ou sensores de movimento no corpo, pelo contrário. O software do aparelho se responsabilizará por calcular as distâncias média dos principais pontos do nosso corpo (48 ao todo), montando um wireframe (esqueleto) do nosso corpo.
O mais interessante é que, a partir desse cálculo o Xbox 360 será capaz de “montar” um ambiente virtual tridimensional, sem a necessidade de nem um outro aparelho, ou câmera ou qualquer coisa. E antes que alguém pense que quando estiver jogando e o cachorro passar na frente da câmera, o jogo irá dar algum bug ou reconhecer o cachorro, fique despreocupado.
Segundo a Microsoft, o Project Natal reconhecerá pessoa por pessoa. Uma vez mapeado o seu corpo, medidas as distâncias médias do seu corpo (como por exemplo, do seu ombro a seu antebraço), o que passar na frente ele ignorará porque saberá que aquela “estrutura” não faz parte do seu corpo, e nem do jogo. O mesmo serve para situações em que, por exemplo, seu braço saia do campo de visão da câmera – ela saberá o quanto saiu e saberá que o seu movimento foi executado naquela área em que ela não tem visão, graças aos cálculos feitos.
Um outro ponto interessante do Natal em relação a EyeToy e a Eye é sobre como seu sensor funciona. Ao contrário dos “amigos”, o sensor do Natal é um sensor infravermelho, capaz de capturar os movimentos até mesmo em ambientes completamente escuros, eliminando o problema da falta de luminosidade no ambiente e, consequentemente, da captura de movimentos.
Segundo Todd Holmdahl, vice-diretor corporativo da divisão de hardware de Redmond, o Project Natal é fruto do equilíbrio entre hardware e software: “trata-se de 50% hardware e 50% software”. Nos resta saber apenas se esse equilíbrio será suficiente para que o Natal não termine como um mero coadjuvante tal qual a EyeToy foi no PS2.
Ainda não se sabe ao certo como tudo isso funcionará – nenhuma especificação técnica está disponível na internet ou em qualquer outro lugar, sendo difícil concluir alguma coisa sobre os aspectos técnicos do Project Natal.
Essa matéria foi uma sugestão do leitor Thiago Gianelo que ainda citou tecnologias como a da Logitech com a Orbit Cam, a tecnologia Touchless da Microsoft, além de tecnologias e SDKs de desenvolvimento de aplicações de captura de movimento em sistemas operacionais Symbian da Nokia. Valeu Thiago!