Sciam
Clique e assine Sciam
Notícias

Novos robôs conseguem antecipar suas ações

Tecnologia de previsão visual permite que robôs descubram como manipular objetos desconhecidos de forma autônoma

Roxanne Makasdjian and Stephen McNally/University of California - Berkeley
Uma nova tecnologia de aprendizagem robótica desenvolvida por pesquisadores da Universidade da Califórnia em Berkeley permite a robôs imaginar o futuro de suas ações, para que possam descobrir como manipular objetos com os quais nunca tiveram contato. No futuro, esta tecnologia poderia ajudar carros autônomos a antecipar eventos futuros na estrada, e produzir assistentes robóticos mais inteligentes para os lares; porém, o protótipo inicial foca em aprender simples habilidades manuais inteiramente através de um jogo autônomo.

Usando essa tecnologia, chamada previsão visual, os robôs podem antecipar o que suas câmeras irão ver caso desempenhem uma sequência particular de movimentos. Por enquanto, essas “imaginações” robóticas ainda são relativamente simples - as previsões cobrem apenas alguns segundos no futuro -, mas isso é o bastante para que o robô descubra como mover objetos ao redor de uma mesa sem esbarrar em obstáculos. Em especial, o robô pode aprender a desempenhar essas tarefas sem nenhuma ajuda de humanos ou conhecimento prévio da física, do ambiente ou do que são os objetos. Isso se dá porque a imaginação visual é totalmente aprendida a partir do zero a partir de explorações independentes nas quais o robô lida com objetos em uma mesa. Após essa fase, ele cria um modelo preditivo do mundo, e utiliza este modelo para manipular novos objetos que não havia visto até então.

“Da mesma forma que podemos imaginar como nossas ações moverão os objetos em nosso ambiente, este método pode permitir que um robô visualize como comportamentos diferentes afetarão o mundo ao seu redor”, disse Sergey Levine, professor assistente do Departamento de Engenharia Elétrica e Ciências da Computação da Universidade da Califórnia em Berkeley, cujo laboratório desenvolveu a tecnologia. “Isso pode permitir o planejamento inteligente de habilidades bastante flexíveis em situações complexas do mundo real.”

A equipe da pesquisa fará uma demonstração da tecnologia de previsão visual na Conferência de Sistemas de Processamento de Informação Neural em Long Beach, na Califórnia, hoje (5 de dezembro).

Na essência deste sistema, há uma tecnologia de aprendizado profundo baseada em previsões de vídeo recorrentes convolucionais, ou advecção neural dinâmica (DNA, na sigla em inglês). Modelos baseados em DNA prevêem como os pixels em uma imagem se moverão de um frame para outro com base nas ações do robô. Melhoramentos recentes dessa classe de modelos, assim como capacidades de planejamento bastante aprimoradas, permitiram que o controle robótico baseado em previsão por vídeo desempenhasse tarefas cada vez mais complexas, como deslizar brinquedos ao redor de obstáculos e reposicionar múltiplos objetos.

“No passado, robôs aprenderam habilidades sob a supervisão de humanos, que auxiliavam e davam feedback. O que torna este trabalho empolgante é que os robôs podem aprender uma gama de habilidades visuais de manipulação de objetos totalmente por conta própria”, disse Chelsea Finn, estudante de doutorado do laboratório de Levine e inventora do modelo de DNA original.

Com a nova tecnologia, um robô empurra objetos sobre uma mesa e, então, utiliza o modelo de previsão aprendido para selecionar os movimentos que vão mover um objeto para o local desejado. Robôs usam o modelo aprendido a partir de observações cruas com câmeras para ensinarem a si mesmos como evitar obstáculos e empurrar objetos por obstruções.

“Humanos aprendem habilidades de manipulação de objetos sem professores através de milhões de interações com uma variedade de objetos no decorrer de sua vida. Demonstramos que é possível construir um sistema robótico que também aproveite grandes quantidades de dados coletados de forma autônoma para aprender habilidades de manipulação amplamente aplicáveis - habilidades para empurrar objetos, especificamente", disse Frederik Ebert, estudante de pós-graduação do laboratório de Levine que trabalhou no projeto.

Já que o controle através da previsão por vídeo se apoia apenas em observações que podem ser coletadas autonomamente pelo robô, assim como através de imagens de câmeras, o método resultante é amplamente aplicável. Em contraste com os métodos convencionais de visão por computador, que requerem humanos para rotular manualmente centenas ou até milhões de imagens, a construção de modelos de previsão por vídeo precisa apenas de vídeos não documentados, que podem ser coletados pelo robô de forma totalmente autônoma. De fato, modelos de previsão por vídeo também foram aplicados a conjuntos de dados os quais representam tudo - de atividades humanas à direção de automóveis - com resultados convincentes.

“Crianças podem aprender sobre seu mundo ao brincar com brinquedos, movendo-os, pegando-os e assim por diante. Nosso desejo com esta pesquisa é permitir que um robô faça a mesma coisa: aprender sobre como o mundo funciona através de interações autônomas”, disse Levine. “As capacidades deste robô ainda são limitadas, mais suas habilidades são aprendidas de forma totalmente automática e permitem que ele preveja interações físicas complexas com objetos os quais nunca havia visto baseando-se em padrões de interação observados anteriormente.”

Os cientistas de Berkeley continuam a pesquisar controles através da previsão por vídeo, buscando melhorar ainda mais essa ferramenta e o controle baseado em previsão, assim como desenvolver métodos mais sofisticados pelos quais robôs podem coletar dados em vídeo mais focados para tarefas complexas, tais como escolher e colocar objetos no lugar, manipular objetos macios e deformáveis (como panos e cordas) e montagem.

Universidade da Califórnia em Berkeley
Para assinar a revista Scientific American Brasil e ter acesso a mais conteúdo, visite: http://bit.ly/1N7apWq