Para o robô, o contato com qualquer objeto, seja na ponta dos dedos, braços ou torso, representa um evento de contato sobre o qual ele deve raciocinar. Ou seja, com bilhões de possíveis eventos de contato, o planejamento dessa tarefa torna-se bem complexa. Pensando nisso, pesquisadores do MIT descobriram uma maneira de simplificar esse processo conhecido como planejamento de manipulação rico em contatos.
Assista ao vídeo explicativo com detalhes (em inglês) da pesquisa do MIT:
De acordo com o MIT News, os pesquisadores usaram uma técnica de IA chamada suavização,que resume muitos eventos de contato em um número menor de decisões, para permitir que até mesmo um algoritmo simples identifique rapidamente um plano de manipulação eficaz para o robô.
Embora a técnica ainda esteja em desenvolvimento, o método poderia potencialmente permitir que as fábricas usassem robôs móveis menores, capazes de manipular objetos com os braços ou corpos inteiros, em vez de grandes braços robóticos que só conseguem agarrar com a ponta dos dedos.
Isso pode ajudar a reduzir o consumo de energia e outros custos fabris. Além disso, essa técnica poderá ser útil em missões de exploração a Marte ou outros corpos do sistema solar, já que os robôs poderiam se adaptar rapidamente ao ambiente utilizando apenas um computador de bordo.
“Em vez de pensar nisso como um sistema de caixa preta, se pudermos aproveitar a estrutura desses tipos de sistemas robóticos usando modelos, haverá uma oportunidade de acelerar todo o procedimento de tentativa de tomar essas decisões e chegar a soluções ricas”, diz Terry Suh, estudante de engenharia elétrica e ciência da computação e coautor principal do artigo sobre essa técnica.
Tentativa e erro
O aprendizado por reforço é uma técnica de aprendizado de máquina em que um agente, como um robô, aprende a concluir uma tarefa por tentativa e erro, com uma recompensa por se aproximar de uma meta.
Continua depois da publicidade |
A técnica tendo sido eficaz para planejamento de manipulação rica em contato, onde o robô busca aprender a melhor maneira de mover um objeto de uma maneira especificada. Mas como podem existir milhares de milhões de pontos de contato, é necessário uma grande quantidade de programação.
“A aprendizagem por reforço pode precisar passar milhões de anos em tempo de simulação para realmente ser capaz de aprender uma política”, acrescenta Suh.
Por outro lado, se os investigadores conceberem especificamente um modelo baseado na física, utilizando o seu conhecimento do sistema e da tarefa que pretendem que o robô realize, esse modelo incorpora uma estrutura sobre este mundo que o torna mais eficiente.
O aprendizado por reforço realiza a suavização implicitamente, tentando muitos pontos de contato e, em seguida, calcula uma média ponderada dos resultados. Com base neste conhecimento, os pesquisadores do MIT conceberam um modelo simples que executa um tipo semelhante de suavização, permitindo-lhe concentrar-se nas interações centrais do robô-objeto e prever o comportamento a longo prazo. Eles mostraram que esta abordagem poderia ser tão eficaz quanto a aprendizagem por reforço na geração de planos complexos.
No futuro, os pesquisadores planejam aprimorar a técnica para que os robôs possam realizar movimentos altamente dinâmicos.
Gostou? Então compartilhe: