News Release 2-Sep-2019

Nova matemática poderá permitir aos computadores aprender muito mais depressa

Peer-Reviewed Publication

Champalimaud Centre for the Unknown

**image: The new approach allows artificial intelligence to learn to recognize transformed images much faster.** view more

Credit: Diogo Matias

Uma equipa de matemáticos italianos, entre os quais um matemático-e-neurocientista do Centro Champalimaud, em Lisboa, Portugal, acaba de mostrar que as máquinas de visão artificial poderão aprender a reconhecer imagens complexas espectacularmente mais depressa graças à utilização de uma teoria matemática desenvolvida há 25 anos por um dos co-autores deste novo estudo. Os seus resultados foram publicados na revista Nature Machine Intelligence.

Nas últimas décadas, o desempenho das máquinas de visão artificial tem melhorado imenso. Por exemplo, estes sistemas artificiais conseguem hoje reconhecer virtualmente qualquer rosto humano - ou ainda seguir o rasto a um peixe, mesmo quando este está a nadar num tanque no meio de muitos outros peixes quase idênticos.

As máquinas de que estamos a falar são, na realidade, modelos electrónicos de redes de neurónios, concebidos para simular o funcionamento do nosso cérebro - que, sem esforço aparente da nossa parte, é o campeão indiscutível em muitas tarefas de reconhecimento visual.

Mas como é que estas redes neuronais artificiais aprendem de facto a desempenhar este tipo de tarefas? No caso do reconhecimento de rostos, por exemplo, adquirem experiência sobre o aspecto dos rostos humanos a partir de uma série de retratos. Mais especificamente, os retratos começam por ser digitalizados: os píxeis da imagem são transformados em valores numéricos (pense-se no sistema RGB dos nossos ecrãs de computador). A seguir, as matrizes de números obtidas são "apresentadas" à rede neuronal, que as processa e consegue extrair rasgos gerais e relevantes de uma face humana (tal como os olhos, a boca, o nariz, etc.).

Neste tipo de aprendizagem (mais recentemente conhecido como "aprendizagem profunda"), a máquina gera então um outro conjunto de valores, que por sua vez lhe irão permitir identificar rostos que nunca viu, num processo semelhante à identificação de impressões digitais. A partir daí, a rede neuronal consegue identificar o dono um rosto com grande precisão.

A história de Hans, o Esperto

No entanto, antes de a rede neuronal se tornar capaz de ter este nível de desempenho, é geralmente preciso apresentar-lhe milhares de rostos (isto é, de matrizes de números). Ainda por cima, embora estas máquinas tenham tido um sucesso crescente no reconhecimento de padrões, o facto é que ninguém sabe realmente o que se passa lá dentro durante a aprendizagem automática da tarefa. É como se de uma caixa preta se tratasse. A rede recebe dados, "cospe" dados - e se foi correctamente desenhada... fornece a resposta certa.

O que isto quer dizer é que não é possível determinar os traços que a máquina estará na realidade a extrair dos dados iniciais - nem sequer é possível saber quantos deles serão realmente relevantes para o reconhecimento de faces. "Para ilustrar a situação, posso contar-vos a história do cavalo sábio", diz Mattia Bergomi, primeiro autor do estudo, que faz parte do Laboratório de Neurociências de Sistemas no Centro Champalimaud.

A história data do início do século XX e fala de um cavalo que viveu na Alemanha, chamado Hans, o Esperto. Segundo o seu dono, o cavalo tinha aprendido a fazer contas e, para comunicar o resultado de uma adição, subtração, etc., batia com um dos seus cascos dianteiros no chão o número (certo) de vezes. Todos os que viram o espectáculo ficaram convencidos de que o cavalo sabia fazer contas (na altura, o acontecimento até foi noticiado pelo The New York Times). Até que, em 1907, um psicólogo alemão demonstrou que o cavalo estava de facto a detectar, na linguagem corporal do dono, sinais não-conscientes que lhe indicavam quando devia parar de bater no chão...

"O mesmo acontece com a aprendizagem automática; não controlamos o que a máquina faz nem o que aprendeu durante o treino", explica Bergomi. Embora a máquina não saiba nada de rostos humanos à partida, consegue de alguma forma fazer o que deve. A caixa preta funciona.

Isto levou os autores do novo estudo a perguntar o seguinte: seria possível injectar numa rede neuronal algum conhecimento do mundo real (acerca de rostos ou de outros objectos) antes do treino, de forma a que ela explorasse um espaço mais limitado de traços possíveis, em vez de considerar também aqueles que não têm qualquer relevância? "O que queríamos era controlar o universo de traços (ou propriedades do objecto) que a máquina podia aprender", salienta Bergomi. "É isso que distingue um jogador de xadrez medíocre de um jogador exímio: o primeiro vê todas as jogadas possíveis, enquanto o segundo só vê as boas", acrescenta.

"O nosso estudo coloca esta simples pergunta", diz Bergomi recorrendo a outro exemplo. "Quando treinamos uma rede neuronal profunda a distinguir sinais rodoviários, como dizer à rede que o seu trabalho ficará muito facilitado se só se preocupar com formas geométricas simples, tais como círculos e triângulos?".

Os cientistas pensaram então que uma abordagem deste tipo poderia reduzir substancialmente a duração do treino - e, o que é igualmente importante, vislumbrar o que a máquina estava a fazer para obter os seus resultados. "Permitir que o operador humano oriente o processo de aprendizagem automática é essencial se quisermos tornar a inteligência artificial mais inteligível e reduzir o aumento vertiginoso dos custos em tempo e recursos que o treino das redes neuronais exige", diz Bergomi.

A forma das coisas

É aqui que a recente teoria matemática chamada "análise topológica de dados" (TDA em inglês) entra em cena. Os primeiros passos no desenvolvimento da TDA foram dados em 1992 pelo matemático italiano Patrizio Frosini, co-autor do novo estudo e actualmente a trabalhar na Universidade de Bolonha. "A Topologia é uma das formas mais puras de Matemática", diz Bergomi. "E até recentemente, as pessoas pensavam que a Topologia só iria ser aplicada a coisas concretas daqui por muito tempo. Mas isso mudou nos últimos anos, quando a TDA se tornou célebre pelas suas aplicações.

A topologia é uma espécie de generalização da geometria que, em vez de medir linhas e ângulos de formas rígidas (tais como triângulos, quadrados, cones, etc.), visa classificar objectos altamente complexos pela sua forma. Para um topólogo, por exemplo, um donut e uma caneca são o mesmo objecto: o primeiro pode ser deformado (esticado ou comprimido sem se rasgar) para obter o segundo.

Ora, acontece que as redes neuronais actuais não são boas topólogas. Por exemplo, não reconhecem os objectos que sofreram uma rotação. Para estas redes artificiais, o mesmo objecto tem um aspecto completamente diferente cada vez que é rodado. E é precisamente por esta razão que a única solução para treinar a rede é fazer com que ela memorize cada orientação do objecto em separado - milhares de configurações possíveis. É esta a situação que os autores queriam evitar utilizando a TDA.

Ao permitir olhar para os objectos complexos através de "lentes" ou filtros bem escolhidos, a TDA provou ser uma poderosa ferramenta para descobrir estruturas internas relevantes (propriedades topológicas) em qualquer tipo de "objecto" complexo susceptível de ser representado como uma enorme nuvem de dados. Os dados podem ser rostos, transacções financeiras ou taxas de sobrevivência ao cancro. Em particular, a utilização da TDA faz com que seja possível treinar uma rede neuronal no reconhecimento de rostos sem necessidade de lhe apresentar cada uma das diferentes orientações que um rosto poderá adoptar no espaço. A máquina torna-se assim capaz de reconhecer qualquer rosto como sendo um rosto, mesmo se for apresentado ao contrário.

É um 5! Não, é um 7!

No estudo, os cientistas testaram agora as vantagens de combinar a aprendizagem automática e a TDA treinando uma rede neuronal no reconhecimento de algarismos escritos à mão. Os resultados falam por si.

Como para além de as redes não serem boas topólogas, a escrita cursiva pode ser ilegível, as máquinas actuais são muitas vezes incapazes de distinguir dois algarismos escritos à mão diferentes. E ao inverso, duas instâncias do mesmo algarismo escrito à mão poderão ser identificadas como representações de algarismos diferentes.

É por isso que, para esta tarefa poder ser desempenhada pelas redes neuronais actuais, que nada sabem sobre algarismos, é preciso treinar a máquina com milhares de imagens de cada algarismo, escrito com diferentes inclinações, grafias, etc.

Para injectar conhecimento acerca dos algarismos, os cientistas construíram um conjunto de propriedades que achavam pertinentes a priori (ou seja, um conjunto de "lentes" através das quais a rede iria "ver" os algarismos). E obrigaram a máquina a escolher entre essas lentes para olhar para as imagens.

O que aconteceu então foi que o número de imagens (e portanto o tempo) necessárias para a rede neuronal equipada com a TDA aprender a distinguir os "5" dos "7" - mesmo rabiscados -, sem perda de qualidade no seu desempenho, diminuiu para menos de 50! "O que descrevemos matematicamente no nosso estudo é como forçar certas simetrias. Isso fornece uma estratégia para construir agentes de aprendizagem automática que, aproveitando o conhecimento injectado sob a forma de constrangimentos, são capazes de extrair as propriedades salientes dos objectos apenas com base num punhado de exemplos", conclui Bergomi.

Quer isto dizer que o funcionamento interno das máquinas de aprendizagem automática que imitam o cérebro vai tornar-se mais transparente, dando novas pistas sobre o funcionamento interno do próprio cérebro? Este é um dos objectivos de Bergomi. "A inteligibilidade da inteligência artificial é indispensável à sua interacção e integração com a inteligência biológica", diz o cientista. Bergomi está actualmente a tentar desenvolver, em colaboração com o seu colega de laboratório Pietro Vertechi, um novo tipo de arquitectura de redes neuronais que permita aos seres humanos injectar rapidamente nelas conhecimento de alto nível de forma a controlar e acelerar a sua aprendizagem.

###

Journal

Nature Machine Intelligence

DOI

10.1038/s42256-019-0087-3

Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.