DALL-E: a aplicação de Inteligência Artificial que cria imagens a partir de qualquer texto

Misturando o nome do pintor surrealista espanhol, Salvador Dali, com o da personagem de ficção da Disney, Wall-E, chegamos a DALL-E, uma aplicação de inteligência artificial assim nomeada como forma de anunciar as suas funções. O DALL-E é uma aplicação de inteligência artificial que gera imagem a partir de qualquer trecho de texto, criado a partir do modelo GPT-3, mantido pela OpenAI.

 

O nome é sugestivo e deixa desde logo a perceber as referências que o compõe. Misturando o nome do pintor surrealista espanhol, Salvador Dali, com o da personagem de ficção da Disney, Wall-E, chegamos a DALL-E, uma aplicação de inteligência artificial assim nomeada como forma de anunciar as suas funções. O DALL-E é uma aplicação de inteligência artificial que gera imagem a partir de qualquer trecho de texto, criado a partir do modelo GPT-3, mantido pela OpenAI. Depois de se testar a aplicação na geração de texto, e de se corroborar a sua capacidade para criar conteúdo em diversas tipologias, da poesia a programação, com interessantes resultados, desta feita foi a vez de testar as capacidades de visualização do sistema testado a partir de uma base de dados de pares texto-imagem – isto é, de imagens com as respectivas legendas.

GPT-3, que significa Generative Pretrained Transformer 3 é um modelo de linguagem auto-regressivo, isto é, um modelo pré-programado que, dado um determinado conjunto de informações, consegue de forma autónoma executar uma série de processos de compreensão dessa informação, tais como detectar padrões ou resumir informações de modo a aproximar-se do output pré-definido. Isto significa, por exemplo, que para aprender a escrever poemas o GPT-3 só tem de ser alimentado com uma vasta série de poemas, ou que para gerar código a aplicação apenas precisa de conhecer genericamente o que é código, sendo capaz de discernir autonomamente entre as diferentes linguagens e as suas regras de organização.

O GPT marca um avanço no desenvolvimento de inteligência artificial precisamente por, de forma autónoma, executar diferentes operações, ao contrário de outros modelos de processamento de linguagem pré-programados apenas para a execução de um número limitado de tarefas. E é por isso que os seus desenvolvimentos e aplicações têm sido tão badalados, pela sua surpreendente capacidade de aprender, aperfeiçoada nas sucessivas gerações do modelo. O GPT é desenvolvido pela OpenAI e o acesso ao programa está para já condicionado a uma lista de espera. A versão pública, ainda beta, da API da aplicação permite para já coisas como pesquisa semântica (pesquisar por significados e não por expressões), a programação de assistentes virtuais ou até, simplesmente, melhorar o inglês de uma frase. Os exercícios que chegam à imprensa são sobretudo testes, muitos deles desenvolvidos pela equipa de criação.

O DALL-E, concretamente, é um monstro com 12 mil milhões de parâmetros capaz de gerar imagens com os mais diversos aspectos – fotografia, render, ilustração – a partir de uma simples linha de texto, e resulta do cruzamento de aprendizagens da utilização do GPT-3 (gerador de texto) e do Image GPT, cruzando a capacidade de perceber texto com a de gerar imagens. Durante o teste, a aplicação foi programada não só para gerar imagens a partir do texto mas para ter capacidade de alterar os atributos dessa imagem a pedido. E apesar do aparente sucesso expresso nas dezenas de imagens criadas, o teste serve sobretudo para perceber as falências do modelo de aprendizagem e aferir algumas das consequências que a sua aplicação em contextos sociais podia ter.

Nesta experiência os investigadores perceberam, por exemplo, a dificuldade natural da máquina para gerar determinadas formas em determinados contextos. Se, por exemplo, for pedido para desenhar “a pentagonal green clock. a green clock in the shape of a pentagon” (um relógio verde em forma de pentágono) a máquina gera resultados com alguma verosimilhança. Em missões mais complicadas, como quando pedido que desenhe um “cubo com textura de porco-espinho”, os resultados tornam visível a dificuldade da máquina. Isto pode ter diversas explicações, entre elas o facto de nos materiais analisados pela linguagem de programação não haver referências de qualquer tipo sobre o que é um cubo com textura de porco-espinho. Contudo, os investigadores determinaram que a repetição do pedido à máquina vai gerando resultados progressivamente mais ajustados, como se pode ver nas imagens em baixo.

“a pentagonal green clock. a green clock in the shape of a pentagon”
“a cube made of porcupine. a cube with the texture of a porcupine.”

Outros exercícios curiosos também testados incluem, por exemplo, a resposta da máquina a palavras ambíguas como glasses que em inglês pode significar copos ou óculos. Os investigadores perceberam que a aplicação é capaz de gerar várias cópias do mesmo objecto, mas que tem potencial para confundir qual dos objectos foi pedido. Uma dúvida normal se olharmos ao tipo de experiência.

“a collection of glasses is sitting on a table”

Para além destas experiências sobre a capacidade de modelação do GPT-3, a aplicação foi também testada noutros factores importantes, como a capacidade de distinguir referências a múltiplos objectos numa só frase – discernindo que se descreve mais do que uma criação -, de criar visualizações tendo em conta noções espaciais, ou até a sua capacidade para, dado um pedaço de uma imagem e a sua descrição, gerar a restante. Neste caso, mais do que gerar imagens com uma qualidade gráfica impressionante, interessava à equipa de investigação perceber a forma como o modelo de aprendizagem automática interpreta a informação e responde a determinadas ordens, aferindo, por assim dizer, aquilo que o modelo de facto sabe sobre o mundo. Nesse sentido, a equipa testou ainda a geração de imagens do interior de frutos ou organismos, referências compostas sobre objectos, como, por exemplo, um vitral com o desenho de uma amora, ou a frente de uma loja com o letreiro OPEN AI (como na imagem de destaque do artigo), cruzamentos de conceitos inesperados – como “um caracol feito de harpa” -, a capacidade da máquina de gerar outputs criativos como “um blusão de cabedal cor de laranja” – ou ainda de identificar as imagens de acordo com outras categorias como a geografia, como com o pedido “comida chinesa”.

São muitos os exemplos que respondem ao desafio auto-proposto pela equipa de aferir de forma exaustiva as capacidades deste modelo, e os resultados podem ser explorados em detalhe aqui. O DALL-E é uma aplicação complexa com capacidade para processar 1280 tokens – isto é, pedaços de informação, sendo que, por exemplo, uma letra é um token – 256 de texto e 1280 de imagem, conseguindo a partir desta estratificação da informação discernir uma mensagem. Este projecto representa assim mais um teste neste campo que tem sido amplamente explorado – o da geração de imagem a partir de texto. Recorde-se que em 2018 um artista criou um quadro recorrendo a um outro modelo de aprendizagem automática e de geração visual, o GAN (Generative Adversarial Network), desenvolvido por Ian Goodfellow, antigo investigador da Google agora ao serviço da Apple.

Gostaste do que leste? Quanto vale conteúdo como este?

Trabalhamos todos os dias para te trazer artigos, ensaios e opiniões, rigorosos, informativos e aprofundados; se gostas do que fazemos, apoia-nos com o teu contributo.