'Atenção é tudo que você precisa' Os criadores olham além dos Transformers para IA na Nvidia GTC: 'O mundo precisa de algo melhor'

Junte-se aos Líderes em Boston no dia 27 de março para uma noite exclusiva de networking, ideias e conversas. Solicite um convite aqui.


Sete dos oito autores do artigo Atenção é tudo que você precisa, que apresentou os Transformers, se reuniram pela primeira vez como um grupo para conversar com o CEO da Nvidia, Jensen Huang, em um salão lotado na conferência GTC hoje.

Eles incluíram Noam Shazier, cofundador e CEO da Character.ai; Aidan Gomez, cofundador e CEO da Cohere; Ashish Vaswani, cofundador e CEO da Essential AI; Leon Jones, cofundador e CTO da Sakana AI; Ilya Polosukhin, cofundador do Protocolo NEAR; Jacob Oschorit, cofundador e CEO da Inceptive; e Lukas Kaiser, membro da equipe técnica da OpenAI. Nikki Parmar, cofundadora da Essential AI, não pôde comparecer.

Em 2017, a equipe de oito pessoas do Google Brain encontrou ouro com Transformers – uma inovação em PNL de rede neural que capturou o contexto e o significado das palavras com mais precisão do que seus antecessores: a rede neural recorrente e a rede de memória de longo e curto prazo. A arquitetura Transformer tornou-se a base do software LLM como GPT-4 e ChatGPT mas também de aplicativos sem linguagem incluindo Codex da OpenAI e Alpha Fold da Deep Mind.

“O mundo precisa de algo melhor que Transformers.”

Mas agora, os criadores dos Transformers estão olhando além do que construíram – para o que vem por aí para os modelos de IA. Neste ponto, “o mundo precisa de algo melhor do que Transformers”, disse Gomez, de Cohere, acrescentando: “Acho que estamos todos aqui esperando que algo funcione e nos leve a um novo nível de desempenho”. Ele perguntou ao resto do grupo: “O que vocês veem a seguir? Este é o passo emocionante porque acho que [what is there now] Muito semelhante a algo que existia há seis ou sete anos.

Numa discussão com a VentureBeat após a audiência, Gomez expandiu os comentários do painel, dizendo: “Seria muito triste se [Transformers] “É o melhor que podemos fazer”, disse ele, acrescentando que está pensando nisso desde o dia seguinte à apresentação do documento Atenção é tudo que você precisa. “Quero vê-lo substituído por outra coisa que seja 10 vezes melhor, porque isso significa que todos terão modelos 10 vezes melhores.”

Ele observou que havia muitas deficiências no aspecto da memória dos Transformers e muitos componentes arquitetônicos do Transformer que permaneceram inalterados desde o início e deveriam ser “reexplorados e reconsiderados”. Por exemplo, um contexto muito longo torna-se caro e inescalável, explicou. Além disso, “os parâmetros podem ser desnecessariamente grandes, poderíamos compactá-los mais, poderíamos compartilhar pesos com mais frequência – o que poderia reduzir significativamente as coisas”.

“Você tem que ser claramente melhor.”

No entanto, ele reconheceu que, embora o resto dos autores do artigo provavelmente concordassem, Gomes disse que havia “vários graus de quando isso aconteceria”. As condenações podem ser diferentes se isso acontecer. Mas todos querem o melhor – como se todos nós fossemos cientistas de coração – e isso significa apenas que queremos ver progresso.

No entanto, durante a sessão, Jones de Sacana destacou que para a indústria de IA passar para o próximo passo depois dos Transformers – seja lá o que for – “você não precisa apenas ser melhor. – Você tem que ser visivelmente, claramente melhor… Então [right now] Está preso no arquétipo, embora não seja tecnicamente a coisa mais poderosa disponível no momento.

READ  Teenage Mutant Ninja Turtles: Shredder's Revenge foi atualizado, aqui estão as notas do patch

Gomez concordou, dizendo ao VentureBeat que o Transformer se tornou tão popular não apenas porque era um bom modelo e arquitetura, mas porque as pessoas ficaram entusiasmadas com ele – e ele disse que você precisa de ambos. “Se você perder alguma dessas coisas, não conseguirá movimentar a comunidade”, explicou ele. “Portanto, para estimular o impulso para passar de uma arquitetura para outra, você realmente precisa colocar algo na frente deles em que as pessoas estejam interessadas.”

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *