O Google anunciou hoje o Gemini, o modelo de IA mais avançado e o maior projeto científico e tecnológico que a empresa já desenvolveu até agora. É o resultado de um esforço colaborativo em grande escala que envolveu vários times do Google, incluindo as equipes do Google DeepMind e Google Research. Veja o vídeo
O Gemini 1.0, a primeira versão do modelo, é otimizado em três tamanhos diferentes:
Gemini Ultra — o maior e mais hábil modelo para tarefas altamente complexas.
Gemini Pro — o melhor modelo para escalar uma grande variedade de tarefas.
Gemini Nano — o modelo mais eficiente para realizar tarefas em dispositivos.
O que é o Gemini?
É um modelo de IA multimodal, com capacidade de organizar, compreender, operar e combinar diferentes tipos de informação, incluindo:
Textos
Imagens
Áudios
Vídeos
Linguagens de programação
Esse é também o modelo de IA mais flexível do Google, capaz de funcionar com eficiência desde dispositivos móveis até data centers. O Gemini vai melhorar significativamente a forma como os desenvolvedores e empresas constroem e escalam soluções com IA.
Baseado em recursos de última geração
Até agora, o método padrão para a criação de modelos multimodais envolvia treinar componentes separados para diferentes modalidades e depois juntá-los para imitar algumas dessas funcionalidades. Às vezes, esses modelos podem ser bons na execução de certas tarefas, como descrever imagens, mas enfrentam problemas com raciocínios mais conceituais e complexos.
Por isso, projetamos o Gemini para ser um modelo multimodal nativo, ou seja, previamente treinado desde o início em diferentes modalidades. Em seguida, aperfeiçoamos o modelo com dados multimodais adicionais para refinar ainda mais a sua eficácia. Isso ajuda o Gemini a compreender e raciocinar perfeitamente sobre todos os tipos de informações desde o começo, de uma forma muito melhor do que os modelos multimodais existentes e com recursos de última geração em quase todos os domínios.
Saiba mais sobre os recursos do Gemini e veja como funciona.
Gemini disponível para o mundo
O Gemini 1.0 está sendo lançado em uma variedade de produtos e plataformas do Google:
Para usuários:
A partir de hoje, o Bard com Gemini Pro está disponível em inglês em mais de 170 países e territórios . Ele terá capacidade de compreender, resumir, raciocinar, fazer brainstorming, escrever e planejar. Essa é a maior melhoria de qualidade do Bard desde o seu lançamento;
Também a partir de hoje, o Gemini está disponível para o Pixel . O Pixel 8 Pro é o primeiro smartphone projetado para rodar o Gemini Nano, que está potencializando novos recursos como “Summarize no aplicativo Recorder” e lançando o “Smart Reply” no Gboard, começando pelo WhatsApp e, no próximo ano, em mais aplicativos de mensagens.
Nos próximos meses, o Gemini estará disponível em mais dos principais produtos e serviços do Google, como a Busca, Ads, Chrome e Duet AI.
Para clientes e desenvolvedores:
A partir do dia 13 de dezembro, desenvolvedores e clientes corporativos poderão acessar o Gemini Pro por meio da API do Gemini no Google AI Studio ou Vertex AI.
O Google AI Studio é uma ferramenta gratuita para desenvolvedores baseada na Web que ajuda desenvolvedores e clientes corporativos a criar protótipos e lançar aplicativos rapidamente com uma chave de API;
Quando chegar a hora de uma plataforma de IA totalmente gerenciada, a Vertex AI permite a personalização do Gemini com controle total de dados e se beneficia de recursos adicionais do Google Cloud para segurança empresarial, proteção, privacidade e governança e conformidade de dados.
Os desenvolvedores Android também poderão construir com o Gemini Nano, o modelo mais eficiente para tarefas em dispositivos móveis, via AICore, que é um novo recurso de sistema disponível no Android 14, começando em dispositivos Pixel 8 Pro. Inscreva-se para uma prévia antecipada.
Como parte das verificações de segurança para o Gemini Ultra, o Google vai disponibilizar antecipadamente a um grupo seleto de clientes, desenvolvedores, parceiros e especialistas em segurança e responsabilidade, a possibilidade de experimentar e dar feedback antes do lançamento para desenvolvedores e clientes corporativos no ano que vem.
No início de 2024, o Google irá lançar o Bard Advanced: uma nova experiência de IA avançada, a partir da qual será possível acessar os melhores modelos e capacidades, começando pelo Gemini Ultra.
Testes de benchmarking
Este novo modelo de IA foi testado e seu desempenho avaliado rigorosamente em uma ampla variedade de tarefas que abrangem desde a compreensão de imagens, áudios e vídeos, até a programação e o raciocínio matemático. O desempenho do Gemini Ultra supera 30 dos 32 pontos das referências acadêmicas amplamente utilizados na pesquisa e no desenvolvimento de grandes modelos de linguagem.
Para ver mais detalhes, acesse o relatório técnico do Gemini.
Olhando para o futuro
Esse é um marco significativo no desenvolvimento da IA e o Google irá continuar inovando rapidamente e desenvolvendo de forma responsável as capacidades dos seus modelos. A empresa fez grandes progressos no Gemini até agora e está trabalhando para estender ainda mais os seus recursos para versões futuras. “A nova era dos modelos de IA representa um dos maiores esforços científicos e de engenharia que empreendemos como empresa. Estou genuinamente animado com o que está por vir e com as oportunidades que o Gemini abrirá para as pessoas em todos os lugares.”, Sundar Pichai, CEO do Google e da Alphabet em nota publicada hoje no blog post da empresa.