Blog do Batman: DataGemma: o novo modelo do Google conectado a dados do mundo real

O que é o DataGemma?

Recentemente, Google anunciou seu novo modelo DataGemma - um modelo aberto colocado para trazer respostas mais conectadas a fatos em LLMs. Ele busca ancorar as respostas desses modelos em dados reais, utilizando o Data Commons do Google — um vasto repositório de dados públicos confiáveis com mais de 240 bilhões de data points de fontes como a ONU e o CDC.

No paper oficial, são trazidas as duas principais abordagens utilizadas pelo DataGemma:

RIG (Retrieval-Interleaved Generation): Quando a consulta envolve dados estatísticos, o modelo recupera e verifica as informações no Data Commons antes de gerar a resposta. Esse método permite que o modelo consulte dados de fontes confiáveis e os incorpore diretamente na resposta, aumentando a precisão.

RAG (Retrieval Augmented Generation): O modelo recupera dados relevantes do Data Commons antes de gerar a resposta, incorporando essas informações ao contexto para melhorar a precisão. Como o volume de dados recuperados pode ser grande, é necessário usar LLMs com grandes janelas de contexto, como o Gemini 1.5 Pro, que suporta um número significativo de tokens.

De forma prática, o RIG envolve o fine-tuning do LLM para gerar consultas em linguagem natural direcionadas ao Data Commons, além de fornecer estatísticas. Uma pipeline converte essas consultas em uma query estruturada, que é usada para obter respostas do banco de dados do Data Commons. Os resultados são comparados com os modelos básicos Gemma 7B IT e 27B IT.

O RAG segue uma metodologia mais tradicional de recuperação de informações. O modelo extrai variáveis mencionadas na consulta, recupera dados relevantes do Data Commons e amplia a consulta original com esse contexto, gerando a resposta com o LLM (no caso, o Gemini). Os resultados são comparados com o modelo base Gemini 1.5 Pro.

Os testes iniciais mostraram que a integração com o Data Commons via RIG e RAG melhora significativamente a precisão dos LLMs, especialmente em perguntas que exigem respostas baseadas em fatos. Em particular, o uso de RIG resultou em uma precisão de cerca de 58% nos casos em que o Data Commons retornou a estatística correta, contrastando com apenas 5–17% de precisão quando os LLMs tentaram gerar respostas sem recuperar dados.

Avaliação

O que eu particularmente gosto de olhar em papers desse tipo são os métodos de avaliação, visto que essa parte se contrasta muito dependendo da metodologia.

Algo que achei pertinente trazer (e que recomendo que seja revisado no paper pois é bastante didático) é a criação de uma ferramenta de foi colocada nas mãos de avaliadores.

Nessa ferramenta, são separados estágios de avaliação. Na avaliação do RIG, por exemplo, há um estágio inicial que seria o de avaliar a resposta num geral — considerando problemas com os fatos gerados, e um segundo momento que é o de avaliar estatísticas.

Trabalho em andamento

Apesar de bastante promissor o método, ele ainda está em fase de testes pela comunidade acadêmica e a empresa está em análise de feedbacks para conseguir conectar esse modelo a uma gama maior de use cases.

Um desafio bastante importante é a cobertura de dados no Data Commons, que é limitada em algumas regiões fora dos EUA. Além disso, o processo de geração de consultas precisas para o Data Commons ainda pode ser aprimorado.

Enquanto pesquisas visam melhorar o treinamento do modelo e expandir a base de dados do Data Commons para aumentar sua eficácia global, fiz alguns testes em um notebook e deixo o link aqui, para que você possa visualizar como funciona o workflow.

No notebook referenciado acima, você pode fazer uma cópia e testar você mesmo com suas próprias frases após realizar o setup dos modelos.

É importante que você siga alguns passos:

Ter uma conta no Hugging Face, Google AI Studio e Data Commons.

Aceitar a licença do Gemma no Hugging Face.

Criar os secrets necessários para rodar o notebook conforme instruções estipuladas nele (isso envolve criar chaves de API que serão necessários para executar as instruções).

E pronto! ✨

Artigo de Mikaeri Ohana

Fonte: https://medium.com/@mikaeriohana/datagemma-o-novo-modelo-do-google-conectado-a-dados-do-mundo-real-e2faaa714559

Blog do Batman

segunda-feira, 30 de setembro de 2024

DataGemma: o novo modelo do Google conectado a dados do mundo real

Nenhum comentário:

Postar um comentário