O que é o DataGemma?
Recentemente, Google anunciou seu novo modelo DataGemma - um modelo aberto colocado para trazer respostas mais conectadas a fatos em LLMs. Ele busca ancorar as respostas desses modelos em dados reais, utilizando o Data Commons do Google — um vasto repositório de dados públicos confiáveis com mais de 240 bilhões de data points de fontes como a ONU e o CDC.
No paper oficial, são trazidas as duas principais abordagens utilizadas pelo DataGemma:
RIG (Retrieval-Interleaved Generation): Quando a consulta envolve dados estatísticos, o modelo recupera e verifica as informações no Data Commons antes de gerar a resposta. Esse método permite que o modelo consulte dados de fontes confiáveis e os incorpore diretamente na resposta, aumentando a precisão.
RAG (Retrieval Augmented Generation): O modelo recupera dados relevantes do Data Commons antes de gerar a resposta, incorporando essas informações ao contexto para melhorar a precisão. Como o volume de dados recuperados pode ser grande, é necessário usar LLMs com grandes janelas de contexto, como o Gemini 1.5 Pro, que suporta um número significativo de tokens.
De forma prática, o RIG envolve o fine-tuning do LLM para gerar consultas em linguagem natural direcionadas ao Data Commons, além de fornecer estatísticas. Uma pipeline converte essas consultas em uma query estruturada, que é usada para obter respostas do banco de dados do Data Commons. Os resultados são comparados com os modelos básicos Gemma 7B IT e 27B IT.
O RAG segue uma metodologia mais tradicional de recuperação de informações. O modelo extrai variáveis mencionadas na consulta, recupera dados relevantes do Data Commons e amplia a consulta original com esse contexto, gerando a resposta com o LLM (no caso, o Gemini). Os resultados são comparados com o modelo base Gemini 1.5 Pro.
Trabalho em andamento
Apesar de bastante promissor o método, ele ainda está em fase de testes pela comunidade acadêmica e a empresa está em análise de feedbacks para conseguir conectar esse modelo a uma gama maior de use cases.
Um desafio bastante importante é a cobertura de dados no Data Commons, que é limitada em algumas regiões fora dos EUA. Além disso, o processo de geração de consultas precisas para o Data Commons ainda pode ser aprimorado.
Enquanto pesquisas visam melhorar o treinamento do modelo e expandir a base de dados do Data Commons para aumentar sua eficácia global, fiz alguns testes em um notebook e deixo o link aqui, para que você possa visualizar como funciona o workflow.
No notebook referenciado acima, você pode fazer uma cópia e testar você mesmo com suas próprias frases após realizar o setup dos modelos.
É importante que você siga alguns passos:
Ter uma conta no Hugging Face, Google AI Studio e Data Commons.
Aceitar a licença do Gemma no Hugging Face.
Criar os secrets necessários para rodar o notebook conforme instruções estipuladas nele (isso envolve criar chaves de API que serão necessários para executar as instruções).
E pronto! ✨
Artigo de Mikaeri Ohana
Nenhum comentário:
Postar um comentário