terça-feira, abril 1, 2025
Programa Grandes Nomes da Propaganda no canal Markket
InícioMercadoChatGPT ainda não está pronto para responder a pesquisas como humanos

ChatGPT ainda não está pronto para responder a pesquisas como humanos

Apesar de tentadores, LLMs ainda não conseguem gerar respostas completamente confiáveis. Mas combinações entre amostras sintéticas e humanos começam a se tornar viáveis.

Os Large Language Models (LLMs), modelos de processamento de linguagem que usam inteligência artificial para compreender e gerar texto, ainda não estão prontos para serem usados como complementos para amostras humanas em pesquisas de mercado. Isso porque ainda possuem vieses e necessitam de mais variações e nuances tanto qualitativa como quantitativamente.

 

Isso é o que indica a Kantar Brasil, empresa global de pesquisas e insights de marca. Ela realizou testes comparando as respostas geradas pelo GPT-4 com dados de uma pesquisa com cerca de 5 mil respondentes sobre um produto de luxo e suas atitudes em relação à tecnologia.

 

No processo, foi criada uma “amostra sintética” com características demográficas idênticas à amostra humana da empresa. Foram usados marcadores demográficos da amostra humana, como localização geográfica, idade, etnia, renda, educação, como parte do “condicionamento de prompt” para o GPT-4 garantir que suas respostas fossem comparáveis às respostas da pesquisa daquele perfil de respondente.

 

“Na pesquisa de mercado, conjuntos de dados sintéticos podem introduzir vieses ou distorções e não refletirem com precisão as características e preferências de uma população-alvo, como confirmado pelos nossos testes”, afirma Juliana Cavallari, diretora de contas da Kantar Brasil.  “Portanto, é crucial entender os casos de uso, as metodologias de solução e os frameworks de avaliação antes de confiar em dados sintéticos para informar decisões comerciais importantes.”

 

O que são amostras sintéticas?

A amostra sintética é produzida por meio de IA generativa ou, mais comumente, modelagem preditiva, e oferece respostas parecidas com as humanas, com base nos conjuntos de dados disponíveis. Em vez de fazermos perguntas para um participante humano real, a IA generativa (modelos grandes de linguagem como o GPT-4) ou modelos preditivos são usados como substitutos.  Essas amostras compostas por dados sintéticos podem ser geradas para aumentar dados existentes, criar dados e simular cenários futuros.

 

Cientistas de dados têm inserido dados preditivos há décadas para muitos propósitos, inclusive no campo da pesquisa de mercado – mas dados sintéticos levam isso ao próximo nível, pretendendo representar as atitudes ou comportamentos de um indivíduo ou grupo.

 

Um elemento essencial para alimentar um algoritmo gerador de dados sintéticos é uma abundância de “dados reais”. Confiar exclusivamente em um LLM disponível no mercado muitas vezes é uma estratégia ruim. É vital começar com uma fonte de dados de alta qualidade que seja muito específica para o problema em questão e usar isso para treinar um algoritmo gerador de dados sintéticos.

 

Combinando amostras humanas e sintéticas

É possível, porém, encontrar o equilíbrio certo entre máquina e humano para fornecer uma fonte de dados confiável.  Existem três principais casos de uso que vemos neste campo:

– Impulsionamento de Amostra: é possível pegar um conjunto de dados de pesquisa em uma categoria específica e aumentar o conjunto de dados com mais respondentes em um ou mais subgrupos (que, por exemplo, podem estar sub-representados ou serem caros para recrutar). As respostas sintéticas podem ser aumentadas via agrupamento de respondentes ou via respondentes individuais.  Se pensarmos em um conjunto de dados de pesquisa como uma tabela onde as linhas são respondentes e as colunas são perguntas da pesquisa, estamos tentando criar sinteticamente “novas linhas”, correspondentes aos respondentes de pequenos subgrupos.

– Aumento Preditivo: considerações sobre a duração da pesquisa muitas vezes significam que precisamos tomar decisões difíceis sobre quais perguntas podemos acomodar. Podemos preencher algumas lacunas em nossos dados com base em outros respondentes históricos da pesquisa ou, de fato, com dados de perfil que já temos em nosso painel, para fornecer campos adicionais (modelados) junto com os dados base da pesquisa coletada.

– Gêmeos Digitais: ao longo do tempo, acumulamos um grande número de dados para respondentes individuais. Muitas vezes temos anos de dados atitudinais e comportamentais de alta qualidade sobre nossos painelistas mais leais. Podemos aproveitar essas informações históricas para ajustar modelos de IA que então nos permitam “estender” além das perguntas anteriores da pesquisa para novas categorias, comportamentos e tópicos.

 

A Kantar, por exemplo, complementa sua rede programática de mais de 170 milhões de painelistas humanos em mais de 100 mercados com o Qubed, tecnologia contra fraude construída a partir de 3 redes neurais profundas, e design empático de pesquisas, para garantir que esteja criando comunidades de painelistas reais e engajados que fornecem os dados de maior qualidade e mais significativos.

 

“Os dados sintéticos têm muito potencial, mas a indústria tem muito mais trabalho a fazer para construir soluções tecnicamente e metodologicamente sólidas”, diz Juliana. “Embora seja possível aproveitar ao máximo o potencial de alguns dos algoritmos e tecnologias mais recentes, é preciso abordar as principais questões e desafios que os dados sintéticos apresentam, como sua precisão e viés, sua viabilidade em situações particulares e sua robustez.”

Artigos relacionados

Novidades