Desde que o chatbot ChatGPT foi lançado em novembro de 2022, ganhou muita popularidade em todo o mundo. No entanto, especialistas mostram que bases de dados que alimentam o sistema de inteligência artificial ainda é incerta. Grandes modelos de linguagem (LLM) permitem o abastecimento desses sistemas.
Como funciona o ChatGPT?
O ChatGPT é definido como um sistema de IA generativa, isto é, funciona como um grande máquina probabilística: usa grandes volumes de texto para estabelecer relações entre termos (chamados parâmetros) e produz um texto novo assim que solicitado. Vale lembrar que quanto mais parâmetros, mais avançada costuma ser a IA e a primeira versão do ChatGPT apresentava 175 bilhões de parâmetros.
Te podría interesar
Pesquisadores e especialistas estão preocupados com a origem dos dados que treinam esses sistemas, uma vez que é difícil rastrear a fonte das informações e o que realmente está alimentando as máquinas. No artigo científico do GPT-3, a primeira versão do “cérebro” do ChatGPT, mostra o que foi usado. Há nele pacotes Common Crawl e WebText2 (pacotes de textos extraídos de internet e redes sociais), Books1 e Books2 (pacotes de livros disponíveis na web) e a versão em inglês da Wikipédia.
Por exemplo, ninguém sabe dizer se há uso do texto de um blog pessoal qualquer ou de uma rede social alimentando o modelo, mesmo que os pacotes tenham sido divulgados. O chamado pacote C4, usado para treinar os LLMs T5, do Google, e o LLaMA, do Facebook foi analisado pelo jornal Washington Post.
Te podría interesar
Lá foram encontrados 15 milhões de sites diversos, que incluem fóruns de jogos, veículos jornalísticos, dois bancos de dados que hospedavam informações estaduais de eleitores estadunidenses e repositórios piratas de livros.
E agora?
A falta de clareza sobre as fontes de dados usadas para treinar os modelos de IA generativa aumentou com a concorrência no setor. A OpenAI não divulgou quais conjuntos de dados alimentaram o GPT-4, a base do ChatGPT. O Google também foi superficial ao afirmar que o Bard, seu novo chatbot no Brasil, usa “informações públicas da internet” para aprender.
Autoridades e especialistas estão preocupados
O ChatGPT tem enfrentado problemas com as leis de proteção de dados em vários países. Na Itália, o serviço foi suspenso em março por suspeita de violar essas normas. No Canadá, a OpenAI está sendo investigada sobre como ela coleta e usa os dados dos usuários.
Nos EUA, a FTC (Comissão Federal de Comércio) também abriu uma investigação essa semana para saber se o serviço prejudicou os consumidores e se a OpenAI agiu de forma “injusta ou enganosa” em relação à privacidade e segurança das informações.
A RIPD (Rede Iberoamericana de Proteção de Dados), que congrega 16 autoridades de dados de 12 países, entre eles o Brasil, também resolveu apurar as condutas da OpenAI.
O jornal Estadão relata que entrou em contato com a ANPD (Autoridade Nacional de Proteção de Dados), que informou em nota que está “realizando um estudo preliminar que, embora não dedicado exclusivamente ao ChatGPT, tem por objetivo fundamentar os conceitos relacionados aos modelos generativos de inteligência artificial, bem como identificar potenciais riscos à privacidade e proteção de dados”.
Antes, a ANPD já havia divulgado um documento no qual ela manifesta o desejo de ser a autoridade fiscalizadora e reguladora sobre IA.
O uso de dados pessoais por modelos de inteligência artificial (IA) de grande escala foi questionado por Luca Belli, professor de Direito e coordenador do centro de tecnologia e sociedade da Fundação Getulio Vargas (FGV) do Rio, em uma petição à Autoridade Nacional de Proteção de Dados (ANPD). Ele explica a reportagem do Estadão que, como titular de dados pessoais, quer saber como a OpenAI produz respostas sobre ele a partir do ChatGPT. “Existe consentimento para que usem meus dados pessoais? Não. Existe uma base legal para que usem os meus dados para treinar modelos de IA? Não.”, afirma ele.
A ANPD não se manifestou sobre a petição de Belli. O órgão também não respondeu à reportagem se está colaborando com o Relatório Internacional sobre Privacidade e Democracia (RIPD) sobre o assunto.
"As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas”, lembra Luã Cruz,especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec).
O cenário é semelhante ao que ocorreu antes do caso Cambridge Analytica, que envolveu o uso indevido de dados de 87 milhões de usuários do Facebook. Especialistas em privacidade e proteção de dados alertavam para o risco de dados serem mal utilizados em grandes plataformas, mas as autoridades não conseguiram resolver o problema.
Além disso, o uso indevido de dados pode gerar problemas de direitos autorais. Uma ação judicial foi movida pelos autores Mona Awad e Paul Tremblay contra a OpenAI, alegando que sua obras foram utilizados como fonte de dados para o ChatGPT.
Outros criadores, como pintores e ilustradores, também estão preocupados com o uso de suas obras por geradores de imagens, tais como o DALL-E 2, Midjourney e Stable Diffusion. Recentemente, a OpenAI firmou uma parceria com a Associated Press para empregar seus textos jornalísticos no aprimoramento de seus modelos. Trata-se de uma iniciativa modesta diante do que a empresa já desenvolveu.
Para Rafael Zanatta, diretor da Associação Data Privacy Brasil, “veremos no futuro uma enxurrada de ações coletivas disputando os limites de uso de dados. Privacidade e direito autoral são ideias muito próximas”.
*Com informações de Estadão