OpenAI parece estar segurando uma nova ferramenta "altamente precisa" capaz de detectar conteúdo gerado pelo ChatGPT devido a preocupações de que ela poderia ser adulterada ou fazer com que usuários que não falam inglês evitassem gerar texto com modelos de inteligência artificial.
A empresa mencionou que estava trabalhando em vários métodos para detectar conteúdo gerado especificamente por seus produtos em uma postagem no blog em maio. Em 4 de agosto, o Wall Street Journal publicou uma reportagem exclusiva indicando que os planos de lançamento das ferramentas foram adiados devido a debates internos sobre as ramificações de sua liberação.
Após o relatório do WSJ, a OpenAI atualizou sua postagem no blog de maio com novas informações sobre as ferramentas de detecção. O resumo é que ainda não há um cronograma para o lançamento, apesar da advertência da empresa de que pelo menos uma ferramenta para determinar a proveniência do texto é "altamente precisa e até eficaz contra adulterações localizadas".
Infelizmente, a empresa afirma que ainda existem métodos pelos quais atores mal-intencionados poderiam contornar a detecção e, como tal, ela não está disposta a liberá-la para o público.
Em outra passagem, a empresa parece sugerir que falantes de outras línguas além do inglês poderiam ser "estigmatizados" por usar produtos de IA para escrever devido a um exploit relacionado à tradução de texto em inglês para outra língua para contornar a detecção.
“Outro risco importante que estamos avaliando é que nossa pesquisa sugere que o método de marca d'água do texto tem o potencial de impactar desproporcionalmente alguns grupos. Por exemplo, ele poderia estigmatizar o uso da IA como uma ferramenta útil de escrita para falantes não nativos de inglês.”
Embora atualmente existam vários produtos e serviços disponíveis que supostamente detectam conteúdo gerado por IA, até onde sabemos, nenhum demonstrou um alto grau de precisão em tarefas gerais em pesquisas revisadas por pares.
A ferramenta da OpenAI seria o primeiro sistema desenvolvido internamente a depender de marcação invisível e métodos de detecção proprietários para conteúdo gerado especificamente pelos modelos da empresa.