Quando um sistema de inteligência artificial (IA) gerativa produz algo surpreendentemente semelhante aos dados em que foi treinado, isso constitui uma infração de direitos autorais ou um bug no sistema? Essa é a questão central do recente processo movido pelo The New York Times contra a OpenAI, fabricante do ChatGPT.
O The New York Times alega que a OpenAI usou mais conteúdo do site do NYT para treinar seus modelos de IA do que quase qualquer outra fonte proprietária — apenas a Wikipedia e conjuntos de dados contendo documentos de patentes dos Estados Unidos a superam.
A OpenAI afirma que o treinamento em dados protegidos por direitos autorais é um "uso justo" e que o processo do The New York Times é "sem mérito".
Construímos IA para capacitar as pessoas, incluindo jornalistas.
— OpenAI (@OpenAI) 8 de janeiro de 2024
Nossa posição sobre o processo do @nytimes:
• O treinamento é uso justo, mas oferecemos uma opção de saída
• "Regurgitação" é um bug raro que estamos reduzindo a zero
• O The New York Times não está contando a história completahttps://t.co/S6fSaDsfKb
As consequências
O processo pode ser resolvido fora do tribunal; pode terminar com danos, demissão ou inúmeros outros resultados. Mas além do alívio financeiro ou injunções (que podem ser consideradas temporárias, pendentes de recurso ou acionadas após recurso malsucedido), as ram ificações podem impactar a sociedade dos EUA como um todo, com potencial impacto global além disso.
Primeiramente, se os tribunais decidirem a favor da OpenAI de que o treinamento de sistemas de IA em material protegido por direitos autorais é um uso justo, isso poderia ter um impacto substancial no sistema jurídico dos EUA.
Como Mike Cook, professor sênior do King's College, recentemente escreveu no The Conversation:
“Se você usou IA para responder e-mails ou resumir trabalhos para você, pode ver o ChatGPT como um fim que justifica os meios. No entanto , talvez deva nos preocupar se a única maneira de alcançar isso é isentando entidades corporativas específicas de leis que se aplicam a todos os outros.”
O The New York Times argumenta que tal isenção representaria uma ameaça clara ao seu modelo de negócios.
A OpenAI admitiu que o ChatGPT tem um “bug” em que ocasionalmente produz trechos de texto com semelhanças marcantes com obras protegidas por direitos autorais existentes. De acordo com o NYT, isso poderia servir para contornar paywalls, privar a empresa de receita publicitária e afetar sua capacidade de desempenhar suas funções primárias.
Caso a OpenAI seja autorizada a continuar treinando em material protegido por direitos autorais sem restrições, os impactos de longo prazo para o The New York Times e qualquer outro veículo de jornalismo cujo trabalho possa ser usado para treinar sistemas de IA poderiam ser catastróficos, segundo o processo.
O mesmo poderia ser dito, teoricamente, para outros campos em que material protegido por direitos autorais impulsiona lucros, incluindo cinema, televisão, música, literatura e outras formas de mídia impressa.
Por outro lado, em documentos apresentados ao comitê de comunicações e digital da Câmara dos Lordes do Reino Unido, a OpenAI disse: “Seria impossível treinar os principais modelos de IA de hoje sem usar materiais protegidos por direitos autorais.”
A firma de IA acrescentou:
“Limitar os dados de treinamento a livros de domínio público e desenhos criados há mais de um século poderia gerar um experimento interessante, mas não forneceria sistemas de IA que atendam às necessidades dos cidadãos de hoje.”
A caixa preta
Complicando ainda mais as coisas, é o fato de que um compromisso pode ser difícil de alcançar. A OpenAI tomou medidas para impedir que o ChatGPT e outros produtos reproduzam material protegido por direitos autorais, mas não há garantias tecnológicas de que isso não continuará acontecendo.
Modelos de IA, como o ChatGPT, são referidos como sistemas de “caixa preta”. Isso ocorre porque os desenvolvedores que os criam não têm como saber exatamente por que o sistema gera suas saídas.
Devido a essa característica de "caixa-preta" e ao método pelo qual são treinados grandes modelos de linguagem como o ChatGPT, não há maneira de excluir os dados do The New York Times ou de qualquer outro detentor de direitos autorais uma vez que um modelo tenha sido treinado.
Baseado na tecnologia e métodos atuais, há uma chance significativa de que a OpenAI teria que deletar o ChatGPT e começar do zero se fosse totalmente proibida de usar material com direitos autorais. Isso poderia se provar muito caro e ineficiente para valer a pena.
A OpenAI espera lidar com isso oferecendo parcerias a organizações de notícias e mídia, juntamente com a promessa de continuar trabalhando para eliminar o "bug" de regurgitação.
O pior cenário
O pior cenário para o campo da inteligência artificial seria perder a capacidade de monetizar modelos treinados com materiais protegidos por direitos autorais. Embora isso não afetasse necessariamente, por exemplo, esforços relacionados a carros autônomos ou sistemas de IA usados para conduzir simulações de supercomputadores, poderia tornar produtos gerativos como o ChatGPT ilegais de serem comercializados.
E, no que diz respeito aos detentores de direitos autorais, o pior caso seria uma declaração judicial de que materiais protegidos por direitos autorais podem ser usados livremente para treinar sistemas de IA.
Isso, teoricamente, poderia dar às empresas de IA carta branca para redistribuir materiais protegidos por direitos autorais ligeiramente modificados, mantendo os usuários finais legalmente responsáveis por quaisquer casos em que as modificações não atendam ao requisito legal para evitar a infração de direitos autorais.
VEJA MAIS: