Em um estudo que pode ser o primeiro de seu tipo, a empresa de inteligência artificial (IA) Anthropic desenvolveu um modelo amplo de linguagem (LLM) que foi ajustado para julgamentos de valor por sua comunidade de usuários.

Muitos LLMs voltados ao público foram desenvolvidos com guardrails — instruções codificadas que ditam comportamentos específicos — na tentativa de limitar saídas indesejadas. Claude da Anthropic e ChatGPT da OpenAI, por exemplo, normalmente fornecem aos usuários uma resposta de segurança padrão para solicitações de saída relacionadas a tópicos violentos ou controversos.

Entretanto, como inúmeros especialistas já apontaram, os guardrails e outras técnicas de intervenção podem privar os usuários de sua autonomia. O que é considerado aceitável nem sempre é útil, e o que é considerado útil nem sempre é aceitável. E as definições de moralidade ou julgamentos baseados em valores podem variar entre culturas, populações e períodos de tempo.

Um possível remédio para isso é permitir que os usuários determinem o alinhamento de valores para modelos de IA. O experimento "Collective Constitutional AI" da Anthropic é uma tentativa de enfrentar esse "desafio complexo".

A Anthropic, em colaboração com Polis e Collective Intelligence Project, envolveu 1.000 usuários de diversas demografias e os convidou a responder uma série de perguntas por meio de enquetes.

Fonte, Anthropic

O desafio consiste em permitir que os usuários determinem o que é apropriado sem expô-los a saídas inapropriadas. Isso envolveu solicitar valores do usuário e, em seguida, implementar essas ideias em um modelo que já foi treinado.

Anthropic usa um método chamado "Constitutional AI" para direcionar seus esforços na sintonização de LLMs para segurança e utilidade. Essencialmente, isso envolve dar ao modelo uma lista de regras que ele deve seguir e depois treiná-lo para implementar essas regras ao longo de seu processo, assim como uma constituição serve como documento principal para governança em muitas nações.

No experimento Collective Constitutional AI, a Anthropic tentou integrar feedback baseado em grupo na constituição do modelo. Os resultados, segundo uma postagem de blog da Anthropic, parecem ter sido um sucesso científico, pois iluminou mais desafios para alcançar o objetivo de permitir que os usuários de um produto LLM determinem seus valores coletivos.

Uma das dificuldades que a equipe teve que superar foi criar um método inovador para o processo de benchmarking. Como esse experimento parece ser o primeiro de seu tipo, e ele se baseia na metodologia Constitutional AI da Anthropic, não existe um teste estabelecido para comparar modelos básicos àqueles ajustados com valores de origem coletiva.

No final, parece que o modelo que implementou dados resultantes do feedback de enquetes dos usuários superou o modelo base "ligeiramente" na área de saídas tendenciosas.

Conforme a postagem do blog:

"Mais do que o modelo resultante, estamos empolgados com o processo. Acreditamos que esta pode ser uma das primeiras instâncias em que membros do público, como um grupo, dirigiram intencionalmente o comportamento de um modelo de linguagem de grande escala. Esperamos que comunidades ao redor do mundo construam técnicas como essa para treinar modelos específicos para a cultura e o contexto que atendam às suas necessidades."

VEJA MAIS: