Um conjunto de dados de imagens para treinamento de inteligência artificial desenvolvido pela provedora de soluções de IA descentralizada OORT alcançou sucesso considerável na plataforma Kaggle, do Google.
A listagem do conjunto de dados Diverse Tools da OORT foi lançado no início de abril; desde então, chegou à primeira página em várias categorias. O Kaggle é uma plataforma online de propriedade do Google voltada para competições, aprendizado e colaboração em ciência de dados e aprendizado de máquina.
Ramkumar Subramaniam, colaborador principal do projeto de IA cripto OpenLedger, disse ao Cointelegraph que “um ranqueamento na primeira página do Kaggle é um forte sinal social, indicando que o conjunto de dados está engajando as comunidades certas de cientistas de dados, engenheiros de machine learning e profissionais da área”.
Max Li, fundador e CEO da OORT, disse ao Cointelegraph que a empresa “observou métricas de engajamento promissoras que validam a demanda inicial e a relevância” dos dados de treinamento coletados por meio de um modelo descentralizado. Ele acrescentou:
“O interesse orgânico da comunidade, incluindo o uso ativo e contribuições — demonstra como pipelines de dados descentralizados e impulsionados pela comunidade, como o da OORT, podem alcançar rápida distribuição e engajamento sem depender de intermediários centralizados.”
Li também disse que a OORT planeja lançar vários conjuntos de dados nos próximos meses, incluindo um conjunto de comandos de voz em carros, outro para comandos de voz em casas inteligentes e um para vídeos deepfake destinado a aprimorar a verificação de mídias com suporte de IA.
Primeira página em várias categorias
O Cointelegraph verificou de forma independente que o conjunto de dados da OORT chegou à primeira página do Kaggle nas categorias General AI, Retail & Shopping, Manufacturing e Engineering no início deste mês. No momento da publicação, perdeu essas posições após uma atualização de dados, possivelmente não relacionada, em 6 de maio e outra em 14 de maio.
Embora tenha reconhecido o feito, Subramaniam disse ao Cointelegraph que “isso não é um indicativo definitivo de adoção no mundo real ou de qualidade em nível empresarial”. Ele afirmou que o diferencial do conjunto de dados da OORT “não é apenas o ranqueamento, mas a procedência e a camada de incentivos por trás do conjunto de dados”. Ele explicou:
“Ao contrário de fornecedores centralizados que podem depender de pipelines opacos, um sistema transparente e com incentivos em tokens oferece rastreabilidade, curadoria comunitária e potencial de melhoria contínua, assumindo que haja a governança adequada.”
Lex Sokolin, sócio da empresa de capital de risco em IA, Generative Ventures, disse que, embora não ache esses resultados difíceis de replicar, “eles mostram que projetos cripto podem usar incentivos descentralizados para organizar atividades economicamente valiosas”.
Dados de treinamento de IA de alta qualidade: uma commodity escassa
Dados publicados pela empresa de pesquisa em IA, Epoch AI, estimam que os dados de texto gerados por humanos para treinamento de IA serão esgotados em 2028. A pressão é tão alta que investidores estão intermediando acordos que concedem direitos sobre materiais protegidos por direitos autorais para empresas de IA.
Relatórios sobre a crescente escassez de dados para treinamento de IA e como isso pode limitar o crescimento do setor circulam há anos. Embora dados sintéticos (gerados por IA) sejam cada vez mais utilizados com algum grau de sucesso, os dados humanos ainda são amplamente vistos como a alternativa superior, oferecendo maior qualidade e modelos de IA mais eficientes.
No caso específico de imagens para treinamento de IA, a situação está ficando cada vez mais complicada, com artistas sabotando deliberadamente os esforços de treinamento. Visando proteger suas imagens contra uso não autorizado para treinamento de IA, ferramentas como Nightshade permitem aos usuários “envenenar” suas imagens, degradando severamente o desempenho dos modelos.
Subramaniam disse: “Estamos entrando em uma era em que dados de imagens de alta qualidade se tornarão cada vez mais escassos”. Ele também reconheceu que essa escassez é agravada pela popularidade crescente do envenenamento de imagens:
“Com o surgimento de técnicas como image cloaking e adversarial watermarking para envenenar o treinamento de IA, conjuntos de dados de código aberto enfrentam um desafio duplo: quantidade e confiança.”
Diante dessa situação, Subramaniam afirmou que conjuntos de dados verificáveis e impulsionados pela comunidade “são mais valiosos do que nunca”. Segundo ele, projetos desse tipo “podem se tornar não apenas alternativas, mas pilares da conformidade e da procedência da IA na economia de dados”.