O cofundador da Ethereum, Vitalik Buterin, endossou o novo método de compressão Token for Image Tokenizer (TiTok) para sua potencial aplicação em blockchain.

Sem ser confundido com a plataforma de mídia social TikTok, o novo método de compressão TiTok reduz significativamente o tamanho da imagem, tornando mais prático o armazenamento no blockchain.

Buterin destacou o potencial blockchain do TiTok na plataforma descentralizada de mídia social Farcaster, afirmando que “320 bits é basicamente um hash. Pequeno o suficiente para ser conectado a qualquer usuário.”

O desenvolvimento pode ter implicações significativas para o armazenamento digital de imagens de perfil (PFPs) e tokens não fungíveis (NFTs).

Fonte: Thomas

Compressão de imagem TiTok

Desenvolvido por pesquisadores da ByteDance e da Technical University Munich, o TiTok permite a compactação de uma imagem em 32 pequenos pedaços de dados (bits) sem perder qualidade.

De acordo com o artigo de pesquisa da TiTok , a compactação de imagem de inteligência artificial (IA) avançada permite que a TiTok comprima uma imagem de 256x256 pixels em “32 tokens discretos”.

TiTok é uma estrutura de tokenização de imagem unidimensional (1D) que “quebra as restrições de grade existentes nos métodos de tokenização 2D”, levando a imagens mais flexíveis e compactas.

“Como resultado, isso leva a uma aceleração substancial no processo de amostragem (por exemplo, 410 × mais rápido que o DiT-XL/2), ao mesmo tempo que obtém uma qualidade de geração competitiva.”
Artigo de pesquisa da TiTok exibindo comparações de tamanho de compactação de imagem. Fonte: TiTok

Imagens de aprendizado de máquina

O TiTok utiliza aprendizado de máquina e IA avançada, usando modelos baseados em transformadores para converter imagens em representações tokenizadas.

O método utiliza redundância de região, o que significa que identifica e utiliza informações redundantes em diferentes regiões da imagem para reduzir o tamanho geral dos dados do produto final.

“Avanços recentes em modelos generativos destacaram o papel crucial da tokenização de imagens na síntese eficiente de imagens de alta resolução.”

De acordo com o artigo de pesquisa, a “representação latente compacta” do TiTok pode produzir “representações substancialmente mais eficientes e eficazes do que as técnicas convencionais”.

Ilustração de reconstrução de imagem (a) e geração (b) com o framework TiTok (c). Fonte: TiTok

TiTok, não TikTok

Apesar do nome semelhante, TikTok, a plataforma de mídia social, não recebeu o endosso de Buterin.

O cofundador da Ethereum, destacando o potencial de blockchain do TiTok, dá credibilidade ao novo método de compressão de imagens baseado em IA.

“Ao contrário dos modelos 2D VQ existentes que consideram o espaço latente da imagem como uma grade 2D, fornecemos uma formulação mais compacta para tokenizar uma imagem em uma sequência latente 1D.”

O novo método proposto pode “representar uma imagem com 8 a 64 vezes” menos tokens do que “tokenizadores 2D”, e a equipe espera que a pesquisa possa lançar luz sobre uma “representação de imagem mais eficiente”.