Como funciona uma deepfake? Entenda em 9 passos!

Como funciona uma deepfake? Esta é uma pergunta cada vez mais frequente diante da proliferação de vídeos falsos, mas realistas, de celebridades e políticos.

Deepfake é a junção de “deep learning” (aprendizado profundo) com “fake” (falso). A tecnologia usa redes neurais artificiais para manipular imagens, vídeos e áudios, criando conteúdo hiper-realista que nunca aconteceu.

Neste artigo, você entenderá o processo passo a passo. Acompanhe e saiba mais sobre o assunto!

Confira 9 em passos e entenda como funciona uma deepfake

1. Coleta de milhares de imagens da pessoa alvo

O primeiro passo para entender como funciona uma deepfake é a coleta de dados. O algoritmo precisa de muitas fotos e vídeos da pessoa que será “clonada”.

Quanto mais material, melhor. São necessárias pelo menos 1.000 a 5.000 imagens de diferentes ângulos, expressões e iluminações.

Quanto mais diverso o conjunto, mais realista será a deepfake. Postagens públicas do Instagram e YouTube são as principais fontes.

2. Treinamento do codificador de imagens

Um tipo de rede neural chamada “autoencoder” é alimentada com as imagens coletadas. Ela aprende a identificar os traços faciais característicos.

Nessa etapa de como funciona uma deepfake, o codificador comprime a imagem em um conjunto de características faciais: formato dos olhos, distância entre o nariz e a boca, curvatura das sobrancelhas.

Esse “código” é a impressão digital da face. Sem ele, a troca não funciona.

3. Treinamento do decodificador da pessoa alvo

O decodificador é treinado para reconstruir a face original a partir do código gerado pelo codificador.

Para como funciona uma deepfake, essa etapa é repetida separadamente para a pessoa alvo (ex.: o ator) e para o “ator substituto” (ex.: a pessoa que fará os movimentos).

São criados dois decodificadores: um que reconstrói a face A, outro que reconstrói a face B.

4. Troca de decodificadores (o pulo do gato)

Aqui ocorre a mágica da manipulação. O código facial da pessoa A (extraído de um vídeo qualquer) é alimentado no decodificador da pessoa B.

Entendendo como funciona uma deepfake, o código facial de Fulano é enviado para o decodificador que só sabe construir a face de Ciclano. O resultado é que a expressão (sorriso, piscada) de Fulano aparece no rosto de Ciclano.

O movimento é de um, a aparência de outro.

5. Refinamento com redes adversárias generativas (GANs)

O passo anterior produz imagens de baixa qualidade, borradas. As GANs melhoram o realismo.

Em como funciona uma deepfake, duas redes neurais competem: uma tenta criar a imagem falsa, a outra tenta detectar o falso. A competição força a primeira a melhorar até que a segunda não consiga mais distinguir.

O uso indevido de deepfakes vem gerando situações que extrapolam o ambiente digital e desembocam em consequências reais.

Não à toa, profissionais como um advogado criminal RJ já vêm acompanhando como a tecnologia tem sido tratada nos debates jurídicos, especialmente quando vídeos manipulados afetam a imagem e a reputação de pessoas comuns. O resultado são deepfakes quase indistinguíveis de vídeos reais.

6. Sincronização labial (para deepfakes de fala)

Se o objetivo é fazer a pessoa dizer palavras que nunca falou, é preciso casar o movimento dos lábios com o áudio.

Na compreensão de como funciona uma deepfake, uma rede neural separada analisa a relação entre som e formato da boca (fonemas). Ela gera movimentos faciais que correspondem à fala desejada.

O áudio pode ser gerado por clonagem de voz (outra IA). A roupa, o cenário e a iluminação são do vídeo original.

7. Renderização quadro a quadro

Vídeos são sequências de quadros (frames). O processo de deepfake é aplicado a cada quadro individualmente.

No passo final de como funciona uma deepfake, cada frame é processado, e a face falsa é sobreposta à original. O software suaviza as bordas da colagem e ajusta a iluminação para combinar com o ambiente.

O vídeo falso é então remontado e exportado.

8. Detecção de deepfake (a corrida armamentista)

Técnicas de detecção usam IAs para identificar micro-inconsistências que o olho humano não percebe: piscadas anormais, iluminação inconsistente, ruído de fundo.

Para entender como funciona uma deepfake, é preciso saber que a tecnologia de criação e de detecção evoluem juntas. O Facebook e a Microsoft promovem competições de detecção.

Deepfakes antigos deixavam a testa parada enquanto o rosto se mexia. Os modernos já corrigiram isso.

9. Deepfakes de áudio (clonagem de voz)

Não só o rosto é clonável. A voz também. Com 30 segundos de áudio de uma pessoa, a IA aprende e reproduz qualquer frase.

No entendimento de como funciona uma deepfake de voz, o golpe é tão perigoso quanto o vídeo. Já houve caso de diretor de empresa que transferiu R$ 1 milhão achando que estava falando com o chefe.

A clonagem de voz por IA é a próxima fronteira da desinformação. Com esses nove passos, você percebe que deepfake não é feitiçaria; é engenharia pesada. Até a próxima!