Por: Wired. 15/02/2025
OmniHuman-1 no está disponible para el público general. Pese a ello, el modelo han reavivado las preocupaciones en torno a los deepfakes.
ByteDance, la empresa matriz de TikTok, ha presentado OmniHuman-1, un nuevo modelo de inteligencia artificial (IA) capaz de generar videos hiperrealistas y de cuerpo completo a partir de una sola imagen. Este algoritmo puede replicar los gestos, los movimientos caporales y la voz de una persona utilizando una fotografía y un contenido multimedia de referencia.
OmniHuman-1 está basado en un transformador y diversos modelos de difusión, los cuales están diseñados para agregar sonido a una imagen y difuminar ambos elementos hasta alcanzar una apariencia natural. Esta arquitectura permite a la IA analizar múltiples elementos a lo largo del tiempo y procesar tanto detalles específicos como el contexto general.
Estas cuentas de TikTok usan la IA Generativa para reexplorar los clásicos del cine
TikTok ha entrado de lleno a competir en el llamado “mercado GenAI”. Y para muestra, estas escenas de cine clásico, pero en formato vertical.
OmniHuman-1 fue entrenado con más de 19,000 horas de video mediante una técnica denominada “entrenamiento mixto de condicionamiento de movimiento multimodal”, caracterizada por combinar materiales de distinta calidad y nivel de detalle. Los ingenieros de ByteDance aseguran que este enfoque resuelve la escasez de datos y permite al modelo beneficiarse de toda la información disponible para mejorar su rendimiento. “OmniHuman-1 supera significativamente los métodos existentes, generando videos humanos extremadamente realistas basados en entradas de señales débiles, especialmente audio. Admite entradas de imágenes de cualquier relación de aspecto, ya sean retratos, imágenes de medio cuerpo o de cuerpo completo, lo que brinda resultados más realistas y de alta calidad en varios escenarios”, explican.
Las funciones de la nueva IA permiten generar un video de una persona que se mueve, habla y gesticula a partir de una pista de audio y una sola fotografía con cualquier relación de aspecto y proporción corporal (retrato, medio cuerpo, cuerpo completo). Los desarrolladores destacan que los resultados que entrega el sistema son hiperrealistas, ya que OmniHuman-1 puede replicar aspectos esenciales como el movimiento natural del individuo, la iluminación de la escena y los detalles de las texturas presentes en las imágenes.
El modelo también puede generar clips basados en videos de referencia para imitar acciones específicas y modificar el movimiento de partes concretas del cuerpo. Sus capacidades de entrenamiento le permiten animar dibujos, objetos artificiales, animales y personajes antropomórficos.
Los ingenieros reconocen que el modelo aún presenta algunas limitaciones. Las imágenes de entrada de baja calidad pueden derivar en videos con movimientos poco naturales o detalles faciales borrosos. También pueden surgir problemas al procesar secuencias de movimiento complejas o inusuales.
Crecen las preocupaciones alrededor de los deepfakes
OmniHuman-1 no está disponible para el público general. Su alto costo de entrenamiento y ejecución restringe su accesibilidad. A pesar de ello, los resultados obtenidos por el equipo de ByteDance han reavivado las preocupaciones en torno a los riesgos vinculados con los deepfakes.
La proliferación de vídeos falsos y engañosos producidos con sistemas de inteligencia artificial creció un 550% entre 2019 y 2023, según Home Security Heroes, una organización de seguridad en línea. Se calcula que los casos de suplantación de identidad crecieron 3,000% en el mismo periodo.
La falta de regulación y el rápido avance de la tecnología han fortalecido esta problemática que afecta a las esferas sociales, culturales y económicas. Los expertos señalan que los mecanismos de gobernanza de las redes sociales juegan un papel crucial en la prevención de estas prácticas maliciosas. TikTok anunció el año pasado diversas medidas para limitar la propagación de deepfakes. Entre ellas destaca la integración de la tecnología de etiquetado Content Credentials, que permite agregar metadatos a los contenidos creados con IA, facilitando a los usuarios la identificación de su origen.
LEER EL ARTÍCULO ORIGINAL PULSANDO AQUÍ
Fotografía: wired. Extracto de un video creado con OmniHuman-1 sobre EinsteinByteDance