En la actualidad, la inteligencia artificial (IA) ha revolucionado la creación de imágenes generadas, dando lugar a soluciones tanto gratuitas como de pago que ofrecen una gran habilidad en la creación de imágenes de alta calidad.

Sin embargo, aplicar estos modelos al dominio del vídeo no ha sido tan directo debido al desafío de mantener la coherencia temporal en los frames (imágenes) generados. A este desafío se le denomina ‘consistencia temporal’ y es un obstáculo importante en la producción generativa de vídeos con IA.

Para comprender mejor este desafío, imaginemos, por ejemplo, cómo funciona una película. Las imágenes, plasmadas como ‘fotogramas’, se reproducen rápidamente una tras otra, siguiendo una secuencia para crear una historia visual coherente. Si bien a la IA le resulta muy fácil crear estas imágenes de manera individual, conseguir que fluyan de manera natural y lógica es un reto mucho más difícil. Si no se logra, puede dar lugar a vídeos que resulten extraños y poco realistas.

En los últimos dos meses varios actores del mercado han lanzado las últimas versiones de sus productos dando un salto cualitativo en la generación de vídeo.

Estrategias en la generación de vídeo con IA 

A la hora de la producción generativa de vídeo mediante IA, se han desarrollado varias estrategias:

De texto a vídeo

Una de las estrategias más fascinantes es la de poder transformar ideas escritas en contenido visual. Un buen ejemplo podría ser la de convertir un fragmento de una de nuestras novelas favoritas en una escena audiovisual, o crear un video publicitario a partir de una descripción de un producto y una lista de sus características más importantes.

RunwayML permite generar video a partir de textos.

De vídeo a vídeo guiado por texto 

Se trata de una técnica que modifica un vídeo para generar uno nuevo, todo ello guiado por una descripción textual.

Aquí se pueden ver varios ejemplos generados con la herramienta Text2Live.

De imagen a vídeo 

Esta estrategia consiste en la animación de imágenes estáticas para crear una secuencia de vídeo bajo el criterio de una IA.

DAIN-APP utiliza IA para crear vídeos a partir de imágenes estáticas.

De imagen a vídeo guiado por texto

Consiste en generar vídeo a partir de imágenes estáticas, tomando como guía una descripción textual.

Plataformas y herramientas 

Entre las plataformas disponibles para la generación de vídeo con IA destaca la potente opción gratuita RunwayML. Esta plataforma permite la generación de vídeo a partir de texto. Su funcionamiento es muy similar al de ChatGPT, iniciando con un prompt donde se describe la escena a generar.

Aunque las opciones gratuitas pueden no garantizar siempre la calidad deseada, para muchos casos y escenas específicas, puede ser suficiente.

Las opciones de pago ofrecen grandes mejoras en los resultados de la generación de vídeo con IA. Además de RunwayML, existen otras opciones como Genmo y Kaiver que son muy buenas elecciones.

Para quienes prefieran la opción de código abierto, Fu-Yun Wang G-U-N ofrece la posibilidad utilizar su implementación del algoritmo pix2video, y realizar entrenamientos personalizados para enfoques específicos.

Esta opción es mucho más compleja ya que requiere de hardware específico (tarjetas gráficas con GPUs muy potentes), conocimientos técnicos amplios y tiempo de entrenamiento de los modelos, pero los resultados son absolutamente profesionales y con un gran potencial.

A continuación, podemos ver una secuencia de vídeos en los que se puede ver el original y los vídeos generados a partir de éste:

Pikalabs: redefiniendo la creación de vídeos con IA

Y, como siempre estamos a la caza de las últimas innovaciones, ¡tenemos una primicia que compartir contigo!

Justo a finales de Julio de 2023, nos llegó una invitación especial por parte de Pikalabs, una empresa pionera en generar vídeos con inteligencia artificial. Nos ofrecieron un adelanto exclusivo de su producto que promete revolucionar la forma en que transformamos imágenes en vídeos. ¡Y, lo mejor de todo es que estará pronto al alcance de todos!

Nuestra experiencia con esta nueva herramienta ha sido una montaña rusa de emociones: hemos tenido la oportunidad de ver en acción su capacidad para animar las portadas de unos discos de vinilo. Para que puedas sentir el impacto por ti mismo, aquí te presentamos un breve vídeo:

Futuro y desafíos 

A pesar de los notables avances en la generación de video con inteligencia artificial, mantener la coherencia temporal en vídeos generados por más de 16 segundos sigue siendo un desafío crucial. A medida que aumenta la duración, la calidad de la imagen puede deteriorarse, llevando a resultados más surrealistas. Aunque las limitaciones persisten, los avances semanales en algoritmos y técnicas prometen un futuro emocionante para la generación de vídeos con IA.

Algunas estrategias que se están siguiendo para generar vídeos más largos consisten en la simple idea de concatenar vídeos pequeños para crear uno de más duración. Por ejemplo el siguiente vídeo, promocional de RunwayML, está generado completamente por IA:

La producción de vídeos con IA ha recorrido un emocionante camino, desde las primeras demostraciones hasta los avances actuales en plataformas y algoritmos. A medida que la tecnología evoluciona, surge la pregunta de cuánto tiempo pasará antes de que la IA pueda generar vídeos de mayor duración y calidad.

Estrategias como la concatenación de vídeos pequeños abren nuevas posibilidades, pero el futuro podría albergar un panorama en el que la IA sea capaz de crear contenido audiovisual de manera más autónoma, tal como lo sugiere Max Tegmark en su libro “Vida 3.0”.