Texto a vídeo fácil con AnimateDiff
AnimateDiff te permite crear vídeos fácilmente con Stable Diffusion. ¡Solo escribe un prompt, selecciona un modelo y activa AnimateDiff!
AnimateDiff es un recurso educativo y una demo en línea del módulo de movimiento de código abierto AnimateDiff. No está afiliado con los autores del artículo original de AnimateDiff ni con Stability AI.
Mira lo que crea AnimateDiff
Cómo el generador crea clips cortos
Generación de texto a vídeo
Con AnimateDiff, puedes proporcionar un prompt de texto que describa una escena, personaje o concepto, y generará un clip corto animando esa descripción. Esto permite crear animaciones conceptuales o visualizaciones de historias directamente desde texto.
Generación de imagen a vídeo
AnimateDiff admite la generación de imagen a vídeo donde proporcionas una imagen estática, y la anima añadiendo movimiento basado en los priors de movimiento aprendidos. Esto puede dar vida a imágenes fijas u obras de arte.
Animaciones en bucle
Además de clips cortos, AnimateDiff puede generar animaciones en bucle sin costuras a partir de entradas de texto o imagen. Pueden usarse como fondos animados, salvapantallas u obras de arte animadas creativas.
Edición/manipulación de vídeo
La implementación video2video de AnimateDiff utiliza ControlNet para permitir la edición de vídeos existentes mediante prompts de texto. Podrías eliminar, añadir o manipular elementos en un vídeo guiados por tus descripciones de texto.
Animaciones personalizadas
Combinado con técnicas como DreamBooth o LoRA, AnimateDiff permite animar sujetos, personajes u objetos personalizados entrenados con imágenes/conjuntos de datos específicos.
Flujos de trabajo creativos
Los artistas y creadores pueden integrar AnimateDiff en sus flujos de trabajo creativos, usándolo para visualizar rápidamente conceptos animados, storyboards o animáticas a partir de entradas de texto e imagen durante la fase de ideación.
Aunque no es una herramienta de edición de vídeo completa, AnimateDiff ofrece una forma única de generar nuevo contenido de vídeo a partir de entradas de texto e imagen aprovechando el poder de los modelos de difusión y los priors de movimiento aprendidos. Sus salidas pueden usarse como punto de partida para más edición y posprocesamiento de vídeo.
AnimateDiff: un creador de texto a vídeo que aporta movimiento a los modelos de difusión
AnimateDiff permite la generación de texto a vídeo, dejándote crear clips cortos o animaciones directamente desde prompts de texto. Así funciona el proceso:
Prompt de texto: Proporcionas una descripción de texto de la escena, personajes, acciones o conceptos que quieres ver animados.
Modelo base de texto a imagen: AnimateDiff utiliza un modelo de difusión de texto a imagen preentrenado como Stable Diffusion como columna vertebral para generar los fotogramas iniciales según tu prompt de texto. El modelo base controla el estilo, la identidad del personaje y el detalle del sujeto; usa modelos checkpoint como ToonYou o Realistic Vision antes de aplicar el módulo.
Módulo de movimiento: En el núcleo de AnimateDiff hay un módulo de movimiento entrenado con vídeos del mundo real para aprender patrones generales de movimiento y dinámica. Este módulo es independiente del modelo de difusión base.
Animación de fotogramas: AnimateDiff combina el modelo de difusión base y el módulo de movimiento. Primero genera fotogramas clave a partir de tu prompt de texto usando el modelo de difusión. Luego el módulo interpola fotogramas intermedios entre estas claves, aplicando los priors de movimiento aprendidos para animar la escena.
Salida de vídeo: La salida resultante es un clip corto que representa los conceptos descritos en tu prompt de texto, con los elementos animados mostrando movimiento natural aprendido de vídeos reales.
Algunas ventajas clave de AnimateDiff para la generación de texto a vídeo son
Puede animar cualquier modelo de texto a imagen sin reentrenamiento o ajuste extenso específico para vídeo.
Puedes guiar la animación mediante el prompt de texto que describe acciones, movimientos de cámara, etc.
Más rápido que entrenar modelos monolíticos de texto a vídeo desde cero.
Sin embargo, las animaciones no siempre son perfectas y pueden mostrar artefactos, especialmente en movimientos complejos. Pero AnimateDiff ofrece una forma poderosa de visualizar directamente descripciones de texto como animaciones aprovechando modelos de difusión preentrenados.
AnimateDiff: un creador de imagen a vídeo que da vida a los visuales estáticos
AnimateDiff también puede usarse para la generación de imagen a vídeo, dejándote animar imágenes estáticas existentes añadiendo movimiento y dinámica. Así funciona:
Imagen de entrada: Proporcionas una imagen estática que quieres animar. Puede ser una fotografía, una obra de arte digital o una salida de modelo de difusión.
Modelo base de imagen a imagen: AnimateDiff utiliza un modelo de difusión de imagen a imagen preentrenado como la capacidad img2img de Stable Diffusion como columna vertebral.
Módulo de movimiento: Se usa el mismo módulo de movimiento entrenado con vídeos del mundo real para aprender patrones generales de movimiento.
Animación desde la entrada: AnimateDiff toma la imagen de entrada y usa el modelo de difusión de imagen a imagen para generar ligeras variaciones que sirven como fotogramas clave.
Aplicación del movimiento: El módulo de movimiento interpola fotogramas intermedios entre estos fotogramas clave, aplicando la dinámica de animación aprendida para animar los elementos de la imagen de entrada.
Salida de vídeo: El resultado final es un clip de vídeo donde la imagen estática original ha cobrado vida con movimiento y animación naturales.
Algunas ventajas clave de AnimateDiff para la generación de imagen a vídeo son:
Aunque no es tan controlable como el caso de texto a vídeo, la imagen a vídeo con AnimateDiff ofrece una forma fácil de añadir dinámica a imágenes fijas existentes aprovechando el poder de los modelos de difusión y los priors de movimiento aprendidos.
Funciona con tus estilos favoritos
Estos son solo estilos de ejemplo: AnimateDiff no es una herramienta de un solo aspecto. Aporta movimiento a las estéticas distintivas de tus modelos Stable Diffusion preferidos.
qué es AnimateDiff
AnimateDiff es una herramienta de IA que puede convertir una imagen estática o un prompt de texto en un vídeo animado generando una secuencia de imágenes que transicionan suavemente. Funciona utilizando modelos Stable Diffusion junto con módulos de movimiento separados para predecir el movimiento entre fotogramas. AnimateDiff permite a los usuarios crear fácilmente clips animados cortos sin necesidad de crear manualmente cada fotograma.

Cómo hacer un vídeo con AnimateDiff en 4 pasos
Elige un modelo / estilo base
Elige el aspecto que quieres — anime, realista, cartoon, tinta — de los modelos Stable Diffusion compatibles.
Escribe tu prompt
Describe la escena, sujeto, acción y movimiento de cámara que quieres animar.
Establece duración y FPS
Elige el número de fotogramas y la tasa de fotogramas para controlar la duración y la fluidez del clip.
Genera y descarga
Ejecuta AnimateDiff, previsualiza el resultado en bucle y exporta tu animación.
Las capacidades de AnimateDiff de un vistazo
| Característica | Qué hace | Cuándo usar |
|---|---|---|
| Módulos de movimiento v1/v2/v3/SDXL | Diferentes priors de movimiento entrenados para variar calidad y resolución | Adapta el módulo a tu modelo base y resolución objetivo |
| Prompt Travel | Transición suave entre prompts a través de fotogramas | Crea escenas en evolución o sujetos en transformación |
| Motion LoRA | Añade movimientos de cámara específicos como zoom/paneo/giro | Dirige movimiento de cámara cinematográfico |
| ControlNet | Guía el movimiento y la estructura con entradas de referencia | Mantén pose/composición consistente |
| Bucle cerrado | Haz que la animación se repita sin costuras | Clips en bucle perfectos estilo GIF |
| Interpolación de fotogramas | Inserta fotogramas intermedios para un movimiento más suave | Aumenta los FPS percibidos sin regenerar |
| Hi-Res fix | Escala preservando el detalle del movimiento | Salida más nítida y de mayor resolución |
| Aceleración LCM / SDXL Turbo | Menos pasos para una generación más rápida | Iteración rápida y vistas previas |
AnimateDiff puede generar animaciones solo a partir de prompts de texto. Los usuarios pueden subir una imagen y AnimateDiff predecirá el movimiento para generar una animación. Los usuarios no necesitan crear manualmente cada fotograma, ya que AnimateDiff genera automáticamente la secuencia de imágenes. AnimateDiff puede integrarse sin problemas con Stable Diffusion y aprovechar sus potentes capacidades de generación de imágenes.
Utiliza un módulo de movimiento preentrenado junto con un modelo de generación de imágenes Stable Diffusion. El módulo de movimiento se entrena con un conjunto diverso de clips cortos para aprender movimientos y transiciones comunes. Al generar un vídeo, el módulo de movimiento toma un prompt de texto y los fotogramas anteriores como entrada. Luego predice el movimiento y la dinámica de la escena para transicionar entre fotogramas suavemente. Estas predicciones se pasan a Stable Diffusion para generar el contenido real de la imagen en cada fotograma. Stable Diffusion crea imágenes que coinciden con el prompt de texto mientras se ajustan al movimiento predicho por el módulo. Este proceso coordinado da como resultado una secuencia de imágenes que forman una animación suave y de alta calidad a partir de la descripción de texto. Al aprovechar tanto la predicción de movimiento como la síntesis de imágenes, AnimateDiff automatiza la generación de vídeo animado.
Arte y animación: los artistas/animadores pueden prototipar rápidamente animaciones y bocetos animados a partir de prompts de texto, ahorrando un esfuerzo manual significativo. Visualización de conceptos: ayuda a visualizar conceptos e ideas abstractas convirtiéndolos en animaciones, útil para storyboarding. Desarrollo de juegos: puede generar rápidamente movimiento y animaciones de personajes para prototipar mecánicas de juego. Gráficos dinámicos: crea gráficos animados para anuncios, presentaciones y publicaciones sociales. Realidad aumentada: anima personajes y objetos AR generando movimiento más fluido y natural. Previsualización: previsualiza escenas complejas con animación antes de filmar o renderizar la producción final. Educación: crea explicaciones y demostraciones de conceptos como vídeos animados atractivos. Redes sociales: genera publicaciones e historias animadas pegadizas simplemente describiéndolas en texto. La capacidad de pasar directamente de texto/imágenes a animación abre muchas posibilidades para una creación de animación más fácil y rápida en varios dominios.
Puedes usar la herramienta gratis en el sitio web animatediff.net sin necesitar tus propios recursos informáticos ni conocimientos de programación. En el sitio, simplemente introduces un prompt de texto que describe la animación que quieres crear. Luego generará automáticamente un GIF animado corto a partir de tu prompt de texto usando capacidades de IA de última generación. Todo el proceso ocurre en línea y puedes descargar la animación resultante para usarla como quieras. Esto ofrece una forma fácil de experimentar los poderes de animación de AnimateDiff sin configuración. ¡Puedes empezar a crear animaciones impulsadas por IA desde tu imaginación en solo unos clics!
Se requiere una GPU Nvidia, idealmente con al menos 8 GB de VRAM para la generación de texto a vídeo. Se necesitan 10+ GB de VRAM para vídeo a vídeo. Se necesita una GPU lo suficientemente potente para la inferencia, como una RTX 3060 o mejor. Windows o Linux; macOS puede funcionar a través de Docker, y Google Colab también es una opción. Se recomienda un mínimo de 16 GB de RAM del sistema. Se requiere una cantidad decente de almacenamiento para guardar secuencias de imágenes, vídeos y archivos de modelos. Funciona con AUTOMATIC1111 o Google Colab y requiere instalar Python y otras dependencias. Actualmente solo es compatible con modelos Stable Diffusion v1.5, incluidos modelos checkpoint SD 1.5, modelos personalizados, estilos LoRA/DreamBooth y variantes de modelos específicas de SDXL.
Inicia la interfaz web AUTOMATIC1111 normalmente. Ve a la página de Extensiones y haz clic en la pestaña «Install from URL». En el campo URL, introduce la URL de GitHub de la extensión AnimateDiff: https://github.com/continue-revolution/sd-webui-animatediff. Espera la confirmación de que la instalación está completa, luego reinicia la interfaz web AUTOMATIC1111. La extensión debería aparecer ahora en las pestañas txt2img e img2img. Descarga los módulos de movimiento requeridos y colócalos en las carpetas adecuadas como se explica en la documentación, luego reinicia AUTOMATIC1111 de nuevo. ¡Ahora la extensión está lista para usarse para generar vídeos animados en AUTOMATIC1111!
El bucle cerrado hace que el primer y último fotograma sean idénticos para crear un vídeo en bucle sin costuras. Reverse frames duplica la duración del clip añadiendo fotogramas en orden inverso. La interpolación de fotogramas aumenta la tasa de fotogramas para que el movimiento se vea más suave. El tamaño del lote de contexto controla la coherencia temporal entre fotogramas. Motion LoRA añade movimientos de cámara como paneo y zoom. ControlNet dirige la animación según los movimientos de un vídeo de referencia. Imagen a imagen permite definir fotogramas de inicio y fin para más control sobre la composición. Los FPS y el número de fotogramas controlan la velocidad y la duración total de la animación. Los módulos de movimiento producen patrones de movimiento distintos. Estas configuraciones controlan el estilo, la fluidez, los movimientos de cámara, la velocidad y la duración.
Rango de movimiento limitado: el movimiento está restringido por lo que hay en los datos de entrenamiento, por lo que no puede animar movimientos muy complejos o inusuales no vistos en el conjunto de entrenamiento. Movimientos genéricos: la salida no está adaptada específicamente al prompt y tiende a producir movimientos genéricos vagamente relacionados con él. A veces pueden aparecer artefactos a medida que aumenta el movimiento. Compatibilidad: actualmente solo funciona con modelos Stable Diffusion v1.5, no SD v2.0. La calidad del movimiento depende en gran medida de la diversidad y relevancia de los datos de entrenamiento. Obtener un movimiento suave y de alta calidad requiere ajustar muchas configuraciones como el tamaño del lote, los FPS y los fotogramas. Mantener la coherencia temporal en clips largos sigue siendo un desafío. A medida que la tecnología madure, podemos esperar que muchos de estos problemas se resuelvan.
¿Listo para animar tu idea?
Empieza hoy a convertir tus textos e imágenes en vídeos cautivadores con AnimateDiff.
Probar AnimateDiff gratis