Łatwy tekst na wideo z AnimateDiff
AnimateDiff pozwala łatwo tworzyć wideo za pomocą Stable Diffusion. Wystarczy napisać prompt, wybrać model i aktywować AnimateDiff!
AnimateDiff to materiał edukacyjny i demo online otwartoźródłowego modułu ruchu AnimateDiff. Nie jest powiązany z autorami oryginalnej publikacji AnimateDiff ani ze Stability AI.
Zobacz, co tworzy AnimateDiff
Jak generator tworzy krótkie klipy
Generowanie tekstu na wideo
Z AnimateDiff możesz podać prompt tekstowy opisujący scenę, postać lub koncept, a wygeneruje on krótki klip animujący ten opis. Pozwala to tworzyć animacje koncepcyjne lub wizualizacje historii bezpośrednio z tekstu.
Generowanie obrazu na wideo
AnimateDiff obsługuje generowanie obrazu na wideo, gdzie podajesz statyczny obraz, a on go animuje, dodając ruch na podstawie wyuczonych priorów ruchu. Może to ożywić nieruchome obrazy lub dzieła sztuki.
Animacje w pętli
Oprócz krótkich klipów AnimateDiff może generować bezszwowe animacje w pętli z wejść tekstowych lub obrazowych. Mogą być używane jako animowane tła, wygaszacze ekranu lub kreatywne animowane dzieła sztuki.
Edycja/manipulacja wideo
Implementacja video2video AnimateDiff wykorzystuje ControlNet, aby umożliwić edycję istniejących wideo za pomocą promptów tekstowych. Możesz potencjalnie usuwać, dodawać lub manipulować elementami w wideo kierowany swoimi opisami tekstowymi.
Spersonalizowane animacje
W połączeniu z technikami takimi jak DreamBooth lub LoRA, AnimateDiff pozwala animować spersonalizowane obiekty, postacie lub przedmioty wytrenowane na konkretnych obrazach/zbiorach danych.
Kreatywne przepływy pracy
Artyści i twórcy mogą zintegrować AnimateDiff ze swoimi kreatywnymi przepływami pracy, używając go do szybkiej wizualizacji animowanych konceptów, storyboardów lub animatik z wejść tekstowych i obrazowych podczas fazy ideacji.
Choć nie jest pełnoprawnym narzędziem do edycji wideo, AnimateDiff oferuje unikalny sposób generowania nowych treści wideo z wejść tekstowych i obrazowych, wykorzystując moc modeli dyfuzyjnych i wyuczonych priorów ruchu. Jego wyniki mogą służyć jako punkt wyjścia do dalszej edycji i postprodukcji wideo.
AnimateDiff: kreator tekstu na wideo wnoszący ruch do modeli dyfuzyjnych
AnimateDiff umożliwia generowanie tekstu na wideo, pozwalając tworzyć krótkie klipy lub animacje bezpośrednio z promptów tekstowych. Oto jak działa ten proces:
Prompt tekstowy: Podajesz tekstowy opis sceny, postaci, akcji lub konceptów, które chcesz zobaczyć animowane.
Bazowy model tekst-na-obraz: AnimateDiff wykorzystuje wstępnie wytrenowany model dyfuzyjny tekst-na-obraz, taki jak Stable Diffusion, jako szkielet do generowania początkowych klatek na podstawie twojego promptu tekstowego. Model bazowy kontroluje styl, tożsamość postaci i szczegóły obiektu; użyj modeli checkpoint takich jak ToonYou lub Realistic Vision przed zastosowaniem modułu.
Moduł ruchu: Sercem AnimateDiff jest moduł ruchu wytrenowany na rzeczywistych wideo, aby nauczyć się ogólnych wzorców ruchu i dynamiki. Ten moduł jest niezależny od bazowego modelu dyfuzyjnego.
Animowanie klatek: AnimateDiff łączy bazowy model dyfuzyjny i moduł ruchu. Najpierw generuje klatki kluczowe z twojego promptu tekstowego za pomocą modelu dyfuzyjnego. Następnie moduł interpoluje klatki pośrednie między tymi kluczami, stosując wyuczone priory ruchu, aby animować scenę.
Wyjście wideo: Wynikowym wyjściem jest krótki klip przedstawiający koncepty opisane w twoim promcie tekstowym, w którym animowane elementy wykazują naturalny ruch wyuczony z rzeczywistych wideo.
Niektóre kluczowe zalety AnimateDiff dla generowania tekstu na wideo to
Może animować dowolny model tekst-na-obraz bez rozległego ponownego trenowania lub dostrajania specyficznego dla wideo.
Możesz kierować animacją za pomocą promptu tekstowego opisującego akcje, ruchy kamery itp.
Szybszy niż trenowanie monolitycznych modeli tekst-na-wideo od zera.
Jednak animacje nie zawsze są idealne i mogą wykazywać artefakty, szczególnie przy złożonych ruchach. Ale AnimateDiff oferuje potężny sposób bezpośredniej wizualizacji opisów tekstowych jako animacji, wykorzystując wstępnie wytrenowane modele dyfuzyjne.
AnimateDiff: kreator obrazu na wideo tchnący życie w statyczne wizualizacje
AnimateDiff może być również używany do generowania obrazu na wideo, pozwalając animować istniejące statyczne obrazy poprzez dodanie ruchu i dynamiki. Oto jak to działa:
Obraz wejściowy: Podajesz statyczny obraz, który chcesz animować. Może to być fotografia, cyfrowe dzieło sztuki lub wyjście modelu dyfuzyjnego.
Bazowy model obraz-na-obraz: AnimateDiff wykorzystuje wstępnie wytrenowany model dyfuzyjny obraz-na-obraz, taki jak funkcja img2img Stable Diffusion, jako szkielet.
Moduł ruchu: Używany jest ten sam moduł ruchu wytrenowany na rzeczywistych wideo do nauki ogólnych wzorców ruchu.
Animowanie z wejścia: AnimateDiff bierze obraz wejściowy i używa modelu dyfuzyjnego obraz-na-obraz do wygenerowania niewielkich wariacji, które służą jako klatki kluczowe.
Stosowanie ruchu: Moduł ruchu interpoluje następnie klatki pośrednie między tymi klatkami kluczowymi, stosując wyuczoną dynamikę animacji, aby animować elementy obrazu wejściowego.
Wyjście wideo: Końcowym wynikiem jest klip wideo, w którym oryginalny statyczny obraz wejściowy ożył dzięki naturalnemu ruchowi i animacji.
Niektóre kluczowe zalety AnimateDiff dla generowania obrazu na wideo to:
Choć nie tak kontrolowalny jak przypadek tekst-na-wideo, obraz-na-wideo z AnimateDiff oferuje łatwy sposób dodawania dynamiki do istniejących nieruchomych obrazów, wykorzystując moc modeli dyfuzyjnych i wyuczonych priorów ruchu.
Działa z twoimi ulubionymi stylami
To tylko przykładowe style — AnimateDiff nie jest narzędziem o jednym wyglądzie. Wnosi ruch do charakterystycznych estetyk twoich preferowanych modeli Stable Diffusion.
czym jest AnimateDiff
AnimateDiff to narzędzie AI, które może zamienić statyczny obraz lub prompt tekstowy w animowane wideo, generując sekwencję obrazów płynnie przechodzących jeden w drugi. Działa, wykorzystując modele Stable Diffusion wraz z osobnymi modułami ruchu do przewidywania ruchu między klatkami. AnimateDiff pozwala użytkownikom łatwo tworzyć krótkie animowane klipy bez konieczności ręcznego tworzenia każdej klatki.

Jak zrobić wideo z AnimateDiff w 4 krokach
Wybierz model / styl bazowy
Wybierz wygląd, którego chcesz — anime, realistyczny, cartoon, tusz — spośród obsługiwanych modeli Stable Diffusion.
Napisz swój prompt
Opisz scenę, obiekt, akcję i ruch kamery, które chcesz animować.
Ustaw długość i FPS
Wybierz liczbę klatek i liczbę klatek na sekundę, aby kontrolować długość i płynność klipu.
Generuj i pobierz
Uruchom AnimateDiff, podejrzyj wynik w pętli i wyeksportuj swoją animację.
Możliwości AnimateDiff w skrócie
| Funkcja | Co robi | Kiedy używać |
|---|---|---|
| Moduły ruchu v1/v2/v3/SDXL | Różne wytrenowane priory ruchu dla zmiennej jakości i rozdzielczości | Dopasuj moduł do modelu bazowego i docelowej rozdzielczości |
| Prompt Travel | Płynne przejście między promptami w klatkach | Twórz ewoluujące sceny lub przekształcające się obiekty |
| Motion LoRA | Dodaj określone ruchy kamery jak zoom/pan/obrót | Steruj filmowym ruchem kamery |
| ControlNet | Kieruj ruchem i strukturą za pomocą wejść referencyjnych | Zachowaj spójną pozę/kompozycję |
| Zamknięta pętla | Spraw, by animacja zapętlała się bezszwowo | Idealne klipy w pętli w stylu GIF |
| Interpolacja klatek | Wstaw klatki pośrednie dla płynniejszego ruchu | Zwiększ odczuwalny FPS bez ponownego generowania |
| Hi-Res fix | Skaluj, zachowując szczegóły ruchu | Ostrzejsze wyjście o wyższej rozdzielczości |
| Przyspieszenie LCM / SDXL Turbo | Mniej kroków dla szybszego generowania | Szybkie iteracje i podglądy |
AnimateDiff może generować animacje wyłącznie z promptów tekstowych. Użytkownicy mogą przesłać obraz, a AnimateDiff przewidzi ruch, aby wygenerować animację. Użytkownicy nie muszą ręcznie tworzyć każdej klatki, ponieważ AnimateDiff automatycznie generuje sekwencję obrazów. AnimateDiff można bezproblemowo zintegrować ze Stable Diffusion i wykorzystać jego potężne możliwości generowania obrazów.
Wykorzystuje wstępnie wytrenowany moduł ruchu wraz z modelem generowania obrazów Stable Diffusion. Moduł ruchu jest trenowany na różnorodnym zestawie krótkich klipów, aby nauczyć się typowych ruchów i przejść. Podczas generowania wideo moduł ruchu przyjmuje prompt tekstowy i poprzedzające klatki jako wejście. Następnie przewiduje ruch i dynamikę sceny, aby płynnie przechodzić między klatkami. Te przewidywania są przekazywane do Stable Diffusion w celu wygenerowania rzeczywistej zawartości obrazu w każdej klatce. Stable Diffusion tworzy obrazy zgodne z promptem tekstowym, jednocześnie dostosowując się do ruchu przewidzianego przez moduł. Ten skoordynowany proces daje sekwencję obrazów tworzących płynną, wysokiej jakości animację z opisu tekstowego. Wykorzystując zarówno przewidywanie ruchu, jak i syntezę obrazów, AnimateDiff automatyzuje generowanie animowanego wideo.
Sztuka i animacja: artyści/animatorzy mogą szybko prototypować animacje i animowane szkice z promptów tekstowych, oszczędzając znaczny wysiłek manualny. Wizualizacja konceptów: pomaga wizualizować abstrakcyjne koncepty i pomysły, zamieniając je w animacje, przydatne przy storyboardingu. Tworzenie gier: może szybko generować ruch i animacje postaci do prototypowania mechanik gry. Dynamiczna grafika: twórz animowane grafiki do reklam, prezentacji i postów społecznościowych. Rzeczywistość rozszerzona: animuj postacie i obiekty AR, generując płynniejszy i bardziej naturalny ruch. Pre-wizualizacja: podglądaj złożone sceny z animacją przed filmowaniem lub renderowaniem finalnej produkcji. Edukacja: twórz wyjaśnienia i demonstracje konceptów jako angażujące animowane wideo. Media społecznościowe: generuj chwytliwe animowane posty i relacje, po prostu opisując je tekstem. Możliwość przejścia bezpośrednio z tekstu/obrazów do animacji otwiera wiele możliwości łatwiejszego i szybszego tworzenia animacji w wielu dziedzinach.
Możesz korzystać z narzędzia za darmo na stronie animatediff.net bez potrzeby posiadania własnych zasobów obliczeniowych ani wiedzy programistycznej. Na stronie po prostu wpisujesz prompt tekstowy opisujący animację, którą chcesz stworzyć. Następnie automatycznie wygeneruje krótki animowany GIF z twojego promptu tekstowego, używając najnowocześniejszych możliwości AI. Cały proces odbywa się online i możesz pobrać powstałą animację, aby używać jej według uznania. To oferuje łatwy sposób na doświadczenie mocy animacji AnimateDiff bez konfiguracji. Możesz zacząć tworzyć animacje napędzane AI z twojej wyobraźni w zaledwie kilka kliknięć!
Wymagana jest karta GPU Nvidia, najlepiej z co najmniej 8 GB VRAM do generowania tekstu na wideo. 10+ GB VRAM potrzebne do wideo na wideo. Potrzebna jest wystarczająco wydajna karta GPU do inferencji, jak RTX 3060 lub lepsza. Windows lub Linux; macOS może działać przez Docker, a Google Colab jest również opcją. Zalecane minimum 16 GB pamięci RAM systemu. Wymagana jest przyzwoita ilość pamięci masowej do zapisywania sekwencji obrazów, wideo i plików modeli. Działa z AUTOMATIC1111 lub Google Colab i wymaga instalacji Pythona oraz innych zależności. Obecnie kompatybilny tylko z modelami Stable Diffusion v1.5, w tym modelami checkpoint SD 1.5, modelami spersonalizowanymi, stylami LoRA/DreamBooth i wariantami modeli specyficznymi dla SDXL.
Uruchom interfejs webowy AUTOMATIC1111 normalnie. Przejdź do strony Extensions i kliknij kartę «Install from URL». W polu URL wprowadź adres GitHub rozszerzenia AnimateDiff: https://github.com/continue-revolution/sd-webui-animatediff. Poczekaj na potwierdzenie zakończenia instalacji, a następnie zrestartuj interfejs webowy AUTOMATIC1111. Rozszerzenie powinno teraz pojawić się na kartach txt2img i img2img. Pobierz wymagane moduły ruchu i umieść je w odpowiednich folderach, jak wyjaśniono w dokumentacji, a następnie ponownie zrestartuj AUTOMATIC1111. Teraz rozszerzenie jest gotowe do użycia do generowania animowanych wideo w AUTOMATIC1111!
Zamknięta pętla sprawia, że pierwsza i ostatnia klatka są identyczne, tworząc bezszwowe wideo w pętli. Reverse frames podwaja długość klipu, dołączając klatki w odwrotnej kolejności. Interpolacja klatek zwiększa liczbę klatek na sekundę, aby ruch wyglądał płynniej. Rozmiar partii kontekstu kontroluje spójność czasową między klatkami. Motion LoRA dodaje ruchy kamery jak panoramowanie i zoom. ControlNet kieruje animacją na podstawie ruchów wideo referencyjnego. Obraz-na-obraz pozwala definiować klatki początkowe i końcowe dla większej kontroli nad kompozycją. FPS i liczba klatek kontrolują prędkość i całkowitą długość animacji. Moduły ruchu produkują odrębne wzorce ruchu. Te ustawienia kontrolują styl, płynność, ruchy kamery, prędkość i długość.
Ograniczony zakres ruchu: ruch jest ograniczony tym, co znajduje się w danych treningowych, więc nie może animować bardzo złożonych lub nietypowych ruchów niewidzianych w zestawie treningowym. Ogólne ruchy: wyjście nie jest dostosowane konkretnie do promptu i ma tendencję do produkowania ogólnych ruchów luźno z nim związanych. Artefakty mogą czasami pojawiać się wraz ze wzrostem ruchu. Kompatybilność: obecnie działa tylko z modelami Stable Diffusion v1.5, nie SD v2.0. Jakość ruchu w dużym stopniu zależy od różnorodności i adekwatności danych treningowych. Uzyskanie płynnego, wysokiej jakości ruchu wymaga dostrojenia wielu ustawień, takich jak rozmiar partii, FPS i klatki. Utrzymanie spójności czasowej w długich klipach wciąż stanowi wyzwanie. W miarę dojrzewania technologii możemy oczekiwać, że wiele z tych problemów zostanie rozwiązanych.
Gotowy, by animować swój pomysł?
Zacznij już dziś zamieniać swoje teksty i obrazy w urzekające wideo z AnimateDiff.
Wypróbuj AnimateDiff za darmo