AnimateDiffで簡単テキスト動画
AnimateDiffを使えば、Stable Diffusionで簡単に動画を作成できます。プロンプトを書き、モデルを選び、AnimateDiffを有効にするだけ!
AnimateDiffは、オープンソースのAnimateDiffモーションモジュールの教育リソース兼オンラインデモです。オリジナルのAnimateDiff論文の著者やStability AIとは提携していません。
AnimateDiffが作るものを見る
ジェネレーターが短いクリップを作る仕組み
テキスト動画生成
AnimateDiffでは、シーン、キャラクター、コンセプトを説明するテキストプロンプトを与えると、その説明をアニメ化した短いクリップを生成します。これにより、テキストから直接コンセプトアニメーションやストーリーの視覚化を作成できます。
画像動画生成
AnimateDiffは、静止画像を与えると学習したモーションプライアに基づいて動きを追加してアニメ化する、画像動画生成をサポートします。静止画像やアートワークに命を吹き込むことができます。
ループアニメーション
短いクリップに加えて、AnimateDiffはテキストや画像入力からシームレスなループアニメーションを生成できます。アニメーション背景、スクリーンセーバー、クリエイティブなアニメアートとして使用できます。
動画編集/操作
AnimateDiffのvideo2video実装はControlNetを利用し、テキストプロンプトで既存動画の編集を可能にします。テキスト記述にガイドされて、動画内の要素を削除、追加、操作できる可能性があります。
パーソナライズドアニメーション
DreamBoothやLoRAのような技術と組み合わせると、AnimateDiffは特定の画像/データセットで学習したパーソナライズされた被写体、キャラクター、オブジェクトをアニメ化できます。
クリエイティブワークフロー
アーティストやクリエイターはAnimateDiffをクリエイティブワークフローに組み込み、アイデア段階でテキストや画像入力からアニメーションのコンセプト、ストーリーボード、アニマティクスを素早く視覚化できます。
本格的な動画編集ツールではありませんが、AnimateDiffは拡散モデルと学習したモーションプライアの力を活用して、テキストや画像入力から新しい動画コンテンツを生成する独自の方法を提供します。その出力は、さらなる動画編集やポストプロセスの出発点として使用できます。
AnimateDiff:拡散モデルに動きをもたらすテキスト動画メーカー
AnimateDiffはテキスト動画生成を可能にし、テキストプロンプトから直接短いクリップやアニメーションを作成できます。プロセスの仕組みは次のとおりです:
テキストプロンプト: アニメ化したいシーン、キャラクター、アクション、コンセプトのテキスト記述を提供します。
ベースとなるテキスト画像モデル: AnimateDiffはStable Diffusionのような事前学習済みのテキスト画像拡散モデルをバックボーンとして利用し、テキストプロンプトに基づいて初期の画像フレームを生成します。ベースモデルはスタイル、キャラクターのアイデンティティ、被写体の詳細を制御します。モジュールを適用する前にToonYouやRealistic Visionなどのチェックポイントモデルを使用してください。
モーションモジュール: AnimateDiffの中核は、一般的な動きのパターンとダイナミクスを学習するために実世界の動画で学習されたモーションモジュールです。このモジュールはベース拡散モデルに依存しません。
フレームのアニメ化: AnimateDiffはベース拡散モデルとモーションモジュールを組み合わせます。まず拡散モデルでテキストプロンプトからキーフレームを生成します。次にモジュールがこれらのキー間の中間フレームを補間し、学習した動きのプライアを適用してシーンをアニメ化します。
動画出力: 結果として得られる出力は、テキストプロンプトで記述されたコンセプトを描いた短いクリップで、アニメ化された要素が実世界の動画から学習した自然な動きを示します。
テキスト動画生成におけるAnimateDiffの主な利点は次のとおりです
動画専用の大規模な再学習や微調整なしで、あらゆるテキスト画像モデルをアニメ化できます。
アクションやカメラの動きなどを記述したテキストプロンプトでアニメーションをガイドできます。
モノリシックなテキスト動画モデルをゼロから学習するよりも高速です。
ただし、アニメーションは常に完璧ではなく、特に複雑な動きではアーティファクトが現れることがあります。しかしAnimateDiffは、事前学習済みの拡散モデルを活用してテキスト記述をアニメーションとして直接視覚化する強力な方法を提供します。
AnimateDiff:静的なビジュアルに命を吹き込む画像動画メーカー
AnimateDiffは画像動画生成にも使用でき、動きとダイナミクスを追加して既存の静止画像をアニメ化できます。その仕組みは次のとおりです:
入力画像: アニメ化したい静止画像を提供します。写真、デジタルアートワーク、拡散モデルの出力などです。
ベースとなる画像画像モデル: AnimateDiffはStable Diffusionのimg2img機能のような事前学習済みの画像画像拡散モデルをバックボーンとして利用します。
モーションモジュール: 一般的な動きのパターンを学習するために実世界の動画で学習された同じモーションモジュールが使用されます。
入力からのアニメ化: AnimateDiffは入力画像を取り、画像画像拡散モデルを使用してキーフレームとして機能するわずかなバリエーションを生成します。
動きの適用: モーションモジュールはこれらのキーフレーム間の中間フレームを補間し、学習したアニメーションダイナミクスを適用して入力画像の要素をアニメ化します。
動画出力: 最終結果は、元の静止入力画像が自然な動きとアニメーションで命を吹き込まれた動画クリップです。
画像動画生成におけるAnimateDiffの主な利点は次のとおりです:
テキスト動画の場合ほど制御しやすくはありませんが、AnimateDiffによる画像動画は、拡散モデルと学習したモーションプライアの力を活用して既存の静止画像にダイナミクスを追加する簡単な方法を提供します。
お好みのスタイルで動作
これらは単なるスタイルの例です。AnimateDiffは一つの見た目だけのツールではありません。お好みのStable Diffusionモデルの独特な美学に動きをもたらします。
AnimateDiffとは
AnimateDiffは、滑らかに遷移する画像のシーケンスを生成することで、静止画像やテキストプロンプトをアニメーション動画に変えることができるAIツールです。Stable Diffusionモデルと別個のモーションモジュールを利用してフレーム間の動きを予測することで機能します。AnimateDiffは、各フレームを手動で作成することなく、ユーザーが短いアニメクリップを簡単に作成できるようにします。

AnimateDiffで4ステップで動画を作る方法
ベースモデル/スタイルを選ぶ
サポートされているStable Diffusionモデルから、アニメ、リアル、カートゥーン、墨など、希望の見た目を選びます。
プロンプトを書く
アニメ化したいシーン、被写体、アクション、カメラの動きを記述します。
長さとFPSを設定
フレーム数とフレームレートを選んで、クリップの長さと滑らかさを制御します。
生成してダウンロード
AnimateDiffを実行し、ループ結果をプレビューして、アニメーションをエクスポートします。
AnimateDiffの機能を一目で
| 機能 | 何をするか | いつ使うか |
|---|---|---|
| モーションモジュール v1/v2/v3/SDXL | 品質や解像度に応じた、異なる学習済みモーションプライア | ベースモデルとターゲット解像度にモジュールを合わせる |
| Prompt Travel | フレーム間でプロンプトを滑らかに遷移 | 進化するシーンや変化する被写体を作成 |
| Motion LoRA | ズーム/パン/ロールなど特定のカメラモーションを追加 | シネマティックなカメラの動きを演出 |
| ControlNet | 参照入力で動きと構造をガイド | ポーズ/構図の一貫性を保つ |
| クローズループ | アニメーションをシームレスにループさせる | GIF風の完璧なループクリップ |
| フレーム補間 | 中間フレームを挿入して滑らかな動きに | 再生成せずに体感FPSを上げる |
| Hi-Res fix | 動きのディテールを保ちながらアップスケール | よりシャープで高解像度の出力 |
| LCM / SDXL Turbo高速化 | より少ないステップで高速生成 | 素早い反復とプレビュー |
AnimateDiffはテキストプロンプトだけからアニメーションを生成できます。ユーザーは画像をアップロードでき、AnimateDiffが動きを予測してアニメーションを生成します。AnimateDiffが自動的に画像シーケンスを生成するため、ユーザーは各フレームを手動で作成する必要がありません。AnimateDiffはStable Diffusionとシームレスに統合でき、その強力な画像生成機能を活用できます。
事前学習済みのモーションモジュールとStable Diffusion画像生成モデルを利用します。モーションモジュールは、共通の動きと遷移を学習するために多様な短いクリップで学習されます。動画を生成する際、モーションモジュールはテキストプロンプトと先行フレームを入力として受け取ります。次にフレーム間を滑らかに遷移させるために動きとシーンのダイナミクスを予測します。これらの予測はStable Diffusionに渡され、各フレームの実際の画像コンテンツを生成します。Stable Diffusionは、モジュールが予測した動きに従いながらテキストプロンプトに一致する画像を作成します。この協調プロセスにより、テキスト記述から滑らかで高品質なアニメーションを形成する画像のシーケンスが得られます。動きの予測と画像合成の両方を活用することで、AnimateDiffはアニメーション動画生成を自動化します。
アートとアニメーション:アーティスト/アニメーターはテキストプロンプトからアニメーションやアニメスケッチを素早くプロトタイプ化でき、多大な手作業を節約できます。コンセプトの視覚化:抽象的な概念やアイデアをアニメーションに変えることで視覚化を助け、ストーリーボードに役立ちます。ゲーム開発:ゲームメカニクスのプロトタイピング用にキャラクターの動きやアニメーションを素早く生成できます。動的グラフィック:広告、プレゼンテーション、ソーシャル投稿用のアニメーショングラフィックを作成。拡張現実:よりスムーズで自然な動きを生成してARキャラクターやオブジェクトをアニメ化。プレビジュアライゼーション:撮影や最終レンダリング前に複雑なシーンをアニメーションでプレビュー。教育:コンセプトの説明やデモを魅力的なアニメーション動画として作成。ソーシャルメディア:テキストで説明するだけでキャッチーなアニメ投稿やストーリーを生成。テキスト/画像から直接アニメーションに移行できる能力は、複数の領域でより簡単で迅速なアニメーション制作の多くの可能性を開きます。
自分のコンピューティングリソースやコーディング知識がなくても、animatediff.netのウェブサイトで無料でツールを使用できます。サイトでは、作成したいアニメーションを説明するテキストプロンプトを入力するだけです。すると最先端のAI機能を使って、テキストプロンプトから自動的に短いアニメGIFを生成します。プロセス全体がオンラインで行われ、結果のアニメーションをダウンロードして自由に使用できます。これにより、セットアップなしでAnimateDiffのアニメーションパワーを体験する簡単な方法が得られます。数クリックで想像力からAI駆動のアニメーションを作り始められます!
Nvidia GPUが必要で、テキスト動画生成には理想的には少なくとも8GBのVRAMが必要です。動画動画には10GB以上のVRAMが必要です。RTX 3060以上のような推論用の十分に強力なGPUが必要です。WindowsまたはLinux。macOSはDocker経由で動作可能で、Google Colabも選択肢です。最低16GBのシステムRAMを推奨。画像シーケンス、動画、モデルファイルを保存するために相応のストレージが必要です。AUTOMATIC1111またはGoogle Colabで動作し、Pythonやその他の依存関係のインストールが必要です。現在、SD 1.5チェックポイントモデル、パーソナライズドモデル、LoRA/DreamBoothスタイル、SDXL固有のモデルバリアントを含むStable Diffusion v1.5モデルのみと互換性があります。
AUTOMATIC1111 Web UIを通常どおり起動します。Extensionsページに移動し、「Install from URL」タブをクリックします。URLフィールドにAnimateDiff拡張機能のGitHub URLを入力します:https://github.com/continue-revolution/sd-webui-animatediff。インストール完了の確認を待ってから、AUTOMATIC1111 Web UIを再起動します。拡張機能がtxt2imgとimg2imgタブに表示されるはずです。必要なモーションモジュールをダウンロードし、ドキュメントで説明されているとおり適切なフォルダに配置してから、AUTOMATIC1111を再度再起動します。これで拡張機能はAUTOMATIC1111でアニメーション動画を生成する準備が整いました!
クローズループは最初と最後のフレームを同一にしてシームレスなループ動画を作成します。Reverse framesはフレームを逆順に追加してクリップの長さを倍にします。フレーム補間はフレームレートを上げて動きを滑らかに見せます。コンテキストバッチサイズはフレーム間の時間的一貫性を制御します。Motion LoRAはパンやズームなどのカメラの動きを追加します。ControlNetは参照動画の動きに基づいてアニメーションを誘導します。画像画像は開始フレームと終了フレームを定義して構図をより制御できます。FPSとフレーム数はアニメーションの速度と全長を制御します。モーションモジュールは異なる動きのパターンを生み出します。これらの設定はスタイル、滑らかさ、カメラの動き、速度、長さを制御します。
限られた動きの範囲:動きは学習データにあるものに制約されるため、学習セットにない非常に複雑または異常な動きをアニメ化できません。汎用的な動き:出力はプロンプトに特化して調整されておらず、プロンプトに緩く関連した汎用的な動きを生成する傾向があります。動きが増えるとアーティファクトが現れることがあります。互換性:現在Stable Diffusion v1.5モデルのみで動作し、SD v2.0では動作しません。動きの品質は学習データの多様性と関連性に大きく依存します。滑らかで高品質な動きを得るには、バッチサイズ、FPS、フレームなど多くの設定を調整する必要があります。長いクリップで時間的一貫性を維持することは依然として課題です。技術が成熟するにつれ、これらの問題の多くが解決されると期待できます。