Wan2.1の勢いがすごい!! Kohya氏によるLoRAツール「Musubi Tuner」が公開。Google Colabで動かしてみた！

先日2025年2月25日にAlibabaがリリースしたばかりの動画生成モデル「Wan2.1」ですが、その後3月5日にリリースされたTencent「Hunyuan I2V」に押されることなく、さらに大変な勢いで画像生成コミュニティが開発貢献を続けています。関連の最新動向を紹介します。

https://note.com/aicu/n/n661bd6e7bebb

https://note.com/aicu/n/n3a3c5fbbfeee

Wan2GP

まず2025年3月3日に低VRAMでも動作する「Wan2GP」がdeepbeepmeepさんよりリリースされました。さすがオープンソースコミュニティ！
Wan2GPは「14Bあるモデルで、量子化されていない状態で」8秒の480Pビデオを12GB VRAMで生成できるようです。

Loading tweet component...

多くの要望に応えて、HunyuanVideoGP v5 で行ったのと同じ最適化を Wan 2.1 でも実行し、Wan2.1 の VRAM 消費量を 2 分の 1 に削減しました。 HunyuanのImageToVideoが出るのを待つ間、この前菜をお楽しみください。 Wan2.1 GP では、通常の機能が提供されます: - ウェブインターフェース - 選択したモデルの自動ダウンロード - 複数のプロンプト / 複数の世代 - ロラスのサポート - 通常の最適化（sage、コンパイル、非同期転送、 ...)による非常に高速な生成

https://github.com/deepbeepmeep/Wan2GP

リポジトリの概要翻訳です。

**【Wan2.1 GP by DeepBeepMeep】
** Wan2.1 の Alibaba をベースにした GPUが貧弱な人向けのオープンで高度な大規模ビデオ生成モデル

**Wan2.1 には、次の主要な機能があります:
** ・SOTA パフォーマンス: Wan2.1 は、複数のベンチマークで既存のオープンソースモデルや最先端の商用ソリューションを一貫して上回っています。
・コンシューマーグレードの GPU をサポート: T2V-1.3B モデルは 8.19 GB の VRAM しか必要としないため、ほぼすべてのコンシューマーグレードの GPU と互換性があります。RTX 4090 で 5秒間の 480P ビデオを約4分で生成できます (量子化などの最適化手法なし)。そのパフォーマンスは、一部のクローズドソースモデルに匹敵します。
・複数のタスク: Wan2.1 は、テキストからビデオ、画像からビデオ、ビデオ編集、テキストから画像、ビデオからオーディオへの変換に優れており、ビデオ生成の分野を前進させます。
・ビジュアルテキスト生成: Wan2.1 は、中国語と英語の両方のテキストを生成できる最初のビデオモデルであり、実用的なアプリケーションを強化する堅牢なテキスト生成を備えています。
・強力なビデオ VAE: Wan-VAE は、時間情報を保持しながら任意の長さの 1080P ビデオをエンコードおよびデコードすることで、並外れた効率とパフォーマンスを提供し、ビデオと画像の生成に理想的な基盤となります。

Musubi Tuner

さらに、LoRA学習ツールで世界的利用されているKohyaさんによる「Musubi Tuner」のWan2.1 LoRA対応がリリースされました。こちらは2024年12月31日にHunyuan VideoのLoRA学習スクリプトが公開され、2025年2年22日HunyuanVideoのファインチューニング「SkyReels V1」のテキストからの動画生成(t2v)と画像からの動画生成(i2v)がサポートされていましたが、3月4日にWan2.1の推論、さらに3月7日にWan 2.1のLoRA学習がサポートされました。

https://github.com/kohya-ss/musubi-tuner/blob/main/README.ja.md

このリポジトリは、HunyuanVideoおよびWan2.1のLoRA学習用のコマンドラインツールです。このリポジトリは非公式であり、公式のHunyuanVideoやWan2.1のリポジトリとは関係ありません。
Wan2.1については、[Wan2.1のドキュメント](https://github.com/kohya-ss/musubi- tuner/blob/main/docs/wan.md)も参照してください。

そして2025年3月7日、Musubi TunerにWan2.1のLoRA学習がサポートされました。

Loading tweet component...

https://github.com/kohya-ss/musubi-tuner/blob/main/docs/wan.md

もともとWan2.1にはLoRAがあることが特徴の一つになっていましたが、この速さでツールが公開されたことは衝撃です。

https://note.com/aicu/n/ncb4fd8c45af5

Loading tweet component...

HunyuanからもImage2Videoがリリースされていますし、今後、コンシューマGPUで動作するモデルや量子化モデルなど、動画生成モデルがコミュニティで開発される可能性がぐっと広がっていきますね。

https://note.com/aicu/n/n3a3c5fbbfeee

AICUは、これからもオープンソースコミュニティの開発者を応援していきます！

Google Colabで動かすためのスクリプト

追記：MusubiTunerをGoogle Colabで動かすためのスクリプトを試作してみました。まだWan2.1でのLoRAを検証できていませんが、HunyuanVideoとComfyUIのText Encoderを使ってキャッシュを生成し、学習しながら中間結果を動画生成してGoogle Driveに保存するところまでは到達しています。

Loading tweet component...

もし読者の方で改善・修正ができる方がいらっしゃいましたらフィードバックいただけましたら幸いです。

http://j.aicu.ai/MusubiTuner

Originally published at https://note.com on Mar 8, 2025.