ComfyUIで唇の動きをリアルに再現!「Infinite Talk」で画像からリップシンク動画を生成しよう

Cover Image for ComfyUIで唇の動きをリアルに再現!「Infinite Talk」で画像からリップシンク動画を生成しよう
AICU media
AICU media

皆さん、こんにちは!今回はComfyUIの素晴らしい機能、「[Infinite Talk](https://meigen- ai.github.io/InfiniteTalk/)」についてご紹介します。これは、たった1枚の画像と音声ファイルから、驚くほど自然なリップシンク動画を生成できる技術です。Comfy Org StreamのPurrsさん、Philさん、Julianさんによる解説を基に、その魅力と使い方を詳しく見ていきましょう。

ComfyUI WAN InfiniteTalk in ComfyUI - Extended Lipsync Videos twitter.com

Infinite Talkとは?

Infinite Talk は、非常に優れたリップシンクモデルで、1枚の静止画を基に、歌や会話に合わせて唇の動きだけでなく、キャラクター全体の動きを生成してくれます。

このモデルのすごいところは、ただ口を動かすだけでなく、物理演算に基づいたリアルな動きも再現してくれる点です。例えば、歌っている最中にキャラクターが動くと、イヤリングが揺れたり、服が身体の動きに合わせて自然になびいたりします。これにより、非常に生き生きとした映像を生み出すことができるのです。

🗣️ Since their release, WAN InfiniteTalk/ MultiTalk / S2V have become the backbone of some of the coolest ComfyUI experiments — extended lipsync videos, and entire performances synced with AI voices. Seeing the community take it this far has been nothing short of magic. 🌌🔥 pic.twitter.com/YF7RbkHJ52

— ComfyUI (@ComfyUI)

ComfyUIでInfiniteTalk。日本語かなりいけそうですね。

とりあえずKijaiさんのサンプルをそのまま使いました。https://t.co/fphtcui6ug https://t.co/U2eCSFU1Rc pic.twitter.com/sLk3r9gK3a

— Baku (@bk_sakurai)

ComfyUIでのワークフロー解説

実際にComfyUIでInfinite Talkを使う際の基本的な流れとポイントを見ていきましょう。

必要なもの

  1. 入力画像 : アニメーションさせたいキャラクターの画像。

  2. 音声ファイル : 歌やセリフなどの音声。

  3. プロンプト : 生成したい動画の簡単な指示。

ワークフローの仕組み

このワークフローは非常に賢く設計されています。

まず、入力された音声ファイルからボーカル部分だけを抽出 します。そのボーカルに合わせて、画像の唇の動きや表情を生成します。最後に、生成された映像と元の音声ファイル(ボーカルだけでなく音楽も含む)を再結合 します。これにより、フレーム数(動画の長さ)が元の音声と完全に一致するため、音ズレの心配がありません。

おすすめの環境

配信では、拡張機能の管理がしやすく、より多くのモデルをサポートしている「WAN video wrapper」を使用することが推奨されていました。このラッパーに含まれる「[Infinite Talk example 3](https://github.com/kijai/ComfyUI- WanVideoWrapper/blob/main/example_workflows/wanvideo_I2V_InfiniteTalk_example_03.json)」というサンプルワークフローが、今回の解説のベースとなっています。

ハードウェアと生成時間について

  1. VRAM : 24GBのVRAMを搭載したGPUの場合、約500フレーム(24FPSで約20秒)の動画を生成するのが一つの目安です 13131313。もちろん、より高性能なGPUであれば、さらに長い動画の生成も可能です 14。配信中のデモでは、16GBから34GBのVRAM使用量が確認されました。

  2. レンダリング時間 : 長い動画を生成するには時間がかかります。そのため、「Audio Crop」ノードなどを使って、曲の好きな部分だけを切り出して試すのが効率的です 。

他のリップシンク技術との比較

配信では、Infinite Talk以外にもいくつかのオーディオ・トゥ・ビデオ技術が紹介されました。

Animate : 音声を使わずに、非常に精度の高いリップシンクを実現できるモデルです。

Humo : 音楽ビデオ制作で素晴らしい結果を出していますが、一度に生成できる動画が短い(コンテキストウィンドウが小さい)という制約があります。

Infinite Talkは、これらの技術の中でも特に長い動画を生成できる点で優れています。

実際に使ってみた例とコツ

配信では、いくつかのデモが行われ、非常にクリエイティブな映像が生まれました。

Julianさんは、女性が絵を描きながら歌っている画像を基に、幻想的で美しい動画を作成しました。また、クレイメーション(粘土アニメ)風のパンクロッカーが叫んでいる画像を使ったデモでは、口の動きだけでなく、背景にドラマーが現れるなど、プロンプト以上のダイナミックな表現が加わりました。

成功の秘訣

入力画像が重要 : 特に、口がはっきりと開いている画像から始めると、モデルが口の形を認識しやすくなり、動画全体で一貫性のある歯の表現などが可能になります。

トライ&エラーを楽しむ : 必ずしも一回で完璧な結果が出るとは限りません。時には、シード値を変えて何度も試すことで、理想的な結果が得られることがあります。

短いクリップを組み合わせる : 長いワンショットの動画にこだわらず、短いクリップを複数生成し、編集でつなぎ合わせることで、よりテンポの良い、プロフェッショナルな作品に仕上げることができます。

注意点: このモデルは主に中国語のデータでトレーニングされているため、英語などの他の言語では、母音を発音する際の口の形が少し不自然に見えることがあります。これは現時点でのモデルの限界ですが、それでも非常に高品質なリップシンクが可能です。

まとめ

Infinite Talkは、ComfyUIで利用できる、非常にパワフルで楽しいリップシンクツールです。いくつかの注意点や「クセ」はありますが、1枚の画像から生き生きとした歌唱シーンや会話シーンを作り出せる可能性は無限大です。

今回ご紹介したワークフローは、「Kajai's ComfyUI WAN video wrapper」のGitHubからダウンロードできますので、ぜひ皆さんも試してみてください!