Public

Code Issues Pull requests Events Packages Insights

main

danlu/README.ja.md

messiah8899<messiah001@hotmail.com>

first commit

7eeb3082

PreviewCode viewBlame

Raw

Musubi Tuner

English | 日本語

はじめに

このリポジトリは、HunyuanVideo、Wan2.1/2.2、FramePack、FLUX.1 Kontext、Qwen-ImageのLoRA学習用のコマンドラインツールです。このリポジトリは非公式であり、公式のHunyuanVideo、Wan2.1/2.2、FramePack、FLUX.1 Kontext、Qwen-Imageのリポジトリとは関係ありません。

リポジトリは開発中です。

スポンサー

このプロジェクトを支援してくださる企業・団体の皆様に深く感謝いたします。

スポンサー募集のお知らせ

このプロジェクトがお役に立ったなら、ご支援いただけると嬉しく思います。 GitHub Sponsorsで受け付けています。

リリースについて

Musubi Tunerの解説記事執筆や、関連ツールの開発に取り組んでくださる方々に感謝いたします。このプロジェクトは開発中のため、互換性のない変更や機能追加が起きる可能性があります。想定外の互換性問題を避けるため、参照用としてリリースをお使いください。

最新のリリースとバージョン履歴はリリースページで確認できます。

AIコーディングエージェントを使用する開発者の方へ

このリポジトリでは、ClaudeやGeminiのようなAIエージェントが、プロジェクトの概要や構造を理解しやすくするためのエージェント向け文書（プロンプト）を用意しています。

これらを使用するためには、プロジェクトのルートディレクトリに各エージェント向けの設定ファイルを作成し、明示的に読み込む必要があります。

セットアップ手順:

プロジェクトのルートに CLAUDE.md や GEMINI.md ファイルを作成します。
CLAUDE.md に以下の行を追加して、リポジトリが推奨するプロンプトをインポートします（現在、両者はほぼ同じ内容です）：
```
@./.ai/claude.prompt.md
```
Geminiの場合はこちらです：
```
@./.ai/gemini.prompt.md
```
インポートした行の後に、必要な指示を適宜追加してください（例：Always respond in Japanese.）。

このアプローチにより、共有されたプロジェクトのコンテキストを活用しつつ、エージェントに与える指示を各ユーザーが自由に制御できます。CLAUDE.md と GEMINI.md はすでに .gitignore に記載されているため、リポジトリにコミットされることはありません。

概要

ハードウェア要件

VRAM: 静止画での学習は12GB以上推奨、動画での学習は24GB以上推奨。
- *アーキテクチャ、解像度等の学習設定により異なります。*12GBでは解像度 960x544 以下とし、--blocks_to_swap、--fp8_llm等の省メモリオプションを使用してください。
メインメモリ: 64GB以上を推奨、32GB+スワップで動作するかもしれませんが、未検証です。

特徴

省メモリに特化
Windows対応（Linuxでの動作報告もあります）
マルチGPU学習（Accelerateを使用）、ドキュメントは後日追加予定

ドキュメント

各アーキテクチャの詳細、設定、高度な機能については、以下のドキュメントを参照してください。

アーキテクチャ別:

共通設定・その他:

インストール

pipによるインストール

Python 3.10以上を使用してください（3.10で動作確認済み）。

適当な仮想環境を作成し、ご利用のCUDAバージョンに合わせたPyTorchとtorchvisionをインストールしてください。

PyTorchはバージョン2.5.1以上を使用してください（補足）。


pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124

以下のコマンドを使用して、必要な依存関係をインストールします。


pip install -e .

オプションとして、FlashAttention、SageAttention（推論にのみ使用できます、インストール方法はこちらを参照）を使用できます。

また、ascii-magic（データセットの確認に使用）、matplotlib（timestepsの可視化に使用）、tensorboard（学習ログの記録に使用）、prompt-toolkitを必要に応じてインストールしてください。

prompt-toolkitをインストールするとWan2.1およびFramePackのinteractive modeでの編集に、自動的に使用されます。特にLinux環境でプロンプトの編集が容易になります。


pip install ascii-magic matplotlib tensorboard prompt-toolkit

uvによるインストール

uvを使用してインストールすることもできますが、uvによるインストールは試験的なものです。フィードバックを歓迎します。

Linux/MacOS


curl -LsSf https://astral.sh/uv/install.sh | sh

表示される指示に従い、pathを設定してください。

Windows


powershell -c "irm https://astral.sh/uv/install.ps1 | iex"

表示される指示に従い、PATHを設定するか、この時点でシステムを再起動してください。

モデルのダウンロード

モデルのダウンロード手順はアーキテクチャによって異なります。詳細はドキュメントセクションにある、各アーキテクチャのドキュメントを参照してください。

使い方

データセット設定

こちらを参照してください。

事前キャッシュ

事前キャッシュの手順の詳細は、ドキュメントセクションにある各アーキテクチャのドキュメントを参照してください。

Accelerateの設定

accelerate configを実行して、Accelerateの設定を行います。それぞれの質問に、環境に応じた適切な値を選択してください（値を直接入力するか、矢印キーとエンターで選択、大文字がデフォルトなので、デフォルト値でよい場合は何も入力せずエンター）。GPU 1台での学習の場合、以下のように答えてください。


- In which compute environment are you running?: This machine
- Which type of machine are you using?: No distributed training
- Do you want to run your training on CPU only (even if a GPU / Apple Silicon / Ascend NPU device is available)?[yes/NO]: NO
- Do you wish to optimize your script with torch dynamo?[yes/NO]: NO
- Do you want to use DeepSpeed? [yes/NO]: NO
- What GPU(s) (by id) should be used for training on this machine as a comma-seperated list? [all]: all
- Would you like to enable numa efficiency? (Currently only supported on NVIDIA hardware). [yes/NO]: NO
- Do you wish to use mixed precision?: bf16

※場合によって ValueError: fp16 mixed precision requires a GPU というエラーが出ることがあるようです。この場合、6番目の質問（ What GPU(s) (by id) should be used for training on this machine as a comma-separated list? [all]:）に「0」と答えてください。（id 0、つまり1台目のGPUが使われます。）

学習と推論

学習と推論の手順はアーキテクチャによって大きく異なります。詳細な手順については、ドキュメントセクションにある対応するアーキテクチャのドキュメント、および各種の設定のドキュメントを参照してください。

その他

SageAttentionのインストール方法

sdbds氏によるWindows対応のSageAttentionのwheelが https://github.com/sdbds/SageAttention-for-windows で公開されています。triton をインストールし、Python、PyTorch、CUDAのバージョンが一致する場合は、Releasesからビルド済みwheelをダウンロードしてインストールすることが可能です。sdbds氏に感謝します。

参考までに、以下は、SageAttentionをビルドしインストールするための簡単な手順です。Microsoft Visual C++ 再頒布可能パッケージを最新にする必要があるかもしれません。

Pythonのバージョンに応じたtriton 3.1.0のwhellをこちらからダウンロードしてインストールします。
Microsoft Visual Studio 2022かBuild Tools for Visual Studio 2022を、C++のビルドができるよう設定し、インストールします。（上のRedditの投稿を参照してください）。
任意のフォルダにSageAttentionのリポジトリをクローンします。
```
git clone https://github.com/thu-ml/SageAttention.git
```
スタートメニューから Visual Studio 2022 内の x64 Native Tools Command Prompt for VS 2022 を選択してコマンドプロンプトを開きます。
venvを有効にし、SageAttentionのフォルダに移動して以下のコマンドを実行します。DISTUTILSが設定されていない、のようなエラーが出た場合は set DISTUTILS_USE_SDK=1としてから再度実行してください。
```
python setup.py install
```

以上でSageAttentionのインストールが完了です。

PyTorchのバージョンについて

--attn_modeにtorchを指定する場合、2.5.1以降のPyTorchを使用してください（それより前のバージョンでは生成される動画が真っ黒になるようです）。

古いバージョンを使う場合、xformersやSageAttentionを使用してください。

免責事項

このリポジトリは非公式であり、サポートされているアーキテクチャの公式リポジトリとは関係ありません。また、このリポジトリは開発中で、実験的なものです。テストおよびフィードバックを歓迎しますが、以下の点にご注意ください：

実際の稼働環境での動作を意図したものではありません
機能やAPIは予告なく変更されることがあります
いくつもの機能が未検証です
動画学習機能はまだ開発中です

問題やバグについては、以下の情報とともにIssueを作成してください：

問題の詳細な説明
再現手順
環境の詳細（OS、GPU、VRAM、Pythonバージョンなど）
関連するエラーメッセージやログ

コントリビューションについて

コントリビューションを歓迎します。 CONTRIBUTING.mdおよびCONTRIBUTING.ja.mdをご覧ください。

ライセンス

hunyuan_modelディレクトリ以下のコードは、HunyuanVideoのコードを一部改変して使用しているため、そちらのライセンスに従います。

wanディレクトリ以下のコードは、Wan2.1のコードを一部改変して使用しています。ライセンスはApache License 2.0です。

frame_packディレクトリ以下のコードは、frame_packのコードを一部改変して使用しています。ライセンスはApache License 2.0です。

他のコードはApache License 2.0に従います。一部Diffusersのコードをコピー、改変して使用しています。

35/F,Tencent Building,Kejizhongyi Avenue,Nanshan District,Shenzhen

京ICP备11018762号-111