Language / 语言 / 言語: English | 中文 | 日本語
本ガイドはACE-Step Gradio Webインターフェースを使用した音楽生成の包括的なドキュメントを提供し、すべての機能と設定を含みます。
# 基本的な起動
python app.py
# 事前初期化付き
python app.py --config acestep-v15-turbo --init-llm
# 特定のポートで
python app.py --port 7860Gradioインターフェースは以下の主要セクションで構成されています:
- サービス設定 - モデルの読み込みと初期化
- 必須入力 - タスクタイプ、オーディオアップロード、生成モード
- 音楽キャプションと歌詞 - 生成用のテキスト入力
- オプションパラメータ - BPM、キー、durationなどのメタデータ
- 高度な設定 - 生成の細かい制御
- 結果 - 生成されたオーディオの再生と管理
| 設定 | 説明 |
|---|---|
| チェックポイントファイル | トレーニング済みモデルチェックポイントを選択(利用可能な場合) |
| メインモデルパス | DiTモデル設定を選択(例:acestep-v15-turbo、acestep-v15-turbo-shift3) |
| デバイス | 処理デバイス:auto(推奨)、cuda、または cpu |
| 設定 | 説明 |
|---|---|
| 5Hz LMモデルパス | 言語モデルを選択(例:acestep-5Hz-lm-0.6B、acestep-5Hz-lm-1.7B) |
| 5Hz LMバックエンド | vllm(より高速、推奨)または pt(PyTorch、互換性が高い) |
| 5Hz LMを初期化 | 初期化時にLMを読み込むためにチェック(thinkingモードに必要) |
| 設定 | 説明 |
|---|---|
| Flash Attentionを使用 | より高速な推論のために有効化(flash_attnパッケージが必要) |
| CPUにオフロード | アイドル時にモデルをCPUにオフロードしてGPUメモリを節約 |
| DiTをCPUにオフロード | DiTモデルを特にCPUにオフロード |
| 設定 | 説明 |
|---|---|
| LoRAパス | トレーニング済みLoRAアダプターディレクトリへのパス |
| LoRAを読み込み | 指定されたLoRAアダプターを読み込み |
| アンロード | 現在読み込まれているLoRAを削除 |
| LoRAを使用 | 推論用の読み込まれたLoRAを有効化/無効化 |
⚠️ 注意: PEFTとTorchAO間の互換性の問題により、量子化されたモデルにLoRAアダプターを読み込むことはできません。LoRAを使用する必要がある場合は、アダプターを読み込む前に INT8量子化 を None に設定してください。
サービスを初期化 をクリックしてモデルを読み込みます。ステータスボックスに進捗と確認が表示されます。
シンプルモードは、迅速な自然言語ベースの音楽生成用に設計されています。
使用方法:
- 生成モードラジオボタンで「シンプル」を選択
- 「曲の説明」フィールドに自然言語の説明を入力
- ボーカルが不要な場合は「インストゥルメンタル」をオプションでチェック
- オプションで希望するボーカル言語を選択
- サンプルを作成 をクリックしてcaption、歌詞、メタデータを生成
- 展開されたセクションで生成されたコンテンツを確認
- 音楽を生成 をクリックしてオーディオを作成
説明の例:
- 「静かな夜のための柔らかいベンガルのラブソング」
- 「重いベースドロップのアップビートなエレクトロニックダンスミュージック」
- 「アコースティックギターのメランコリックなインディーフォーク」
- 「煙たいバーで演奏するジャズトリオ」
ランダムサンプル: 🎲 ボタンをクリックしてランダムな例の説明を読み込みます。
カスタムモードはすべての生成パラメータの完全な制御を提供します。
使用方法:
- 生成モードラジオボタンで「カスタム」を選択
- Captionと歌詞フィールドを手動で入力
- オプションのメタデータを設定(BPM、キー、Durationなど)
- オプションで フォーマット をクリックしてLMを使用して入力を強化
- 必要に応じて高度な設定を構成
- 音楽を生成 をクリックしてオーディオを作成
テキスト説明および/または歌詞から音楽を生成。
ユースケース: プロンプトに基づいて新しい音楽をゼロから作成。
必須入力: Captionまたは歌詞(少なくとも1つ)
既存のオーディオを構造を維持しながらスタイルを変更して変換。
ユースケース: 異なるスタイルのカバーバージョンを作成。
必須入力:
- ソースオーディオ(オーディオアップロードセクションでアップロード)
- ターゲットスタイルを説明するCaption
重要なパラメータ: オーディオカバー強度(0.0-1.0)
- 高い値は元の構造をより多く維持
- 低い値はより創造的な自由を許可
オーディオの特定の時間セグメントを再生成。
ユースケース: 生成された音楽の特定のセクションを修正または変更。
必須入力:
- ソースオーディオ
- リペイント開始(秒)
- リペイント終了(秒、ファイル終端には-1)
- 希望するコンテンツを説明するCaption
既存のオーディオのコンテキストで特定の楽器トラックを生成。
ユースケース: バッキングトラックに楽器レイヤーを追加。
必須入力:
- ソースオーディオ
- トラック名(ドロップダウンから選択)
- トラック特性を説明するCaption
利用可能なトラック: vocals、backing_vocals、drums、bass、guitar、keyboard、percussion、strings、synth、fx、brass、woodwinds
ミックスオーディオから特定の楽器トラックを抽出/分離。
ユースケース: ステム分離、楽器の分離。
必須入力:
- ソースオーディオ
- 抽出するトラック名
指定された楽器で部分的なトラックを完成。
ユースケース: 不完全な作品の自動アレンジ。
必須入力:
- ソースオーディオ
- トラック名(複数選択)
- 希望するスタイルを説明するCaption
ドロップダウンから生成タスクを選択。選択されたタスクに基づいて指示フィールドが自動的に更新されます。
| フィールド | 説明 |
|---|---|
| 参照オーディオ | スタイル参照用のオプションオーディオ |
| ソースオーディオ | cover、repaint、lego、extract、completeタスクに必須 |
| コードに変換 | ソースオーディオから5Hzセマンティックコードを抽出 |
事前計算されたオーディオセマンティックコードをここに貼り付けて生成をガイドできます。トランスクライブ ボタンを使用してコードを分析しメタデータを抽出します。
希望する音楽のテキスト説明。以下について具体的に:
- ジャンルとスタイル
- 楽器
- ムードと雰囲気
- テンポ感(BPMを指定しない場合)
例: 「エレキギター、力強いドラム、キャッチーなシンセフックのアップビートなポップロック」
🎲 をクリックしてランダムな例のcaptionを読み込みます。
構造タグ付きの歌詞を入力:
[Verse 1]
今日街を歩いていて
君が言っていた言葉を思い出していた
[Chorus]
前に進んでいく、強くいる
ここが僕の居場所
[Verse 2]
...
インストゥルメンタルチェックボックス: これをチェックすると、歌詞の内容に関係なくインストゥルメンタル音楽を生成します。
ボーカル言語: ボーカルの言語を選択。自動検出またはインストゥルメンタルトラックには「unknown」を使用。
フォーマットボタン: クリックして5Hz LMを使用してcaptionと歌詞を強化。
| パラメータ | デフォルト | 説明 |
|---|---|---|
| BPM | 自動 | 1分あたりのビート数(30-300) |
| キースケール | 自動 | 音楽キー(例:「C Major」、「Am」、「F# minor」) |
| 拍子記号 | 自動 | 拍子記号:2(2/4)、3(3/4)、4(4/4)、6(6/8) |
| オーディオ長 | 自動/-1 | 目標長(秒)(10-600)。-1で自動 |
| バッチサイズ | 2 | 生成するオーディオバリエーションの数(1-8) |
| パラメータ | デフォルト | 説明 |
|---|---|---|
| 推論ステップ | 8 | デノイズステップ。Turbo:1-20、Base:1-200 |
| ガイダンススケール | 7.0 | CFG強度(baseモデルのみ)。高い = プロンプトにより従う |
| シード | -1 | ランダムシード。バッチにはカンマ区切りの値を使用 |
| ランダムシード | ✓ | チェック時にランダムシードを生成 |
| オーディオ形式 | mp3 | 出力形式:mp3、flac |
| シフト | 3.0 | タイムステップシフト係数(1.0-5.0)。turboには3.0推奨 |
| 推論方法 | ode | ode(Euler、より高速)またはsde(確率的) |
| カスタムタイムステップ | - | タイムステップをオーバーライド(例:「0.97,0.76,0.615,0.5,0.395,0.28,0.18,0.085,0」) |
| パラメータ | デフォルト | 説明 |
|---|---|---|
| ADGを使用 | ✗ | より良い品質のために適応デュアルガイダンスを有効化 |
| CFG区間開始 | 0.0 | CFGを適用し始めるタイミング(0.0-1.0) |
| CFG区間終了 | 1.0 | CFGの適用を停止するタイミング(0.0-1.0) |
| パラメータ | デフォルト | 説明 |
|---|---|---|
| LM温度 | 0.85 | サンプリング温度(0.0-2.0)。高い = より創造的 |
| LM CFGスケール | 2.0 | LMガイダンス強度(1.0-3.0) |
| LM Top-K | 0 | Top-Kサンプリング。0で無効 |
| LM Top-P | 0.9 | 核サンプリング(0.0-1.0) |
| LMネガティブプロンプト | "NO USER INPUT" | CFG用のネガティブプロンプト |
| オプション | デフォルト | 説明 |
|---|---|---|
| CoT Metas | ✓ | LM推論でメタデータを生成 |
| CoT Language | ✓ | LMでボーカル言語を検出 |
| 制約付きデコーディングデバッグ | ✗ | デバッグログを有効化 |
| オプション | デフォルト | 説明 |
|---|---|---|
| LMコード強度 | 1.0 | LMコードが生成に与える影響の強さ(0.0-1.0) |
| 自動スコア | ✗ | 品質スコアを自動計算 |
| 自動LRC | ✗ | 歌詞タイムスタンプを自動生成 |
| LMバッチチャンクサイズ | 8 | LMバッチあたりの最大アイテム数(GPUメモリ) |
| コントロール | 説明 |
|---|---|
| Think | コード生成とメタデータ用の5Hz LMを有効化 |
| ParallelThinking | 並列LMバッチ処理を有効化 |
| CaptionRewrite | LMに入力captionを強化させる |
| AutoGen | 完了後に次のバッチを自動開始 |
バッチサイズに基づいて最大8つのオーディオサンプルが表示されます。各サンプルには以下が含まれます:
- オーディオプレーヤー - 生成されたオーディオの再生、一時停止、ダウンロード
- ソースに送信 - このオーディオをソースオーディオ入力に送信してさらに処理
- 保存 - オーディオとメタデータをJSONファイルに保存
- スコア - パープレキシティベースの品質スコアを計算
- LRC - 歌詞タイムスタンプを生成(LRC形式)
「スコア & LRC & LMコード」をクリックして展開し、以下を表示:
- LMコード - このサンプルの5Hzセマンティックコード
- 品質スコア - パープレキシティベースの品質メトリック
- 歌詞タイムスタンプ - LRC形式のタイミングデータ
| コントロール | 説明 |
|---|---|
| ◀ 前へ | 前のバッチを表示 |
| バッチインジケーター | 現在のバッチ位置を表示(例:「バッチ 1 / 3」) |
| 次バッチステータス | バックグラウンド生成の進捗を表示 |
| 次へ ▶ | 次のバッチを表示(AutoGenがオンの場合は生成をトリガー) |
これらの設定をUIに適用 をクリックして、現在のバッチからすべての生成パラメータを入力フィールドに復元。良い結果を反復するのに便利。
「バッチ結果と生成詳細」アコーディオンには以下が含まれます:
- すべての生成ファイル - すべてのバッチからすべてのファイルをダウンロード
- 生成詳細 - 生成プロセスに関する詳細情報
LoRAトレーニングタブはカスタムLoRAアダプターを作成するためのツールを提供します。
オプションA:既存のデータセットを読み込み
- 以前保存したデータセットJSONへのパスを入力
- 読み込み をクリック
オプションB:新しいディレクトリをスキャン
- オーディオフォルダへのパスを入力
- スキャン をクリックしてオーディオファイルを検索(wav、mp3、flac、ogg、opus)
| 設定 | 説明 |
|---|---|
| データセット名 | データセットの名前 |
| すべてインストゥルメンタル | すべてのトラックにボーカルがない場合にチェック |
| カスタムアクティベーションタグ | このLoRAのスタイルをアクティブにするユニークなタグ |
| タグ位置 | タグを配置する場所:前に追加、後に追加、またはcaptionを置換 |
すべて自動ラベル をクリックしてすべてのオーディオファイルのメタデータを生成:
- Caption(音楽の説明)
- BPM
- キー
- 拍子記号
Metasをスキップ オプションはLLMラベリングをスキップしてN/A値を使用します。
スライダーを使用してサンプルを選択し、手動で編集:
- Caption
- 歌詞
- BPM、キー、拍子記号
- 言語
- インストゥルメンタルフラグ
変更を保存 をクリックしてサンプルを更新。
保存パスを入力し、データセットを保存 をクリックしてJSONとしてエクスポート。
高速トレーニングのためにデータセットを事前計算テンソルに変換:
- オプションで既存のデータセットJSONを読み込み
- テンソル出力ディレクトリを設定
- 前処理 をクリック
これによりオーディオがVAE潜在変数にエンコードされ、テキストが埋め込みにエンコードされ、条件エンコーダーが実行されます。
前処理されたテンソルディレクトリへのパスを入力し、データセットを読み込み をクリック。
| 設定 | デフォルト | 説明 |
|---|---|---|
| LoRAランク (r) | 64 | LoRAの容量。高い = より多くの容量、より多くのメモリ |
| LoRA Alpha | 128 | スケーリング係数(通常はランクの2倍) |
| LoRA Dropout | 0.1 | 正則化のためのドロップアウト率 |
| 設定 | デフォルト | 説明 |
|---|---|---|
| 学習率 | 1e-4 | 最適化学習率 |
| 最大エポック | 500 | 最大トレーニングエポック |
| バッチサイズ | 1 | トレーニングバッチサイズ |
| 勾配累積 | 1 | 有効バッチ = batch_size × accumulation |
| Nエポックごとに保存 | 200 | チェックポイント保存頻度 |
| シフト | 3.0 | turboモデルのタイムステップシフト |
| シード | 42 | 再現性のためのランダムシード |
- トレーニング開始 - トレーニングプロセスを開始
- トレーニング停止 - トレーニングを中断
- トレーニング進捗 - 現在のエポックとロスを表示
- トレーニングログ - 詳細なトレーニング出力
- トレーニングロスプロット - 視覚的なロス曲線
トレーニング後、最終アダプターをエクスポート:
- エクスポートパスを入力
- LoRAをエクスポート をクリック
- thinkingモードを使用 - LM強化生成のために「Think」チェックボックスを有効に保つ
- captionを具体的に - ジャンル、楽器、ムード、スタイルの詳細を含める
- LMにメタデータを検出させる - 自動検出のためにBPM/キー/Durationを空のままにする
- バッチ生成を使用 - 2-4のバリエーションを生成し、最良のものを選ぶ
- turboモデルを使用 -
acestep-v15-turboまたはacestep-v15-turbo-shift3を選択 - 推論ステップを8に保つ - turboに最適なデフォルト
- バッチサイズを減らす - 迅速な結果が必要な場合はバッチサイズを下げる
- AutoGenを無効化 - バッチ生成の手動制御
- 特定のシードを設定 - 「ランダムシード」のチェックを外してシード値を入力
- 良い結果を保存 - 再現のためにパラメータをエクスポートするために「保存」を使用
- 「これらの設定を適用」を使用 - 良いバッチからパラメータを復元
- 明示的なdurationを設定 - 秒単位でdurationを指定
- repaintタスクを使用 - 初期生成後に問題のあるセクションを修正
- 生成をチェーン - 以前の結果の上に構築するために「ソースに送信」を使用
- LoRAをトレーニング - あなたのスタイル用のカスタムアダプターを作成
- 参照オーディオを使用 - オーディオアップロードでスタイル参照をアップロード
- 一貫したcaptionを使用 - 類似の説明的な言語を維持
オーディオが生成されない:
- モデルが初期化されていることを確認(緑のステータスメッセージ)
- thinkingモードを使用している場合は5Hz LMが初期化されていることを確認
- エラーメッセージのステータス出力を確認
結果の品質が悪い:
- 推論ステップを増やす(baseモデルの場合)
- ガイダンススケールを調整
- 異なるシードを試す
- captionをより具体的にする
メモリ不足:
- バッチサイズを減らす
- CPUオフロードを有効化
- LMバッチチャンクサイズを減らす
LMが機能しない:
- 初期化時に「5Hz LMを初期化」がチェックされていたことを確認
- 有効なLMモデルパスが選択されていることを確認
- vllmまたはPyTorchバックエンドが利用可能であることを確認
Gradioインターフェースは標準的なWebショートカットをサポート:
- Tab - 入力フィールド間を移動
- Enter - テキスト入力を送信
- Space - チェックボックスを切り替え
インターフェースは複数のUI言語をサポート:
- 英語 (en)
- 中国語 (zh)
- 日本語 (ja)
サービス設定セクションで好みの言語を選択してください。
詳細については以下を参照:
- メインREADME:
../../README.md - REST APIドキュメント:
API.md - Python推論API:
INFERENCE.md