ACE-Step Gradio デモユーザーガイド

Language / 语言 / 言語: English | 中文 | 日本語

本ガイドはACE-Step Gradio Webインターフェースを使用した音楽生成の包括的なドキュメントを提供し、すべての機能と設定を含みます。

はじめに

デモの起動

# 基本的な起動
python app.py

# 事前初期化付き
python app.py --config acestep-v15-turbo --init-llm

# 特定のポートで
python app.py --port 7860

インターフェース概要

Gradioインターフェースは以下の主要セクションで構成されています：

サービス設定 - モデルの読み込みと初期化
必須入力 - タスクタイプ、オーディオアップロード、生成モード
音楽キャプションと歌詞 - 生成用のテキスト入力
オプションパラメータ - BPM、キー、durationなどのメタデータ
高度な設定 - 生成の細かい制御
結果 - 生成されたオーディオの再生と管理

サービス設定

モデル選択

設定	説明
チェックポイントファイル	トレーニング済みモデルチェックポイントを選択（利用可能な場合）
メインモデルパス	DiTモデル設定を選択（例：`acestep-v15-turbo`、`acestep-v15-turbo-shift3`）
デバイス	処理デバイス：`auto`（推奨）、`cuda`、または `cpu`

5Hz LM設定

設定	説明
5Hz LMモデルパス	言語モデルを選択（例：`acestep-5Hz-lm-0.6B`、`acestep-5Hz-lm-1.7B`）
5Hz LMバックエンド	`vllm`（より高速、推奨）または `pt`（PyTorch、互換性が高い）
5Hz LMを初期化	初期化時にLMを読み込むためにチェック（thinkingモードに必要）

パフォーマンスオプション

設定	説明
Flash Attentionを使用	より高速な推論のために有効化（flash_attnパッケージが必要）
CPUにオフロード	アイドル時にモデルをCPUにオフロードしてGPUメモリを節約
DiTをCPUにオフロード	DiTモデルを特にCPUにオフロード

LoRAアダプター

設定	説明
LoRAパス	トレーニング済みLoRAアダプターディレクトリへのパス
LoRAを読み込み	指定されたLoRAアダプターを読み込み
アンロード	現在読み込まれているLoRAを削除
LoRAを使用	推論用の読み込まれたLoRAを有効化/無効化

⚠️ 注意： PEFTとTorchAO間の互換性の問題により、量子化されたモデルにLoRAアダプターを読み込むことはできません。LoRAを使用する必要がある場合は、アダプターを読み込む前に INT8量子化 を None に設定してください。

初期化

サービスを初期化 をクリックしてモデルを読み込みます。ステータスボックスに進捗と確認が表示されます。

生成モード

シンプルモード

シンプルモードは、迅速な自然言語ベースの音楽生成用に設計されています。

使用方法：

生成モードラジオボタンで「シンプル」を選択
「曲の説明」フィールドに自然言語の説明を入力
ボーカルが不要な場合は「インストゥルメンタル」をオプションでチェック
オプションで希望するボーカル言語を選択
サンプルを作成 をクリックしてcaption、歌詞、メタデータを生成
展開されたセクションで生成されたコンテンツを確認
音楽を生成 をクリックしてオーディオを作成

説明の例：

「静かな夜のための柔らかいベンガルのラブソング」
「重いベースドロップのアップビートなエレクトロニックダンスミュージック」
「アコースティックギターのメランコリックなインディーフォーク」
「煙たいバーで演奏するジャズトリオ」

ランダムサンプル： 🎲 ボタンをクリックしてランダムな例の説明を読み込みます。

カスタムモード

カスタムモードはすべての生成パラメータの完全な制御を提供します。

使用方法：

生成モードラジオボタンで「カスタム」を選択
Captionと歌詞フィールドを手動で入力
オプションのメタデータを設定（BPM、キー、Durationなど）
オプションで フォーマット をクリックしてLMを使用して入力を強化
必要に応じて高度な設定を構成
音楽を生成 をクリックしてオーディオを作成

タスクタイプ

text2music（デフォルト）

テキスト説明および/または歌詞から音楽を生成。

ユースケース： プロンプトに基づいて新しい音楽をゼロから作成。

必須入力： Captionまたは歌詞（少なくとも1つ）

cover

既存のオーディオを構造を維持しながらスタイルを変更して変換。

ユースケース： 異なるスタイルのカバーバージョンを作成。

必須入力：

ソースオーディオ（オーディオアップロードセクションでアップロード）
ターゲットスタイルを説明するCaption

重要なパラメータ： オーディオカバー強度（0.0-1.0）

高い値は元の構造をより多く維持
低い値はより創造的な自由を許可

repaint

オーディオの特定の時間セグメントを再生成。

ユースケース： 生成された音楽の特定のセクションを修正または変更。

必須入力：

ソースオーディオ
リペイント開始（秒）
リペイント終了（秒、ファイル終端には-1）
希望するコンテンツを説明するCaption

lego（Baseモデルのみ）

既存のオーディオのコンテキストで特定の楽器トラックを生成。

ユースケース： バッキングトラックに楽器レイヤーを追加。

必須入力：

ソースオーディオ
トラック名（ドロップダウンから選択）
トラック特性を説明するCaption

利用可能なトラック： vocals、backing_vocals、drums、bass、guitar、keyboard、percussion、strings、synth、fx、brass、woodwinds

extract（Baseモデルのみ）

ミックスオーディオから特定の楽器トラックを抽出/分離。

ユースケース： ステム分離、楽器の分離。

必須入力：

ソースオーディオ
抽出するトラック名

complete（Baseモデルのみ）

指定された楽器で部分的なトラックを完成。

ユースケース： 不完全な作品の自動アレンジ。

必須入力：

ソースオーディオ
トラック名（複数選択）
希望するスタイルを説明するCaption

入力パラメータ

必須入力

タスクタイプ

ドロップダウンから生成タスクを選択。選択されたタスクに基づいて指示フィールドが自動的に更新されます。

オーディオアップロード

フィールド	説明
参照オーディオ	スタイル参照用のオプションオーディオ
ソースオーディオ	cover、repaint、lego、extract、completeタスクに必須
コードに変換	ソースオーディオから5Hzセマンティックコードを抽出

LMコードヒント

事前計算されたオーディオセマンティックコードをここに貼り付けて生成をガイドできます。トランスクライブ ボタンを使用してコードを分析しメタデータを抽出します。

音楽キャプション

希望する音楽のテキスト説明。以下について具体的に：

ジャンルとスタイル
楽器
ムードと雰囲気
テンポ感（BPMを指定しない場合）

例：「エレキギター、力強いドラム、キャッチーなシンセフックのアップビートなポップロック」

🎲 をクリックしてランダムな例のcaptionを読み込みます。

歌詞

構造タグ付きの歌詞を入力：

[Verse 1]
今日街を歩いていて
君が言っていた言葉を思い出していた

[Chorus]
前に進んでいく、強くいる
ここが僕の居場所

[Verse 2]
...

インストゥルメンタルチェックボックス： これをチェックすると、歌詞の内容に関係なくインストゥルメンタル音楽を生成します。

ボーカル言語： ボーカルの言語を選択。自動検出またはインストゥルメンタルトラックには「unknown」を使用。

フォーマットボタン： クリックして5Hz LMを使用してcaptionと歌詞を強化。

オプションパラメータ

パラメータ	デフォルト	説明
BPM	自動	1分あたりのビート数（30-300）
キースケール	自動	音楽キー（例：「C Major」、「Am」、「F# minor」）
拍子記号	自動	拍子記号：2（2/4）、3（3/4）、4（4/4）、6（6/8）
オーディオ長	自動/-1	目標長（秒）（10-600）。-1で自動
バッチサイズ	2	生成するオーディオバリエーションの数（1-8）

高度な設定

DiTパラメータ

パラメータ	デフォルト	説明
推論ステップ	8	デノイズステップ。Turbo：1-20、Base：1-200
ガイダンススケール	7.0	CFG強度（baseモデルのみ）。高い = プロンプトにより従う
シード	-1	ランダムシード。バッチにはカンマ区切りの値を使用
ランダムシード	✓	チェック時にランダムシードを生成
オーディオ形式	mp3	出力形式：mp3、flac
シフト	3.0	タイムステップシフト係数（1.0-5.0）。turboには3.0推奨
推論方法	ode	ode（Euler、より高速）またはsde（確率的）
カスタムタイムステップ	-	タイムステップをオーバーライド（例：「0.97,0.76,0.615,0.5,0.395,0.28,0.18,0.085,0」）

Baseモデルのみのパラメータ

パラメータ	デフォルト	説明
ADGを使用	✗	より良い品質のために適応デュアルガイダンスを有効化
CFG区間開始	0.0	CFGを適用し始めるタイミング（0.0-1.0）
CFG区間終了	1.0	CFGの適用を停止するタイミング（0.0-1.0）

LMパラメータ

パラメータ	デフォルト	説明
LM温度	0.85	サンプリング温度（0.0-2.0）。高い = より創造的
LM CFGスケール	2.0	LMガイダンス強度（1.0-3.0）
LM Top-K	0	Top-Kサンプリング。0で無効
LM Top-P	0.9	核サンプリング（0.0-1.0）
LMネガティブプロンプト	"NO USER INPUT"	CFG用のネガティブプロンプト

CoT（思考の連鎖）オプション

オプション	デフォルト	説明
CoT Metas	✓	LM推論でメタデータを生成
CoT Language	✓	LMでボーカル言語を検出
制約付きデコーディングデバッグ	✗	デバッグログを有効化

生成オプション

オプション	デフォルト	説明
LMコード強度	1.0	LMコードが生成に与える影響の強さ（0.0-1.0）
自動スコア	✗	品質スコアを自動計算
自動LRC	✗	歌詞タイムスタンプを自動生成
LMバッチチャンクサイズ	8	LMバッチあたりの最大アイテム数（GPUメモリ）

メイン生成コントロール

コントロール	説明
Think	コード生成とメタデータ用の5Hz LMを有効化
ParallelThinking	並列LMバッチ処理を有効化
CaptionRewrite	LMに入力captionを強化させる
AutoGen	完了後に次のバッチを自動開始

結果セクション

生成されたオーディオ

バッチサイズに基づいて最大8つのオーディオサンプルが表示されます。各サンプルには以下が含まれます：

オーディオプレーヤー - 生成されたオーディオの再生、一時停止、ダウンロード
ソースに送信 - このオーディオをソースオーディオ入力に送信してさらに処理
保存 - オーディオとメタデータをJSONファイルに保存
スコア - パープレキシティベースの品質スコアを計算
LRC - 歌詞タイムスタンプを生成（LRC形式）

詳細アコーディオン

「スコア & LRC & LMコード」をクリックして展開し、以下を表示：

LMコード - このサンプルの5Hzセマンティックコード
品質スコア - パープレキシティベースの品質メトリック
歌詞タイムスタンプ - LRC形式のタイミングデータ

バッチナビゲーション

コントロール	説明
◀ 前へ	前のバッチを表示
バッチインジケーター	現在のバッチ位置を表示（例：「バッチ 1 / 3」）
次バッチステータス	バックグラウンド生成の進捗を表示
次へ ▶	次のバッチを表示（AutoGenがオンの場合は生成をトリガー）

パラメータの復元

これらの設定をUIに適用 をクリックして、現在のバッチからすべての生成パラメータを入力フィールドに復元。良い結果を反復するのに便利。

バッチ結果

「バッチ結果と生成詳細」アコーディオンには以下が含まれます：

すべての生成ファイル - すべてのバッチからすべてのファイルをダウンロード
生成詳細 - 生成プロセスに関する詳細情報

LoRAトレーニング

LoRAトレーニングタブはカスタムLoRAアダプターを作成するためのツールを提供します。

データセットビルダータブ

ステップ1：読み込みまたはスキャン

オプションA：既存のデータセットを読み込み

以前保存したデータセットJSONへのパスを入力
読み込み をクリック

オプションB：新しいディレクトリをスキャン

オーディオフォルダへのパスを入力
スキャン をクリックしてオーディオファイルを検索（wav、mp3、flac、ogg、opus）

ステップ2：データセットの設定

設定	説明
データセット名	データセットの名前
すべてインストゥルメンタル	すべてのトラックにボーカルがない場合にチェック
カスタムアクティベーションタグ	このLoRAのスタイルをアクティブにするユニークなタグ
タグ位置	タグを配置する場所：前に追加、後に追加、またはcaptionを置換

ステップ3：自動ラベル

すべて自動ラベル をクリックしてすべてのオーディオファイルのメタデータを生成：

Caption（音楽の説明）
BPM
キー
拍子記号

Metasをスキップ オプションはLLMラベリングをスキップしてN/A値を使用します。

ステップ4：プレビューと編集

スライダーを使用してサンプルを選択し、手動で編集：

Caption
歌詞
BPM、キー、拍子記号
言語
インストゥルメンタルフラグ

変更を保存 をクリックしてサンプルを更新。

ステップ5：データセットを保存

保存パスを入力し、データセットを保存 をクリックしてJSONとしてエクスポート。

ステップ6：前処理

高速トレーニングのためにデータセットを事前計算テンソルに変換：

オプションで既存のデータセットJSONを読み込み
テンソル出力ディレクトリを設定
前処理 をクリック

これによりオーディオがVAE潜在変数にエンコードされ、テキストが埋め込みにエンコードされ、条件エンコーダーが実行されます。

LoRAトレーニングタブ

データセット選択

前処理されたテンソルディレクトリへのパスを入力し、データセットを読み込み をクリック。

LoRA設定

設定	デフォルト	説明
LoRAランク (r)	64	LoRAの容量。高い = より多くの容量、より多くのメモリ
LoRA Alpha	128	スケーリング係数（通常はランクの2倍）
LoRA Dropout	0.1	正則化のためのドロップアウト率

トレーニングパラメータ

設定	デフォルト	説明
学習率	1e-4	最適化学習率
最大エポック	500	最大トレーニングエポック
バッチサイズ	1	トレーニングバッチサイズ
勾配累積	1	有効バッチ = batch_size × accumulation
Nエポックごとに保存	200	チェックポイント保存頻度
シフト	3.0	turboモデルのタイムステップシフト
シード	42	再現性のためのランダムシード

トレーニングコントロール

トレーニング開始 - トレーニングプロセスを開始
トレーニング停止 - トレーニングを中断
トレーニング進捗 - 現在のエポックとロスを表示
トレーニングログ - 詳細なトレーニング出力
トレーニングロスプロット - 視覚的なロス曲線

LoRAのエクスポート

トレーニング後、最終アダプターをエクスポート：

エクスポートパスを入力
LoRAをエクスポート をクリック

ヒントとベストプラクティス

最高品質のために

thinkingモードを使用 - LM強化生成のために「Think」チェックボックスを有効に保つ
captionを具体的に - ジャンル、楽器、ムード、スタイルの詳細を含める
LMにメタデータを検出させる - 自動検出のためにBPM/キー/Durationを空のままにする
バッチ生成を使用 - 2-4のバリエーションを生成し、最良のものを選ぶ

より高速な生成のために

turboモデルを使用 - acestep-v15-turbo または acestep-v15-turbo-shift3 を選択
推論ステップを8に保つ - turboに最適なデフォルト
バッチサイズを減らす - 迅速な結果が必要な場合はバッチサイズを下げる
AutoGenを無効化 - バッチ生成の手動制御

一貫した結果のために

特定のシードを設定 - 「ランダムシード」のチェックを外してシード値を入力
良い結果を保存 - 再現のためにパラメータをエクスポートするために「保存」を使用
「これらの設定を適用」を使用 - 良いバッチからパラメータを復元

長尺音楽のために

明示的なdurationを設定 - 秒単位でdurationを指定
repaintタスクを使用 - 初期生成後に問題のあるセクションを修正
生成をチェーン - 以前の結果の上に構築するために「ソースに送信」を使用

スタイルの一貫性のために

LoRAをトレーニング - あなたのスタイル用のカスタムアダプターを作成
参照オーディオを使用 - オーディオアップロードでスタイル参照をアップロード
一貫したcaptionを使用 - 類似の説明的な言語を維持

トラブルシューティング

オーディオが生成されない：

モデルが初期化されていることを確認（緑のステータスメッセージ）
thinkingモードを使用している場合は5Hz LMが初期化されていることを確認
エラーメッセージのステータス出力を確認

結果の品質が悪い：

推論ステップを増やす（baseモデルの場合）
ガイダンススケールを調整
異なるシードを試す
captionをより具体的にする

メモリ不足：

バッチサイズを減らす
CPUオフロードを有効化
LMバッチチャンクサイズを減らす

LMが機能しない：

初期化時に「5Hz LMを初期化」がチェックされていたことを確認
有効なLMモデルパスが選択されていることを確認
vllmまたはPyTorchバックエンドが利用可能であることを確認

キーボードショートカット

Gradioインターフェースは標準的なWebショートカットをサポート：

Tab - 入力フィールド間を移動
Enter - テキスト入力を送信
Space - チェックボックスを切り替え

言語サポート

インターフェースは複数のUI言語をサポート：

英語 (en)
中国語 (zh)
日本語 (ja)

サービス設定セクションで好みの言語を選択してください。

詳細については以下を参照：

メインREADME：../../README.md
REST APIドキュメント：API.md
Python推論API：INFERENCE.md

FilesExpand file tree

GRADIO_GUIDE.md

Latest commit

History

GRADIO_GUIDE.md

File metadata and controls

ACE-Step Gradio デモユーザーガイド

目次

はじめに

デモの起動

インターフェース概要

サービス設定

モデル選択

5Hz LM設定

パフォーマンスオプション

LoRAアダプター

初期化

生成モード

シンプルモード

カスタムモード

タスクタイプ

text2music（デフォルト）

cover

repaint

lego（Baseモデルのみ）

extract（Baseモデルのみ）

complete（Baseモデルのみ）

入力パラメータ

必須入力

タスクタイプ

オーディオアップロード

LMコードヒント

音楽キャプション

歌詞

オプションパラメータ

高度な設定

DiTパラメータ

Baseモデルのみのパラメータ

LMパラメータ

CoT（思考の連鎖）オプション

生成オプション

メイン生成コントロール

結果セクション

生成されたオーディオ

詳細アコーディオン

バッチナビゲーション

パラメータの復元

バッチ結果

LoRAトレーニング

データセットビルダータブ

ステップ1：読み込みまたはスキャン

ステップ2：データセットの設定

ステップ3：自動ラベル

ステップ4：プレビューと編集

ステップ5：データセットを保存

ステップ6：前処理

LoRAトレーニングタブ

データセット選択

LoRA設定

トレーニングパラメータ

トレーニングコントロール

LoRAのエクスポート

ヒントとベストプラクティス

最高品質のために

より高速な生成のために

一貫した結果のために

長尺音楽のために

スタイルの一貫性のために

トラブルシューティング

キーボードショートカット

言語サポート