AI音楽生成の分野に、新たな選択肢が登場しました。
2026年1月末に公開された「ACE-Step 1.5」は、商用利用可能なオープンソースのAI音楽生成モデルです。
一般的なゲーミングPCでも動作し、わずか数秒で1曲を生成できる高速性が特徴となっています。
この記事では、ACE-Step 1.5の基本情報から使い方、注意点まで、詳しく解説します。
ACE-Step 1.5とは
ACE-Step 1.5は、ACE StudioとStepFunが共同で開発したAI音楽生成モデルです。
テキストの指示から完全な楽曲を自動生成できるだけでなく、既存の楽曲のアレンジや部分的な編集にも対応しています。
開発の背景
従来のAI音楽生成モデルには、いくつかの課題がありました。
LLM(大規模言語モデル)ベースのモデルは歌詞との整合性に優れる一方、生成速度が遅いという問題がありました。
拡散モデル(Diffusion Model)ベースのモデルは高速ですが、楽曲全体の構成に一貫性が欠けることがありました。
ACE-Step 1.5は、これらの課題を解決するために設計されました。
言語モデル(LM)と拡散トランスフォーマー(DiT)を組み合わせたハイブリッドアーキテクチャを採用することで、高速性と楽曲の質の両立を実現しています。
公開時期とバージョン
ACE-Step 1.5は2026年1月31日に公開されました。
前バージョンであるACE-Step v1は2025年5月に公開されており、約8ヶ月での大幅なアップデートとなります。
ACE-Step 1.5の主な特徴
商用利用が可能
ACE-Step 1.5は、MITライセンスで公開されています。
生成した音楽を商用プロジェクトで自由に使用できます。
多くのAI音楽生成サービスでは、生成した楽曲の商用利用に制限がある場合や、別途ライセンス契約が必要な場合があります。
ACE-Step 1.5はオープンソースであり、このような制約がありません。
トレーニングデータの透明性
ACE-Step 1.5のトレーニングデータは、以下の3種類で構成されています。
- ライセンス取得済み音楽トラック
- ロイヤリティフリー・パブリックドメインの音楽
- MIDI-to-Audio変換による合成データ
公式情報によると、これらはすべて法的に適切なデータセットとされています。
ただし、具体的なデータセットの詳細については公開されていません。
高速な生成速度
ACE-Step 1.5の最大の特徴は、生成速度の速さです。
NVIDIA A100 GPUでは、完全な楽曲を2秒以下で生成できます。
一般的なゲーミングPCに搭載されているRTX 3090では、10秒以下で生成可能です。
参考として、他のローカル音楽生成モデルとの比較を示します。
- YuE: 5分の音楽を生成するのに約1時間(RTX 3090)
- HeartMula: 5分の音楽を生成するのに約5分(RTX 3090)
- ACE-Step 1.5: フル楽曲(約4分)を10秒以下(RTX 3090)
この高速性により、複数のバージョンを生成して比較することが現実的になります。
低VRAM要件
ACE-Step 1.5は、4GB未満のVRAMで動作します。
これは、エントリーレベルのGPUでも使用できることを意味します。
システムは利用可能なVRAMを自動検出し、生成時間やバッチサイズを自動調整します。
VRAMが少ない環境でも、生成可能な楽曲の長さを短くすることで対応できます。
多言語対応
ACE-Step 1.5は、50以上の言語に対応しています。
特に以下の言語で強力なサポートがあるとされています。
- 英語
- 中国語
- 日本語
- 韓国語
- スペイン語
- ドイツ語
- フランス語
- ポルトガル語
- イタリア語
日本語の歌詞で楽曲を生成することも可能です。
柔軟な生成時間
ACE-Step 1.5は、10秒から10分(600秒)までの音楽を生成できます。
短いループからフルレングスの楽曲まで、用途に応じて調整できます。
バッチ生成機能
最大8曲を同時に生成できます。
複数のバージョンを一度に生成し、最も良い結果を選択できます。
これは、AI音楽生成が確率的なプロセスであり、同じ指示でも毎回異なる結果が得られることを考慮した設計です。
ACE-Step 1.5のアーキテクチャ
ACE-Step 1.5は、2つのコアコンポーネントで構成されるハイブリッドアーキテクチャを採用しています。
5Hz言語モデル(LM)
言語モデルは「プランナー」として機能します。
ユーザーの指示を理解し、楽曲の設計図を作成します。
具体的には、以下の処理を行います。
- Chain-of-Thought(思考の連鎖)により、音楽のメタデータ(BPM、キー、時間など)を推論
- ユーザーの指示を最適化・拡張
- 楽曲の構成要素を含むセマンティックコードを生成
言語モデルは複数のサイズが用意されています。
- 0.6Bパラメータ
- 1.7Bパラメータ(デフォルト)
- 4Bパラメータ
パラメータ数が大きいほど高品質な結果が得られますが、生成時間が長くなります。
なお、言語モデルは必須ではありません。
カバー生成やリペイントなど、参照音源がある場合は、言語モデルをスキップして直接DiTで生成することも可能です。
拡散トランスフォーマー(DiT)
拡散トランスフォーマーは、実際の音声を合成する部分です。
言語モデルが作成した設計図に基づいて、音声データを生成します。
複数のDiTモデルが提供されています。
- acestep-v15-base: 基本モデル
- acestep-v15-sft: 教師あり微調整版
- acestep-v15-turbo: 高速版(デフォルト)
turboモデルは、Distribution Matching Distillation(分布マッチング蒸留)という技術を使用しています。
これにより、少ない拡散ステップで高品質な音声を生成できます。
ACE-Step 1.5の主な機能
テキストから音楽生成
テキストの指示から、完全な楽曲を生成できます。
指示は2種類の形式で入力します。
- タグ(Tags): 音楽スタイル、シーン、楽器などを記述
- 歌詞(Lyrics): 実際の歌詞を記述。[verse]、[chorus]、[bridge]などの構造タグも使用可能
例えば、以下のような指示が可能です。
- タグ: “neo-soul, live instrumentation, organic, warm, hip-hop influenced drums”
- 歌詞: “[verse] Walking down the street… [chorus] I feel the rhythm…”
カバー生成
既存の楽曲を参照し、新しいスタイルでアレンジできます。
元の楽曲の構造を保ちつつ、全く異なるジャンルに変換することが可能です。
例えば、ロックの楽曲をジャズ風にアレンジしたり、アコースティックの曲をエレクトロニックにしたりできます。
リペイント機能
生成した楽曲の一部分のみを再生成できます。
全体の90%は満足だが、特定の部分だけを変更したい場合に有効です。
変更したい部分を選択し、その部分だけを再生成します。
前後の部分とは自然につながるように調整されます。
ボーカルからBGM変換
ボーカルトラックから、伴奏(BGM)を生成できます。
既存のボーカルに合わせた伴奏を作成することが可能です。
LoRAによるカスタマイズ
LoRA(Low-Rank Adaptation)を使用して、モデルをカスタマイズできます。
数曲から数十曲のサンプルで、特定のスタイルを学習させることが可能です。
LoRAトレーニングはローカルで実行されるため、学習データがサーバーに送信されることはありません。
自分だけのスタイルを作成し、完全に管理できます。
ACE-Step 1.5のインストール方法
ACE-Step 1.5は、複数の方法でインストール・使用できます。
システム要件
ACE-Step 1.5を使用するには、以下の環境が推奨されます。
- Python 3.10以降
- NVIDIA GPU(CUDA対応)またはAMD GPU(ROCm対応)
- 最小VRAM: 4GB
- 推奨VRAM: 8GB以上
- macOS(Apple Silicon)でも動作可能(ただしLM機能は制限される)
GitHubからのインストール
GitHubリポジトリからクローンしてインストールする方法が、最も標準的です。
# リポジトリをクローン
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5
# 依存関係をインストール
uv sync
# バージョン確認
uv run acestep --version
uvは、高速なパッケージマネージャーです。
依存関係の解決とインストールを効率的に行います。
初回起動時、必要なモデルが自動的にダウンロードされます。
ダウンロード先は、デフォルトで./checkpoints/ディレクトリです。
ComfyUIでの使用
ComfyUIは、ノードベースのAI生成環境です。
ACE-Step 1.5は、ComfyUI上で使用することも可能です。
ComfyUIのデスクトップアプリをインストールし、テンプレートから「ACE Step 1.5 Turbo AIO」を選択することで、すぐに使用できます。
ComfyUIを使用すると、グラフィカルなインターフェースで楽曲生成ワークフローを構築できます。
Gradio Webインターフェース
Gradioベースのウェブインターフェースも提供されています。
# Gradioインターフェースを起動
python app.py
ブラウザでhttp://localhost:7860にアクセスすると、ウェブベースのGUIが表示されます。
コマンドラインに不慣れなユーザーでも、簡単に操作できます。
ACE-Step 1.5の使い方
基本的な生成フロー
ACE-Step 1.5での音楽生成は、以下の流れで行います。
- タスクタイプを選択(テキストから音楽、カバー、リペイントなど)
- 音楽の説明(タグ)と歌詞を入力
- オプション設定(BPM、キー、長さなど)
- 生成モードを選択(Simpleモード or Expertモード)
- 生成実行
Simpleモードの使い方
Simpleモードは、自然言語ベースの簡単な生成に適しています。
- 「Music Caption & Lyrics」セクションにタグと歌詞を入力
- 必要に応じて「Format」ボタンをクリックし、5Hz LMで最適化
- 「Generate」ボタンをクリック
Simpleモードでは、言語モデルが自動的にBPMやキーなどのメタデータを推論します。
Expertモードの使い方
Expertモードは、細かい制御が必要な場合に使用します。
- BPM、キー、長さなどのメタデータを明示的に指定
- 拡散ステップ数、CFG強度、シードなどの高度なパラメータを調整
- 「Generate」ボタンをクリック
Expertモードでは、言語モデルをスキップして、直接DiTで生成することも可能です。
推奨される設定
ComfyUIのチュートリアルによると、以下の設定が推奨されています。
- 楽曲の長さ: 最初は90〜120秒で試すことを推奨。180秒以上の長い楽曲は、複数のバッチ生成が必要になる場合がある
- バッチサイズ: 8または16に設定し、複数の結果から最良のものを選択
ACE-Step 1.5は確率的なモデルであり、同じ指示でも異なる結果が得られます。
複数のバージョンを生成し、比較することが重要です。
ACE-Step 1.5の性能比較
公式の評価指標によると、ACE-Step 1.5は多くの商用音楽生成モデルを上回る品質を達成しています。
音楽の一貫性(Musical Coherence)スコアでは、4.72を記録しました。
これは、Suno v4.5とSuno v5の間に位置する品質とされています。
ただし、これらは開発元による評価であり、第三者による独立した評価ではありません。
実際の品質は、用途や要求レベルによって評価が分かれる可能性があります。
ハードウェアごとの生成速度
以下は、公式が公開している各ハードウェアでの生成速度です(2026年2月時点)。
- NVIDIA RTX 5090: 4分の楽曲を約1秒で生成
- NVIDIA A100: 4分の楽曲を2秒以下で生成
- NVIDIA RTX 4090: 1分の音楽を1.74秒で生成(27ステップ)
- NVIDIA RTX 3090: 1分の音楽を4.70秒で生成(27ステップ)
- AMD Radeon AI PRO R9700: リアルタイムの約4倍の速度
- AMD Ryzen AI Max+: リアルタイムの約1.8倍の速度
- MacBook M2 Max: 1分の音楽を26.43秒で生成(27ステップ)
生成速度は、拡散ステップ数によって変化します。
ステップ数を増やすと品質が向上しますが、生成時間も長くなります。
ACE-Step 1.5の制限事項
ACE-Step 1.5には、以下のような制限や課題があります。
出力の一貫性
公式ドキュメントでも認められているように、ACE-Step 1.5は乱数シードや入力時間に対して敏感です。
同じ指示でも、毎回大きく異なる結果が得られることがあります。
これは、バッチ生成機能が重要である理由の一つです。
複数のバージョンを生成し、最良の結果を選択することが推奨されます。
特定ジャンルでの弱点
中国語ラップ(zh_rap)など、特定のジャンルでは性能が低下することが報告されています。
スタイルの再現性や音楽性に限界があることが指摘されています。
継続性のアーティファクト
リペイントや延長操作において、不自然な繋ぎ目が発生することがあります。
完全にシームレスな編集は保証されていません。
ボーカルの品質
ボーカルの合成は粗く、ニュアンスが欠けているとの指摘があります。
ボーカルの声質は似通った傾向があり、多様性に欠けるという意見もあります。
プロフェッショナルなボーカルトラックとして使用する場合は、追加の編集や加工が必要になる可能性があります。
ACE-Step 1.5の使用上の注意点
著作権とスタイルの類似性
ACE-Step 1.5は、既存の楽曲と偶然類似したスタイルを生成する可能性があります。
開発元は、以下の注意を促しています。
- 生成した楽曲のオリジナリティを確認すること
- AI生成であることを明示すること
- 保護されたスタイルや素材を使用する場合は、適切な許可を得ること
これらは法的義務ではなく、倫理的ガイドラインです。
ただし、商用利用する際には、これらを遵守することが推奨されます。
開発元の免責事項
開発元は、以下の誤用について責任を負わないと明示しています。
- 著作権侵害
- 文化的配慮の欠如
- 有害なコンテンツの生成
ユーザーは、芸術的誠実性、文化的多様性、法的コンプライアンスを尊重することが求められます。
公式サイトの確認
ACE-Stepプロジェクトの公式サイトは、GitHubページのみです。
他のドメイン(例: acp.com、ap.org、a***c.org)は偽物であり、アクセスや支払いを行わないよう警告されています。
ACE-Step 1.5の活用例
ACE-Step 1.5は、以下のような用途に活用できます。
音楽制作のアイデア出し
複数のバージョンを高速生成できるため、楽曲制作のアイデア出しに適しています。
生成された楽曲をDAW(デジタル・オーディオ・ワークステーション)に取り込み、さらに編集することも可能です。
ソーシャルメディア用BGM
短い動画のバックグラウンド音楽として使用できます。
10秒から数分まで、柔軟な長さで生成できるため、様々な動画フォーマットに対応できます。
ゲーム開発
インディーゲーム開発者にとって、ACE-Step 1.5は有用なツールとなる可能性があります。
ロイヤリティフリーでBGMを生成できるため、ライセンス費用を抑えられます。
教育・研究
音楽制作やAI技術の教育・研究用途にも適しています。
オープンソースであるため、内部の仕組みを学習することも可能です。
まとめ
ACE-Step 1.5は、高速・低コスト・商用利用可能という特徴を持つAI音楽生成モデルです。
一般的なゲーミングPCでも動作し、わずか数秒で楽曲を生成できます。
主な特徴は以下の通りです。
- MITライセンスで商用利用可能
- 4GB未満のVRAMで動作
- A100で2秒以下、RTX 3090で10秒以下で1曲を生成
- 50以上の言語に対応
- テキスト生成、カバー、リペイント、LoRAカスタマイズなど多彩な機能
一方で、出力の一貫性や特定ジャンルでの品質など、課題も存在します。
プロフェッショナルな音楽制作の完全な代替にはなりませんが、アイデア出しや素材作成のツールとしては有用です。
ACE-Step 1.5は、AI音楽生成技術の民主化を進める重要な一歩と言えるでしょう。
今後のアップデートにより、さらなる品質向上が期待されます。
参考情報
- ACE-Step 1.5 GitHubリポジトリ
- ACE-Step 1.5 Hugging Faceモデルページ
- ACE-Step 1.5 公式プロジェクトページ
- arXiv論文: ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation
- ComfyUI公式ブログ: ACE-Step 1.5 is Now Available in ComfyUI
- AMD公式ブログ: Commercial-grade AI music generation on AMD Ryzen AI and Radeon with ACE Step 1.5
※この記事は2026年2月6日時点の情報に基づいています

コメント