ACE-Step 1.5とは?商用利用可能なAI音楽生成モデルの使い方と特徴

AI音楽生成の分野に、新たな選択肢が登場しました。
2026年1月末に公開された「ACE-Step 1.5」は、商用利用可能なオープンソースのAI音楽生成モデルです。
一般的なゲーミングPCでも動作し、わずか数秒で1曲を生成できる高速性が特徴となっています。
この記事では、ACE-Step 1.5の基本情報から使い方、注意点まで、詳しく解説します。

スポンサーリンク

ACE-Step 1.5とは

ACE-Step 1.5は、ACE StudioとStepFunが共同で開発したAI音楽生成モデルです。
テキストの指示から完全な楽曲を自動生成できるだけでなく、既存の楽曲のアレンジや部分的な編集にも対応しています。

開発の背景

従来のAI音楽生成モデルには、いくつかの課題がありました。
LLM(大規模言語モデル)ベースのモデルは歌詞との整合性に優れる一方、生成速度が遅いという問題がありました。
拡散モデル(Diffusion Model)ベースのモデルは高速ですが、楽曲全体の構成に一貫性が欠けることがありました。

ACE-Step 1.5は、これらの課題を解決するために設計されました。
言語モデル(LM)と拡散トランスフォーマー(DiT)を組み合わせたハイブリッドアーキテクチャを採用することで、高速性と楽曲の質の両立を実現しています。

公開時期とバージョン

ACE-Step 1.5は2026年1月31日に公開されました。
前バージョンであるACE-Step v1は2025年5月に公開されており、約8ヶ月での大幅なアップデートとなります。

ACE-Step 1.5の主な特徴

商用利用が可能

ACE-Step 1.5は、MITライセンスで公開されています。
生成した音楽を商用プロジェクトで自由に使用できます。

多くのAI音楽生成サービスでは、生成した楽曲の商用利用に制限がある場合や、別途ライセンス契約が必要な場合があります。
ACE-Step 1.5はオープンソースであり、このような制約がありません。

トレーニングデータの透明性

ACE-Step 1.5のトレーニングデータは、以下の3種類で構成されています。

  1. ライセンス取得済み音楽トラック
  2. ロイヤリティフリー・パブリックドメインの音楽
  3. MIDI-to-Audio変換による合成データ

公式情報によると、これらはすべて法的に適切なデータセットとされています。
ただし、具体的なデータセットの詳細については公開されていません。

高速な生成速度

ACE-Step 1.5の最大の特徴は、生成速度の速さです。

NVIDIA A100 GPUでは、完全な楽曲を2秒以下で生成できます。
一般的なゲーミングPCに搭載されているRTX 3090では、10秒以下で生成可能です。

参考として、他のローカル音楽生成モデルとの比較を示します。

  • YuE: 5分の音楽を生成するのに約1時間(RTX 3090)
  • HeartMula: 5分の音楽を生成するのに約5分(RTX 3090)
  • ACE-Step 1.5: フル楽曲(約4分)を10秒以下(RTX 3090)

この高速性により、複数のバージョンを生成して比較することが現実的になります。

低VRAM要件

ACE-Step 1.5は、4GB未満のVRAMで動作します。
これは、エントリーレベルのGPUでも使用できることを意味します。

システムは利用可能なVRAMを自動検出し、生成時間やバッチサイズを自動調整します。
VRAMが少ない環境でも、生成可能な楽曲の長さを短くすることで対応できます。

多言語対応

ACE-Step 1.5は、50以上の言語に対応しています。
特に以下の言語で強力なサポートがあるとされています。

  • 英語
  • 中国語
  • 日本語
  • 韓国語
  • スペイン語
  • ドイツ語
  • フランス語
  • ポルトガル語
  • イタリア語

日本語の歌詞で楽曲を生成することも可能です。

柔軟な生成時間

ACE-Step 1.5は、10秒から10分(600秒)までの音楽を生成できます。
短いループからフルレングスの楽曲まで、用途に応じて調整できます。

バッチ生成機能

最大8曲を同時に生成できます。
複数のバージョンを一度に生成し、最も良い結果を選択できます。

これは、AI音楽生成が確率的なプロセスであり、同じ指示でも毎回異なる結果が得られることを考慮した設計です。

ACE-Step 1.5のアーキテクチャ

ACE-Step 1.5は、2つのコアコンポーネントで構成されるハイブリッドアーキテクチャを採用しています。

5Hz言語モデル(LM)

言語モデルは「プランナー」として機能します。
ユーザーの指示を理解し、楽曲の設計図を作成します。

具体的には、以下の処理を行います。

  1. Chain-of-Thought(思考の連鎖)により、音楽のメタデータ(BPM、キー、時間など)を推論
  2. ユーザーの指示を最適化・拡張
  3. 楽曲の構成要素を含むセマンティックコードを生成

言語モデルは複数のサイズが用意されています。

  • 0.6Bパラメータ
  • 1.7Bパラメータ(デフォルト)
  • 4Bパラメータ

パラメータ数が大きいほど高品質な結果が得られますが、生成時間が長くなります。

なお、言語モデルは必須ではありません。
カバー生成やリペイントなど、参照音源がある場合は、言語モデルをスキップして直接DiTで生成することも可能です。

拡散トランスフォーマー(DiT)

拡散トランスフォーマーは、実際の音声を合成する部分です。
言語モデルが作成した設計図に基づいて、音声データを生成します。

複数のDiTモデルが提供されています。

  • acestep-v15-base: 基本モデル
  • acestep-v15-sft: 教師あり微調整版
  • acestep-v15-turbo: 高速版(デフォルト)

turboモデルは、Distribution Matching Distillation(分布マッチング蒸留)という技術を使用しています。
これにより、少ない拡散ステップで高品質な音声を生成できます。

ACE-Step 1.5の主な機能

テキストから音楽生成

テキストの指示から、完全な楽曲を生成できます。

指示は2種類の形式で入力します。

  1. タグ(Tags): 音楽スタイル、シーン、楽器などを記述
  2. 歌詞(Lyrics): 実際の歌詞を記述。[verse]、[chorus]、[bridge]などの構造タグも使用可能

例えば、以下のような指示が可能です。

  • タグ: “neo-soul, live instrumentation, organic, warm, hip-hop influenced drums”
  • 歌詞: “[verse] Walking down the street… [chorus] I feel the rhythm…”

カバー生成

既存の楽曲を参照し、新しいスタイルでアレンジできます。
元の楽曲の構造を保ちつつ、全く異なるジャンルに変換することが可能です。

例えば、ロックの楽曲をジャズ風にアレンジしたり、アコースティックの曲をエレクトロニックにしたりできます。

リペイント機能

生成した楽曲の一部分のみを再生成できます。
全体の90%は満足だが、特定の部分だけを変更したい場合に有効です。

変更したい部分を選択し、その部分だけを再生成します。
前後の部分とは自然につながるように調整されます。

ボーカルからBGM変換

ボーカルトラックから、伴奏(BGM)を生成できます。
既存のボーカルに合わせた伴奏を作成することが可能です。

LoRAによるカスタマイズ

LoRA(Low-Rank Adaptation)を使用して、モデルをカスタマイズできます。
数曲から数十曲のサンプルで、特定のスタイルを学習させることが可能です。

LoRAトレーニングはローカルで実行されるため、学習データがサーバーに送信されることはありません。
自分だけのスタイルを作成し、完全に管理できます。

ACE-Step 1.5のインストール方法

ACE-Step 1.5は、複数の方法でインストール・使用できます。

システム要件

ACE-Step 1.5を使用するには、以下の環境が推奨されます。

  • Python 3.10以降
  • NVIDIA GPU(CUDA対応)またはAMD GPU(ROCm対応)
  • 最小VRAM: 4GB
  • 推奨VRAM: 8GB以上
  • macOS(Apple Silicon)でも動作可能(ただしLM機能は制限される)

GitHubからのインストール

GitHubリポジトリからクローンしてインストールする方法が、最も標準的です。

# リポジトリをクローン
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5

# 依存関係をインストール
uv sync

# バージョン確認
uv run acestep --version

uvは、高速なパッケージマネージャーです。
依存関係の解決とインストールを効率的に行います。

初回起動時、必要なモデルが自動的にダウンロードされます。
ダウンロード先は、デフォルトで./checkpoints/ディレクトリです。

ComfyUIでの使用

ComfyUIは、ノードベースのAI生成環境です。
ACE-Step 1.5は、ComfyUI上で使用することも可能です。

ComfyUIのデスクトップアプリをインストールし、テンプレートから「ACE Step 1.5 Turbo AIO」を選択することで、すぐに使用できます。

ComfyUIを使用すると、グラフィカルなインターフェースで楽曲生成ワークフローを構築できます。

Gradio Webインターフェース

Gradioベースのウェブインターフェースも提供されています。

# Gradioインターフェースを起動
python app.py

ブラウザでhttp://localhost:7860にアクセスすると、ウェブベースのGUIが表示されます。
コマンドラインに不慣れなユーザーでも、簡単に操作できます。

ACE-Step 1.5の使い方

基本的な生成フロー

ACE-Step 1.5での音楽生成は、以下の流れで行います。

  1. タスクタイプを選択(テキストから音楽、カバー、リペイントなど)
  2. 音楽の説明(タグ)と歌詞を入力
  3. オプション設定(BPM、キー、長さなど)
  4. 生成モードを選択(Simpleモード or Expertモード)
  5. 生成実行

Simpleモードの使い方

Simpleモードは、自然言語ベースの簡単な生成に適しています。

  1. 「Music Caption & Lyrics」セクションにタグと歌詞を入力
  2. 必要に応じて「Format」ボタンをクリックし、5Hz LMで最適化
  3. 「Generate」ボタンをクリック

Simpleモードでは、言語モデルが自動的にBPMやキーなどのメタデータを推論します。

Expertモードの使い方

Expertモードは、細かい制御が必要な場合に使用します。

  1. BPM、キー、長さなどのメタデータを明示的に指定
  2. 拡散ステップ数、CFG強度、シードなどの高度なパラメータを調整
  3. 「Generate」ボタンをクリック

Expertモードでは、言語モデルをスキップして、直接DiTで生成することも可能です。

推奨される設定

ComfyUIのチュートリアルによると、以下の設定が推奨されています。

  • 楽曲の長さ: 最初は90〜120秒で試すことを推奨。180秒以上の長い楽曲は、複数のバッチ生成が必要になる場合がある
  • バッチサイズ: 8または16に設定し、複数の結果から最良のものを選択

ACE-Step 1.5は確率的なモデルであり、同じ指示でも異なる結果が得られます。
複数のバージョンを生成し、比較することが重要です。

ACE-Step 1.5の性能比較

公式の評価指標によると、ACE-Step 1.5は多くの商用音楽生成モデルを上回る品質を達成しています。

音楽の一貫性(Musical Coherence)スコアでは、4.72を記録しました。
これは、Suno v4.5とSuno v5の間に位置する品質とされています。

ただし、これらは開発元による評価であり、第三者による独立した評価ではありません。
実際の品質は、用途や要求レベルによって評価が分かれる可能性があります。

ハードウェアごとの生成速度

以下は、公式が公開している各ハードウェアでの生成速度です(2026年2月時点)。

  • NVIDIA RTX 5090: 4分の楽曲を約1秒で生成
  • NVIDIA A100: 4分の楽曲を2秒以下で生成
  • NVIDIA RTX 4090: 1分の音楽を1.74秒で生成(27ステップ)
  • NVIDIA RTX 3090: 1分の音楽を4.70秒で生成(27ステップ)
  • AMD Radeon AI PRO R9700: リアルタイムの約4倍の速度
  • AMD Ryzen AI Max+: リアルタイムの約1.8倍の速度
  • MacBook M2 Max: 1分の音楽を26.43秒で生成(27ステップ)

生成速度は、拡散ステップ数によって変化します。
ステップ数を増やすと品質が向上しますが、生成時間も長くなります。

ACE-Step 1.5の制限事項

ACE-Step 1.5には、以下のような制限や課題があります。

出力の一貫性

公式ドキュメントでも認められているように、ACE-Step 1.5は乱数シードや入力時間に対して敏感です。
同じ指示でも、毎回大きく異なる結果が得られることがあります。

これは、バッチ生成機能が重要である理由の一つです。
複数のバージョンを生成し、最良の結果を選択することが推奨されます。

特定ジャンルでの弱点

中国語ラップ(zh_rap)など、特定のジャンルでは性能が低下することが報告されています。
スタイルの再現性や音楽性に限界があることが指摘されています。

継続性のアーティファクト

リペイントや延長操作において、不自然な繋ぎ目が発生することがあります。
完全にシームレスな編集は保証されていません。

ボーカルの品質

ボーカルの合成は粗く、ニュアンスが欠けているとの指摘があります。
ボーカルの声質は似通った傾向があり、多様性に欠けるという意見もあります。

プロフェッショナルなボーカルトラックとして使用する場合は、追加の編集や加工が必要になる可能性があります。

ACE-Step 1.5の使用上の注意点

著作権とスタイルの類似性

ACE-Step 1.5は、既存の楽曲と偶然類似したスタイルを生成する可能性があります。
開発元は、以下の注意を促しています。

  1. 生成した楽曲のオリジナリティを確認すること
  2. AI生成であることを明示すること
  3. 保護されたスタイルや素材を使用する場合は、適切な許可を得ること

これらは法的義務ではなく、倫理的ガイドラインです。
ただし、商用利用する際には、これらを遵守することが推奨されます。

開発元の免責事項

開発元は、以下の誤用について責任を負わないと明示しています。

  1. 著作権侵害
  2. 文化的配慮の欠如
  3. 有害なコンテンツの生成

ユーザーは、芸術的誠実性、文化的多様性、法的コンプライアンスを尊重することが求められます。

公式サイトの確認

ACE-Stepプロジェクトの公式サイトは、GitHubページのみです。
他のドメイン(例: acp.com、ap.org、a***c.org)は偽物であり、アクセスや支払いを行わないよう警告されています。

ACE-Step 1.5の活用例

ACE-Step 1.5は、以下のような用途に活用できます。

音楽制作のアイデア出し

複数のバージョンを高速生成できるため、楽曲制作のアイデア出しに適しています。
生成された楽曲をDAW(デジタル・オーディオ・ワークステーション)に取り込み、さらに編集することも可能です。

ソーシャルメディア用BGM

短い動画のバックグラウンド音楽として使用できます。
10秒から数分まで、柔軟な長さで生成できるため、様々な動画フォーマットに対応できます。

ゲーム開発

インディーゲーム開発者にとって、ACE-Step 1.5は有用なツールとなる可能性があります。
ロイヤリティフリーでBGMを生成できるため、ライセンス費用を抑えられます。

教育・研究

音楽制作やAI技術の教育・研究用途にも適しています。
オープンソースであるため、内部の仕組みを学習することも可能です。

まとめ

ACE-Step 1.5は、高速・低コスト・商用利用可能という特徴を持つAI音楽生成モデルです。
一般的なゲーミングPCでも動作し、わずか数秒で楽曲を生成できます。

主な特徴は以下の通りです。

  • MITライセンスで商用利用可能
  • 4GB未満のVRAMで動作
  • A100で2秒以下、RTX 3090で10秒以下で1曲を生成
  • 50以上の言語に対応
  • テキスト生成、カバー、リペイント、LoRAカスタマイズなど多彩な機能

一方で、出力の一貫性や特定ジャンルでの品質など、課題も存在します。
プロフェッショナルな音楽制作の完全な代替にはなりませんが、アイデア出しや素材作成のツールとしては有用です。

ACE-Step 1.5は、AI音楽生成技術の民主化を進める重要な一歩と言えるでしょう。
今後のアップデートにより、さらなる品質向上が期待されます。

参考情報

※この記事は2026年2月6日時点の情報に基づいています

コメント

タイトルとURLをコピーしました