ニュース
さくらインターネット、生成AI向け推論API基盤「さくらのAI Engine」にて「音声合成(TTS)API」を提供開始
ADVERTISEMENT スポンサーリンク
100B以上のローカルLLMやTTSなどかなり安く利用することができます。
https://www.sakura.ad.jp/corporate/information/newsreleases/2026/02/26/1968223682/
① Chat Completions系
gpt-oss-120b
• Input:0.15円 / 10,000トークン
• Output:0.75円 / 10,000トークン
これは 超低価格帯 です。
例えば:
• 1回のやり取り
• 入力2,000トークン
• 出力2,000トークン
→ 約0.18円前後
100回使っても約18円です。
⸻
Qwen3-Coder-480B
Output 2.5円 / 10,000トークン は少し高めですが、
• 480B級の大規模モデル
• コーディング特化
と考えると妥当です。
開発エージェント用途ならコスパは悪くないです。
⸻
② Whisper(音声認識)
0.5円 / 60秒
これは正直かなり安いです。
例:
• 1時間録音 → 約30円
YouTube自動文字起こしやAItuberアーカイブ処理でも十分現実的。
⸻
③ Embeddings
2円 / 10,000トークン
これは相場レベル。
ベクトルDB用途なら十分安価。
⸻
④ VOICEVOX TTS
3円 / 10,000モーラ
例えば:
• 1分の音声 ≒ 400〜600モーラ
→ 0.12〜0.18円程度
実質ほぼ無料レベル。
〇総合評価
項目 評価
LLM価格 ◎ 安い
音声認識 ◎ かなり安い
TTS ◎ ほぼ無料レベル
Embedding○ 標準的
https://www.sakura.ad.jp/corporate/information/newsreleases/2026/02/26/1968223682/
① Chat Completions系
gpt-oss-120b
• Input:0.15円 / 10,000トークン
• Output:0.75円 / 10,000トークン
これは 超低価格帯 です。
例えば:
• 1回のやり取り
• 入力2,000トークン
• 出力2,000トークン
→ 約0.18円前後
100回使っても約18円です。
⸻
Qwen3-Coder-480B
Output 2.5円 / 10,000トークン は少し高めですが、
• 480B級の大規模モデル
• コーディング特化
と考えると妥当です。
開発エージェント用途ならコスパは悪くないです。
⸻
② Whisper(音声認識)
0.5円 / 60秒
これは正直かなり安いです。
例:
• 1時間録音 → 約30円
YouTube自動文字起こしやAItuberアーカイブ処理でも十分現実的。
⸻
③ Embeddings
2円 / 10,000トークン
これは相場レベル。
ベクトルDB用途なら十分安価。
⸻
④ VOICEVOX TTS
3円 / 10,000モーラ
例えば:
• 1分の音声 ≒ 400〜600モーラ
→ 0.12〜0.18円程度
実質ほぼ無料レベル。
〇総合評価
項目 評価
LLM価格 ◎ 安い
音声認識 ◎ かなり安い
TTS ◎ ほぼ無料レベル
Embedding○ 標準的
ADVERTISEMENT スポンサーリンク
この記事へのリアクション
この記事をシェア
コメント