さくらインターネット、生成AI向け推論API基盤「さくらのAI Engine」にて「音声合成（TTS）API」を提供開始

100B以上のローカルLLMやTTSなどかなり安く利用することができます。

https://www.sakura.ad.jp/corporate/information/newsreleases/2026/02/26/1968223682/

① Chat Completions系

gpt-oss-120b
• Input：0.15円 / 10,000トークン
• Output：0.75円 / 10,000トークン

これは超低価格帯です。

例えば：
• 1回のやり取り
• 入力2,000トークン
• 出力2,000トークン

→ 約0.18円前後

100回使っても約18円です。

⸻

Qwen3-Coder-480B

Output 2.5円 / 10,000トークンは少し高めですが、
• 480B級の大規模モデル
• コーディング特化

と考えると妥当です。
開発エージェント用途ならコスパは悪くないです。

⸻

② Whisper（音声認識）

0.5円 / 60秒

これは正直かなり安いです。

例：
• 1時間録音 → 約30円

YouTube自動文字起こしやAItuberアーカイブ処理でも十分現実的。

⸻

③ Embeddings

2円 / 10,000トークン

これは相場レベル。
ベクトルDB用途なら十分安価。

⸻

④ VOICEVOX TTS

3円 / 10,000モーラ

例えば：
• 1分の音声 ≒ 400〜600モーラ
→ 0.12〜0.18円程度

実質ほぼ無料レベル。

〇総合評価

項目評価
LLM価格 ◎ 安い
音声認識 ◎ かなり安い
TTS ◎ ほぼ無料レベル
Embedding○ 標準的

さくらインターネット、生成AI向け推論API基盤「さくらのAI Engine」にて「音声合成（TTS）API」を提供開始

コメント

その他のニュース

生成AIなんでも展示会Vol.5開催🎉（5月6日）

AIキャラと日常を共有するアプリ「anoni」とは？

Connect AI #1 ― AIキャラと人間の価値ある共創を議論する、東京発AIイベント