xAIはGrok Speech APIを発表、競合他社より60%安価に

ザック・アンダーソン

2026年4月18日 00:53

イーロン・マスクのxAIがGrok Speech to TextとText to Speech APIを1時間あたり0.10ドルでリリースし、企業向け文字起こしのベンチマークで最も低い誤差率を主張。

イーロン・マスクのxAIは4月17日に2つのスタンドアロン音声APIを発表し、Grokの音声技術をElevenLabs、Deepgram、AssemblyAIの直接の競合として、積極的な価格設定で展開。

GrokのSpeech to Text APIはバッチ処理で1時間あたり0.10ドル、リアルタイムストリーミングで0.20ドル。Text to Speechは100万文字あたり4.20ドル。両者とも、テスラ車やStarlinkカスタマーサポートを支えるインフラを利用。

ベンチマークの主張は精査の価値あり

xAIが公開した単語誤り率は興味深いストーリーを語る。電話通話のエンティティ認識—名前、口座番号、日付—に関して、Grok STTは誤り率5.0%と主張し、ElevenLabsの12.0%、Deepgramの13.5%、AssemblyAIの21.3%と比較。実運用でこの差が維持されるなら大きな差だ。

同社は難しいテストケースでこれを実証した:ウェールズの名前「Anghared Llewelyn Bowen」や「Oisin MacGiolla Phadraig」といった発音やモーゲージの詳細を含む内容を文字起こし。Grokは誤りゼロで正確に仕上げた。一方、競合モデルは発音や日付のフォーマットで一貫性を欠いた。

動画やポッドキャストの文字起こしでは競争がより激しく、GrokとElevenLabsは誤り率2.4%で並び、DeepgramとAssemblyAIはそれよりやや遅れ、3.0%と3.2%だった。

開発者向けの技術的特徴

生の文字起こしを超え、xAIは企業顧客が実際に必要とする機能を搭載:単語ごとのタイムスタンプ、複数音声チャネルの話者識別、25以上の言語サポートとシームレスな切り替え。

逆テキスト正規化機能は、話された数字や日付、通貨を適切な形式に自動変換。「Four one four five five five one two three four」は電話番号に、「Six ninety-nine」は$6.99に変換される。小さな詳細だが、後処理の手間を省く。

Text to Speechには、抑揚制御用のインラインタグ—ささやき、笑い、ため息、強調、ペース調整—が含まれ、開発者は複雑な音声マークアップに苦労せずに感情のニュアンスを注入できる。

戦略的背景

このリリースは、xAIが2025年3月にX社を買収した後の展開であり、インフラパートナーシップの拡大とともに進行中。API発表のわずか2日前には、xAIがCursorというAIコーディングスタートアップに計算能力を提供する計画が報じられた。

2024年12月から稼働しているColossusスーパーコンピュータは、バックエンドの力を提供。xAIはその能力を複数の分野—企業向けAI、開発者ツール、そして音声API—で収益化しているようだ。

音声エージェントや文字起こしツールを構築する開発者にとって、価格は既存のプレイヤーを大きく下回る。Grokの精度主張が実世界の大規模展開で維持されるかどうかは未だ不明だ。ドキュメントとレート制限は、テストを希望する人向けにxAIのAPIコンソールで公開されている。

画像出典:Shutterstock

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン