AIの応答速度を構成する要素
はじめに、Agora Conversational AI Engine の仕組みを解説します。このエンジンは、開発者が選択した ASR、LLM、TTS というコンポーネント群を連携させ、一つの AI エージェントとして機能させるためのプラットフォームです。この AI エージェントとの自然な会話は、クライアント側の SDK から Agora 社の独自ネットワーク (SD-RTN™)、サーバーサイドの AI 処理に至るまで、エンドツーエンドで最適化されることによって実現されます。

ユーザーが発話してから AI の応答を聞くまでの「エンドツーエンド遅延」は、このネットワーク遅延とサーバーサイドでの AI 処理遅延に大別されます。
Performance Lab がパフォーマンス比較の対象としているのは、後者のサーバーサイド遅延です。
この遅延の中でも、開発者が選択する ASR、LLM、TTS の組み合わせによってパフォーマンスが大きく変動する部分があり、これを本記事では「チェーンドモデル遅延 (Chained Model Latency)」と呼びます。
チェーンドモデル遅延は、この 3 つの主要モジュールの実行時間の合計で構成されます。

Performance Lab の見方と主要指標
Agora Conversational AI Performance Lab は、様々なベンダーのモデルを組み合わせた際のパフォーマンスを客観的に比較できる公式ベンチマークツールです。ここでは、その主な機能と、データを読み解く上で重要な指標を解説します。
注: Performance Lab には、現在サポートされているモデルに加え、将来的にサポートが予定されているモデルや、パフォーマンス評価のためにテストされているモデルが含まれる場合があります。
【主な機能】
・最適なスタックの提示:
様々なモデルの組み合わせ (スタック) のパフォーマンスを比較し、「Best Overall」「Fastest Stack」の組み合わせを提示します。

・スタック全体のパフォーマンス可視化:
チェーンドモデル遅延の大きさと、その安定性を示す標準偏差をまとめたデータを「Top 10 Fast Stacks」のランキング形式で提示します。

・各モデルのパフォーマンスランキング:
ASR、LLM、TTS のパフォーマンスを、それぞれトップランキングとして提示します。

・各モデルのパフォーマンス比較:
ASR、LLM、TTS の各カテゴリごとに、異なるモデル同士を選択し、詳細なパフォーマンスデータを比較することが可能です。

・リージョンごとの測定データ:
パフォーマンスデータは特定の地理的リージョンで測定されており、より具体的な条件下での性能を知ることができます。
・定期的なデータ更新:
ベンチマークテストは高頻度で実行され、データは常に最新に近い状態に保たれています。
遅延を構成する指標の定義
チェーンドモデル遅延を構成する各要素は、以下の指標で定義されています。
- ASR Latency (TTLW - Time to Last Word): ユーザーの発話終了後、音声認識の最終結果が生成されるまでの時間 (95パーセンタイル値)。この値が小さいほど、ASR の処理が効率的です。
- LLM Latency (TTFT - Time to First Token): 認識されたテキストを受け取ってから、応答の最初の1単語 (トークン) が生成されるまでの時間 (95パーセンタイル値)。この値が小さいほど、LLM の応答開始が速いことを示します。
- TTS Latency (TTFB - Time to First Byte): LLM が生成したテキストを受け取ってから、最初の音声データ (バイト) が生成されるまでの時間 (95パーセンタイル値)。この値が小さいほど、音声の生成開始が速いです。
Webhook イベントの追加
モニタリングと状態管理のために、以下の 3 つの Webhook イベントが追加されました。
- 111 (agent metrics): ASR、LLM、TTS のレイテンシを含む、対話ターンごとのパフォーマンスメトリクスを通知します。
- 201 (inbound call state): 着信、応答、転送、切断など、インバウンドコールの状態変化をレポートします。
- 202 (outbound call state): 発信開始、呼び出し中、応答、切断など、アウトバウンドコールの状態変化をレポートします
なお、インバウンドおよびアウトバウンドコールの対応状況や詳細につきましては、Agora 社からの今後の発表をお待ちください。
安定性を測る指標
チェーンドモデル遅延の全体的な速さだけでなく、その安定性も会話の質を左右します。
標準偏差 (Standard Deviation)
測定された遅延時間のばらつき (変動幅) を示す指標です。これはパフォーマンスの安定性を測る上で非常に重要です。平均応答速度が速くても、この値が大きいと応答時間にムラがあることを意味し、不安定な会話体験に繋がります。
【解釈例】 1,184 ms ± 348 ms と表示されていた場合、平均応答時間は約 1.2 秒ですが、そこから ±348 ms 程度の変動がありうる、と解釈できます。
パーセンタイル (Percentile: P50, P90, P95 など)

標準偏差がばらつき度合いを全体的に示すのに対し、パーセンタイルは「ユーザーの 95% が体験する応答時間は具体的に何ミリ秒か?」といった、より実践的なワーストケースを数値で示す指標です。
- P50 (中央値): 「平均的なユーザー体験」に近い、標準的な応答速度です。
- P90, P95, P99: それぞれ 90%, 95%, 99% のリクエストがこの時間内に収まることを示す値で、「ワーストケースの指標」となります。
速度だけではない、品質を測る指標
Performance Lab では、TTLW や TTFT といった応答速度だけでなく、会話の「質」を左右する指標も提供されています。これらの品質指標は、各モデルのパフォーマンスランキング画面や、特定のモデル同士を比較する詳細画面で確認でき、速度と合わせて総合的に評価することが重要です。

・音声認識 (ASR) の正確性:Word Error Rate (WER)
Word Error Rate (WER) は、ASR の認識品質を評価する中核的な指標です。元の単語数に対して、誤って認識された単語数が占める割合を示します。値が低いほど、AI がユーザーの発話を正確にテキスト化できていることを意味します。いくら応答が速くても、WER が高いとユーザーの意図を誤って解釈してしまうため、速度と正確性のバランスを見極める必要があります。
音声合成 (TTS) の品質指標
TTS の評価では、応答音声の自然さに加え、以下の指標が重要になります。
Word Error Rate (WER)
TTS における WER も、音声品質を評価するための中核的な指標です。元の単語数に対し、誤って認識された単語の割合を示します。値が低いほど、生成された音声が明瞭で聞き取りやすいと判断できます。
Alphanumeric Performance (英数字・記号の性能)
この指標は、TTS モジュールが特殊な文字をどれだけ正確に処理できるかを総合的に測定します。多音字、数字、略語、数式、句読点などを含む複雑なテキストにおいて、各文字が正しく音声として生成される比率をカウントします。値が高いほど、TTS が金額や日時、製品番号といった情報を正確に読み上げられることを意味します。
総合的な評価の重要性
このように、Performance Lab のデータを活用する際は、単に応答速度のランキングを見るだけでなく、WER や Alphanumeric Performance といった品質指標も合わせて確認することが、自社のサービスに最適なモデルを選定する上で非常に役立ちます。
まとめ
これまでブラックボックスになりがちだった会話型 AI のパフォーマンスを可視化し、開発者がデータに基づいて最適なモデルスタックを選択する上で、Agora Conversational AI Performance Lab は有用なインサイトを提供します。
本記事で紹介したチェーンドモデル遅延、標準偏差、パーセンタイルといった指標を元に各モデルの特性を評価することで、よりユーザー視点に立ったパフォーマンス分析が可能になります。
公開されているデータを参考に、自社のユースケースに最適な AI モデルの組み合わせを検討してみてはいかがでしょうか。