はじめに、Agora Conversational AI Engine の仕組みを解説します。このエンジンは、開発者が選択した ASR、LLM、TTS というコンポーネント群を連携させ、一つの AI エージェントとして機能させるためのプラットフォームです。この AI エージェントとの自然な会話は、クライアント側の SDK から Agora 社の独自ネットワーク (SD-RTN™)、サーバーサイドの AI 処理に至るまで、エンドツーエンドで最適化されることによって実現されます。
ユーザーが発話してから AI の応答を聞くまでの「エンドツーエンド遅延」は、このネットワーク遅延とサーバーサイドでの AI 処理遅延に大別されます。
Performance Lab がパフォーマンス比較の対象としているのは、後者のサーバーサイド遅延です。
この遅延の中でも、開発者が選択する ASR、LLM、TTS の組み合わせによってパフォーマンスが大きく変動する部分があり、これを本記事では「チェーンドモデル遅延 (Chained Model Latency)」と呼びます。
チェーンドモデル遅延は、この 3 つの主要モジュールの実行時間の合計で構成されます。
Agora Conversational AI Performance Lab は、様々なベンダーのモデルを組み合わせた際のパフォーマンスを客観的に比較できる公式ベンチマークツールです。ここでは、その主な機能と、データを読み解く上で重要な指標を解説します。
注: Performance Lab には、現在サポートされているモデルに加え、将来的にサポートが予定されているモデルや、パフォーマンス評価のためにテストされているモデルが含まれる場合があります。
様々なモデルの組み合わせ (スタック) のパフォーマンスを比較し、「Best Overall」「Fastest Stack」の組み合わせを提示します。
チェーンドモデル遅延の大きさと、その安定性を示す標準偏差をまとめたデータを「Top 10 Fast Stacks」のランキング形式で提示します。
ASR、LLM、TTS のパフォーマンスを、それぞれトップランキングとして提示します。
ASR、LLM、TTS の各カテゴリごとに、異なるモデル同士を選択し、詳細なパフォーマンスデータを比較することが可能です。
パフォーマンスデータは特定の地理的リージョンで測定されており、より具体的な条件下での性能を知ることができます。
ベンチマークテストは高頻度で実行され、データは常に最新に近い状態に保たれています。
チェーンドモデル遅延を構成する各要素は、以下の指標で定義されています。
モニタリングと状態管理のために、以下の 3 つの Webhook イベントが追加されました。
なお、インバウンドおよびアウトバウンドコールの対応状況や詳細につきましては、Agora 社からの今後の発表をお待ちください。
チェーンドモデル遅延の全体的な速さだけでなく、その安定性も会話の質を左右します。
測定された遅延時間のばらつき (変動幅) を示す指標です。これはパフォーマンスの安定性を測る上で非常に重要です。平均応答速度が速くても、この値が大きいと応答時間にムラがあることを意味し、不安定な会話体験に繋がります。
【解釈例】 1,184 ms ± 348 ms と表示されていた場合、平均応答時間は約 1.2 秒ですが、そこから ±348 ms 程度の変動がありうる、と解釈できます。
標準偏差がばらつき度合いを全体的に示すのに対し、パーセンタイルは「ユーザーの 95% が体験する応答時間は具体的に何ミリ秒か?」といった、より実践的なワーストケースを数値で示す指標です。
Performance Lab では、TTLW や TTFT といった応答速度だけでなく、会話の「質」を左右する指標も提供されています。これらの品質指標は、各モデルのパフォーマンスランキング画面や、特定のモデル同士を比較する詳細画面で確認でき、速度と合わせて総合的に評価することが重要です。
Word Error Rate (WER) は、ASR の認識品質を評価する中核的な指標です。元の単語数に対して、誤って認識された単語数が占める割合を示します。値が低いほど、AI がユーザーの発話を正確にテキスト化できていることを意味します。いくら応答が速くても、WER が高いとユーザーの意図を誤って解釈してしまうため、速度と正確性のバランスを見極める必要があります。
TTS の評価では、応答音声の自然さに加え、以下の指標が重要になります。
TTS における WER も、音声品質を評価するための中核的な指標です。元の単語数に対し、誤って認識された単語の割合を示します。値が低いほど、生成された音声が明瞭で聞き取りやすいと判断できます。
この指標は、TTS モジュールが特殊な文字をどれだけ正確に処理できるかを総合的に測定します。多音字、数字、略語、数式、句読点などを含む複雑なテキストにおいて、各文字が正しく音声として生成される比率をカウントします。値が高いほど、TTS が金額や日時、製品番号といった情報を正確に読み上げられることを意味します。
このように、Performance Lab のデータを活用する際は、単に応答速度のランキングを見るだけでなく、WER や Alphanumeric Performance といった品質指標も合わせて確認することが、自社のサービスに最適なモデルを選定する上で非常に役立ちます。
これまでブラックボックスになりがちだった会話型 AI のパフォーマンスを可視化し、開発者がデータに基づいて最適なモデルスタックを選択する上で、Agora Conversational AI Performance Lab は有用なインサイトを提供します。
本記事で紹介したチェーンドモデル遅延、標準偏差、パーセンタイルといった指標を元に各モデルの特性を評価することで、よりユーザー視点に立ったパフォーマンス分析が可能になります。
公開されているデータを参考に、自社のユースケースに最適な AI モデルの組み合わせを検討してみてはいかがでしょうか。