2025年12月04日

Agora Conversational AI Engine v2.0 機能紹介（会話型AIエンジンv2.0）

2025 年 11 月 15 日、Agora Conversational AI Engine v2.0 がリリースされました。

今回のメジャーアップデートでは、特定の話し声に焦点を合わせる「Selective Attention Locking (SAL)」や、スムーズな対話終了を実現する機能、会話の割り込み制御に関する新たなモードに加え、ASR・LLM・TTS の対応プロバイダーが大幅に拡充されています。

お役立ち資料

【ファンコミュニケーションやライブコマースに！】通話・配信SDK「Agora」ガイドブック

【最新版！会話型AIエンジンデモURL付き】

豊富なサポートとサンプルでかんたん開発！
通話・配信API/SDK 「Agora」ガイドブック

通話・配信・会話型AIの機能をアプリやゲーム、さまざまなIoTに簡単に実装できるSDK。
実装未経験者からWebRTCのリプレイス検討中の方まで役立つ内容ですので、ぜひご一読ください。

無料ダウンロード

※ 本記事は、Agora 公式ドキュメントを含む以下情報を基に、編集・構成しました。
https://docs.agora.io/en/conversational-ai/overview/release-notes#v20
https://docs.agora.io/en/conversational-ai/rest-api/agent/join

Selective Attention Locking (Beta)

特定の話者の声を識別し、背景の声や環境ノイズを抑制する「Selective Attention Locking (SAL)」機能が Beta 版として追加されました。

声紋（Voiceprint）を登録することで、AIエージェントは、環境音などのノイズを聞き分け、ターゲットとなる話者にフォーカスし、よりクリアで集中した対話が可能になります。

Agora Conversational AI Engine v2.0 機能紹介

当機能として、2 種類のモードが用意されています。

locking (Speaker Lock Mode)

特定の話者にロックオンし、周囲の雑音を 95% 遮断するモードです。会話開始時の声で自動認識するか、事前に登録した声紋データに基づいてターゲットを特定し、騒がしい環境でもクリアな対話を実現します。

recognition (Voiceprint recognition mode)

登録済みの声紋を基に話者を識別し、その ID を LLM に送信するモードです。誰が話しているかを特定しつつノイズを抑制します。ターゲット話者の ID は metadata 内の vpids フィールドを通じて通知されます。利用にはCustom LLMの実装が必要となります。

設定例

join API に新しく追加された sal パラメータで設定を行います。

{
  "properties": {
    ...
    "advanced_features": {
      "enable_sal": true
    },
    ...
    "sal": {
      "sal_mode": "locking", 
      "sample_urls": {
        "speaker1": "https://example.com/speaker1.pcm"
      }
    }
    ...
  }
}

※ 声紋ファイルの要件（フォーマット、サイズ、長さ等）や、各パラメーターの詳細な仕様については、API リファレンスをご参照ください。

https://docs.agora.io/en/conversational-ai/rest-api/agent/join

自然な終了処理 (Graceful Exit)

これまでは leave API により AI エージェントは即座に切断されましたが、新たに追加された farewell_config により、切断前に「IDLE」状態へ移行させることが可能になりました。

これにより、AI エージェントが別れの挨拶を完了してからチャンネルを退出するといった、丁寧な終了フローが実現できます。

会話制御の高度化：2 つの新しい割り込みモード

ユーザーが AI の発話を遮る（割り込む）際の挙動を制御する turn_detection 設定に、新たなモードが追加されました。

Keyword Interruption Mode

「Keyword」モードは、あらかじめ指定した特定のキーワードが検出された場合のみ、AI が発話を停止する機能です。turn_detection.interrupt_keywords でキーワードを指定して利用します。

Adaptive Interruption Mode

「Adaptive」モードは、AI が話している間、動的に音声継続の閾値を引き上げる機能です。これにより、ユーザーの相槌や環境音による「意図しない割り込み」を減らすことができます。

設定例：

join API にある turn_detection パラメータで設定を行います。

// Keyword Mode の設定例
{
  "properties": {
    ...
    "turn_detection": {
      "interrupt_mode": "keyword",
      "interrupt_keywords": ["stop", "wait"],
      ...
    }
    ...
  }
}

// Adaptive Mode の設定例
{
  "properties": {
    ...
    "turn_detection": {
      "interrupt_mode": "adaptive",
      ...
    }
    ...
  }
}

エコシステムの拡充（新規プロバイダー）

ASR（自動音声認識）、LLM、TTS（音声合成）の各レイヤーで、選択できるプロバイダーが大幅に追加されました。

カテゴリ	新規追加プロバイダー
ASR	OpenAI (Beta), Speechmatics, Google (Beta), Amazon Transcribe (Beta), AssemblyAI (Beta)
LLM	Groq, Amazon Bedrock
MLLM	Google Gemini Live
TTS	Rime (Beta), Fish Audio (Beta), Groq (Beta), Google (Beta), Amazon Polly (Beta)

Webhook イベントの追加

モニタリングと状態管理のために、以下の 3 つの Webhook イベントが追加されました。

111 (agent metrics): ASR、LLM、TTS のレイテンシを含む、対話ターンごとのパフォーマンスメトリクスを通知します。
201 (inbound call state): 着信、応答、転送、切断など、インバウンドコールの状態変化をレポートします。
202 (outbound call state): 発信開始、呼び出し中、応答、切断など、アウトバウンドコールの状態変化をレポートします

なお、インバウンドおよびアウトバウンドコールの対応状況や詳細につきましては、Agora 社からの今後の発表をお待ちください。

その他の機能改善

アバターと MLLM の併用サポート: MLLM（Multimodal LLM）使用時にアバターを利用できるようになりました。

重要な変更点 (Breaking Changes)

v2.0 への移行に伴い、いくつかの API フィールド名称やインターフェースが変更されています。

RESTful API

従来の vad インターフェースは非推奨（Deprecated）となり、すべての設定項目が turn_detection フィールドに移行されました。

例:

vad.threshold -> turn_detection.threshold
vad.silence_duration_ms -> turn_detection.silence_duration_ms

Toolkit API

字幕（Subtitle）関連の API において、transcription という単語が含まれるすべてのパラメータが transcript に統一されました。

Android/iOS/Web 共通: transcription -> transcript
例: onTranscriptionUpdated -> onTranscriptUpdated

既存の実装においてこれらのフィールドを使用している場合は、コードの修正が必要です。

お役立ち資料

【最新版！会話型AIエンジンデモURL付き】

豊富なサポートとサンプルでかんたん開発！
通話・配信API/SDK 「Agora」ガイドブック

無料ダウンロード

執筆者ブイキューブ

Agoraの日本総代理店として、配信/通話SDKの提供だけでなく、導入支援から行い幅広いコミュニケーションサービスに携わっている。

Agora Conversational AI Engine v2.0 機能紹介（会話型AIエンジンv2.0）

【最新版！会話型AIエンジンデモURL付き】

豊富なサポートとサンプルでかんたん開発！
通話・配信API/SDK 「Agora」ガイドブック

Selective Attention Locking (Beta)

locking (Speaker Lock Mode)

recognition (Voiceprint recognition mode)

設定例

自然な終了処理 (Graceful Exit)

会話制御の高度化：2 つの新しい割り込みモード

Keyword Interruption Mode

Adaptive Interruption Mode

エコシステムの拡充（新規プロバイダー）

Webhook イベントの追加

その他の機能改善

重要な変更点 (Breaking Changes)

RESTful API

Toolkit API

【最新版！会話型AIエンジンデモURL付き】

豊富なサポートとサンプルでかんたん開発！
通話・配信API/SDK 「Agora」ガイドブック

リアルタイム音声AI（会話型AI）を簡単に実現！Agora Conversational AI Engine 入門その 2: RESTful API による AI エージェントの制御と LLM/TTS 連携

リアルタイム音声AI（会話型AI）を簡単に実現！Agora Conversational AI Engine 入門

会話型AIのパフォーマンスを可視化する：Agora Conversational AI Performance Lab の見方と活用法

Agora が Agnes AI を支援、次世代 AI グループチャットとマルチエージェント・コラボレーションシステムを開始

Agoraと生成AIで実現する、パーソナライズされた未来の教育

Agora Conversational AI Engine v2.0 機能紹介（会話型AIエンジンv2.0）

【最新版！会話型AIエンジン デモURL付き】

豊富なサポートとサンプルでかんたん開発！通話・配信API/SDK 「Agora」ガイドブック

Selective Attention Locking (Beta)

locking (Speaker Lock Mode)

recognition (Voiceprint recognition mode)

設定例

自然な終了処理 (Graceful Exit)

会話制御の高度化：2 つの新しい割り込みモード

Keyword Interruption Mode

Adaptive Interruption Mode

エコシステムの拡充（新規プロバイダー）

Webhook イベントの追加

その他の機能改善

重要な変更点 (Breaking Changes)

RESTful API

Toolkit API

【最新版！会話型AIエンジン デモURL付き】

豊富なサポートとサンプルでかんたん開発！通話・配信API/SDK 「Agora」ガイドブック

リアルタイム音声AI（会話型AI）を簡単に実現！Agora Conversational AI Engine 入門 その 2: RESTful API による AI エージェントの制御と LLM/TTS 連携

リアルタイム音声AI（会話型AI）を簡単に実現！Agora Conversational AI Engine 入門

会話型AIのパフォーマンスを可視化する：Agora Conversational AI Performance Lab の見方と活用法

Agora が Agnes AI を支援、次世代 AI グループチャットとマルチエージェント・コラボレーションシステムを開始

Agoraと生成AIで実現する、パーソナライズされた未来の教育

【最新版！会話型AIエンジンデモURL付き】

豊富なサポートとサンプルでかんたん開発！
通話・配信API/SDK 「Agora」ガイドブック

【最新版！会話型AIエンジンデモURL付き】

豊富なサポートとサンプルでかんたん開発！
通話・配信API/SDK 「Agora」ガイドブック

リアルタイム音声AI（会話型AI）を簡単に実現！Agora Conversational AI Engine 入門その 2: RESTful API による AI エージェントの制御と LLM/TTS 連携