03-6845-0775平日10:00〜18:00受付
無料ガイド
お問い合わせ

2025年12月04日

Agora Conversational AI Engine v2.0 機能紹介(会話型AIエンジンv2.0)

2025 年 11 月 15 日、Agora Conversational AI Engine v2.0 がリリースされました。

 

今回のメジャーアップデートでは、特定の話し声に焦点を合わせる「Selective Attention Locking (SAL)」や、スムーズな対話終了を実現する機能、会話の割り込み制御に関する新たなモードに加え、ASR・LLM・TTS の対応プロバイダーが大幅に拡充されています。

※ 本記事は、Agora 公式ドキュメントを含む以下情報を基に、編集・構成しました。
https://docs.agora.io/en/conversational-ai/overview/release-notes#v20
https://docs.agora.io/en/conversational-ai/rest-api/agent/join

Selective Attention Locking (Beta)

特定の話者の声を識別し、背景の声や環境ノイズを抑制する「Selective Attention Locking (SAL)」機能が Beta 版として追加されました。


声紋(Voiceprint)を登録することで、AI エージェントは、環境音などのノイズを聞き分け、ターゲットとなる話者にフォーカスし、よりクリアで集中した対話が可能になります。

 

Agora Conversational AI Engine v2.0 機能紹介

 

当機能として、2 種類のモードが用意されています。

locking (Speaker Lock Mode)

特定の話者にロックオンし、周囲の雑音を 95% 遮断するモードです。会話開始時の声で自動認識するか、事前に登録した声紋データに基づいてターゲットを特定し、騒がしい環境でもクリアな対話を実現します。

recognition (Voiceprint recognition mode)

登録済みの声紋を基に話者を識別し、その ID を LLM に送信するモードです。誰が話しているかを特定しつつノイズを抑制します。ターゲット話者の ID は metadata 内の vpids フィールドを通じて通知されます。利用にはCustom LLMの実装が必要となります。

設定例

join API に新しく追加された sal パラメータで設定を行います。

{
  "properties": {
    ...
    "advanced_features": {
      "enable_sal": true
    },
    ...
    "sal": {
      "sal_mode": "locking", 
      "sample_urls": {
        "speaker1": "https://example.com/speaker1.pcm"
      }
    }
    ...
  }
}

 

 

※ 声紋ファイルの要件(フォーマット、サイズ、長さ等)や、各パラメーターの詳細な仕様については、API リファレンスをご参照ください。

https://docs.agora.io/en/conversational-ai/rest-api/agent/join

 

自然な終了処理 (Graceful Exit)

これまでは leave API により AI エージェントは即座に切断されましたが、新たに追加された farewell_config により、切断前に「IDLE」状態へ移行させることが可能になりました。


これにより、AI エージェントが別れの挨拶を完了してからチャンネルを退出するといった、丁寧な終了フローが実現できます。

 

会話制御の高度化:2 つの新しい割り込みモード

ユーザーが AI の発話を遮る(割り込む)際の挙動を制御する turn_detection 設定に、新たなモードが追加されました。

Keyword Interruption Mode

「Keyword」モードは、あらかじめ指定した特定のキーワードが検出された場合のみ、AI が発話を停止する機能です。turn_detection.interrupt_keywords でキーワードを指定して利用します。

Adaptive Interruption Mode

「Adaptive」モードは、AI が話している間、動的に音声継続の閾値を引き上げる機能です。これにより、ユーザーの相槌や環境音による「意図しない割り込み」を減らすことができます。

設定例:

join API にある turn_detection パラメータで設定を行います。

// Keyword Mode の設定例
{
  "properties": {
    ...
    "turn_detection": {
      "interrupt_mode": "keyword",
      "interrupt_keywords": ["stop", "wait"],
      ...
    }
    ...
  }
}

// Adaptive Mode の設定例
{
  "properties": {
    ...
    "turn_detection": {
      "interrupt_mode": "adaptive",
      ...
    }
    ...
  }
}

エコシステムの拡充(新規プロバイダー)

ASR(自動音声認識)、LLM、TTS(音声合成)の各レイヤーで、選択できるプロバイダーが大幅に追加されました。

カテゴリ

新規追加プロバイダー

ASR

OpenAI (Beta), Speechmatics, Google (Beta), Amazon Transcribe (Beta), AssemblyAI (Beta)

LLM

Groq, Amazon Bedrock

MLLM

Google Gemini Live

TTS

Rime (Beta), Fish Audio (Beta), Groq (Beta), Google (Beta), Amazon Polly (Beta)

 

Webhook イベントの追加

モニタリングと状態管理のために、以下の 3 つの Webhook イベントが追加されました。

  • 111 (agent metrics): ASR、LLM、TTS のレイテンシを含む、対話ターンごとのパフォーマンスメトリクスを通知します。
  • 201 (inbound call state): 着信、応答、転送、切断など、インバウンドコールの状態変化をレポートします。
  • 202 (outbound call state): 発信開始、呼び出し中、応答、切断など、アウトバウンドコールの状態変化をレポートします

なお、インバウンドおよびアウトバウンドコールの対応状況や詳細につきましては、Agora 社からの今後の発表をお待ちください。

その他の機能改善

  • アバターと MLLM の併用サポート: MLLM(Multimodal LLM)使用時にアバターを利用できるようになりました。

重要な変更点 (Breaking Changes)

v2.0 への移行に伴い、いくつかの API フィールド名称やインターフェースが変更されています。

RESTful API

従来の vad インターフェースは非推奨(Deprecated)となり、すべての設定項目が turn_detection フィールドに移行されました。

例:

  • vad.threshold -> turn_detection.threshold
  • vad.silence_duration_ms -> turn_detection.silence_duration_ms

Toolkit API

字幕(Subtitle)関連の API において、transcription という単語が含まれるすべてのパラメータが transcript に統一されました。

  • Android/iOS/Web 共通: transcription -> transcript
  • 例: onTranscriptionUpdated -> onTranscriptUpdated

既存の実装においてこれらのフィールドを使用している場合は、コードの修正が必要です。

ブイキューブ

執筆者ブイキューブ

Agoraの日本総代理店として、配信/通話SDKの提供だけでなく、導入支援から行い幅広いコミュニケーションサービスに携わっている。

関連記事

Agora 勉強会 好評実施中!ご参加はこちら

先頭へ戻る