03-6845-0775平日10:00〜18:00受付
無料ガイド
お問い合わせ

2025年12月04日

Agora Conversational AI Engine v2.0 機能紹介(会話型AIエンジンv2.0)

2025 年 11 月 15 日、Agora Conversational AI Engine v2.0 がリリースされました。

 

今回のメジャーアップデートでは、特定の話し声に焦点を合わせる「Selective Attention Locking (SAL)」や、スムーズな対話終了を実現する機能、会話の割り込み制御に関する新たなモードに加え、ASR・LLM・TTS の対応プロバイダーが大幅に拡充されています。

※ 本記事は、Agora 公式ドキュメントを含む以下情報を基に、編集・構成しました。
https://docs.agora.io/en/conversational-ai/overview/release-notes#v20
https://docs.agora.io/en/conversational-ai/rest-api/agent/join

Selective Attention Locking (Beta)

特定の話者の声を識別し、背景の声や環境ノイズを抑制する「Selective Attention Locking (SAL)」機能が Beta 版として追加されました。


声紋(Voiceprint)を登録することで、AIエージェントは、環境音などのノイズを聞き分け、ターゲットとなる話者にフォーカスし、よりクリアで集中した対話が可能になります。

 

Agora Conversational AI Engine v2.0 機能紹介

 

当機能として、2 種類のモードが用意されています。

locking (Speaker Lock Mode)

特定の話者にロックオンし、周囲の雑音を 95% 遮断するモードです。会話開始時の声で自動認識するか、事前に登録した声紋データに基づいてターゲットを特定し、騒がしい環境でもクリアな対話を実現します。

recognition (Voiceprint recognition mode)

登録済みの声紋を基に話者を識別し、その ID を LLM に送信するモードです。誰が話しているかを特定しつつノイズを抑制します。ターゲット話者の ID は metadata 内の vpids フィールドを通じて通知されます。利用にはCustom LLMの実装が必要となります。

設定例

join API に新しく追加された sal パラメータで設定を行います。

{
  "properties": {
    ...
    "advanced_features": {
      "enable_sal": true
    },
    ...
    "sal": {
      "sal_mode": "locking", 
      "sample_urls": {
        "speaker1": "https://example.com/speaker1.pcm"
      }
    }
    ...
  }
}

 

 

※ 声紋ファイルの要件(フォーマット、サイズ、長さ等)や、各パラメーターの詳細な仕様については、API リファレンスをご参照ください。

https://docs.agora.io/en/conversational-ai/rest-api/agent/join

 

自然な終了処理 (Graceful Exit)

これまでは leave API により AI エージェントは即座に切断されましたが、新たに追加された farewell_config により、切断前に「IDLE」状態へ移行させることが可能になりました。


これにより、AI エージェントが別れの挨拶を完了してからチャンネルを退出するといった、丁寧な終了フローが実現できます。

 

会話制御の高度化:2 つの新しい割り込みモード

ユーザーが AI の発話を遮る(割り込む)際の挙動を制御する turn_detection 設定に、新たなモードが追加されました。

Keyword Interruption Mode

「Keyword」モードは、あらかじめ指定した特定のキーワードが検出された場合のみ、AI が発話を停止する機能です。turn_detection.interrupt_keywords でキーワードを指定して利用します。

Adaptive Interruption Mode

「Adaptive」モードは、AI が話している間、動的に音声継続の閾値を引き上げる機能です。これにより、ユーザーの相槌や環境音による「意図しない割り込み」を減らすことができます。

設定例:

join API にある turn_detection パラメータで設定を行います。

// Keyword Mode の設定例
{
  "properties": {
    ...
    "turn_detection": {
      "interrupt_mode": "keyword",
      "interrupt_keywords": ["stop", "wait"],
      ...
    }
    ...
  }
}

// Adaptive Mode の設定例
{
  "properties": {
    ...
    "turn_detection": {
      "interrupt_mode": "adaptive",
      ...
    }
    ...
  }
}

エコシステムの拡充(新規プロバイダー)

ASR(自動音声認識)、LLM、TTS(音声合成)の各レイヤーで、選択できるプロバイダーが大幅に追加されました。

カテゴリ

新規追加プロバイダー

ASR

OpenAI (Beta), Speechmatics, Google (Beta), Amazon Transcribe (Beta), AssemblyAI (Beta)

LLM

Groq, Amazon Bedrock

MLLM

Google Gemini Live

TTS

Rime (Beta), Fish Audio (Beta), Groq (Beta), Google (Beta), Amazon Polly (Beta)

 

Webhook イベントの追加

モニタリングと状態管理のために、以下の 3 つの Webhook イベントが追加されました。

  • 111 (agent metrics): ASR、LLM、TTS のレイテンシを含む、対話ターンごとのパフォーマンスメトリクスを通知します。
  • 201 (inbound call state): 着信、応答、転送、切断など、インバウンドコールの状態変化をレポートします。
  • 202 (outbound call state): 発信開始、呼び出し中、応答、切断など、アウトバウンドコールの状態変化をレポートします

なお、インバウンドおよびアウトバウンドコールの対応状況や詳細につきましては、Agora 社からの今後の発表をお待ちください。

その他の機能改善

  • アバターと MLLM の併用サポート: MLLM(Multimodal LLM)使用時にアバターを利用できるようになりました。

重要な変更点 (Breaking Changes)

v2.0 への移行に伴い、いくつかの API フィールド名称やインターフェースが変更されています。

RESTful API

従来の vad インターフェースは非推奨(Deprecated)となり、すべての設定項目が turn_detection フィールドに移行されました。

例:

  • vad.threshold -> turn_detection.threshold
  • vad.silence_duration_ms -> turn_detection.silence_duration_ms

Toolkit API

字幕(Subtitle)関連の API において、transcription という単語が含まれるすべてのパラメータが transcript に統一されました。

  • Android/iOS/Web 共通: transcription -> transcript
  • 例: onTranscriptionUpdated -> onTranscriptUpdated

既存の実装においてこれらのフィールドを使用している場合は、コードの修正が必要です。

ブイキューブ

執筆者ブイキューブ

Agoraの日本総代理店として、配信/通話SDKの提供だけでなく、導入支援から行い幅広いコミュニケーションサービスに携わっている。

関連記事

2025年12月27日

会話型AIのパフォーマンスを可視化する:Agora Conversational AI Performance Lab の見方と活用法

  • Agora
  • 技術動向
  • 実践
近年、音声対話型の AI エージェント開発が活発になっています。この開発では、一般的に ASR (音声認識)、LLM (大規模言語モデル)、TTS (音声合成) という複数の AI モデルを連携させる必要があります。しかし、これらのモデルの組み合わせや各々の性能によって、AI の応答速度 (レイテンシ) が大きく変動し、ユーザー体験の質を左右するという課題があります。 Agora 社が提供する Agora Conversational AI Engine は、こうした音声 AI エージェントを構築するためのプラットフォームです。開発者は様々なベンダーの ASR、 LLM、 TTS モデルを柔軟に組み合わせることができますが、一方で「どの組み合わせが自社のサービスにとって最適なのか?」という選定の難しさに直面します。 この課題に対し、Agora 社が客観的なデータに基づいてモデル選定を支援するために公開しているのが、「Agora Conversational AI Performance Lab」です。このツールは、後述する主要な指標「チェーンドモデル遅延 (Chained Model Latency)」を元に、様々なモデルの組み合わせをランキング形式で比較・表示しています。本記事では、このツールの見方と、データに基づいたモデル選定の方法を解説します。

2025年12月30日

Agora Convo AI と連携する Custom LLM サービスを作ってみる

  • 実装例・サンプルコード
  • Agora
  • 技術動向
  • 実践
昨今、LLM (大規模言語モデル) を活用した AI アシスタントやチャットボットが急速に普及しています。 しかし、実用的な AI アプリケーションを構築する際、GPT や Claude のような汎用 LLM をそのまま利用するだけでは不十分なケースが増えています。 ユーザーが本当に求める AI エージェント、例えば「社内の最新マニュアルに基づいて回答する」や「現在の天気や株価を調べて応答する」といった機能を実現するには、LLM が外部の知識やツールと連携する仕組みが不可欠です。 具体的には、独自のナレッジベースと連携する RAG (Retrieval Augmented Generation) や、外部 API を呼び出す Tool Calling といった技術と組み合わせることが、今や AI エージェント開発の「当たり前」になりつつあります。 この「カスタマイズされた AI の頭脳」は、もちろんリアルタイムの「音声対話」においても重要です。 Agora が提供する Conversational AI (Convo AI) は、ASR (音声認識) や TTS (テキスト読み上げ) といった、リアルタイム音声 AI に不可欠なパイプラインをシンプルに扱うためのソリューションです。 そして、AI エージェントの「頭脳」にあたる LLM 部分に関して、Agora Convo AI は標準の LLM(例えば OpenAI の GPT)だけでなく、OpenAI Chat Completions 互換のプロトコルを介して、開発者が独自に用意した LLM サービス (Custom LLM サービス) と接続できる拡張性を備えています。 本記事では、この「Custom LLM サービス」を取り上げて、Convo AI と連携させる手順や簡単な実装例を紹介します。

先頭へ戻る