Conversational AI Engine とは何か
Agora Conversational AI Engine は、開発者がリアルタイムで自然な音声対話を行える AI アプリケーションを、迅速かつ容易に構築できるように設計されたエンジン(プラットフォーム)です。
このエンジンは、カスタマイズ可能な AI エージェントを動作させるための環境を提供し、その中では STT(音声認識)によるテキスト化、LLM(大規模言語モデル)による応答生成(推論)、TTS(音声合成)による音声化という一連の処理をパイプライン (Chained Model) として実行します。

このパイプラインにおいて、STT 機能は Conversational AI Engine が提供しますが、LLM と TTS については、開発者自身が外部サービスを用意し、連携させる必要があります。
これにより AI エージェントの高いカスタマイズ性を実現しており、LLM は OpenAI や Gemini の API 形式に対応したサービスを、TTS は Microsoft Azure Speech Service や Elevenlabs といったサービスを要件に合わせて選択・設定できます ( 2025年4月現在 ) 。
さらに、Restful API を通じて AI エージェントを簡単に管理・配置でき、Agora の高性能なリアルタイム通信基盤上で動作させることで、低遅延な対話を実現します。これらの機能により、開発者は複雑な基盤部分を意識することなく、アプリケーションのコアロジックやユーザー体験の向上に集中できます。
Conversational AI Engine の強み
Conversational AI Engine が、次世代の音声対話体験を実現できる主な強みをご紹介します。
- 超低遅延でのリアルタイム対話: Agora が長年培ってきたリアルタイム通信技術により、ユーザーの発話から AI の応答音声が返ってくるまでの遅延を極限まで短縮します。これにより、まるで人間同士が会話しているような、自然でスムーズな対話の流れが実現します。
- 柔軟なAIモデル・音声合成サービス連携: プロジェクトの要件に合わせて、好みの音声合成(TTS)や大規模言語モデル(LLM)サービスを選択して組み込むことができます。特定のベンダーにロックインされず、ブランドイメージやキャラクターに合わせた声質や最適な AI モデルを選ぶことで、ユーザーエンゲージメントを高めます。
- 開発の簡略化と迅速化: 前述の通り、STT-LLM-TTS間のデータ連携やリアルタイム音声ストリームの管理は Conversational AI Engine 側で担当します。開発者は、Agora が提供する SDK を利用し、比較的少ないコード記述でこれらの高度な機能を利用開始できます。インフラ構築の手間を大幅に削減し、アプリケーションの市場投入までの時間を短縮します。
- スケーラビリティ: Agora のグローバルに展開されたインフラ基盤上で動作するため、アプリケーションのユーザー増加に合わせて容易にスケールさせることが可能です。
Conversational AI Engine を試してみよう! (デモと Playground)
ここからは、Conversational AI Engineを体験する方法を2つご紹介します。
※ 尚、どちらの方法を試すにも Agora アカウントが必要となります。
1.Webデモで手軽に体験
「まずは Conversational AI Engine がどのようなものか体験してみたい」という場合には、Web ブラウザから試せる時間制限付きのデモをご利用ください。
デモ利用時の注意点:
・Agora アカウント: この機能のご利用には、Agora へのサインアップが必要となります。
・LLM/TTS について: デモ用途として、予め LLM/TTS を連携しております。実際の Convo AI には付属しません。
ステップ 1: Webデモのページ にアクセスします。

ステップ 2: 「Call AI Engine」を押すと、Agora アカウントへのログインが求められます。アカウント未所持の場合は「Sign up for free」からサインアップの手続きを完了させてください。

ステップ 3: ログイン後、右側に設定ボタンが表示されますので、Agent の種類 (Preset) と言語 (Language) を選択します。

ステップ 4: 「Call AI Engine」を押すと AI との対話セッションが始まります。画面上部に、セッションの残り時間が表示されますので、この時間内に AI との対話をお試しください。
・CC: 対話中の会話内容がキャプション表示されます
・中央: マイクデバイスの切り替え、およびミュート操作ができます
・「×」ボタン: 対話セッションを終了します

2.より深く検証できる: Agora Console Playground
ご自身の環境で、より詳細に Conversational AI Engine を評価したい場合は、Agora Console 内にある Playground を利用します。Playground では、使用する LLM や TTS を選択・設定し、実際の動作を確認できます。
Playground 利用時の注意点:
- Agora アカウント: この機能のご利用には、Agora へのサインアップが必要となります。
- LLM と TTS の準備: Playground で使用するサードパーティの LLM (例: OpenAI) および TTS (例: Microsoft Azure Speech) のアカウントと API キーを別途ご自身で用意し、設定する必要があります。(STT は Agora の機能を利用します)
- 無料クレジットの消費: Playground のご利用中は、Agora の無料クレジット枠を消費します。サードパーティの LLM および TTS の利用料も、各サービスの規定に従い発生する可能性があります。
Playground を使うためのステップ:
ステップ 1: Console ログイン画面 (https://console.agora.io/) から、Agora アカウントへログインください。アカウント未所持の場合は、右上の「Sign up」からサインアップの手続きを完了させてください。

ステップ 2: 新規プロジェクトを作成します。

古いバージョンの Console が表示される場合、「https://console.agora.io/v2」からアクセスし直すか、画面上部バナーの「Switch to the new version」をクリックください。

プロジェクト名など、空欄に必要事項を記入し「Submit」を押して作成します。

ステップ 3: Conversational AI Engine の有効化
Projects 一覧から、作成したプロジェクトを探し「Action」にある✏️アイコンをクリックします。

プロジェクト設定画面から「Conversational AI Engine」の設定にアクセスし、「Enable Conversational AI」のスイッチをオンにして有効化します (一度有効化すると、元に戻すことはできません)。

ステップ 4: Playground の設定
有効化後、Configuration にある「LLM Settings」「ASR Settings」「TTS Settings」から必須項目、その他設定を入力ください。
LLM Settings
- LLM Style: Chat Completion のリクエスト形式を指定します。OpenAI または Gemini から選択可能です
- LLM URL:LLM サービスのエンドポイント URL を指定します
- Model Name: 使用したい LLM のモデル名を指定します
- API Key: LLM で使う API Key を指定します
- System Prompt: AI に対して役割や応答の仕方、その他指示を指定します
- Greeting Message: 1 番目のユーザーがチャンネルに接続した時の、AI からの挨拶文を指定します
- Failure Message: LLM との連携失敗時に返すメッセージを指定します
ASR Settings
- Language: AI との対話で使う言語を設定します
TTS Settings
- Vendor: TTS のベンダーを指定します。Microsoft または Elevenlabs から選択可能です
- API Key: TTS で使う API Key を指定します
その他、選択した Vendor 固有の項目がございます。詳しくは公式ドキュメントの TTS Vendor Configuration をご覧ください。

ステップ 5: Playground での対話開始
「Join Call」をクリックすると「General Settings」で指定されたチャンネルに接続し、AI との対話が始まります。

吹き出しアイコンでキャプション表示を切り替えられます。

対話を終了したい場合は「End Call」を押してください。
まとめと今後の学習ステップ
本記事では、Agora Conversational AI Engine の概要と主な強みに触れつつ、実際にサービスを体験するための Webデモと Playground の使い方を、ステップ・バイ・ステップで詳しくご紹介しました。
低遅延な対話、柔軟なLLM・TTS連携、そして開発の簡便性といった特長を活かし、あなたのサービスに新しい価値をもたらすことができます。
この記事で Conversational AI Engine にさらに興味を持たれた方は、より詳細な機能、技術仕様、SDK の使い方などを解説した公式ドキュメントもぜひご覧ください。開発を始めるための情報が豊富に用意されています。
Agora Conversational AI Engine を活用し、皆様のサービスに革新的な音声対話体験を付加することをぜひご検討ください。