03-6845-0775平日10:00〜18:00受付
無料ガイド
お問い合わせ
資料請求

2025年06月14日

リアルタイム音声AI(会話型AI)を簡単に実現!Agora Conversational AI Engine 入門

agora-conversational-ai-engine-introduction-00

 

近年、顧客体験の向上や業務効率化のため、AI、特に「対話型AI」の活用が急速に広がっています。テキストチャットだけでなく、より自然で直感的な「声」によるコミュニケーションへの期待が高まっています。
しかし、人間とAIがリアルタイムでスムーズに音声対話するシステムを構築しようとしても、遅延、ネットワークの不安定さ、背景ノイズ、精度の問題といった課題が、しばしばユーザー体験を損ない、フラストレーションの原因となってきました。
この記事では、そうした課題を解決し、高品質なリアルタイム音声AIアプリケーションの開発を加速する「Agora Conversational AI Engine」について、初めての方向けに分かりやすく解説します。製品の概要とその強み、そしてこの製品を試していただく方法に焦点を当ててご紹介します。

Conversational AI Engine とは何か

Agora Conversational AI Engine は、開発者がリアルタイムで自然な音声対話を行える AI アプリケーションを、迅速かつ容易に構築できるように設計されたエンジン(プラットフォーム)です。    
このエンジンは、カスタマイズ可能な AI エージェントを動作させるための環境を提供し、その中では STT(音声認識)によるテキスト化、LLM(大規模言語モデル)による応答生成(推論)、TTS(音声合成)による音声化という一連の処理をパイプライン (Chained Model) として実行します。

agora-conversational-ai-engine-introduction-01

 

このパイプラインにおいて、STT 機能は Conversational AI Engine が提供しますが、LLM と TTS については、開発者自身が外部サービスを用意し、連携させる必要があります。 
これにより AI エージェントの高いカスタマイズ性を実現しており、LLM は OpenAI や Gemini の API 形式に対応したサービスを、TTS は Microsoft Azure Speech Service や Elevenlabs といったサービスを要件に合わせて選択・設定できます ( 2025年4月現在 ) 。 
さらに、Restful API を通じて AI エージェントを簡単に管理・配置でき、Agora の高性能なリアルタイム通信基盤上で動作させることで、低遅延な対話を実現します。これらの機能により、開発者は複雑な基盤部分を意識することなく、アプリケーションのコアロジックやユーザー体験の向上に集中できます。

Conversational AI Engine の強み

Conversational AI Engine が、次世代の音声対話体験を実現できる主な強みをご紹介します。

  1. 超低遅延でのリアルタイム対話: Agora が長年培ってきたリアルタイム通信技術により、ユーザーの発話から AI の応答音声が返ってくるまでの遅延を極限まで短縮します。これにより、まるで人間同士が会話しているような、自然でスムーズな対話の流れが実現します。
  2. 柔軟なAIモデル・音声合成サービス連携: プロジェクトの要件に合わせて、好みの音声合成(TTS)や大規模言語モデル(LLM)サービスを選択して組み込むことができます。特定のベンダーにロックインされず、ブランドイメージやキャラクターに合わせた声質や最適な AI モデルを選ぶことで、ユーザーエンゲージメントを高めます。
  3. 開発の簡略化と迅速化: 前述の通り、STT-LLM-TTS間のデータ連携やリアルタイム音声ストリームの管理は Conversational AI Engine 側で担当します。開発者は、Agora が提供する SDK を利用し、比較的少ないコード記述でこれらの高度な機能を利用開始できます。インフラ構築の手間を大幅に削減し、アプリケーションの市場投入までの時間を短縮します。
  4. スケーラビリティ: Agora のグローバルに展開されたインフラ基盤上で動作するため、アプリケーションのユーザー増加に合わせて容易にスケールさせることが可能です。

Conversational AI Engine を試してみよう! (デモと Playground)

ここからは、Conversational AI Engineを体験する方法を2つご紹介します。
※ 尚、どちらの方法を試すにも Agora アカウントが必要となります。

1.Webデモで手軽に体験

「まずは Conversational AI Engine がどのようなものか体験してみたい」という場合には、Web ブラウザから試せる時間制限付きのデモをご利用ください。

デモ利用時の注意点:

・Agora アカウント: この機能のご利用には、Agora へのサインアップが必要となります。
・LLM/TTS について:  デモ用途として、予め LLM/TTS を連携しております。実際の Convo AI には付属しません。

 

ステップ 1: Webデモのページ  にアクセスします。

 

agora-conversational-ai-engine-introduction-02

 

ステップ 2: 「Call AI Engine」を押すと、Agora アカウントへのログインが求められます。アカウント未所持の場合は「Sign up for free」からサインアップの手続きを完了させてください。

agora-conversational-ai-engine-introduction-03

 

ステップ 3: ログイン後、右側に設定ボタンが表示されますので、Agent の種類 (Preset) と言語 (Language) を選択します。

agora-conversational-ai-engine-introduction-04

 

ステップ 4: 「Call AI Engine」を押すと AI との対話セッションが始まります。画面上部に、セッションの残り時間が表示されますので、この時間内に AI との対話をお試しください。

・CC: 対話中の会話内容がキャプション表示されます
・中央: マイクデバイスの切り替え、およびミュート操作ができます
・「×」ボタン: 対話セッションを終了します

 

agora-conversational-ai-engine-introduction-05

2.より深く検証できる: Agora Console Playground

ご自身の環境で、より詳細に Conversational AI Engine を評価したい場合は、Agora Console 内にある Playground を利用します。Playground では、使用する LLM や TTS を選択・設定し、実際の動作を確認できます。

Playground 利用時の注意点:

  • Agora アカウント: この機能のご利用には、Agora へのサインアップが必要となります。
  • LLM と TTS の準備: Playground で使用するサードパーティの LLM (例: OpenAI) および TTS (例: Microsoft Azure Speech) のアカウントと API キーを別途ご自身で用意し、設定する必要があります。(STT は Agora の機能を利用します)
  • 無料クレジットの消費: Playground のご利用中は、Agora の無料クレジット枠を消費します。サードパーティの LLM および TTS の利用料も、各サービスの規定に従い発生する可能性があります。

 

Playground を使うためのステップ:

ステップ 1: Console ログイン画面 (https://console.agora.io/) から、Agora アカウントへログインください。アカウント未所持の場合は、右上の「Sign up」からサインアップの手続きを完了させてください。

agora-conversational-ai-engine-introduction-06

 

ステップ 2: 新規プロジェクトを作成します。

 

agora-conversational-ai-engine-introduction-07

 

古いバージョンの Console が表示される場合、「https://console.agora.io/v2」からアクセスし直すか、画面上部バナーの「Switch to the new version」をクリックください。

agora-conversational-ai-engine-introduction-08

 

プロジェクト名など、空欄に必要事項を記入し「Submit」を押して作成します。

agora-conversational-ai-engine-introduction-09

 

ステップ 3: Conversational AI Engine の有効化

Projects 一覧から、作成したプロジェクトを探し「Action」にある✏️アイコンをクリックします。

agora-conversational-ai-engine-introduction-10

 

プロジェクト設定画面から「Conversational AI Engine」の設定にアクセスし、「Enable Conversational AI」のスイッチをオンにして有効化します (一度有効化すると、元に戻すことはできません)。

agora-conversational-ai-engine-introduction-11

 

ステップ 4: Playground の設定

有効化後、Configuration にある「LLM Settings」「ASR Settings」「TTS Settings」から必須項目、その他設定を入力ください。

 

LLM Settings

  • LLM Style: Chat Completion のリクエスト形式を指定します。OpenAI または Gemini から選択可能です
  • LLM URL:LLM サービスのエンドポイント URL を指定します
  • Model Name: 使用したい LLM のモデル名を指定します
  • API Key: LLM で使う API Key を指定します
  • System Prompt: AI に対して役割や応答の仕方、その他指示を指定します
  • Greeting Message: 1 番目のユーザーがチャンネルに接続した時の、AI からの挨拶文を指定します
  • Failure Message: LLM との連携失敗時に返すメッセージを指定します

ASR Settings

  • Language: AI との対話で使う言語を設定します

TTS Settings

  • Vendor: TTS のベンダーを指定します。Microsoft または Elevenlabs から選択可能です
  • API Key: TTS で使う API Key を指定します

その他、選択した Vendor 固有の項目がございます。詳しくは公式ドキュメントの TTS Vendor Configuration をご覧ください。

agora-conversational-ai-engine-introduction-12

 

ステップ 5: Playground での対話開始

「Join Call」をクリックすると「General Settings」で指定されたチャンネルに接続し、AI との対話が始まります。

agora-conversational-ai-engine-introduction-13

 

吹き出しアイコンでキャプション表示を切り替えられます。

agora-conversational-ai-engine-introduction-14

 

対話を終了したい場合は「End Call」を押してください。

まとめと今後の学習ステップ

本記事では、Agora Conversational AI Engine の概要と主な強みに触れつつ、実際にサービスを体験するための Webデモと Playground の使い方を、ステップ・バイ・ステップで詳しくご紹介しました。

低遅延な対話、柔軟なLLM・TTS連携、そして開発の簡便性といった特長を活かし、あなたのサービスに新しい価値をもたらすことができます。

この記事で Conversational AI Engine にさらに興味を持たれた方は、より詳細な機能、技術仕様、SDK の使い方などを解説した公式ドキュメントもぜひご覧ください。開発を始めるための情報が豊富に用意されています。

Agora Conversational AI Engine を活用し、皆様のサービスに革新的な音声対話体験を付加することをぜひご検討ください。

 

ブイキューブ

執筆者ブイキューブ

Agoraの日本総代理店として、配信/通話SDKの提供だけでなく、導入支援から行い幅広いコミュニケーションサービスに携わっている。

関連記事

2025年05月30日

WebRTCの商用サービスまとめ|Agora, Amazon Chime, twilio, SkyWay, Live kit など

  • WebRTC
  • 基礎知識
(2025/5/30更新) オンライン会議やビデオ通話は、今やビジネスや個人のコミュニケーションに欠かせないツールとなりました。遠隔地にいる相手とも、まるでその場にいるかのようにリアルタイムで繋がれるこれらの体験は、私たちの働き方や暮らしを大きく変えています。 このようなリアルタイムコミュニケーションをWebブラウザ上で実現する中核技術がWebRTCです。特別なソフトウェアのインストールを必要とせず、Webサイトにアクセスするだけで利用できる手軽さが大きな特徴です。長年にわたり開発と仕様策定が進められてきましたが、2021年にはW3CとIETFによって正式に標準化されました。これにより、技術的な安定性やブラウザ間の互換性がさらに向上し、開発者はより安心してWebRTCを様々なサービスへ組み込めるようになりました。 現在、WebRTCはオンライン会議システム、ビデオ/音声通話サービス、ライブ配信プラットフォーム、オンライン教育、遠隔医療、さらにはライブコマース、オンラインゲーム、メタバース空間での交流といった多種多様なサービスで活用され、その重要性はますます高まっています。 この記事では上記のようなWebRTCを使って実現できることだけでなく、代表的なWebRTC用プラットフォームの商用サービスとそのメリットを含めてご紹介します。今後も様々なサービスで活用が進むWebRTCを知って、ぜひ自社のサービス開発にお役立てください。

先頭へ戻る