“
実践
” 記事一覧
2026年01月05日
Agora Convo AIの機能を使ってLive Transcriptを実装してみる
生成AIを活用したボイスボットや会話型エージェントの開発において、「音声」だけでなく「テキスト」を同時に画面に表示したいというニーズは非常に一般的です。聴覚情報の補助や、会話履歴の可視化は、ユーザー体験(UX)を大きく向上させます。 Agora が提供するConversational AI Engine(以下、Convo AI)は、LLMとリアルタイム音声通話技術を統合したソリューションです。本記事では、Convo AI向けに提供されているToolkitを活用し、Webクライアント上で会話の文字起こし(Live Transcript)を表示する実装方法を解説します。
続きを読む
2025年12月30日
Agora Convo AI と連携する Custom LLM サービスを作ってみる
昨今、LLM (大規模言語モデル) を活用した AI アシスタントやチャットボットが急速に普及しています。 しかし、実用的な AI アプリケーションを構築する際、GPT や Claude のような汎用 LLM をそのまま利用するだけでは不十分なケースが増えています。 ユーザーが本当に求める AI エージェント、例えば「社内の最新マニュアルに基づいて回答する」や「現在の天気や株価を調べて応答する」といった機能を実現するには、LLM が外部の知識やツールと連携する仕組みが不可欠です。 具体的には、独自のナレッジベースと連携する RAG (Retrieval Augmented Generation) や、外部 API を呼び出す Tool Calling といった技術と組み合わせることが、今や AI エージェント開発の「当たり前」になりつつあります。 この「カスタマイズされた AI の頭脳」は、もちろんリアルタイムの「音声対話」においても重要です。 Agora が提供する Conversational AI (Convo AI) は、ASR (音声認識) や TTS (テキスト読み上げ) といった、リアルタイム音声 AI に不可欠なパイプラインをシンプルに扱うためのソリューションです。 そして、AI エージェントの「頭脳」にあたる LLM 部分に関して、Agora Convo AI は標準の LLM(例えば OpenAI の GPT)だけでなく、OpenAI Chat Completions 互換のプロトコルを介して、開発者が独自に用意した LLM サービス (Custom LLM サービス) と接続できる拡張性を備えています。 本記事では、この「Custom LLM サービス」を取り上げて、Convo AI と連携させる手順や簡単な実装例を紹介します。
続きを読む
2025年12月29日
Agora Convo AI と AI Avatar (Akool) 連携で、リッチな会話エージェントをスピーディに実装する方法
アバターを使った会話エージェントは、カスタマーサポート、教育、エンターテイメントなど、多くの分野でより自然で魅力的なユーザー体験を提供します。しかし、ユーザーの発話に合わせて AI が応答を生成し、さらにアバターの口の動き(リップシンク)や表情をリアルタイムで同期させる処理は、開発者にとって大きな負担となりがちです。 この記事では、Agora Conversational AI (Convo AI) とサードパーティの AI Avatar サービスを連携させることで、この課題を解決する方法を紹介します。
続きを読む
2025年12月27日
会話型AIのパフォーマンスを可視化する:Agora Conversational AI Performance Lab の見方と活用法
近年、音声対話型の AI エージェント開発が活発になっています。この開発では、一般的に ASR (音声認識)、LLM (大規模言語モデル)、TTS (音声合成) という複数の AI モデルを連携させる必要があります。しかし、これらのモデルの組み合わせや各々の性能によって、AI の応答速度 (レイテンシ) が大きく変動し、ユーザー体験の質を左右するという課題があります。 Agora 社が提供する Agora Conversational AI Engine は、こうした音声 AI エージェントを構築するためのプラットフォームです。開発者は様々なベンダーの ASR、 LLM、 TTS モデルを柔軟に組み合わせることができますが、一方で「どの組み合わせが自社のサービスにとって最適なのか?」という選定の難しさに直面します。 この課題に対し、Agora 社が客観的なデータに基づいてモデル選定を支援するために公開しているのが、「Agora Conversational AI Performance Lab」です。このツールは、後述する主要な指標「チェーンドモデル遅延 (Chained Model Latency)」を元に、様々なモデルの組み合わせをランキング形式で比較・表示しています。本記事では、このツールの見方と、データに基づいたモデル選定の方法を解説します。
続きを読む
2025年12月01日
安定した通信で事業拡大を加速!オンライン診療サービス「march」がAgoraを選んだ理由
記事中のイメージはmarchサイトより引用しています。 株式会社Wrusty(ラスティ)が提供する「march(マーチ)」は、オンライン診療からクリニックの業務支援、患者とのコミュニケーションまでをLINEで完結できるオールインワンのサービスで、多くの医療現場で活用されています。 marchのオンライン診療の通話機能に実装されていた既存SDKのWebRTCプラットフォームでは、通信品質や機能の拡張性に課題を抱えていました。これらの課題を解決し、より高品質なサービスを提供するために選ばれたのがAgoraです。 今回は、株式会社Wrusty(ラスティ)で開発を担当されている 近藤 弘和 氏に、Agora導入の背景や導入後の変化、そして今後の展望について詳しくお話を伺いました。
続きを読む
2025年06月20日
リアルタイム音声AI(会話型AI)を簡単に実現!Agora Conversational AI Engine 入門
近年、顧客体験の向上や業務効率化のため、AI、特に「対話型AI」の活用が急速に広がっています。テキストチャットだけでなく、より自然で直感的な「声」によるコミュニケーションへの期待が高まっています。 しかし、人間とAIがリアルタイムでスムーズに音声対話するシステムを構築しようとしても、遅延、ネットワークの不安定さ、背景ノイズ、精度の問題といった課題が、しばしばユーザー体験を損ない、フラストレーションの原因となってきました。 この記事では、そうした課題を解決し、高品質なリアルタイム音声AIアプリケーションの開発を加速する「Agora Conversational AI Engine」について、初めての方向けに分かりやすく解説します。製品の概要とその強み、そしてこの製品を試していただく方法に焦点を当ててご紹介します。
続きを読む
2025年06月20日
リアルタイム音声AI(会話型AI)を簡単に実現!Agora Conversational AI Engine 入門 その 2: RESTful API による AI エージェントの制御と LLM/TTS 連携
はじめに 前回の記事では、Agora Conversational AI Engine の基本的な概念と Console の Playground を通じた対話体験の概要を紹介しました。Playground での体験は、本製品が提供する対話型 AI の可能性の一端を示すものです。 本記事「その2」では、Agora Conversational AI Engine の RESTful API の活用方法を掘り下げます。API を利用することで、開発中のアプリケーションや既存のサービスと Conversational AI Engine を直接連携させ、より柔軟かつ高度な対話型 AI 機能の実装が可能になります。
続きを読む
2025年03月25日
Agoraの文字起こし機能の精度を検証してみる(在宅・カフェ店内・駅のホーム)
AIを活用したリアルタイム音声認識(Speech-to-Text: STT)は、カスタマーサポート、字幕生成、多言語会議、ライブ配信、通話記録、など多くのユースケースで活用されています。 そしてAgoraが提供するクラウドベースの文字起こし機能(Real-Time Speech to Text)も、低遅延かつ高精度なSTT機能を提供します。 Real-Time Speech to Textの公式ドキュメントこちら また、LLMを併用した応用的なアーキテクチャを構成する際にも、文字起こしの精度が非常に重要となります。 そこで本記事では、Agoraの文字起こしがどの程度の精度であるか、発話音声に対して意図的にノイズを混入させ、Agoraの文字起こし精度を確認していきます。
続きを読む

