AIデジタルヒューマンが直面する「タイムラグ」と「表現力」2つの壁
人間の会話リズム0.2秒とのギャップを埋める
AIデジタルヒューマンとの対話で多くの人が感じる違和感。その原因は大きく2つの「壁」にあると、V-CUBEの池田氏は指摘する。 一つ目は「タイムラグの壁」だ。 人間同士の自然な会話は約0.2秒(200ミリ秒)という小気味よいリズムで成り立つが、AIの応答にはどうしても通信による遅延が発生する。 このわずかなズレが、ユーザーに「AIと話している」という感覚を与えてしまう。
情報の9割を占める非言語表現をいかに伝えるか
二つ目は「表現力の壁」だ。 コミュニケーションにおいて、言葉そのものが持つ言語情報は全体の7%に過ぎず、残りの93%は声のトーン(38%)や表情・しぐさ(55%)といった非言語情報が占める。* 従来のAIは、この非言語情報の表現が乏しく、「感情のないツール」という印象を与えがちだった。 これら2つの壁を技術的に乗り越え、「人間らしい」対話体験を創出することが、デジタルヒューマン普及の鍵となる。
*メラビアンの法則|アルバート・メラビアンが1971年に発表した著書『Silent messages』(非言語コミュニケーション)で提唱された法則
池田 透氏: 本来、人と人が会話する際、大体約0.2秒ぐらいの「リズム」があります。これを対話型AIで実現できるかがポイントです。
実演デモ:デジタルヒューマン「Yuna」が見せた、人間らしい対話と多言語能力

セミナーでは、両社の技術を統合したデジタルヒューマン「Yuna」によるライブデモンストレーションが行われた。応答速度、表情の自然さ、そして驚くべき言語能力が披露され、技術の進化を鮮明に印象付けた。
ホテルのコンシェルジュとして、具体的なレストランを提案
最初のデモは、Yunaがホテルのコンシェルジュになりきり、ユーザーの要望に応えるシミュレーションだ 。ユーザーが「渋谷区でオススメのレストラン」を尋ねると、Yunaは間髪入れずに和食店「渋谷タンポポ」とフレンチ「レストラン ラボンヌ」の2店を具体的に提案 。単に情報を返すだけでなく、「素敵な食事が楽しめますよ」と自然な言葉を添えるなど、人間らしい接客を披露した 。
関西弁や5カ国語以上を瞬時に切り替え
Yunaの真価が発揮されたのは、その卓越した言語能力だ。「関西弁で自己紹介して」というリクエストには、「こんにちは、私ゆなやで。…関西弁はちっと緊張するけど楽しんで話せるように頑張るわ」と、イントネーションも含めて自然な方言を披露した 。
さらに、英語、中国語、韓国語、フランス語での会話も瞬時に実行。特に多言語対応では、ユーザーが発話してから応答までの速度が極めて速く、言語切り替えに伴う遅延をほとんど感じさせなかった。
パク・ドンビン氏: 弊社のデジタルヒューマンは映像のリップシンク構成で合成された映像と音声の通信速度も含めて、ちゃんと言葉と口の動きが合っているか、人間らしい動きか、というところに着目してご覧ください 。
平均遅延40ミリ秒未満。Agoraの超低遅延音声技術「SD-RTN™」

独自ネットワークでリアルタイム通信を最適化する
「タイムラグの壁」を打ち破るのが、Agoraの超低遅延音声テクノロジーだ。
同社は10年以上にわたりリアルタイム通信技術(RTC)を開発しており、その中核をなすのが独自ネットワーク基盤「SD-RTN™(Software-Defined Real-Time Network)」である。 この技術により、世界200以上の国と地域をカバーし、平均遅延40ミリ秒未満、稼働率99.99%という高い安定性を実現。 60%のパケットロスが発生する不安定なネットワーク環境でも、音声や映像をスムーズに届けることができる。
あらゆるLLMと連携可能な会話型AIエンジンを構築
Agoraは、この強力なネットワークを基盤に「会話型AIエンジン」を提供している。 これは、ユーザーの音声をテキストに変換(STT)、大規模言語モデル(LLM)で応答を生成、応答を音声に合成(TTS)という一連の処理を超低遅延で実行するソリューションだ。 OpenAIやGeminiなど、顧客が選んだ任意のLLMと柔軟に連携できるため、ベンダーロックインの心配もない。
ドニー・チェン氏: SD-RTN™という独自開発のネットワーク技術によって音声は常に最適化されて届けられるようになっています。またパケットロスやエコー除去、割り込み対応など、リアルタイム音声体験に必要なすべての技術が組み込まれています。
リップシンクと非言語表現。Klleonのビデオ生成技術
自然な表情と動きで「人間らしさ」を生成する
「表現力の壁」を克服するのが、Klleonのビデオ生成テクノロジーだ。同社のコア技術は、生成された音声に合わせて口の動きや表情を自然に作り出す「リップシンク生成技術」。従来の口だけが動く技術とは異なり、顔の筋肉の動きまでをレンダリングすることで、人間らしい自然な発話を実現する。
これに、髪型を含めて頭部全体を入れ替える「ヘッドスワップ技術」や、会話中のうなずき、目線の動きといった「非言語コミュニケーション技術」を組み合わせることで、AIに生命感を吹き込んでいる。
Agoraとの連携で1秒前後の高速レスポンスを実現
Klleonのデジタルヒューマンは、Agoraの技術と連携することで、業界トップレベルの応答速度を実現している。 音声と映像の生成に加えて、それらをユーザーに配信する最終段階でAgoraのWebRTCベースの超低遅延送受信技術を活用。 これにより、映像のリップシンクまで含めた応答を平均1秒という速さで完了させ、スムーズな対話体験を提供する。
パク・ドンビン氏: このデジタルヒューマンは映像のリップシンク構成で合成された映像と音声の超低遅延通信も含めて、ほぼ1秒前後の速いレスポンスを見せてくれます。これは業界トップレベルの応答速度です。
ワイン売上27%増も。ホテルから教育まで広がる導入事例
多言語対応で接客・販売を24時間自動化する
両社の技術を統合したAIデジタルヒューマンは、すでに様々な業界で活用されている。 例えば、米国のコンビニエンスストア「シェブロン」では、店内にAIソムリエを導入し、ワインの売上が27%増加した実績を持つ。 また、マリオット・ホテルでは受付業務や客室内のコンシェルジュとして活用。 多言語対応が可能なため、インバウンド需要にも応えつつ、24時間365日の顧客対応とコスト削減を両立している。
業界 |
企業名/事例 |
主な活用内容 |
小売 |
シェブロン(米国) |
AIソムリエによる商品レコメンド(ワイン売上27%増) |
ホテル |
マリオット・ホテル |
受付、ルーム内コンシェルジュ(多言語対応、24時間稼働) |
教育 |
マルキャンパス(韓国) |
英会話チューター(講師コストを約1/3に削減) |
ヘルスケア |
LG電子(米国) |
高齢者向けヘルスケア・コミュニケーション |
金融 |
現代自動車証券(韓国) |
AIアバターによる金融情報案内 |
* Klleon社調べ
社員教育や医療現場のコスト削減にも貢献する
活用範囲は顧客対応にとどまらない。企業内研修では、デジタルヒューマンが顧客役を演じることで、従業員は対話シミュレーションを行える。 会話の内容や目線の動きなどをデータで収集・分析し、個別のフィードバックを提供する。
日本でも、凸版印刷と北海道大学病院が協業し、医師が患者へ手術内容などを説明する動画を、医師本人の声と顔で自動生成するサービス「Dictor」に技術が利用されており、対面での説明時間を大幅に削減したという。
アプリからIoTまで。Agora技術の幅広い活用領域
Klleonのデジタルヒューマンを支えるこの強力なリアルタイム通信技術は、一つのユースケースに留まるものではない。Agoraが提供するシンプルで柔軟なAPIは、あらゆる開発プラットフォームに対応している。これにより開発者は、音声・ビデオ通話やライブ配信といった機能を、自社のWebサイトやモバイルアプリ、さらにはIoTデバイスに至るまで、サービスの種類を問わず容易に組み込むことが可能だ。
この技術は、業界内でも比較的安価なコスト感で導入できる点も大きな魅力だ。さらに、日本国内ではV-CUBE(ブイキューブ)がAgora総代理店となり技術統合から運用までを一貫してサポートし、顧客の課題に応じた最適な実装を提案する伴走支援体制が整えられている。そのため、新規開発はもちろん、他社SDKから乗り換える際のコストや開発工数を最適化するといった相談も可能だ。
AIとの人間らしい対話に必要な要素
本セミナーでは、AIデジタルヒューマンが「人間らしい対話」を実現するために、Agoraの超低遅延音声技術とKlleonのビデオ生成技術がいかに重要であるかが示された。デモンストレーションで披露されたデジタルヒューマン「Yuna」は、多言語を瞬時に切り替え、自然な表情で応答しており、技術の進化を実感させるものだった。 読者が次のアクションを考える上で、以下の関係性が重要となるだろう。

本レポートで紹介したAgoraの超低遅延音声技術について、より詳しい情報や導入に関する相談は、両社の技術を繋ぐ株式会社ブイキューブがワンストップで対応している。自社の課題にどう活用できるか、まずは気軽に問い合わせてみてはいかがだろうか。
講演者情報

池田 透(いけだ とおる)氏
株式会社ブイキューブ 事業企画本部 Agora プロダクトマーケティングマネージャー
Webセミナーツールの販売業務を経て、ライブ配信・ビデオ通話の技術提供サービス「Agora」の販売を長年担当。エンタメだけでなく多岐にわたる業種に対し、サービスの提供から協業モデルまで提案・導入支援を行う。

Donnie Chen(ドニー・チェン)氏
Agora APAC Solution Architecture
カナダ・ダルハウジー大学にて工学修士号を取得。Agoraのソリューションおよび製品に精通し、教育、エンターテインメント、AIなど複数業界で実務経験を有する。音声・映像技術、リアルタイム通信PaaSに関する深い専門知識を活かし、顧客のビジネス成長を技術面から支援している。

朴 東彬(パク・ドンビン)氏
Klleon Japan Business Planning Dept.
CyberAgentにてモバイルゲームの企画、CJ ENM Japanにて韓国エンタメOTTサービスのPMを歴任。現在はAIデジタルヒューマンソリューションを展開するKlleonにて、日本市場における事業展開をリード。エンターテインメントとテクノロジーの融合による新たな価値創出を目指している。