03-6845-0775平日10:00〜18:00受付
無料ガイド
お問い合わせ

【活用事例】AIアバターシステムで進化するセミナー配信とは

公開日:

視聴者の反応から学ぶ生成AIアバター活用法

ブイキューブは、自社製品の認知拡大と技術的な情報提供を目的に定期的なセミナーのライブ配信を行っていますが、同一内容のセミナーを複数回実施しているケースもあり、効率化を検討しました。
解決策として事前収録したコンテンツを用いて、擬似ライブ配信を実施してみました。
効率化は達成したものの、自宅収録に伴う騒音侵入や、声量の不均一性、取り直しの必要性など新たな課題が生じました。
盲点だったのは日をまたいで部分的な取り直しをする際、散髪をしてしまったら前後のつながりが不自然になるという点でした。
これらの問題を克服するため、生成AIアバター動画生成技術の採用を検討しました。
バーチャルヒューマンを用いることで、物理的な制約を超え、高品質で一貫したコンテンツ制作が可能になり、効率的な配信と視聴者との新しい形のエンゲージメントを実現することが見込まれます。

man

デモ動画

実際のセミナー用に動画生成したAIアバターの一部を公開します。

AIアバターが自然にスピーチしている様子がチェックできます。

AIアバター動画生成の技術選定

生成AIアバターを利用した動画作成には以下の技術が必要です。

  • TTS(テキストtoスピーチ)
  • キャラクター作成
  • リップシンク(スピーチに合わせてキャラクターを動かす技術)
  • 資料との繋ぎこみ

それぞれの技術についてAPI経由やGUI経由でさまざまなソリューションが提供されています。
ブイキューブではこの生成AIアバターを利用した動画作成のサービスを視野に入れているため、極力自動化を目指しAPI経由で生成できる技術や、より自然なAIアバターの作成を調査し、プロトタイピングを行いながら動画作成を行いました。

動画制作プロセスで直面した課題と解決策

新しい取り組みなので、当然ながらいくつかの課題が発生しました。
例として挙げられるのは、リップシンクの生成時間です。数秒程度の音声データについては許容できる範囲の生成時間でした。ところが、長尺になるにつれ、生成時間が指数関数的に増加していきました。
結果として、短い動画を生成し、あとでマージするという解決策にたどりつきました。

視聴者の反応

視聴者からのフィードバック

セミナー実施後にアバターに対するアンケートを取りました。
バーチャル講師に対する一番の懸念点として視聴者がストレスを感じるかという点がありました。アンケート結果からは改善の余地があるものの概ねストレスを感じないという結果になりました。

視聴者からのフィードバック

バーチャル講師への今後の期待でも視聴者に受け入れられている様子が伺えます。

視聴者からのフィードバック

自社でのバーチャル講師活用についてはまだまだ未知数である様子が伺えます。

視聴者からのフィードバック

視聴者の反応によって浮き彫りになった点

自由記載のアンケートでは以下のようなコメントを頂きました。

 

肯定的なコメント
・新鮮で面白かった
・裏側の仕組みが気になった
・思っていたよりも違和感なく聞く事が出来た
・プレゼン下手な人間がやるよりはずっとよかった

最後の「人間よりずっとよかった」というコメントから、発信したいけどしゃべるのが苦手な人にとってAIアバターが有効なソリューションだと気付きました。

否定的なコメント
・イントネーションが日本人らしくない
・抑揚が弱くて聞きづらい箇所もあった

否定的なコメントからはビジュアルよりも音声の品質が気になる傾向のようでした。

ネガティブなフィードバックへの対応方法

テキストからの音声化については様々なモデルやサービスが存在する為、いくつか試して改善していく事になりそうです。

最後に

今回、従来のセミナーのライブ配信の課題を解決するために生成AIアバターを採用しました。
自然なAIアバターの動画生成技術を使用することで、物理的な制約を超え、高品質で一貫したコンテンツ制作が可能になり、効率的な配信と視聴者との新しい形のエンゲージメントが実現されることが期待されます。
視聴者からは、新鮮で面白いと感じるなど肯定的な反応が多く見られましたが、音声のイントネーションや抑揚に関する改善点も浮かび上がりました。
今後、これらのネガティブなフィードバックに対応し、さらに改善を進めることで、バーチャル講師の活用はより受け入れられるようになることが期待されます。

ガイドブックダウンロード
ビデオ通話・ライブ配信API/SDK「Agora」

【最新版】超低遅延API/SDK「Agora」ガイドブック

通話・配信遅延30-200ms!100万人の視聴対応!未経験者から専門家まで、誰でも読みやすいAgoraのガイドブックをダウンロードしませんか。

無料ダウンロード
藤本 諭志

執筆者藤本 諭志

株式会社ブイキューブ 技術本部 Agora担当。 2007年ブイキューブ入社。 自社開発サービスであるV-CUBE セミナーの開発に携わる。現在はAgoraとTencent Cloudのプロダクト担当SEをしている。 スキル:Docker/AWS/Linux/DB/Ruby/PHP/JavaScript
関連記事

2024年03月18日

会話型AIのパフォーマンスを可視化する:Agora Conversational AI Performance Lab の見方と活用法
  • Agora
  • 技術動向
  • 実践
近年、音声対話型の AI エージェント開発が活発になっています。この開発では、一般的に ASR (音声認識)、LLM (大規模言語モデル)、TTS (音声合成) という複数の AI モデルを連携させる必要があります。しかし、これらのモデルの組み合わせや各々の性能によって、AI の応答速度 (レイテンシ) が大きく変動し、ユーザー体験の質を左右するという課題があります。 Agora 社が提供する Agora Conversational AI Engine は、こうした音声 AI エージェントを構築するためのプラットフォームです。開発者は様々なベンダーの ASR、 LLM、 TTS モデルを柔軟に組み合わせることができますが、一方で「どの組み合わせが自社のサービスにとって最適なのか?」という選定の難しさに直面します。 この課題に対し、Agora 社が客観的なデータに基づいてモデル選定を支援するために公開しているのが、「Agora Conversational AI Performance Lab」です。このツールは、後述する主要な指標「チェーンドモデル遅延 (Chained Model Latency)」を元に、様々なモデルの組み合わせをランキング形式で比較・表示しています。本記事では、このツールの見方と、データに基づいたモデル選定の方法を解説します。

先頭へ戻る