Agoraの文字起こし機能の精度を検証してみる（在宅・カフェ店内・駅のホーム）

公開日:2025年03月25日

Agora
実践

agora-speech-to-text-accuracy-test-1

AIを活用したリアルタイム音声認識（Speech-to-Text: STT）は、カスタマーサポート、字幕生成、多言語会議、ライブ配信、通話記録、など多くのユースケースで活用されています。

そしてAgoraが提供するクラウドベースの文字起こし機能(Real-Time Speech to Text)も、低遅延かつ高精度なSTT機能を提供します。
Real-Time Speech to Textの公式ドキュメントこちら

また、LLMを併用した応用的なアーキテクチャを構成する際にも、文字起こしの精度が非常に重要となります。

そこで本記事では、Agoraの文字起こしがどの程度の精度であるか、発話音声に対して意図的にノイズを混入させ、Agoraの文字起こし精度を確認していきます。

お役立ち資料

【ファンコミュニケーションやライブコマースに！】通話・配信SDK「Agora」ガイドブック

【最新版！会話型AIエンジンデモURL付き】

豊富なサポートとサンプルでかんたん開発！
通話・配信API/SDK 「Agora」ガイドブック

通話・配信・会話型AIの機能をアプリやゲーム、さまざまなIoTに簡単に実装できるSDK。
実装未経験者からWebRTCのリプレイス検討中の方まで役立つ内容ですので、ぜひご一読ください。

無料ダウンロード

Agoraの文字起こし機能の強み

Agoraのリアルタイム文字起こしは、最新のAI技術を活用し、さまざまな環境においても高精度な音声認識を実現します。

高精度な音声認識とノイズ除去

最先端のAI技術を活用し、複数話者がいる状況やバックグラウンドノイズの多い環境でも高い認識精度を実現。
非音声要素（無音部分・雑音）を自動除去し、Word Error Rate (WER) を低減。
リアルタイム処理に最適化されており、音声を瞬時にテキスト化可能。

他の文字起こしサービスとの比較における優位点

クロストーク対応：最大3人までの話者を区別し、個別にラベル付け可能。
マルチ言語対応：30以上の言語と方言をサポートし、1つのチャンネルで2つの言語を同時に処理可能。
クラウドベースの処理：デバイスの性能に依存せず、安定した処理速度と高精度な文字起こしが可能。
低コスト・高効率：従来のクライアントサイドでの文字起こしと比較し、サーバー側での処理によりコスト削減を実現。
セキュリティの担保：AgoraはISOおよびSOC 2の認定を受けており、通信経路においてデータは暗号化される。

検証の方針と準備

想定する環境

まずは、どの程度のノイズが含まれる環境下であれば精度を検証する上での妥当性を担保できるのかを考え、今回は以下の3つの環境を想定した検証を行います。

ノイズレベル	想定環境	ノイズ要素	音量バランス（発話音量：ノイズ音量）
中	在宅環境	マイクのホワイトノイズ、空調音	1 : 0.4 ～ 0.6（質の悪いマイクデバイス/フル稼働時の空調）
大	日常/店内	周囲の会話/ガヤガヤ音	1 : 0.7 〜 0.9（人の多いカフェ店内）
特大	駅のホーム	強風、アナウンス、人の往来	1 : 0.9 ～ 1.1（利用者の多い駅構内）

準備

使用する音声データ

検証には、以下のフリー音声データを用意します。

明瞭な発話音声

1. 説明ナレーション

発話セリフ：「イスタンブールは世界で唯一アジア大陸とヨーロッパ大陸にまたがる街で、この2つの大陸を分けているのがボスポラス海峡です」
取得元：https://pro-video.jp/voice/announce/

ホワイトノイズ、環境音素材

1. マイクノイズ
2. 空調音
3. 賑やかなカフェ店内
4. 新幹線ホーム

取得元：https://taira-komori.jpn.org/

ノイズが混入した音声データの作成

用意した音声データ同士の合成及び編集には、audacityを利用します。
このソフト上で、発話音声と各種ノイズの音量バランスを調整し、同時に再生します。
agora-speech-to-text-accuracy-test-1

音声データ入力方法の検討

今回は、2.で作成した音声データを直でAgoraへ入力音声としてインプットします。

そこで、私はMacを使用しているので、「blackhole」という仮想オーディオデバイスを扱うソフトウェアをインストールし、利用することにします。

音声データの流れとしては以下のようになります。

audacity → blackhole 2ch → blowser(google chrome)

検証

今回は、Agoraが提供している文字起こし及び自動翻訳をWeb上ですぐに実行できるデモを利用します。

agora-speech-to-text-accuracy-test-2
URL：agora stt demo

想定環境１：在宅環境

在宅環境の中でもノイズが大きめな環境を想定し、それぞれの音声データをおおよそカッコ内のボリューム比率で組み合わせて検証を行います。

発話音声(1) + マイクノイズ(0.5) + 空調音(0.5)

想定環境２：日常/店内

次に、賑わいを見せるカフェ店内を想定します。

発話音声(1) ＋賑やかなカフェ店内(0.8)

想定環境３：駅のホーム

最後に、最も話者からして声が正常に入力されているか不安となる、駅のホームを想定した環境音を、発生音声とほぼ同じボリュームで流します。

発話音声(1) ＋新幹線ホーム(1)

結果

agora-speech-to-text-accuracy-test-3

グレーの枠の中で3つ書き起こされているものが、上からそれぞれ想定環境1〜3の文字起こし結果です。

想定環境	結果
在宅環境	イスタンブールは世界で唯一アジア大陸とヨーロッパ大陸にまたがる街で、この2つの大陸を分けているのがボスポラス海峡です
日常/店内	イスタンブールは世界で唯一アジア大陸とヨーロッパ大陸にまたがる街で、この2つの大陸を分けているのがボスポラス海峡です
駅のホーム	イスタンブールは世界で唯一アジア大陸とヨーロッパ大陸にまたがる街で、この2つの大陸を分けているのがボスポラス海峡

在宅環境と日常/店内を想定した二つの検証では発話内容が完璧に文字起こしされています。
3つ目の新幹線ホームを想定した検証では語尾の「です」が抜けていますが、内容は問題なく認識されています。
結果、どの検証でも内容が抜け落ちることなく、高精度に文字起こしを行えていることが分かりました。

まとめと今後の展望

本記事では、Agoraのリアルタイム文字起こし機能の精度を、意図的にノイズを加えた音声を用いて検証を行いました。
様々な環境において正確に文字起こしができる点は、冒頭で記載したユースケースのみでなく、LLMとの連携時にも高精度なテキストデータを提供できる大きな利点となります。

Agoraは、既に各種LLMとの連携を容易に行うことが可能なソリューションを提供しているため、興味がある方は併せて以下の公式ドキュメントを閲覧いただけます。

Conversational AI：https://www.agora.io/en/solutions/conversational-ai/

※文字起こしの精度は、発話のクリアさ、話者のアクセント、背景ノイズの種類、ネットワーク環境など、さまざまな要因によって変動します。そのため、本記事で行った検証の結果はあくまで一例です。

お役立ち資料