Agoraのリアルタイム文字起こしは、最新のAI技術を活用し、さまざまな環境においても高精度な音声認識を実現します。
まずは、どの程度のノイズが含まれる環境下であれば精度を検証する上での妥当性を担保できるのかを考え、今回は以下の3つの環境を想定した検証を行います。
ノイズレベル |
想定環境 |
ノイズ要素 |
音量バランス(発話音量:ノイズ音量) |
中 |
在宅環境 |
マイクのホワイトノイズ、空調音 |
1 : 0.4 ~ 0.6(質の悪いマイクデバイス/フル稼働時の空調) |
大 |
日常/店内 |
周囲の会話/ガヤガヤ音 |
1 : 0.7 〜 0.9(人の多いカフェ店内) |
特大 |
駅のホーム |
強風、アナウンス、人の往来 |
1 : 0.9 ~ 1.1(利用者の多い駅構内) |
検証には、以下のフリー音声データを用意します。
1. 説明ナレーション
発話セリフ:「イスタンブールは世界で唯一 アジア大陸とヨーロッパ大陸にまたがる街で、 この2つの大陸を分けているのが ボスポラス海峡です」
取得元:https://pro-video.jp/voice/announce/
1. マイクノイズ
2. 空調音
3. 賑やかなカフェ店内
4. 新幹線ホーム
取得元:https://taira-komori.jpn.org/
用意した音声データ同士の合成及び編集には、audacityを利用します。
このソフト上で、発話音声と各種ノイズの音量バランスを調整し、同時に再生します。
今回は、2.で作成した音声データを直でAgoraへ入力音声としてインプットします。
そこで、私はMacを使用しているので、「blackhole」という仮想オーディオデバイスを扱うソフトウェアをインストールし、利用することにします。
音声データの流れとしては以下のようになります。
audacity → blackhole 2ch → blowser(google chrome)
今回は、Agoraが提供している文字起こし及び自動翻訳をWeb上ですぐに実行できるデモを利用します。
在宅環境の中でもノイズが大きめな環境を想定し、それぞれの音声データをおおよそカッコ内のボリューム比率で組み合わせて検証を行います。
発話音声(1) + マイクノイズ(0.5) + 空調音(0.5)
次に、賑わいを見せるカフェ店内を想定します。
発話音声(1) + 賑やかなカフェ店内(0.8)
最後に、最も話者からして声が正常に入力されているか不安となる、駅のホームを想定した環境音を、発生音声とほぼ同じボリュームで流します。
発話音声(1) + 新幹線ホーム(1)
グレーの枠の中で3つ書き起こされているものが、上からそれぞれ想定環境1〜3の文字起こし結果です。
想定環境 |
結果 |
在宅環境 |
イスタンブールは世界で唯一 アジア大陸とヨーロッパ大陸にまたがる街で、 この2つの大陸を分けているのが ボスポラス海峡です |
日常/店内 |
イスタンブールは世界で唯一 アジア大陸とヨーロッパ大陸にまたがる街で、 この2つの大陸を分けているのが ボスポラス海峡です |
駅のホーム |
イスタンブールは世界で唯一 アジア大陸とヨーロッパ大陸にまたがる街で、 この2つの大陸を分けているのが ボスポラス海峡 |
在宅環境と日常/店内を想定した二つの検証では発話内容が完璧に文字起こしされています。
3つ目の新幹線ホームを想定した検証では語尾の「です」が抜けていますが、内容は問題なく認識されています。
結果、どの検証でも内容が抜け落ちることなく、高精度に文字起こしを行えていることが分かりました。
本記事では、Agoraのリアルタイム文字起こし機能の精度を、意図的にノイズを加えた音声を用いて検証を行いました。
様々な環境において正確に文字起こしができる点は、冒頭で記載したユースケースのみでなく、LLMとの連携時にも高精度なテキストデータを提供できる大きな利点となります。
Agoraは、既に各種LLMとの連携を容易に行うことが可能なソリューションを提供しているため、興味がある方は併せて以下の公式ドキュメントを閲覧いただけます。
Conversational AI:https://www.agora.io/en/solutions/conversational-ai/
※文字起こしの精度は、発話のクリアさ、話者のアクセント、背景ノイズの種類、ネットワーク環境など、さまざまな要因によって変動します。そのため、本記事で行った検証の結果はあくまで一例です。