{{ page_meta.name }}｜{{ group.public_title }}｜{{ site_settings.logo_alt }}

作成者: ブイキューブ｜Jan 31, 2026 7:53:27 AM

Cloudflareの障害発生の3時間

インターネットがダウンしたときに何百万人も反射的に確認するサイトである「Downdetector」でさえ、自身の障害レポートを配信できませんでした。サービス復旧後、その皮肉はソーシャルメディアで強く受け止められました。

しかし、Cloudflareが障害を発生していたその3時間、Agoraが提供するリアルタイムのビデオ通話、ライブ配信、双方向ブロードキャストは中断することなく動き続けました。

インターネット最大級のインフラ提供事業者の1つで連鎖障害が発生し、世界中のWebサイトの推定20%に影響が出るなかでも、AgoraのSoftware Defined Real-Time Network（SD-RTN）は、通信事業者グレードの品質を維持しました。

レイテンシーが「失われた時間」になるとき

ここには重要な違いがあります。「稼働率」や「サービスの可用性」を語るとき、しばしば見落とされがちな違いです。

Webページの読み込みに数秒余計にかかったり、メールの到着が遅れたりしても、最終的にはコンテンツの内容は損なわれずに届きます。一方で、リアルタイムコミュニケーションは、根本的に異なる世界線で動いています。

ライブビデオ通話が途切れれば、そのフレームは失われます。音声ストリームでパケットが欠ければ、その言葉は復元できません。

再接続を待ったり、聞き取りづらい音声を理解しようとしたりする数分間の時間は、参加者全員の注意と時間を消費します。これはサービスの劣化ではなく、技術的に復旧したとしても、取り返しのない「サービスとしての失敗」となり記憶に残り続けます。

だからこそ、通信事業者は「通信事業者グレードの品質」という概念を発展させてきました。これはマーケティング用語ではありません。緊急通信、金融の取引現場、医療のオンライン相談といったサービスには、再送やバッファリングでネットワークの不完全さをごまかせるサービスとは質的に異なる信頼性アプローチが必要だ、という認識です。

Agoraでは、リアルタイムエンゲージメントサービスは「通信事業者グレードの品質」を、目標ではなく「前提条件」として設計しなければならないと確信しています。あらゆるアーキテクチャ上の判断は、この前提から導かれます。

単一ベンダー問題

今回のCの事象と、それに先立つ出来事は、現代のインターネットインフラがどのように進化してきたかに潜む構造的な脆弱性を浮き彫りにしています。

Cloudflare は世界中の Web サイト全体の推定 20% にサービスを提供しています。Amazon Web Services はインターネット上のアプリケーションとデータの非常に大きな部分をホストしています。Microsoft Azure は業界をまたぐ重要なエンタープライズシステムを支えています。これらはいずれも優れたサービスであり、才能あるチームが設計し、重要な機能を提供しています。

同時に、NetBlocksの Alp Toker 氏が今日の障害後に BBC に語ったように、「インターネットにおける最大級の単一障害点の1つ」でもあります。

これは、これら企業の技術力への批判ではありません。インターネットが少数の巨大事業者に集約されるなかで、いつの間にか定着してきたアーキテクチャの傾向があります。コストを抑えやすく、運用もシンプルになり、必要な機能をすぐに使える——そうした理由から、この形が広がってきたのは自然な流れです。これら事業者のセキュリティ能力は、多くの場合、個々の組織が単独で開発するには難しいものです。

しかし、このパターンは特有のリスクを生みます。相関した障害が、インターネットの非常に広い範囲に同時に連鎖するリスクです。ある事業者の設定ファイルが想定以上に大きくなったとき、その影響は1社や数社にとどまりません。何千もの企業と、何百万人ものユーザーに、一斉に波及します。

許容できる遅延が数百ミリ秒単位であり、あらゆる中断が直接的に人の注意と時間を浪費するサービスにとって、この集中リスクは受け入れられません。

レジリエンス（障害耐性）を考慮した設計: Agora SD-RTNアーキテクチャ

Cloudflare 依存のサービスが落ちる一方でAgoraのサービスが稼働し続けた理由は、根本的なアーキテクチャ思想にあります。それは、単一ベンダーの信頼性に決して依存しないことです。これはパートナーを疑うという話ではありません。リアルタイムサービスに「通信事業者グレードの品質」をもたらすには、どれほど技術力が高いベンダーであっても単独では提供できないアーキテクチャ判断が必要だ、という認識です。

AgoraのSoftware Defined Real-Time Network（SD-RTN）は、基盤となるインターネットインフラの一部が劣化したり障害を起こしたりしても、通信事業者グレードの品質を届けたいという、第一原則を元に設計され構築されました。このアプローチは今日、理論ではなく実運用の場で、その価値を示しました。

このアーキテクチャは、次の3つの設計原則によって実現されています。

1.単一障害点を持たない地理冗長

SD-RTN は、世界に分散した Point of Presence（POP）を相互接続したメッシュとして運用しています。各 POP は、他のすべての POP への性能を継続的に測定します。定期的ではなくリアルタイムです。これにより、コスト最適になりがちな標準的なインターネットルーティングプロトコルに依存せず、実際に起きているネットワーク状態に合わせて反応するインテリジェントルーティングが可能になります。

今朝の Cloudflare の設定ミスがグローバルネットワークに伝播したとき、SD-RTN は劣化した経路を迂回してルーティングしました。というのも、このアーキテクチャは「インターネットのどこかでは常に問題が起きている」ことを前提にしているからです。

2.複数経路にまたがる冗長送信

SD-RTNは、いくつかの独立した最適化経路を同時に使ってパケットを送ります。最初に到着したパケットが使われ、遅れて届いたり届かなかったりしたパケットは無視されます。別経路によって役割はすでに果たされているからです。

この仕組みは、信頼性の特性を根本から変えます。単一の経路や単一のベンダーが正しく動作することに依存するのではなく、「ある瞬間にはどこかの経路が失敗する」と仮定し、送信戦略そのものに回復思想を組み込みます。

3.エンドツーエンドの品質管理

ネットワークのバックボーンにとどまらず、Agora の SDK はエンドユーザーへのラストマイル区間において、パケットロス対策を扱います。バックボーンからエッジまでの層を重ねるアプローチにより、基盤となるインターネットインフラの一部が劣化していても、安定した品質を確保します。

実環境におけるパフォーマンス

価値の高いユースケースで、なぜ重要なのか

米東部時間2025年11月18日の Cloudflare の事象は 3 時間続きました。ソーシャルメディアプラットフォームや音楽ストリーミングサービスにとっては、ユーザーの不満とエンゲージメント低下を意味します。不便で、企業やサービスのブランドイメージにも傷がつき得ますが、根本的には取り返しがつきます。
リアルタイムサービスでは、取り返しのつかない可能性があります。同じ 3 時間の間に、次のことが起きていました。

専門医と現場の医師の間で行われるライブ医療相談は、Agora上で中断なく継続しました
リアルタイムの金融コミュニケーションは、マイクロ秒レベルの精度を維持しました
組織横断で連携する緊急対応システムは稼働し続けました
有料の視聴者に向けたライブイベント配信は、落ちませんでした

この違いを生んだのは「運」ではありません。「アーキテクチャ（設計）」です。インターネットの一部で障害が発生した際、特定のベンダーに依存したインフラで構築されたシステムはダウンしました。一方で、堅牢なマルチパス・アーキテクチャで構築されたシステムは、稼働し続けたのです。

3時間の停止が、重要な業務手続きの失敗、取引機会の逸失、緊急対応の支障、あるいは配信収益の損失を意味するサービスでは、その時間は取り戻せません。これらは劣化した体験ではなく、失敗した体験です。

だからこそAgoraは、価値の高いビジネスや社会的ニーズの要求を満たすには、「通信事業者グレードの品質」が必要条件だと考えています。問いは「稼働率が良いか」ではありません。あらゆる中断の1秒1秒が「取り返しのつかない価値の喪失につながる」という前提のもとで、アーキテクチャが根本から設計されているかという点です。

稼働率の先へ:レジリエンス（障害耐性）という思想

近年続くインフラ障害の連鎖（今回の Cloudflare、10 月の AWS と Azure）は、技術力の低さを示すものではありません。インターネットが、巨大な規模で相関リスクを生むアーキテクチャパターンへと進化したことの証拠です。EMARKETER のアナリスト Jacob Bourne 氏が Business Insider に語ったように、「障害はより頻繁に起きるようになり、復旧にかかる時間も長くなっている」のです。

リアルタイムコミュニケーションサービスにとって、解決策は「インフラ提供事業者が信頼性を改善してくれること」を期待することではありません。そもそも単一ベンダーの信頼性に依存しないアーキテクチャを設計することが必要です。

今回、その意味が実運用で示されました。単一のインフラ提供事業者に依存するサービスが暗転する一方で、Agora のサービスは稼働し続けました。それは現場におけるベテランの技術者による神業による回避によるものではなく、SD-RTN のアーキテクチャが「どこかのインフラは常に劣化している」ことを前提にし、自動的に迂回するよう根本から設計されているからです。

単一拠点依存を排除する、世界に分散した POP。実際のネットワーク状態に反応するリアルタイムルーティングインテリジェンス。複数の最適化経路にまたがる冗長送信。これらは従来型アーキテクチャに後付けされた機能ではありません。リアルタイムエンゲージメントにはリアルタイムのレジリエンスが必要だ、という確信のもと、第一原理から構築されたアーキテクチャそのものです。

次のインフラ障害が高確率で起きるとき、あらゆるリアルタイムサービスが問われます。あなたのアーキテクチャは「すべてのコンポーネントが常に完璧に動く」ことを前提にしていますか。あるいは、「どこかは常に劣化している」と仮定しながら、それでも一貫した品質を届けますか。

通信事業者グレードのレジリエンス（障害耐性）とは、決して失敗しないシステムを作ることではありません。基盤となるインフラの一部が失敗しているときでさえ、通信事業者グレードの品質を届けるシステムを作ることです。

リアルタイムコミュニケーションにおいて、それ以下の条件は受け入れられません。

※この投稿は、Agoraブログを翻訳した記事です。

完全な記事を表示