🏗️ LAG × ハイブリッドBGP

階層的冗長性で実現する究極の高可用性ネットワーク

🛣️ 多層防御システム = 鉄壁の配送網

LAG(物理層の冗長性)+ ハイブリッドBGP(論理層の冗長性)で、どんな障害にも対応できる最強のネットワークを構築!

🤔 なぜ両方が必要なの?関連性を理解しよう

🏗️ 階層的冗長性の考え方

LAGは「車線レベル」の冗長性、ハイブリッドBGPは「道路レベル」の冗長性。 両方組み合わせることで、多層防御による究極の高可用性を実現!

🏗️ 3層防御システム

🔗 レイヤー1: 物理接続の冗長性(LAG)

役割: 複数の物理回線を束ねて1つの太い道路として運用

対応する障害: 個別の物理回線断、ケーブル断線、ポート障害

制御方式: LACP(Layer 2レベル)

切り替え時間: 3-5秒

🛣️

4車線の高速道路

🌐 レイヤー2: 接続方式の冗長性(ハイブリッド)

役割: 異なる接続方式(専用線 + インターネット)の組み合わせ

対応する障害: Direct Connect全体の障害、データセンター障害

制御方式: BGP(Layer 3レベル)

切り替え時間: 30-60秒

🚁

緊急時のヘリコプター

🏢 レイヤー3: 地理的冗長性(マルチAZ)

役割: 複数のアベイラビリティゾーンでの接続

対応する障害: AZ全体の障害、大規模災害

制御方式: BGP + Route 53による地理的ルーティング

切り替え時間: 1-5分

🌍

別の都市へのルート

🏗️ 実際のアーキテクチャ構成

🔄 LAG + ハイブリッドBGP アーキテクチャ

🏢

オンプレミス

Customer Gateway

BGP ASN: 65000
LAG対応ルーター
冗長構成

🛣️ Direct Connect LAG(プライマリ)

MED: 100, Local Preference: 200

合計: 4Gbps

🛤️ Site-to-Site VPN(セカンダリ)

MED: 200, Local Preference: 100

合計: 2.5Gbps(待機中)

☁️

AWS VPC

Virtual Private Gateway

マルチAZ配置
BGP Route Table
自動フェイルオーバー

🎮 階層的フェイルオーバー体験デモ

様々な障害パターンを体験して、多層防御の仕組みを理解しましょう!

✅ 全システム正常稼働中(LAG 4Gbps + VPN待機)

📊 3つの構成パターン比較

構成パターン
可用性・性能
コスト・複雑性

🔗 単一Direct Connect

1本の専用線のみ

可用性: 低い(SPOF)

帯域幅: 固定

障害時: 完全停止

コスト: 最安

設定: 簡単

運用: シンプル

🛣️ LAGのみ

複数のDirect Connect束ね

可用性: 中程度

帯域幅: 拡張可能

障害時: 部分継続

コスト: 中程度

設定: 中程度

運用: 標準的

🏗️ LAG + ハイブリッド

LAG + VPNの組み合わせ

可用性: 最高

帯域幅: 最適化

障害時: 完全継続

コスト: 最高

設定: 複雑

運用: 高度

⚙️ BGP設定での相互作用

🎯 LAGとハイブリッドBGPの協調設定

🛣️ LAG側のBGP設定

  • MED値: 100(低い = 高優先度)
  • Local Preference: 200(高い = 高優先度)
  • AS_PATH: 短く保つ
  • Community: primary:100

🛤️ VPN側のBGP設定

  • MED値: 200(高い = 低優先度)
  • Local Preference: 100(低い = 低優先度)
  • AS_PATH: Prependで延長
  • Community: backup:200

⚖️ ロードバランシング戦略

  • 平常時: LAG 100% + VPN 0%
  • LAG部分障害: LAG 75% + VPN 0%
  • LAG全断: LAG 0% + VPN 100%
  • 復旧時: 段階的にLAGに戻す

📊 監視・アラート設定

  • LAG監視: LACP状態、帯域使用率
  • BGP監視: ルート広告、優先度変化
  • VPN監視: トンネル状態、待機確認
  • 統合監視: 全体トラフィック分析

🛣️ LAG側のBGP設定例

# LAG インターフェース上でのBGP
router bgp 65000
 # AWS側のVGWとピア
 neighbor 192.168.1.1 remote-as 64512
 neighbor 192.168.1.1 description LAG-to-AWS
 
 # 高優先度設定
 neighbor 192.168.1.1 route-map LAG-OUT out
 neighbor 192.168.1.1 route-map LAG-IN in

route-map LAG-OUT permit 10
 set med 100
 set community 65000:100

route-map LAG-IN permit 10
 set local-preference 200

🛤️ VPN側のBGP設定例

# VPN インターフェース上でのBGP
router bgp 65000
 # AWS側のVGWとピア  
 neighbor 192.168.2.1 remote-as 64512
 neighbor 192.168.2.1 description VPN-to-AWS
 
 # 低優先度設定(バックアップ用)
 neighbor 192.168.2.1 route-map VPN-OUT out
 neighbor 192.168.2.1 route-map VPN-IN in

route-map VPN-OUT permit 10
 set med 200
 set as-path prepend 65000 65000
 set community 65000:200

route-map VPN-IN permit 10
 set local-preference 100

🏗️ 構築・運用の実践手順

1

LAG基盤の構築

物理層の冗長性を先に確立
→ Direct Connect LAGを作成(2-4本)
→ オンプレミス側でLACP設定
→ 帯域幅テストと安定性確認

2

VPNバックアップの追加

論理層の冗長性を追加構築
→ Site-to-Site VPN作成(同じCustomer Gateway)
→ BGP設定でバックアップ用に調整
→ 待機状態での動作確認

3

BGP優先度の調整

階層的フェイルオーバーの実現
→ LAGに高優先度(MED 100, LP 200)設定
→ VPNに低優先度(MED 200, LP 100)設定
→ AS_PATH Prependでさらに調整

4

フェイルオーバーテスト

全障害パターンでの動作確認
→ LAG内1本障害(LACP切り替えテスト)
→ LAG全断(BGP切り替えテスト)
→ 復旧時の自動復帰テスト

5

監視・運用体制の整備

継続的な高可用性の維持
→ CloudWatch + オンプレ監視の統合
→ アラート設定とエスカレーション
→ 定期的なフェイルオーバー訓練

✨ LAG × ハイブリッドBGPのメリット

🏗️

多層防御

物理・論理・地理的な3層での冗長性
あらゆる障害パターンに対応

段階的フェイルオーバー

軽微な障害は数秒で対応
重大な障害でも1分以内で復旧

📈

性能最適化

平常時は最高性能
障害時も必要最小限の性能確保

💰

コスト効率

必要な時だけ高コスト回線を使用
ROI計算で十分な投資効果

🔧

運用の柔軟性

計画メンテナンス時の無停止運用
段階的なスケールアップ

🛡️

エンタープライズ級信頼性

99.99%以上のアップタイム
Mission-criticalなシステムに対応

❓ よくある質問

🤔 LAGとハイブリッドBGP、どちらを先に導入すべき?

段階的導入がおすすめです!


📅 推奨導入順序:

  1. フェーズ1: 単一Direct Connectで開始
  2. フェーズ2: LAGに拡張(物理冗長性)
  3. フェーズ3: VPNバックアップ追加(論理冗長性)
  4. フェーズ4: マルチAZ展開(地理的冗長性)

💡 理由:

  • 段階的な投資でリスク分散
  • 各フェーズでの習熟度向上
  • ビジネス成長に合わせたスケール
  • 運用ノウハウの蓄積
⚡ 2つの技術が同時に障害になることはある?

非常に稀ですが、想定しておくべきです!


🚨 同時障害のパターン:

  • 物理的災害: データセンター全体の障害
  • ネットワーク障害: プロバイダー側の大規模障害
  • 設定ミス: BGP設定の誤りによる経路障害
  • サイバー攻撃: DDoS等による複数経路への攻撃

🛡️ 対策方法:

  • マルチAZ: 地理的に分散した接続
  • マルチプロバイダー: 異なる事業者の利用
  • 監視強化: 24時間体制での状態監視
  • オフライン対策: 緊急時のモバイル回線等
💸 コストはどのくらい増加する?

単一接続の約3-4倍ですが、ROIは十分です!


💰 コスト試算例(東京、月額):

  • 単一1Gbps: $730/月
  • LAG 4×1Gbps: $2,920/月
  • VPN追加: +$72/月
  • 総額: 約$3,000/月(4.1倍)

📈 ROI計算:

  • システム停止コスト: $10,000/時間
  • 可用性向上: 99.9% → 99.99%
  • 年間停止時間削減: 8時間 → 0.5時間
  • 損失削減効果: $75,000/年

💡 投資効果: 追加コスト$30,000/年 vs 損失削減$75,000/年 = ROI 250%

🔧 運用は複雑になる?

初期は複雑ですが、自動化で運用負荷は軽減できます!


🟥 複雑な部分:

  • 初期設定時のBGP属性調整
  • 障害時の原因切り分け
  • 複数接続の監視・管理
  • フェイルオーバーのテスト

🟢 自動化できる部分:

  • フェイルオーバー(完全自動)
  • 監視・アラート(24時間)
  • 設定バックアップ(定期実行)
  • 性能レポート(自動生成)

💡 運用負荷軽減のコツ:

  • Infrastructure as Code(IaC)の活用
  • 統合監視ツールの導入
  • 定期的な訓練による習熟度向上
  • AWSサポートとの連携体制構築

🎯 まとめ

🏗️ LAG = 物理層の冗長性(車線レベルの保護)

🌐 ハイブリッドBGP = 論理層の冗長性(道路レベルの保護)

🔄 協調動作 = LACP + BGPによる段階的フェイルオーバー

🛡️ 多層防御 = 物理・論理・地理的な3層保護


この組み合わせで、エンタープライズ級の高可用性ネットワークを実現!


🎯 導入を検討すべき組織:

  • 金融・医療: システム停止が事業に致命的影響
  • EC・SaaS: 顧客への継続サービス提供が必須
  • 製造・物流: 生産ライン停止による損失が大きい
  • 官公庁: 高い可用性要件がある公共サービス

Created by SSuzuki1063

AWS SAP Learning Resources