事例：オンラインゲーム基盤を刷新し、運用コスト40%削減

相談前の状況

モバイル向けオンラインゲームを複数タイトル運営する企業。主力タイトルはリリースから3年が経過し、月間アクティブユーザーは数十万人規模。サーバーインフラはAWS上に構築されていましたが、リリース初期に「とにかく動かす」ことを優先した設計が残ったままでした。

直面していた問題は3つ。AWS利用料が毎月増加し続けていること。イベント時のアクセス集中でサーバーが不安定になること。そして新機能の開発速度が、技術的負債のせいで著しく低下していることでした。

開発チームは15名いましたが、インフラ専任は2名。日々の運用に追われ、根本的な改善に手を付ける余裕がありませんでした。CTOは「全面的に作り直すべきか、部分的に改善するべきか」の判断がつかない状態でした。

このケースが難しかった理由

最大の制約は、ライブサービスを止められないこと。毎日数十万人がプレイしており、メンテナンス時間も月に1回、数時間が限度。「動いているシステムを、動かしたまま作り替える」必要がありました。

次に、技術的負債の正体が見えていなかったこと。「遅い」「高い」「不安定」という症状は分かっていても、何がボトルネックなのかの定量的な分析ができていない状態でした。「なんとなく全部悪い」では、改善の優先順位が決められません。

さらに、新機能の開発スケジュールとの並行が求められました。ゲーム運営では、月次イベントや季節コンテンツのリリースが止められません。基盤改善と新機能開発を同じチームで両立する必要がありました。

open brain への相談

同社CTOが、業界のカンファレンスでopen brainのメンバーと知り合ったのがきっかけ。「うちのインフラ、一度見てもらえないか」というカジュアルな相談から始まりました。

すぐに決めたことは、まず2週間の「診断フェーズ」を設けること。現状のアーキテクチャ、コスト構造、パフォーマンスボトルネックを可視化し、「何をどの順番で改善するか」のロードマップを作る。

あえて決めなかったことは、「コンテナ化するか」「サーバーレスにするか」といった技術選定。ボトルネックの正体が見えていない段階でアーキテクチャの結論を出すのは危険と判断しました。

「全部作り直す」か「部分的に直す」かの二択ではなく、「最もコスト対効果の高い改善ポイントを3つ選び、順番にやる」というアプローチを提案しました。

対応の流れ

Week 1-2現状診断・ボトルネック特定

AWS Cost Explorerの詳細分析、APMツールによるレイテンシ計測、データベースクエリのプロファイリングを実施。コストの45%がRDSに集中していること、ゲームサーバーのオートスケーリング設定が過剰であること、特定のAPIエンドポイントが全体レイテンシの60%を占めていることを定量的に特定しました。

Week 3-4改善ロードマップ策定

コスト対効果の高い順に3つの施策を選定。(1) RDSのリードレプリカ導入とクエリ最適化、(2) オートスケーリングポリシーの再設計、(3) キャッシュレイヤー（ElastiCache）の導入。この3つだけで、理論値としてコスト35-45%削減が見込めることをCTO・経営陣に提示しました。

Week 5-12段階的な基盤改善

月次イベントのスケジュールを避けながら、3施策を順番に実施。各施策の前後でパフォーマンス指標とコストを計測し、効果を定量的に検証。RDSのクエリ最適化だけで月次コストの18%削減を達成。キャッシュ導入でAPIレスポンスタイムが平均で65%改善しました。

Week 13-16イベント負荷テスト・安定化

改善後のインフラで、想定同時接続数の1.5倍の負荷テストを実施。イベント時のスパイクパターンを再現し、オートスケーリングの応答速度を確認。テスト結果に基づいてスケーリングの閾値を微調整し、実際のイベントで安定稼働を確認しました。

Week 17-20運用移管・モニタリング基盤整備

改善内容をインフラチーム2名に引き継ぎ。Grafana + CloudWatchによるコスト・パフォーマンスモニタリングダッシュボードを構築。「何を見て、何をすべきか」のランブック（運用手順書）を整備し、自走できる体制に移行しました。

重要だった判断ポイント

Decision 01

全面的なアーキテクチャ刷新か、ピンポイントの改善か

「コンテナ化して全面リプレイス」は技術的には理想的ですが、ライブサービス運営中にアーキテクチャを根本から変えるリスクが大きすぎると判断しました。診断の結果、コストとパフォーマンスの問題の80%は3つのボトルネックに起因しており、この3つを改善するだけで十分な効果が得られることが分かりました。「やらないこと」を決めることが、最も重要な判断でした。

Decision 02

改善作業と月次イベント開発をどう両立するか

開発チームのリソースは限られています。改善フェーズはopen brainが主導し、社内チームはイベント開発に集中する分業体制を取りました。ただし、改善の内容と手順は必ずインフラチームとレビューし、「ブラックボックスにしない」ことを徹底。引き継ぎの負荷を最小限にする設計を意識しました。

Decision 03

Reserved Instanceの購入判断をいつ行うか

コスト削減の手段として「RIの一括購入」は即効性がありますが、アーキテクチャ改善でインスタンス構成が変わる前に購入すると無駄になるリスクがありました。改善施策が完了し、新しい構成が安定してから3ヶ月間の実績データを取り、その上でRI購入の判断をする、というスケジュールを設計しました。

提供した成果物

インフラ現状診断レポート（コスト・パフォーマンス・ボトルネック分析）

改善ロードマップ（優先順位付き3段階）

経営層向けコスト削減試算書

クエリ最適化レポート（上位20クエリの改善結果）

オートスケーリング設計書

負荷テスト結果レポート

モニタリングダッシュボード（Grafana）

運用ランブック（インシデント対応 + 日次運用手順）

結果と変化

Technical

AWS月額利用料を40%削減。APIの平均レスポンスタイムを65%改善。イベント時の最大同時接続数に対するサーバーの安定稼働を確認（ダウンタイムゼロ）。

Business

削減されたインフラコストの一部を新機能開発に再配分。パフォーマンス改善により、ユーザーのセッション離脱率が改善。CTOが投資家向けに「技術的負債の解消」を定量データで報告できるようになりました。

Mindset

インフラチーム2名が「自分たちでも改善できる」という感覚を持てたことが大きな変化でした。ダッシュボードで日常的にコストとパフォーマンスを確認する習慣ができ、小さな改善を自主的に行うようになりました。CTOの口癖だった「インフラはコストセンター」が、「インフラは競争力」に変わったことが印象的でした。

この事例から言えること

ゲームインフラの改善において最も大切なのは、「何をやらないか」を決めることです。理想のアーキテクチャを追い求めるよりも、現在のボトルネックを正確に特定し、最もコスト対効果の高い施策から着手するほうが、結果として早く・安く・安全に改善できます。

open brain が大切にしているのは、「計測してから判断する」こと。感覚的に「全体的に遅い」と思っていても、実測すると問題の80%は特定の3箇所に集中していることが多い。その3箇所を正確に見つけ出し、影響の大きい順に対処するのが、伴走型支援の基本アプローチです。

また、「作り替える」のではなく「改善する」アプローチには、もう一つの利点があります。チームの学習です。段階的な改善を通じて、インフラチームが「なぜこの設計にするか」を理解しながら進めることで、引き継ぎ後の自走力が格段に高まります。

同じ状況の方へ

「インフラコストが高い気がする」「イベント時に不安がある」——この感覚は、改善のきっかけとして十分です。まずは現状を可視化するところから始めましょう。2週間の診断で、「何が問題か」と「どこから手を付けるか」が明確になります。

全面リプレイスは必要ないかもしれません。ピンポイントの改善だけで、大きな効果が出ることは珍しくありません。

NDA対応可。まずは状況のヒアリングからどうぞ。

オンラインゲーム基盤を刷新し、運用コスト40%を削減した話