【ツール活用】導入事例

### 導入事例：クラウドネイティブな監視基盤によるシステム運用の変革

#### 概要

本記事では、クラウドネイティブな監視基盤の導入が、従来のシステム運用にどのような変革をもたらすのか、具体的な導入事例を基に詳細に解説します。特に、コンテナ技術やマイクロサービスアーキテクチャが普及する現代において、従来の監視手法では対応が困難になってきた課題と、それをクラウドネイティブな監視基盤がどのように解決するのかに焦点を当てます。Prometheus、Grafana、Alertmanagerといったオープンソースソフトウェアを活用した監視基盤の構築、運用のベストプラクティス、そして導入による具体的な効果について、実務的な視点から掘り下げていきます。

#### 詳細解説

##### 従来の監視手法とその限界

従来、システム監視は、サーバー単位でのリソース使用率（CPU、メモリ、ディスクI/O、ネットワークトラフィック）の収集や、アプリケーションログの監視が中心でした。SNMP（Simple Network Management Protocol）やエージェントベースの監視ツールが広く利用されていましたが、これらの手法には以下のような限界がありました。

* **スケーラビリティの課題:** サーバー台数が増加するにつれて、監視対象の管理が煩雑になり、監視ツールの運用負荷も増大します。特に、オートスケーリングなどで動的に増減するインスタンスへの対応が困難です。
* **動的な環境への対応の遅れ:** コンテナ化された環境やマイクロサービスアーキテクチャでは、インスタンスのライフサイクルが短く、頻繁に再デプロイが行われます。従来の静的な設定に基づいた監視では、これらの変化に追随できず、監視漏れや誤検知が発生しやすくなります。
* **メトリクス収集の粒度と多様性:** アプリケーションレベルのメトリクス（リクエスト数、レイテンシ、エラーレートなど）やビジネスロジックに紐づくメトリクスを収集・分析することが、従来の監視では限定的でした。
* **アラートのノイズ:** 多数のサーバーやサービスから発せられるアラートが、真に重要な問題を覆い隠してしまう「アラート疲労」が発生しやすくなります。

##### クラウドネイティブ監視基盤の登場

これらの課題を解決するために、クラウドネイティブな監視基盤が登場しました。クラウドネイティブ監視基盤は、以下の特徴を持ちます。

* **コンテナ・オーケストレーションとの親和性:** Kubernetesなどのコンテナオーケストレーションプラットフォームと連携し、コンテナのライフサイクルに合わせた自動的な監視設定やメトリクス収集を可能にします。
* **サービスディスカバリ:** 動的に変化するサービスインスタンスを自動的に検出し、監視対象に含めることができます。
* **時系列データベース（TSDB）:** 大量のメトリクスデータを効率的に保存・クエリするために最適化されたデータベース（例: PrometheusのTSDB）を利用します。
* **Pull型メトリクス収集:** 監視対象がメトリクスを公開し、監視サーバーがそれを定期的に取得するPull型アーキテクチャ（Prometheusのモデル）は、ターゲットの追加・削除が容易で、ネットワーク設定の複雑さを軽減します。
* **宣言的な設定:** 監視対象やアラートルールをコード（IaC: Infrastructure as Code）として管理することで、再現性・保守性を高めます。
* **豊富な可視化とアラート機能:** Grafanaによるリッチなダッシュボード、Alertmanagerによる洗練されたアラートルーティングと抑制機能を提供します。

##### 主要コンポーネントとアーキテクチャ

典型的なクラウドネイティブ監視基盤は、以下のコンポーネントで構成されます。

1. **Prometheus:**
* **役割:** メトリクス収集（スクレイピング）、時系列データベース（TSDB）としてのメトリクス保存、PromQLによるクエリ言語。
* **特徴:** Pull型アーキテクチャ、サービスディスカバリ機能、HTTP APIによるメトリクス公開。
2. **Grafana:**
* **役割:** メトリクスの可視化、ダッシュボード作成。
* **特徴:** 多様なデータソース（Prometheus, Elasticsearch, CloudWatchなど）に対応、柔軟なグラフ描画、テンプレート機能。
3. **Alertmanager:**
* **役割:** Prometheusから送られてきたアラートの集約、重複排除、ルーティング、抑制（Silencing）、通知（Slack, PagerDuty, Emailなど）。
* **特徴:** ルールベースのルーティング、アラートのグルーピング、抑制機能によるノイズ低減。
4. **Exporter:**
* **役割:** 各種システムやアプリケーションからPrometheusが収集できる形式（HTTPエンドポイント）でメトリクスを公開するエージェント。
* **例:** `node_exporter` (OSメトリクス), `kube-state-metrics` (Kubernetesクラスター状態), `blackbox_exporter` (外部エンドポイントの到達可能性), アプリケーション固有のExporter。

**アーキテクチャ例:**

Kubernetesクラスター内にPrometheus Operatorをデプロイし、Prometheusサーバー、Alertmanager、Grafanaを管理します。PrometheusはKubernetesのService Discovery機能を利用して、デプロイされたアプリケーションやKubernetes自身のメトリクスを収集します。収集されたメトリクスはPrometheus TSDBに保存され、Grafanaからクエリされてダッシュボードに表示されます。Prometheusで定義されたアラートルールに閾値を超えた場合、PrometheusはAlertmanagerにアラートを送信し、Alertmanagerは設定されたルーティングに従って関係者に通知します。

##### 導入事例：Eコマースプラットフォームの事例

ある中堅Eコマース企業では、急激なサービス拡大に伴い、従来のオンプレミス監視システムでは対応しきれない状況に陥っていました。

**課題:**

* ECサイトのトラフィック急増にサーバーリソースが追いつかず、パフォーマンス低下や障害が頻発。
* デプロイ頻度が高く、都度監視設定の変更が必要で、監視体制が属人的になっていた。
* 障害発生時の原因特定に時間がかかり、復旧までのRTO（目標復旧時間）が長くなっていた。
* ユーザー体験に直結する「カート追加」「決済完了」などのビジネスKPIをリアルタイムに把握できていなかった。

**導入ソリューション:**

同社は、AWS上のKubernetes（EKS）環境に、Prometheus, Grafana, Alertmanagerをベースとしたクラウドネイティブ監視基盤を構築しました。

1. **Prometheus Operatorによるデプロイ:** Kubernetes上にPrometheus Operatorをデプロイし、Prometheusインスタンス、Alertmanager、GrafanaをHelm Chartを用いて迅速に構築しました。
2. **サービスディスカバリの活用:** PrometheusのKubernetes Service Discovery機能を利用し、デプロイされるマイクロサービス（商品サービス、カートサービス、決済サービスなど）を自動的に検出し、メトリクス収集対象としました。
3. **Exporterの導入:**
* `node_exporter` を各ノードにデプロイし、OSレベルのメトリクス（CPU、メモリ、ネットワーク）を収集。
* `kube-state-metrics` をデプロイし、Kubernetesオブジェクトの状態（Pod数、Deploymentの更新状況など）を監視。
* 各マイクロサービスには、Prometheusクライアントライブラリを組み込み、HTTPエンドポイントからリクエスト数、レイテンシ、エラーレート、ビジネスKPI（例: カート追加成功数）などのカスタムメトリクスを公開させました。
* `blackbox_exporter` を利用し、外部からECサイトの主要なエンドポイント（トップページ、商品一覧、カートページ）への到達可能性とレスポンスタイムを監視。
4. **Grafanaによる可視化:**
* クラスター全体のヘルスチェックダッシュボードを作成。
* サービスごとのパフォーマンスメトリクス（リクエストレート、エラーレート、レイテンシ）を表示するダッシュボードを構築。
* ビジネスKPI（注文数、コンバージョンレート）をリアルタイムに表示するダッシュボードを作成。
* PromQLのクエリを工夫し、特定のユーザーセグメントや地域ごとのパフォーマンスを分析できるようにしました。
5. **Alertmanagerによるアラート管理:**
* CPU使用率、メモリ使用率、Podの再起動回数、HTTP 5xxエラーレート、決済エラーレートなどの閾値に基づいてアラートルールを定義。
* サービス障害時には、開発チーム、運用チーム、カスタマーサポートチームなど、担当チームごとにSlackやPagerDutyへ自動通知されるようにルーティングを設定。
* メンテナンス期間中は、特定のサーバーやサービスからのアラートを一時的に抑制（Silencing）できる機能を活用。

**導入効果:**

* **障害検知・復旧時間の短縮:** リアルタイムなメトリクスとアラートにより、障害の早期発見が可能になり、平均復旧時間（MTTR）が30%以上短縮されました。
* **運用工数の削減:** 監視設定の自動化とIaC化により、監視運用にかかる工数が大幅に削減されました。
* **パフォーマンス改善:** パフォーマンスボトルネックとなっている箇所を特定しやすくなり、継続的なチューニングによるサイト全体のパフォーマンスが向上しました。
* **ビジネスインパクトの可視化:** ビジネスKPIの監視により、システムの状態がビジネスに与える影響を迅速に把握できるようになり、迅速な意思決定が可能になりました。
* **プロアクティブな問題解決:** 潜在的な問題を早期に検知し、障害が発生する前に対応できるようになりました。

#### サンプルコード

##### Prometheus 設定例 (Prometheus Operator CRD)

Kubernetes上でPrometheus Operatorを使用する場合、`Prometheus` Custom Resource (CR) を定義します。

apiVersion: monitoring.coreos.com/v1
kind: Prometheus
metadata:
name: prometheus-k8s
labels:
app: prometheus
spec:
version: v2.37.0 # 使用するPrometheusのバージョン
serviceAccountName: prometheus-k8s
resources:
requests:
cpu: 500m
memory: 500Mi
nodeSelector:
kubernetes.io/os: linux
serviceMonitorSelector: {} # 全てのServiceMonitorを対象とする
podMonitorSelector: {} # 全てのPodMonitorを対象とする
alerting:
alertmanagers:
– name: alertmanager
namespace: monitoring
pathPrefix: /
scheme: http
staticConfigs:
– targets:
– ‘alertmanager-main.monitoring.svc.cluster.local:9094′

##### ServiceMonitor 例 (Prometheus Operator CRD)

Prometheus OperatorがPrometheusインスタンスを自動設定するために使用するCRDです。これにより、KubernetesのServiceをPrometheusのスクレイピングターゲットとして簡単に登録できます。

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
name: my-app-service
labels:
release: prometheus # Prometheusインスタンスに紐付けるためのラベル
spec:
selector:
matchLabels:
app: my-app # メトリクスを公開しているServiceのラベル
namespaceSelector:
matchNames:
– default # Serviceが存在するNamespace
endpoints:
– port: http-metrics # Serviceのポート名（metrics endpoint）
interval: 30s # スクレイピング間隔
path: /metrics # メトリクスエンドポイントのパス

##### Grafana ダッシュボード JSON (抜粋)

GrafanaのダッシュボードはJSON形式でエクスポート・インポートできます。以下は、PrometheusデータソースからCPU使用率を表示するパネルの例です。

{
“panels”: [
{
“id”: 1,
“title”: “Node CPU Usage”,
“type”: “graph”,
“datasource”: {
“type”: “prometheus”,
“uid”: “your_prometheus_datasource_uid” // Grafanaで設定したPrometheusデータソースのUID
},
“targets”: [
{
“expr”: “100 – avg by (instance) (irate(node_cpu_seconds_total{mode=’idle’}[5m])) * 100”,
“legendFormat”: “{{ instance }}”,
“refId”: “A”
}
],
“options”: {
“legend”: {
“displayMode”: “list”
},
“tooltip”: {
“mode”: “single”
}
},
“fieldConfig”: {
“defaults”: {
“unit”: “percent”,
“decimals”: 2
},
“overrides”: []
}
}
],
“timepicker”: {},
“timezone”: “”,
“title”: “Kubernetes Cluster Overview”,
“uid”: “your_dashboard_uid”,
“version”: 1
}

##### Alertmanager 設定例 (Alerting Rules)

Prometheus側で定義されるアラートルールの一部です。Prometheusがこれらのルールを評価し、条件を満たした場合にAlertmanagerへアラートを送信します。

groups:
– name: kubernetes-alerts
rules:
– alert: HighPodRestartCount
expr: |
sum by (namespace, pod) (rate(kube_pod_container_status_restarts_total[5m])) > 2
for: 10m
labels:
severity: warning
annotations:
summary: “Pod {{ $labels.pod }} in namespace {{ $labels.namespace }} has restarted {{ $value | printf \”%.0f\” }} times in the last 5 minutes.”
description: “The container in pod {{ $labels.pod }} has been restarting frequently. This may indicate an application issue.”

– alert: KubernetesNodeNotReady
expr: kube_node_status_condition{condition=”Ready”,status=”false”} == 1
for: 5m
labels:
severity: critical
annotations:
summary: “Kubernetes node {{ $labels.node }} is not ready.”
description: “The Kubernetes node {{ $labels.node }} has been in a non-ready state for more than 5 minutes.”

#### 実務アドバイス

* **メトリクスの選定:** 最初から全てのメトリクスを収集しようとせず、ビジネスインパクトの大きいもの、障害発生時に原因特定に役立つものから優先的に収集しましょう。REDメトリクス（Rate, Errors, Duration）やUSEメトリクス（Utilization, Saturation, Errors）などを参考にすると良いでしょう。
* **アラートルールのチューニング:** アラートは「鳴りすぎない」ことが重要です。初期設定では多すぎるアラートが発生する可能性があります。運用しながら、閾値の調整、アラートのグルーピング、抑制ルールの活用などを丁寧に行い、本当に重要なアラートだけが通知されるようにチューニングしてください。
* **ダッシュボードの設計:** 誰が、どのような目的でダッシュボードを見るのかを明確にしましょう。運用担当者向け、開発者向け、経営層向けなど、目的に応じたダッシュボードを複数用意すると効果的です。
* **IaCの徹底:** 監視設定（Prometheus OperatorのCRD、Alertmanagerの設定、Grafanaのダッシュボード定義など）は、Gitなどのバージョン管理システムで管理し、IaC（Infrastructure as Code）として扱うことを強く推奨します。これにより、設定の再現性、変更履歴の管理、チーム内での共有が容易になります。
* **セキュリティ:** PrometheusやGrafanaのエンドポイントは、必要に応じて認証・認可を設定し、外部からの不正アクセスを防ぎましょう。特に、本番環境のメトリクスを公開する場合は注意が必要です。
* **長期保存と分析:** 短期的な監視だけでなく、長期的なトレンド分析のために、メトリクスデータをオブジェクトストレージ（S3など）に定期的にエクスポートしたり、M3DBやThanosのような長期保存ソリューションを検討することも有効です。
* **カスタムメトリクス:** アプリケーション固有のビジネスロジックや、サービスの状態を示すカスタムメトリクスを積極的に定義・収集することで、より深い洞察を得ることができます。Prometheusクライアントライブラリの利用を検討してください。
* **オブザーバビリティへの拡張:** メトリクスだけでなく、ログ（Fluentd/Loki）やトレース（Jaeger/Tempo）といった他のオブザーバビリティツールと連携させることで、より包括的なシステムの状態把握が可能になります。

#### まとめ

クラウドネイティブな監視基盤は、コンテナ化やマイクロサービス化が進む現代のシステム運用において、不可欠な要素となっています。Prometheus、Grafana、Alertmanagerといったオープンソースソフトウェアを組み合わせることで、スケーラブルで柔軟、かつ効率的な監視体制を構築することが可能です。本記事で紹介した導入事例や実務アドバイスを参考に、貴社のシステム運用変革の一助となれば幸いです。クラウドネイティブ監視基盤の導入は、単なるツール導入に留まらず、システム運用の文化やプロセスそのものを変革する強力な推進力となります。