こんにちは!今回は、私たち「監視チーム」の紹介をさせていただきます。
私たちは、日々システムを見守りながら、安定稼働を支える仕組みづくりにも取り組んでいるチームです。
目次
監視チームとは?
仕組みから作る、監視運用のかたち
運用と開発の融合
監視基盤の開発 - 自分たちで作る監視システム
インシデント対応から改善へのフロー
メンバーのとある1日
開発エンジニアの1日
運用エンジニアの1日
使用・開発している技術とツール
🛠 インフラ/構成管理
📊 監視関連
⚙️ CI/CD
🗣️ 社内ツール
勤務形態について
チームの雰囲気と文化
監視チームで働く魅力
まとめ
監視チームとは?
私たち監視チームは、開発環境上にあるシステムがちゃんと動いているか、日々見守っているチームです。
Kubernetesクラスタやサーバをただ「監視するだけ」ではなく、どうしたらもっと見やすくなるか、早く気付けるか、ムダが減るか…を考えながら、自分たちで監視の仕組みを作っています。
GrafanaやPrometheusなど、クラウドネイティブなOSSを使っているので、技術好きにはたまらない環境です!
仕組みから作る、監視運用のかたち
「運用」だけでなく「つくる」ことにも力を入れているのが、私たちの特徴です。ここからは、運用と開発が融合した取り組みについてご紹介します。
運用と開発の融合
運用と聞くと「決まった手順で対応するだけ」のイメージがあるかもしれませんが、私たちは違います。
監視システム自体を自分たちで作っており、そのシステムをさらに良くするために自動化したり、新しいOSSを試したり、試行錯誤しています。
ArgoCDや、Terraform、Ansibleもバリバリ使って、改善しながらどんどん仕組みを良くしていくスタイルです💪
監視基盤の開発 - 自分たちで作る監視システム
Grafana MimirやLoki、Grafana Alloyなど、最新のOSSを活用して、監視の仕組みそのものをチーム内で作っています。
通知やダッシュボードも自作していて、「こんなアラートが欲しい」→「じゃあ作ろう」がすぐできるのが面白いところ。
コード管理もCI/CDも整っていて、Argo CDやGitHub Actionsでの運用がベースになっています。
インシデント対応から改善へのフロー
実際の業務では、監視の仕組みを運用しながら、インシデント対応や改善にも取り組んでいます。
ここでは、実際にインシデントが発生した時、私たち監視チームがいつもどのように対応しているのかをご紹介します。
1. アラート発生 → 担当者が一次対応
2. ログやメトリクスで原因を調査
3. 分かったことや対応内容を Slack にて共有
4. 仕組みで防げそうなら、すぐ改善!
このように、「終わったら忘れる」ではなく、「次に同じことが起きたときに、もっと早く気づけるように」を意識して改善活動を行なっています!
メンバーのとある1日
次に、チームメンバーが日々どんな業務をしているのかをご紹介します。
監視チームをさらに細かく分割すると、「開発」と「運用」の業務に分かれているため、それぞれのエンジニアのとある1日を見ていきましょう✨
開発エンジニアの1日
- Grafanaのダッシュボード改善や通知テンプレートの整備
- Kubernetes上で新しいOSSを試してみる
- HelmfileやTerraformで設定のPRを作って、チームでレビュー
- メンバーと雑談しながら「こんなツール入れたい」などの技術トークも...
運用エンジニアの1日
- 「このアラートちょっと多すぎ?」みたいな気づきから調整作業
- 朝、Grafanaやlinearでアラートやチケットの確認
- 毎朝のデイリーミーティングで状況共有
- アラート対応や、原因の深掘り
- 各種ツールのアップデート
- 必要があれば Confluenceやesa.io にメモやナレッジを記録
使用・開発している技術とツール
そんな日々の業務で、私たちが実際に使っている技術・ツールをご紹介します。
🛠 インフラ/構成管理
AWS / Kubernetes / Helm / Terraform / Ansible
📊 監視関連
Grafana / Grafana Mimir / Grafana Alloy / Loki / Prometheus/betterstack Uptime
⚙️ CI/CD
GitHub Actions / Argo CD
🗣️ 社内ツール
Slack / Google Meet / esa.io / miro / Confluence
勤務形態について
ここからは、私たち監視チームの勤務形態についてご紹介します。
監視チームは、24時間365日体制でシステムを見守っています。
といっても、ガチガチのシフト制ではなく、常日勤で、チーム内で“週替わり電話当番制”を取っています。
夜間や休日の電話対応は、だいたい2〜3週に1回くらいの頻度なので、そこまで多くはありません。
むしろ、開発環境の利用が多い日中の方が電話がかかってくることが多い印象です。
※ご担当いただくポジションによっては、電話当番業務が含まれない場合もあります。
チームの雰囲気と文化
現在、監視チームのメンバーは30代前半が中心で、Slackでもハドルでも「ちょっといい?」がしやすい雰囲気です。
毎日軽く話す機会もあって、困ったことはその日のうちに相談できます。
隔週でOSSのドキュメントをゆるっと読む会があって、「あ、これ知らなかった!」みたいな発見がけっこうあります(笑)
監視チームで働く魅力
ここまで読んで、「監視チーム、ちょっと面白そうかも...」と思ってくださった方へ!
監視チームで得られる経験や魅力をご紹介します✨
- Kubernetesやクラウドの知識を身につけることができます!
- OSSの最新トレンドに触れることができます!
- 単なる「運用」ではなく、「作る運用」ができます!
- 自動化によって業務の無駄を減らすことができます!
- チームで一緒に試行錯誤しながら前に進めていくことができます!
まとめ
監視チームは、「システムが安定して動く」ことを裏で支えつつ、「もっと良くする」ための開発も手がけています。
ただ守るだけじゃなく、仕組みから改善しながら、チームで知見を共有して前に進む——そんな文化がここにはあります。
興味を持った方、ぜひ一緒に「支えることの面白さ」を体感してみませんか?