こんにちは!インフラ運用チームです。
普段はあまり表に出ることのない私たちですが、皆さんが毎日使っているサービスが安定して動いているのは、実は私たちの日々の取り組みがあってこそ。今回は、そんな縁の下の力持ちである私たちの日常をご紹介します!
🎯 私たちのミッション・役割
サービスの安定稼働を支えること
私たちは、3000名以上のユーザーが利用するサービスを安定して提供できるよう、日々、保守・改善に取り組んでいるチームです。
主な役割
- 障害対応や監視: システムの異常を素早く検知し、迅速に対応
- インフラの信頼性向上: 障害の再発防止や予防保守の実施
- コスト最適化: 無駄のない効率的なインフラ運用の実現
🔄 私たちの働き方(スクラム開発)
インフラ保守というと「お堅い」イメージがあるかもしれませんが、私たちはスクラムを取り入れてアジャイルに業務を進めています。
スプリントの進め方
2週間を1スプリントとして、以下のサイクルで業務を回しています:
- デイリースクラム(朝会): 毎朝の進捗共有と課題の早期発見
- 夕会: 1日の振り返りと翌日の段取り確認
- スプリントレビュー: 完了したタスクの成果発表
- レトロスペクティブ: チーム改善のための振り返り
- プランニング: 次スプリントの計画立て
- リファインメント: タスクの詳細化と見積もり
このスクラムのおかげで、予定外の障害対応が入っても柔軟に対応できています。
💼 日々の業務内容
定常作業
- パッチ適用: セキュリティパッチの定期適用
- 各種EOL対応: アプリケーション/ミドルウェアの保守切れを予防し先行して新しいバージョンを適用
- リソースチェック: CPU、メモリ、ディスク容量の監視
- ログ確認: 異常な動作がないか目視でも確認
改善タスク
日々の運用をより良くするための取り組み:
- 運用自動化: 手作業を減らしてヒューマンエラーを防止
- 監視改善: より精度の高いアラート設定
- パフォーマンス最適化: サービスの応答速度向上
- コスト最適化: コストの監視と適切なリソース配置
🌟 チームの雰囲気・文化
コミュニケーション文化
- Slack活用: 絵文字を使った気軽なコミュニケーション 🎉
- 相談しやすい環境: 「これ聞いても大丈夫?」が言える雰囲気(よく言われる心理的安全性)
- デイリースクラム・夕会: 毎日の情報共有で連携強化
ノウハウ共有の仕組み
- ドキュメント文化: 手順書や障害対応記録を充実
- 勉強会: 新技術のキャッチアップや知識共有
- レトロスペクティブ: 失敗も成功も皆で共有
🚀 最後に
私たちSREチームは、一緒にサービスを支えてくれる仲間を募集しています!
こんな方をお待ちしています!
- 責任感がある方: サービスの安定稼働に責任を持てる
- 学習意欲がある方: 新しい技術にも積極的に取り組める
- チームワークを大切にする方: 困った時は助け合える
我々のチームの役割は、サービスの安定稼働を支えるやりがいのある仕事です。
興味を持っていただけた方は、ぜひお気軽にご連絡ください!
私たちと一緒に、多くのユーザーに愛されるサービスを支えませんか?