SRE(Site Reliability Engineering)



※以下書籍はKindle Unlimitedで読めます。

■LinuxとUNIXの違いをわかりやすく解説しています。
※サーバーエンジニアは知っておくべき内容です。

【初心者向け】これだけでLinuxとUNIXの違いがわかる!


■ロードバランサー(LB)をわかりやすく解説しています。
※ネットワークエンジニア、サーバーエンジニアは知っておくべき内容です。

これだけでSNMPがわかる!SNMPの使い方


■SNMPの使い方をわかりやすく解説しています。
※ネットワークエンジニア、サーバーエンジニアは知っておくべき内容です。

これだけでロードバランサーがわかる!


■ChatGPTの使い方をわかりやすく解説しています。

【初心者向け】これだけでわかる!ChatGPTの使い方





では、今日も授業を始める。今日のテーマはSRE(Site Reliability Engineering)だ。




SRE(エスアールイー)って何?




SREは、Google(グーグル)が提唱したもので、 ソフトウェアエンジニアに運用チームの設計を依頼したときにできあがるものといっている。 日本語では、サイト信頼性エンジニアリングと訳される。システムの信頼性を担保するために、 可用性、拡張性、性能、セキュリティなどの向上を図るというような概念だ。




すごくわかりにくい。




SREの英語版が以下で公開されている。
https://landing.google.com/sre/sre-book/chapters/introduction/




日本語はないの?




無料ではないが、日本語版はオライリー・ジャパンより本が出版されている。 https://www.oreilly.co.jp/books/9784873117911/




そうなんだ~SREは考え方ってことね。




うむ。Google以外でも、Facebook、メルカリ、サイボウズ、 リクルートテクノロジーズ、freee、Retty、ミクシィ、クラウドワークス、クラスメソッド、Netflixなど、 多数の企業がSREを取り入れている。




SREの対応として、例えば、Googleは自動化トイルの撲滅を行っている。トイル(Toil)とは労苦という意味がある。




トイルは手作業で繰り返し行われるもので、自動化することが可能なものだ。 SREではトイルを撲滅するための自動化を推奨している。




SREチームでは、オペレーション(操作)を自動化していった方がいいよってなるのね。




うむ。SREチームでは、トイルは運用作業の50%以下にし、 残りの50%以上はトイルの削減、もしくは、サービスの機能開発などをするべきといっている。 GoogleはSREチームのトイルの作業時間を50%以下としている。




自動化できるにもかかわらず、手作業で行っている運用作業の時間を 全体の50%までにしなさいってことね。




50%以上を生産性が高い活動にあてた方がいい。50%ルールだ。 定常業務、登録業務、問合せ対応、アラーム対応、障害対応など運用作業をソフトウェアで自動化していく仕組みを作ることを推奨している。




では、今日はここまで。




は~い



今回のまとめ

1.SREはGoogleが提唱したもの

2.SREの直訳はサイト信頼性エンジニアリング

3.参考:https://landing.google.com/sre/sre-book/chapters/introduction/
https://www.oreilly.co.jp/books/9784873117911/

4.Facebook、メルカリなどの企業もSREを導入

5.SREでは自動化でトイルの撲滅を推奨

6.トイルとは手作業で、繰り返されること

7.トイルを減らそう

8.トイルは50%以下にしよう

9.トイルを減らすために自動化しよう


 次の章へ