「SRE サイトリライアビリティエンジニアリング」を読んだので感想を書きます。

SRE サイトリライアビリティエンジニアリング

サイトリライアビリティエンジニアリング(SRE)とは、Googleで培われたシステム管理とサービス運用の方法論です。GoogleのSREチームの主要メンバーによって書かれた本書は、ソフトウェアのライフサイクル全体にコミットすることで世界最大規模のソフトウェアシステムがどのように構築、導入、監視、維持されているのかを解説します。 はじめにリスク管理やサービスレベル目標、リリースエンジニアリングなどSREの行動の基礎となる原則について解説し、次にインシデント管理や障害の根本原因分析、SRE内でのソフトウェア開発など大規模分散コンピューティングシステムを構築し運用するSREの実践について詳述します。さらにSREのトレーニングやコミュニケーションなどの管理について紹介します。 急速にスケールするサービスを高い信頼性で運用する方法を解説する本書はエンジニア必携の一冊です。

恥ずかしながらSREとは何かについてちゃんと理解しないままここまで来てしまったので読むに至りました。 SREを一般化したものがDevOpsであると本書にも書かれていましたが、説明としてはそれが最も端的でわかりやすいかと思います。

途中でカスケード障害対策や分散合意などシステムデザインに関するチャプターがいくつかあり、 システムデザイン本としても参照できると思います。

GoogleにはML SREがいると聞いたことがあり、MLOpsに関わる人間として期待していたのですが、 ML SREに関する言及は特にありませんでした。