監視の基礎から知る、ヤフーの大量クラスタ監視システムの仕組み
Japanese
Sponsor Session
30m
概要
ヤフーでは600以上のKubernetesクラスタ、それを構成する13000を超えるノードが存在しています(2020年5月時点)。この数多くのクラスタをZ Labが開発したKubernetes as a Serviceを使用して、20人程度の1つのチームで管理しています。
管理チームはクラスタを払い出して終了ではありません。600以上のクラスタ全てが正常に稼働しているか、状態を監視しています。
本セッションではKubernetesクラスタの監視・運用技術について、クラウドネイティブ時代の監視の基礎をお話し、ヤフーにおいて大量クラスタからいかに情報を集約し、少ないメンバーで安定稼働を実現しているかご紹介いたします。
登壇者
勝田 広樹
ヤフー株式会社
エンジニアヤフーのK8s管理チーム初期からのメンバーです。2年以上Kubernetesクラスタの運用に携わっています。
CKA, CKADを取得し、KubeConや弊社Tech Conferenceでも登壇させていただきました。
イベントなど積極的に参加していこうと思っています。お気軽にお声がけください。
相良 幸範
ヤフー株式会社
エンジニア2008年に株式会社NTTデータに入社。R&D部署・全社の技術集約部署で運用監視やOSS仮想化、クラウドなどの基盤技術の研究開発に従事。
プライベートクラウド基盤ソフトOpenStackの開発や、OpenStackを使用した通信キャリア向け大規模プライベートクラウド基盤の設計・構築を実施。
2019年にヤフー株式会社に移り、ヤフーの本番サービスを支えるKubernetes基盤のSRE/CRE業務に従事。
質問
← 戻る