Site Reliability Engineering. Надежность и безотказность как в Google

Сообщить о появлении
Загрузите файл EPUB или FB2 на Букмейт — и начинайте читать книгу бесплатно. Как загрузить книгу?
  • missspraggyцитирует3 года назад
    Мы думаем, что Маргарет Гамильтон, работавшая над программой «Аполлон» во время учебы в MIT, первой продемонстрировала все основные черты SR-инженера
  • Timofey Buninцитирует4 года назад
    Надеяться — это плохая стратегия.
  • Timofey Buninцитирует4 года назад
    Реализация эфемерна, а задокументированное обоснование бесценно.
  • Dmitry Rybalkaцитирует6 лет назад
    Что может пойти не так?», «Какие действия мы можем предпринять для того, чтобы справиться с проблемами до того, как они приведут к сбою или потере данных?».
  • Dmitry Rybalkaцитирует6 лет назад
    Но при этом у менеджера есть две особые обязанности, которых нет у TL: управление производительностью и выполнение всей той работы, которой не занимается кто-то другой.
  • Dmitry Rybalkaцитирует6 лет назад
    Например, сервису по мере его роста нужен способ увеличить количество сконфигурированных виртуальных машин (virtual machines, VM). Команда, выполняющая операционную работу, отвечает увеличением количества администраторов, управляющих этими VM. SR-инженеры вместо этого концентрируются на написании ПО или избавлении от проблем с масштабируемостью, чтобы количество людей, необходимое для работы сервиса, не увеличивалось согласно функции увеличения нагрузки на сервис.
  • Dmitry Rybalkaцитирует6 лет назад
    Операционная работа против нелинейного масштабирования
    Термин «операционная работа» характеризует определенный метод поддержания сервиса в рабочем состоянии.
  • Dmitry Rybalkaцитирует6 лет назад
    вводить новых людей только в том случае, если усложняется сервис. Вместо этого попробуйте обратить внимание на то, как полезные новые навыки снижают время, за которое выполняются тикеты.
  • Dmitry Rybalkaцитирует6 лет назад
    Имейте в виду: чтобы быть экспертом, мало знать, как работает система. Настоящие знания приходят с изучением причин, почему система не работает.
  • Dmitry Rybalkaцитирует6 лет назад
    Нам пришлось заменить sshd аутентифицируемым, управляемым ACL (Access Control List — список управления доступом), основанным на RPC-демоне Local Admin Daemon, также известном как Admin Server.
fb2epub
Перетащите файлы сюда, не более 5 за один раз