Системная группа

Системная группа Да придет спаситель

Системная группа:предыстория • 2 года назад её не существовало • Она создавалась для решения проблем,общих для всех групп системных администраторов (тестирование и поддержка нового оборудования, автоматическая установка ОС, мониторинг, бэкап)

Итоги работылето 2007 – лето 2009

Общая для департамента, поддерживаемая пользователями инструкция по подготовке BIOS машин • Система автоматической установки операционных систем, «заливка» (ps-farm) 6 поддерживаемых дистрибутивов • Стратегия поддержки нового оборудования в Linux 20 поддерживаемых ядер

Доработкаи пробное внедрение Zabbix • Большой fork от основной версии • Специализированная СУБД (HFS) для хранения исторической информации, подобная RRD Обслуживается 25% от общего количества серверов

Коренная переработка Golem: • Ядро подготовлено к расширению и к высоким нагрузкам • Генератор конфигураций Nagios (ym): • Подготовка к автоматическому перераспределению задач мониторинга

www.ethics.org.au • Несмотря на то, что сделано немало,работа системной группы за 2 года признана неудовлетворительной

Причины неудачи • Плохая коммуникациявнутри группы и с другими группами • Отсутствие плана действий

План работлето 2009 – лето 2011

Оборудование • Ежемесячный отчет о новинках и тенденциях на рынке серверного оборудования • Сбор (1 – 2 месяца) и поддержание в актуальном состоянии требований по оборудованию по всем проектным группам • Тестирование нового оборудования – отчеты, рекомендации • Усовершенствование ps-farm: • Более быстрое включение поддержки нового оборудования(уменьшения избыточного количества поддерживаемых ядер Linux) • Учетнакопленных пожеланий пользователей (интерфейс, поддержка FreeBSD и пр.)

Мониторинг: проблема не существуетбесплатных, готовых кприменению программмониторинга, в которых реализованабесперебойная работапри большом количестве серверов в разных датацентрах, при условии что любой датацентр можетбыть неожиданно отключен ЗАДАЧАСЛОЖНАЯ

Мониторинг: отказоустойчивость • Внутри датацентра нужного уровня отказоустойчивости можно добиться за счет резервирования каналов связи • Между датацентрамиканалы связидорогие, поэтому необходимо пересмотреть инструменты достижения отказоустойчивости

Мониторинг: синхронизация База в DC3 База в FIAN DC3 сервер X сервер X ETO FIAN База в ETO База в UGR UGR сервер X сервер X

Мониторинг: конфликт База в DC3 База в FIAN DC3 сервер X сервер X ETO FIAN База в ETO База в UGR сервер X сервер X UGR

сервер X сервер X сервер X сервер X сервер X сервер X сервер X сервер X DC3 ETO ETO ETO DC3 DC3 ETO DC3 Мониторинг: метки датацентров База в DC3 База в FIAN DC3 ETO FIAN База в ETO База в UGR UGR

ru.wikipedia.org Мониторинг: на распутье • Коммерческое ПО (HP OpenView, IBM Tivoli, Microsoft SCOM) • Outsourcing • Самостоятельная разработка

Мониторинг: сравнение вариантов

Системная группа: команда • Руководитель • Поддержка • nagios, zabbix, ps-farm, backup – по 0,5человекана каждый сервис (итого: 2 человека) • Разработка • ps-farm: • новая версия– 3-6 чел./мес. • перенос интерфейсана Golem – 3 чел./мес. • мониторинг: • 3 чел./мес. – прототип multi-master репликации • далее – в зависимости от результатов работы над прототипом

Конец

Системная группа

Системная группа

Presentation Transcript