200 likes | 363 Views
Системная группа. Да придет спаситель. Системная группа : предыстория. 2 года назад её не существовало Она создавалась для решения проблем , общих для всех групп системных администраторов (тестирование и поддержка нового оборудования, автоматическая установка ОС, мониторинг, бэкап).
E N D
Системная группа Да придет спаситель
Системная группа:предыстория • 2 года назад её не существовало • Она создавалась для решения проблем,общих для всех групп системных администраторов (тестирование и поддержка нового оборудования, автоматическая установка ОС, мониторинг, бэкап)
Общая для департамента, поддерживаемая пользователями инструкция по подготовке BIOS машин • Система автоматической установки операционных систем, «заливка» (ps-farm) 6 поддерживаемых дистрибутивов • Стратегия поддержки нового оборудования в Linux 20 поддерживаемых ядер
Доработкаи пробное внедрение Zabbix • Большой fork от основной версии • Специализированная СУБД (HFS) для хранения исторической информации, подобная RRD Обслуживается 25% от общего количества серверов
Коренная переработка Golem: • Ядро подготовлено к расширению и к высоким нагрузкам • Генератор конфигураций Nagios (ym): • Подготовка к автоматическому перераспределению задач мониторинга
www.ethics.org.au • Несмотря на то, что сделано немало,работа системной группы за 2 года признана неудовлетворительной
Причины неудачи • Плохая коммуникациявнутри группы и с другими группами • Отсутствие плана действий
Оборудование • Ежемесячный отчет о новинках и тенденциях на рынке серверного оборудования • Сбор (1 – 2 месяца) и поддержание в актуальном состоянии требований по оборудованию по всем проектным группам • Тестирование нового оборудования – отчеты, рекомендации • Усовершенствование ps-farm: • Более быстрое включение поддержки нового оборудования(уменьшения избыточного количества поддерживаемых ядер Linux) • Учетнакопленных пожеланий пользователей (интерфейс, поддержка FreeBSD и пр.)
Мониторинг: проблема не существуетбесплатных, готовых кприменению программмониторинга, в которых реализованабесперебойная работапри большом количестве серверов в разных датацентрах, при условии что любой датацентр можетбыть неожиданно отключен ЗАДАЧАСЛОЖНАЯ
Мониторинг: отказоустойчивость • Внутри датацентра нужного уровня отказоустойчивости можно добиться за счет резервирования каналов связи • Между датацентрамиканалы связидорогие, поэтому необходимо пересмотреть инструменты достижения отказоустойчивости
Мониторинг: синхронизация База в DC3 База в FIAN DC3 сервер X сервер X ETO FIAN База в ETO База в UGR UGR сервер X сервер X
Мониторинг: конфликт База в DC3 База в FIAN DC3 сервер X сервер X ETO FIAN База в ETO База в UGR сервер X сервер X UGR
сервер X сервер X сервер X сервер X сервер X сервер X сервер X сервер X DC3 ETO ETO ETO DC3 DC3 ETO DC3 Мониторинг: метки датацентров База в DC3 База в FIAN DC3 ETO FIAN База в ETO База в UGR UGR
ru.wikipedia.org Мониторинг: на распутье • Коммерческое ПО (HP OpenView, IBM Tivoli, Microsoft SCOM) • Outsourcing • Самостоятельная разработка
Системная группа: команда • Руководитель • Поддержка • nagios, zabbix, ps-farm, backup – по 0,5человекана каждый сервис (итого: 2 человека) • Разработка • ps-farm: • новая версия– 3-6 чел./мес. • перенос интерфейсана Golem – 3 чел./мес. • мониторинг: • 3 чел./мес. – прототип multi-master репликации • далее – в зависимости от результатов работы над прототипом