Управление ЦОДом: точки оптимизацииИсточник: computerra Наталья Жилкина
Аналитики отмечают тренд, характерный для рынка: число проектов по автоматизации управления ЦОДом растет. Стимулами к внедрению подобных систем становятся изменения в инфраструктуре дата-центров, связанные с перестановкой оборудования, уплотнением его размещения, внедрением виртуализации и рядом других факторов. Внедрение автоматизированных средств управления дата-центрами имеет под собой конкретные технологические и экономические мотивы. Качественный инструментарий управления не только повышает уровень доступности инфраструктуры ЦОДа, но и позволяет достичь значительного экономического эффекта. Вектор меняется По опыту компании "ДатаДом", до середины 2000-х годов заказчики неохотно внедряли системы мониторинга и диспетчеризации в своих дата-центрах: они не видели экономической целесообразности в наличии этой системы на объекте и не хотели нести дополнительные финансовые расходы. В лучшем случае устанавливалась пара температурных датчиков в машзале и выводились в диспетчерскую выносные блоки управления инженерных систем. Основная часть контроля и управления возлагалась на диспетчерскую службу. "Этому было логичное объяснение, - поясняет Андрей Павлов, генеральный директор компании "ДатаДом". - Размер и сложность инженерной инфраструктуры коммерческого или корпоративного дата-центра были еще невелики и измерялись десятками (до пары сотен) стоек и до полутысячи квадратных метров машзалов. Такой инфраструктурой могли эффективно управлять дежурные инженеры, которые в любом случае присутствовали на объекте". По словам Андрея Павлова, в настоящее время, когда площади дата-центров перевалили за несколько тысяч метров, а их мощность - за десятки мегаватт, силами 3-4 дежурных инженеров не всегда удается отследить и проанализировать процессы, происходящие в центре. К тому же стоимость системы диспетчеризации на фоне общих затрат на строительство ЦОДа становится все меньше, и эта цифра уже не вызывает отторжения у бережливого заказчика. В основном система диспетчеризации контролирует и объединяет в себе параметры систем вентиляции, кондиционирования и энергоснабжения, но существует возможность интегрировать в нее также и системы безопасности и пожаротушения. Система диспетчеризации и мониторинга контролирует и состояние источников бесперебойного питания как одной из важнейших инженерных подсистем дата-центра, но, как отмечает руководитель компании "ДатаДом", отдельный контроль состояния аккумуляторных батарей еще недостаточно широко распространен в российских ЦОДах. "Это решение, позволяющее заменить ежемесячный обход и контроль состояния батарей дежурными инженерами, - пока еще слишком дорогостоящее, и экономический эффект от его применения довольно туманен, - говорит Павлов. - Оно может быть использовано в необслуживаемых дата-центрах; выезд туда специалистов возможен лишь изредка, но надежность таких объектов необходимо поддерживать на высоком уровне". Инвентаризация дата-центра Для правильного управления дата-центром в каждый момент времени нужно иметь полное представление обо всех его компонентах, считает Сергей Ермаков, технический директор компании "ИНЭЛТ". Чтобы получить наиболее актуальную картину дата-центра, одного мониторинга недостаточно. В ЦОДе, где присутствует много разного оборудования, нужно знать актуальную картину на каждый момент времени. В крупном дата-центре эту работу уже нельзя возложить на таблицы Excel. Поэтому в дополнение к мониторингу важным источником информации является правильная инвентаризация ЦОДа, которая реализуется путем внедрения систем класса Inventory. Поэтому в дополнение к мониторингу важным источником информации является правильная инвентаризация ЦОДа, которая реализуется путем внедрения систем DCIM с задачей Inventory. В сочетании с системой мониторинга, которая следит за состоянием прежде всего инженерных систем, установленная в диспетчерском центре система Inventory может предоставить более или менее объективную картину. "Эта информация никогда не бывает стопроцентно актуальна, потому что она определяется только добросовестностью людей, обязанностью которых является внесение всех изменений в систему инвентаризации дата-центра, - отмечает Сергей Ермаков. - При этом все приказы и распоряжения дежурной бригаде также должны фиксироваться, равно как и отчеты этих бригад о том, какие работы произведены". Управление ресурсами В России многие построенные и действующие ЦОДы загружены далеко не на 100%, в лучшем случае на половину мощности, отмечает Сергей Амелькин, менеджер по продукту направления "Качественное электропитание" компании Eaton. Зачастую, если идет речь о Collocation, заказчики ставят в стойку 1-3 сервера: это означает, что ресурсы этой стойки будут задействованы на 10-20% от максимальной мощности. Здесь кроется огромный резерв экономии. Для эффективного управления крупным дата-центром нужна система управления активами, Asset Management, считает Андрей Ивашов, инженер компании Emerson. - Как правило, - говорит Ивашов, - в прежние годы специалисты по управлению дата-центрами работали с зачатком Asset Management: у них была конфигурационная база CMDB, позволявшая вести какой-то учет. Но далеко не всегда единицы оборудования вносились в базу, часто не отслеживался их жизненный цикл. Единообразных принципов ведения записей в эту базу могло не быть. Это приводило к тому, что устройство не всегда можно было найти в системе, хотя реально оно в дата-центре функционировало, - или наоборот, в системе оно присутствовало, а в дата-центре его либо не было, либо оно было перемещено. В разных ЦОДах по-разному относятся к ресурсам, рассказывает Ивашов. В основном оперируют такими параметрами, как стойки, энергопотребление, вес и совокупные нагрузки на перекрытие или на фальшпол. "С тепловыделением сложнее, - поясняет Андрей. - Если на стойку выделили какую-то мощность по электропитанию, она ограничена автоматом на щите. А зарезервировать ресурсы по охлаждению сложнее, то есть невозможно точно знать, как и насколько эффективно будет охлаждаться конкретная стойка". До сих пор часто бывает так, что специалисты ИТ-подразделения устанавливают оборудование в ЦОДе и ошибочно указывают паспортные параметры, которые на деле являются максимальными. Если ведется учет ресурсов, то их значительная часть каждый раз резервируется с большим запасом, и в результате ресурсы центра используются неэффективно. Эксплуатационная команда получает в итоге две проблемы. Во-первых, не знает, что где находится и в какой стадии жизненного цикла. Во-вторых, точно не знает, насколько загружены мощности ЦОДа. Добавляя оборудование, персонал не знает, какие ресурсы доступны в ближайшей перспективе и на какие проекты все это рассчитано. "Все это можно, в принципе, измерить, - поясняет Андрей Ивашов, - но в совокупность привести довольно сложно: для этого требуется сотрудник, который должен быть очень заинтересован в экономии всех ресурсов ЦОДа. Обычно таких должностей, где человек был бы заинтересован в экономии и получал оклад в зависимости от правильности утилизации ресурсов, нет. Как правило, зарплату получают за количество развернутых серверов, запущенных задач и так далее. Никто не заинтересован в том, чтобы вовремя выводить оборудование из эксплуатации". Фактически руководство не знает, насколько ЦОД эффективен. - В России эффективность дата-центров, к сожалению, на данный момент не очень актуальная задача, - констатирует Андрей Ивашов. - Во-первых, к этому никого не стимулируют. А во-вторых, очень сложно ввести передовые принципы управления в эксплуатацию систем, потому что для существующего ЦОДа сразу же нужно провести масштабную инвентаризацию и аудит регламентов - и стоимость этих мероприятий будет примерно сопоставима со стоимостью покупки и годового владения софта для управления ресурсами. Контроль энергоэффективности дата-центров входит в контур задач эксплуатационной команды, считает Александр Аносов, директор департамента интеграции решений подразделения IT Business компании Schneider Electric. "Мы знаем очень много примеров, - отмечает он, - когда менеджеру центра обработки данных ставится задача по увеличению энергоэффективности - но в основном это примеры из зарубежной практики. Инструменты Schneider Electric в реальном времени могут предоставить информацию, на каком уровне находится энергопотребление, с визуализацией по зонам, по конкретным потребителям. Для руководства это некий KPI, позволяющий оценить уровень оптимизации и эффективности работы эксплуатационной команды". Задачи оптимизации работы дата-центра интересуют и российских заказчиков. Абсолютно все владельцы коммерческих центров обработки данных думают об оптимизации, говорит Александр Аносов. Среди государственных структур, по его словам, об этом задумываются не все, потому что в госучреждении персонал, принимающий решения по элементам инженерной инфраструктуры, очень далек от вопросов оплаты электроэнергии. А в коммерческих дата-центрах в 90% случаев вопросы энергоэффективности поднимаются. Сергей Ермаков сообщает, что руководители дата-центров в последние годы все больше внимания обращают на эффективность, потому что это действительно живые деньги. "Для ЦОДа есть два пути, - говорит он. - Можно повышать энергоэффективность, чтобы меньше тратить на электроэнергию. А если ЦОД - крупный потребитель, то есть смысл выходить на поставщика электроэнергии, оптимизировать свои тарифы, потому что дата-центр может балансировать потребление, увеличивая его - например, в ночное время. Зачастую правильная работа энергетика с энергосбытовой организацией может дать эффект в деньгах даже больше, чем внедрение каких-нибудь сверхдорогих систем". Разделение на зоны Одна из тенденций в борьбе за снижение затрат дата-центра, на которую указывают эксперты, - это введение принципа зонирования. Специалисты Eaton рекомендуют грамотно подойти к планированию нагрузок и посмотреть, какие из них необходимо защитить по максимальному уровню надежности, какие - с меньшим приоритетом. То есть ранжировать степени защищенности нагрузки по степени требуемой защиты. Этот же принцип рекомендуют и производители систем охлаждения: надо четко разделить, где нужна максимальная надежность, а где может оказаться достаточно каких-то минимальных мер защиты. В результате эффективность ЦОДа в целом от этого повышается, а расходы на установку и эксплуатацию, соответственно, снижаются. Это важный момент, которому еще лет пять назад не придавалось большого значения. Как правило, строился просто ЦОД, где вся система электропитания была единая, с одинаковой степенью надежности защищались и ИТ-оборудование, и кондиционеры, и системы доступа, и освещение… - Один из наиболее ярких трендов - это выделение ответственных нагрузок в определенной области, разделение ИТ-нагрузки по областям, - считает Сергей Амелькин. - К примеру, на половине дата-центра для ответственного заказчика можно сделать защиту с полным резервированием, а на остальной части, где предоставляются обычные услуги Collocation, вполне достаточно выполнения требований Tier II. Если есть возможность выделения таких зон и областей, этим нужно пользоваться. Это поможет оптимизировать капитальные затраты, а затем - и расходы на эксплуатацию. Если дата-центр уже построен и сертифицирован по уровню Tier III, то, скорее всего, услуги будут весьма дорогие: туда придут заказчики только с максимальными требованиями. Но коммерческие дата-центры должны просчитывать много вариантов и иметь возможность варьировать предоставляемые услуги по качеству и стоимости. Два в одном На рынке долгое время не существовало общих систем управления инженерной инфраструктурой и ИТ. В определенный момент появилась тенденция отслеживать активы ЦОДа. Как правило, это были две разные системы. И в лучшем случае внедрялась система диспетчеризации, когда на пульт выводились сигналы с датчиков от множества различных систем, записывались логи, чтобы потом можно было проследить причины инцидентов. Александр Аносов отмечает, что сегодня в 95% случаев на российских площадках дата-центров нет централизованной системы мониторинга и управления. И по прошествии нескольких лет такие центры нуждаются в проведении глубокого аудита. А вот если эта система внедрена, то аудит, в сущности, происходит постоянно. В таких случаях заказчик хорошо представляет себе ситуацию на объекте и содержит его на должном уровне, благодаря чему ему не надо нести в дальнейшем расходы на выявление более серьезных проблем. "Аудит - это, по сути, следствие такого подхода, когда заказчик предпочитает накопить проблемы, а потом их решать", - говорит Аносов. По словам Александра, владельцы коммерческих дата-центров - люди уже с достаточным опытом. Им нужно веское обоснование того, зачем тратить дополнительные деньги на внедрение системы управления ЦОДом. В их представлении, эта система должна экономить средства, оптимизировать работу службы эксплуатации и так далее. Они должны понимать, каким будет возврат инвестиций от ее использования. - Надо понимать, - поясняет Аносов, - что внедрение такой системы, несмотря на автоматизацию многих процессов, не позволяет однозначно говорить об экономии, поскольку персонал, как правило, все равно никто не сокращает. Однако персонал можно переключить на другие задачи. Но у системы много иных функций. В целом можно говорить о том, что рынок систем управления дата-центрами не очень развит и практика оптимизации инфраструктуры не столь обширна. Многие поставщики подобных решений думают о том, чтобы продавать это как услугу для своих клиентов, которые смогут отслеживать ресурсы дата-центра через Интернет в реальном времени. Но отношение к удаленному управлению ЦОДом зависит во многом от внутренних предпочтений заказчика, связанных с безопасностью. Для многих камнем преткновения становится опасение, что удаленный режим несет в себе некую угрозу безопасности. "Но уже существуют практики, - добавляет Александр Аносов, - когда наши инженеры мониторят инфраструктуру дата-центра заказчика в удаленном режиме, помогая вовремя предвидеть такие проблемы". Время аудита В середине 2000-х годов на российском рынке начался бум строительства дата-центров. А в настоящее время появился вал проектов по проведению аудита на этих площадках. Андрей Павлов называет несколько причин для проведения аудита инженерной инфраструктуры дата-центра. Во-первых, это желание заказчика выяснить, что же у него все-таки за объект. Задачи бывают разные: проверить качество проектных решений и монтажных работ, проверить ценообразование проведенных работ и поставленного оборудования, выяснить уровень надежности ЦОДа согласно классификации Uptime Institute. Такой аудит может потребоваться по соображениям предосторожности (Due diligence) компании. Во-вторых, причиной проведения аудита может быть решение некой проблемы в работающем дата-центре - например, недостаточная холодопроизводительность системы кондиционирования, ошибки в работе автоматики, некачественное электропитание оборудования и так далее. Наконец, третья причина - это оптимизация работы инженерных систем с точки зрения энергоэффективности. Российские компании, поясняет Павлов, при необходимости проводят аудит первого и второго типа, но самый важный для работы ЦОДа третий тип зачастую упускается из виду. "Особенно этим грешат корпоративные дата-центры, для которых снижение оперативных расходов не всегда является первоочередной целью, - отмечает Андрей. - Задача аудита ИТ-инфраструктуры дата-центра лишь косвенно связана с аудитом его инженерной инфраструктуры, но чаще всего именно она сможет принести наиболее осязаемые плоды экономии, выраженные в денежном эквиваленте". Инструменты оптимизации На сегодняшний момент Eaton реализует идею максимально связать инженерную и ИТ-инфраструктуру и позволить им вести мониторинг и управление из единой точки. В пакет программного обеспечения Eaton Intelligent Power Software входят две программы. Первая, Intelligent Power Protector, предназначена для защиты серверов и компьютеров, по сути это модуль shut-down c полноценным интерфейсом. Intelligent Power Manager - программа для мониторинга и управления серверной частью. При ее установке в виртуальную среду программа интегрируется как отдельная вкладка, плагин для программы управления виртуальной средой. Системный администратор может из окна управления в среде WMware перейти на вкладку ИБП и осуществлять полный мониторинг ИБП из привычной для него виртуальной среды. При сигнализации об инциденте в питающей сети система мониторинга оповещает программу виртуализации об ошибке и передает проблему на эскалацию в соответствии с заданными правилами. - Идеология программного обеспечения Eaton заключается в том, чтобы не вмешиваться на уровне принятия решений, а только информировать об инциденте, - поясняет Сергей Амелькин. - Все решения принимает верхний уровень ПО. На наш взгляд, такой подход - это тренд, который позволит полностью интегрировать инженерную и ИТ-инфраструктуру в единую связку и более эффективно управлять инфраструктурой в целом. У корпорации Schneider Electric большой спектр решений по управлению инженерной инфраструктурой. Один из таких инструментов - система StruxureWare - вошел в продуктовый портфель Schneider вместе с активами компании APC. Это система для управления не только инженерным оборудованием, установленным в щитовых комнатах и выделенных помещениях для ИБП: она управляет в том числе и оборудованием, установленным в серверном зале, в зоне White Space. Вектор развития системы направлен на выявление свободных ресурсов по охлаждению, электроснабжению, прогнозированию отказов, выдаче нарядов на работу и т. д.: система управления таким образом поднимается на более высокий прикладной уровень. Для четкого понимания развития дата-центра автоматизированная система обеспечивает учет изменений и рост ЦОДа и позволяет осуществлять всеобъемлющий контроль ресурсов. Для управления ЦОДом используются программные средства, обеспечивающие получение автоматических сообщений, легкую интеграцию и отслеживание ИТ-оборудования для его безопасного размещения, контроль оптимизированного питания и охлаждения, а также средства анализа, планирования, предвидения развития ситуации. Для контроля всех компонентов инженерной инфраструктуры ЦОДа компания Schneider Electric предлагает консолидированную систему управления и конфигурации всех его объектов. Кроме того, эта система, обеспечивающая контроль состояний устройств и параметров контролируемых значений, может быть использована для управления в сети филиалов, предприятий, зданий. В локальной сети предприятия незаменимым инструментом станут средства сетевого мониторинга. Концепция систем мониторинга StruxureWare предполагает использование соответствующих инструментов на всех уровнях развития инфраструктуры. Мониторинг устройств обеспечивает простой уровень их контроля. Централизованный мониторинг предполагает создание единого узла оперативного мониторинга в режиме, близком к реальному времени. Центральный узел обеспечивает функции оповещения, контроля, отчетов, массовой конфигурации. Централизованный мониторинг предполагает также поддержку устройств трех фирм. Расширенный эксплуатационный контроль включает в себя аудит ИТ-оборудования, сигнализацию на графическом уровне, наличие настраиваемой карты, поддержку мобильного клиента. Контроль эффективности использования ресурсов подразумевает расширенный анализ PUE, анализ и идентификацию потерь эффективности подсистем, анализ ресурсов и моделирование, администрирование рабочих процессов в ЦОДе. Еще один класс инструментов управления обеспечивает контроль над эксплуатационными расходами, основную долю которых составляет электроэнергия. Интеграция Schneider Electric с APC дала сильный импульс к развитию инструментария по управлению дата-центрами. Традиционно Schneider Electric выпускает несколько линеек контроллеров систем автоматизации. В продуктовом портфеле корпорации присутствует ряд SCADA-систем индустриального уровня, который традиционно используется для управления инженерной инфраструктурой. В свое время Schneider Electric сделала удачное приобретение активов Visual Cytec - разработчика одной из самых продвинутых SCADA-систем на рынке. "Это опорная SCADA-система, на которой реализуются серьезные проекты диспетчеризации объектов, в том числе, конечно, дата-центров, - поясняет Александр Аносов. - На сегодня Visual Cytec интегрирована с системой управления StruxureWare". Управляющий софт Schneider Electric развивается динамично. Например, в настоящее время он поддерживает интеграцию с виртуальными машинами Microsoft или VMWare, позволяя определить область перегрузки систем электропитания и охлаждения физического сервера и выдать рекомендацию по миграции виртуальных машин на другие физические серверы для эффективного использования ресурсов инженерных и ИТ-систем. Корпорация Emerson два года назад анонсировала новую систему Trellis для оптимизации и управления ресурсами инженерной инфраструктуры дата-центров. В основу разработки легла система оптимизации и управления ресурсами инженерной инфраструктуры дата-центров, в которой реализованы самые передовые подходы к управлению - система инвентаризации и управления ресурсами, великолепная система мониторинга практически любого оборудования с предоставлением информации о ресурсах и с наглядными средствами визуализации. Каждый инцидент можно увидеть в списке событий - и тут же перейти к объекту, посмотреть изменения параметров за последние 24 часа или получить отчет по этим состояниям. В этой же системе можно сразу же проследить зависимость вычислительных средств от инженерной инфраструктуры. Пока в системе нет модуля, работающего с виртуальными средами, который будет называться Virtual Insight, но уже есть модуль, который позволяет посмотреть какие вычислительные или телекоммуникационные средства связаны с теми или иными инцидентами в инженерной инфраструктуре ЦОД. Продукт Emerson Tralis выглядит хай-эндом, и на данный момент разработчики продолжают работать над улучшением производительности уже выпущенных модулей. Это единый продукт для управления ресурсами вычислительной- и инженерной инфраструктурой из одной точки. Но для полного внедрения он требует проведения серьезных мероприятий - инвентаризации, аудита, введения регламентов, интеграции с существующими системами. Возможно по этой причине продукт пока ищет своего потребителя на российском рынке. |