Читаем Журнал "Компьютерра" N778 полностью

3 СКИФа три независимых источника электропитания. Пи-от собственной подстанции НИВЦ СКИФу не хватало, а заказывать отдельную линию у «Мосэнерго» побоялись («это минимум три месяца, а максимум — вообще неизвестно сколько»). В итоге еще две линии провели из соседних подразделений МГУ. И хотя задачи обеспечить резервное питание не стояло, на самом деле тройная система его обеспечивает, так как она рассчитана на пиковое энергопотребление (работают все процессоры и все холодильные установки), а пиковое энергопотребление — это величина скорее теоретическая, в действительности такая ситуация возникнуть не может. Так что, если питание по одному из фидеров перестает подаваться, система этого даже не замечает.

4. Если отрубаются два последних канала, и у СКИФа остается только фидер от подстанции НИВЦ (которого, как мы помним, недостаточно), система переходит на питание от батарей (АРС; не менее десяти минут, в реальности время зависит от нагрузки). За несколько минут до отключения батарей все задачи завершаются, и начинается полное выключение комплекса. В рабочем режиме такого еще не было, но сотрудники МГУ несколько раз искусственно создавали эту ситуацию, чтобы проверить, как СКИФ с нею справляется. Вычислительные узлы выключаются за полторы минуты, причем после их выключения предположительное время работы системы увеличивается с нескольких минут до полутора часов. Дольше всего выключается параллельная файловая система — ей требуется от десяти до пятнадцати минут.

5A вот систему охлаждения для СКИФа делали с запасом. Причина проста. Если вероятность длительного, на несколько дней, отключения электроэнергии пренебрежимо мала, то исключать поломку любой из составляющих системы охлаждения, к сожалению, нельзя, а на замену может уйти и неделя, если нужного устройства нет на складе. Поэтому все холодильные шкафы и чиллеры установлены по формулам п+2 или п+1, что позволяет системе не замечать потери бойца, если такая потеря произойдет. С системой охлаждения нештатные ситуации уже были, но благодаря резервированию ничего страшного не произошло.

6 Написать программу, загружающую процессор на сто процентов, при всем желании невозможно. Во время бурного обсуждения в НИВЦ собеседники сошлись на том, что, используя язык высокого уровня, можно достичь 90-процентной загрузки. Но это если делать абстрактный пример, призванный максимально загрузить процессор. Максимальная загрузка на известных нашим собеседникам прикладных задачах, от которых есть какая-то польза, составляет 78 процентов (Unpack). Большинство же задач использует 15-20 процентов мощности процессора. Что касается показаний Диспетчера Windows, то это научная фантастика, которая к реальности никакого отношения не имеет.

7 Штатным программным обеспечением АРС для мониторинга того, что происходит в серверной, сотрудники НИВЦ почти не пользуются. Во-первых, многие модули работают только под Windows (плагины к IE). Во-вторых, для реального мониторинга температуры нужно попасть во внутреннюю сеть оборудования. В-третьих, штатное ПО не показывает общую картину — по крайней мере так, как этого хочет НИВЦ. Программные средства от других производителей (например, Nagios) в НИВЦ тоже решили не использовать и потихоньку пишут систему SNMP-мониторинга сами. В идеале такая система должна собирать информацию с процессоров каждые пять-десять секунд. Сейчас система находится в стадии глубокой отладки, но уже способна опрашивать процессоры раз в двадцать секунд.

8Более простым решением было бы не создание новой системы с нуля, а возможность прямого обращения к ПО от АРС, однако такой возможности нет («telnet, говорят, там есть, но он нигде не задокументирован, например»). Попытки обсудить эту ситуацию с АРС особого успеха не принесли — корпоративных пользователей все устраивает, а переписывать все ради двух-трех суперкомпьютеров ни одна компания не будет, экономически нецелесообразно.

9Благодаря GSM-модему, о своих проблемах СКИФ может сообщить системному администратору по SMS. На предыдущей установке, которая не умела при возникновении проблем отключаться автоматически, в один из кондиционеров забился тополиный пух, однако систему удалось отключить до того, как температура в помещении поднялась до критических значений. Со СКИФом такое произойти не может (вместо промышленных кондиционеров используются холодильные установки и чиллеры), однако он тоже успел пожаловаться, когда вышел из строя один из газоанализаторов.

10. Над серверной висит табло с надписью «Газ не входи»1. Газ не входит.

Редакция благодарит за помощь в подготовке материала сотрудников НИВЦ МГУ Сергея Жуматия и Александра Антонова (parallel.ru/cluster). ¦

1 На самом деле, это предупреждение на случай пожара. Система пожаротушения устроена так, что для человека, если ему не повезет остаться внутри помещения, она может оказаться опаснее огня.

ПРОМЗОНА

И НА ПЕРВЫЙ ВЗГЛЯД КАК БУДТО НЕ ВИДНА

Перейти на страницу:

Все книги серии Компьютерра

Похожие книги

100 великих угроз цивилизации
100 великих угроз цивилизации

Человечество вступило в третье тысячелетие. Что приготовил нам XXI век? С момента возникновения человечество волнуют проблемы безопасности. В процессе развития цивилизации люди смогли ответить на многие опасности природной стихии и общественного развития изменением образа жизни и новыми технологиями. Но сегодня, в начале нового тысячелетия, на очередном высоком витке спирали развития нельзя утверждать, что полностью исчезли старые традиционные виды вызовов и угроз. Более того, возникли новые опасности, которые многократно усилили риски возникновения аварий, катастроф и стихийных бедствий настолько, что проблемы обеспечения безопасности стали на ближайшее будущее приоритетными.О ста наиболее значительных вызовах и угрозах нашей цивилизации рассказывает очередная книга серии.

Анатолий Сергеевич Бернацкий

Публицистика