Форма поиска

 

Вычисления на кластере Huawei

 

Ввод в эксплуатацию: начало 2016 года.

Технические характеристики

Общее техническое описание кластера Huawei приведено на этой странице.

№ п/п Параметр Значение
1 Общее количество вычислительных узлов 30
2 Количество вычислительных узлов с GPU 10
3 Модель  процессора (CPU)

Intel Xeon E5-2680 v3

(mmx, sse, sse2, ssse3, sse4_1, sse4_2, avx2)

4 Базовая тактовая частота CPU 2,5 ГГц
5 Количество CPU на узле 2
6 Количество ядер CPU на узле 24
7 Всего ядер CPU в кластере 720
8 Модель графического ускорителя (GPU) NVIDIA Tesla K40
9 Количество GPU на узле 2
10 Количество оперативной памяти на одном узле 128 ГБ
11 Всего оперативной памяти  3,8 ТБ
12 Объем жесткого диска на узле 300 ГБ
13

Производительность:

1) Число операций с вещественными числами одинарной точности (32 бита) за 1 такт на 1 ядре процессора (с инструкциями AVX2):

2) Число операций с вещественными числами двойной точности (64 бита) за 1 такт на 1 ядре процессора  (с инструкциями AVX2):

3) Пиковая производительность кластера  (30 узлов с CPU без режима Turbo Boost):

4) Максимальная производительность кластера на тесте Linpack (30 узлов с CPU без режима Turbo Boost):

5) Максимальная производительность кластера на тесте Linpack (10 узлов с CPU+GPU без режима Turbo Boost и GPU Boost):

 

 

32

 

16

 

28 Тфлопс (64-bit) и 56 Тфлопс (32-bit) 

 

21 Тфлопс (64-bit) 

 

19 Тфлопс (64-bit) 

 

14 Сеть infiniband 56 Гбит/с

 

Разрешение для вычислений

Для получения разрешения проводить вычисляния на кластере Hauwei необходимо подать заявку на исследование через систему Научного Парка СПбГУ. Процедура получения доступа к ПО более подродно описана в разделе "Информация для пользователей".

 

Очереди на кластере

Доступные очереди для данного кластера и их ограничения приведены на этой странице

Принцип работы с кластером

Запуск расчетов на кластере производится с пользовательской виртуальной машины РЦ ВЦ (далее ВМ), на которой установлена либо ОС Linux CentOS 6 (далее Linux), либо Microsoft Windows 7 (далее Windows). Вход на ВМ с Linux пользователь осуществляет со своего ПК по протоколу SSH, а на ВМ с Windows по протоколу RDP (логин и пароль, для аутентификации, должны быть получены в нашем Центре).  Далее, используя команды менеджера ресурсов PBS Torque 6.0, пользователь ставит свои задачи на кластер (без непосредственного захода на узлы кластера). Оптимальным распределением уже поставленных в очередь задач занимается планировщик Moab 9.0. Во время вычислений домашняя директория пользователя /home/<user_name> на ВМ монтируется на узлы кластера (где производятся вычисления). Поэтому, все выходные данные сохраняются в его домашней директории на ВМ.  

 

Запуск расчетов (на примере ВМ Linux)

1) Пользователь заходит на свою ВМ, которая расположена , по протоколу SSH  и сразу попадает в свою домашнюю директорию, откуда и будет производить запуск расчетов на кластере.  

2) В начале, необходимо выполнить следующую команду (её можно добавить в ~/.bashrc, чтобы не выполнять перед каждым запуском):

[user_name@host_name ~]$ export PATH=/mnt/rhel-6/huawei/torque/6.0.0/bin/:$PATH

3) Для постановки задачи в очередь выполните команду:

[user_name@host_name ~]$ qsub -q <очередь>@bcm-head -N <название задачи> -l <запрос ресурсов> <пользовательский скрипт>

Параметр <очередь> может принимать одно из трех значений: short, long, gpu. Очереди short и long для расчетов на CPU, очередь gpu - для расчетов с использованием графических ускорителей.

Если не указать параметр "-q", то задача будет поставлена в очередь по умолчанию - очередь <long>.

4) По окончании расчетов в директории, из которой выполнялась команда "qsub", появятся два файла:

<имя задачи>.o<id задачи>  (стандартный вывод)

<имя задачи>.e<id задачи> (вывод ошибок при выполнении)

5) Некоторые дополнительные опции команды qsub:

-M <e-mail> -  адрес получателя, или список адресов получателей через запятую, которым будут отправлены уведомления. По умолчанию — хозяин задачи. Пример: qsub –M test@cc.spbu.ru

-d <путь> - определяет рабочую директорию для задания. Если не задана, то рабочей является домашняя директория пользователя.

-m aben - события, при которых отправлять уведомления по e-mail. a — в случае аварийного прекращения задачи, b — в момент запуска задачи, e — в момент завершения задачи, — не отправлять уведомления. Можно указать несколько букв из abe или одну букву n. По умолчанию используется только a.

 

Просмотр статуса выполнения задачи

Посмотреть текущее состояние очереди можно командой

[user_name@host_name ~]$ qstat  [-a|-f|-n <номер задачи>] 

Ключи, указанные в скобках являются необязательными. Ниже описаны значения ключей.

-a -a <номер задачи> <номер задачи>- просмотр расширенной информации о задаче;

-f <номер задачи> -f <номер задачи> - показать детальную информацию о задаче (если указан номер задачи, или обо всех задачах, если он не указан);

-n <номер задачи> -n <номер задчи>- показать на каких именно узлах выполняется задача;

-u <имя_пользователя> - показать все задами пользователя <имя_пользователя>;

-q – информация об очередях кластера.

 

Удаление задач

Удаление задачи выполняется командой qdel <номер задачи>, пример:

[user_name@host_name ~]$ qdel 15145