Специалисты IBM создали систему, способную автоматически распределять вычисления, необходимые для тренировки моделей в технологии глубинного обучения, по нескольким физическим серверам со своими графическими ускорителями. Система называется Distributed Deep Learning (DDL) и работает только на серверах семейства OpenPower на программной платформе IBM PowerAI 4.0.
Система DDL включает в себя несколько хорошо известных платформ для работы с технологиями глубинного обучения: TensorFlow, Torch, Caffe, Chainer и Theano. Система может автоматически распараллеливать работу программ, основанных на этих платформах. Производительность, как утверждают в IBM, растет почти линейно с увеличением количества вычислительных узлов. Так, например, для обучения тестовой программы на наборах данных ResNet-101 и ImageNet-22K понадобилось 16 суток работы сервера IBM S822LC с двумя ускорителями Nvidia Tesla P100. При запуске на сети с 64 серверами для выполнения того же задания потребовалось только семь часов - в 58 раз меньше.
С системой DDL можно работать либо на серверах с платформой PowerAI, либо в облачном сервисе, который предоставляет компания Nimbix примерно за 0,43 долл. в час.