Суперкомпьютеры ускоряют обучение глубокому обучению: новый алгоритм позволяет исследователям эффективно использовать суперкомпьютер Stampede2 для обучения ImageNet за 11 минут, быстрее, чем когда-либо прежде.

Исследователи эффективно использовали 1024 процессора Skylake на суперкомпьютере Stampede2 в TACC, чтобы завершить 100-эпохальное обучение ImageNet с AlexNet за 11 минут — самое быстрое время, зарегистрированное на сегодняшний день. Используя 1600 процессоров Skylake, они также превзошли предыдущие результаты Facebook, завершив 90-летнее обучение ImageNet с ResNet-50 за 32 минуты, а для пакетов размером более 20 000 их точность была намного выше, чем у Facebook. (В последние годы эталонный тест ImageNet — визуальная база данных, предназначенная для использования в исследованиях распознавания изображений — сыграл значительную роль в оценке различных подходов к обучению DNN.)

Используя 512 чипов Intel Xeon Phi на Stampede2, они завершили 100-эпохальный AlexNet за 24 минуты и 90-эпохальный ResNet-50 за 60 минут.«Эти результаты показывают потенциал использования передовых вычислительных ресурсов, таких как ресурсы TACC, наряду с большими мини-пакетными алгоритмами для интерактивного и распределенного обучения глубоких нейронных сетей», — сказал Чжао Чжан, научный сотрудник TACC, ведущий суперкомпьютерный центр. «Учитывая нашу большую базу пользователей и огромные возможности, это окажет большое влияние на науку».

Система обучения DNN достигла высочайшего уровня точности тестов, что означает процент случаев, когда ответ модели (наиболее вероятный) является в точности ожидаемым ответом. Используя ResNet-50 (сверточную нейронную сеть, разработанную Microsoft, которая выиграла конкурс крупномасштабного визуального распознавания ImageNet в 2015 году и превосходит человеческую производительность по набору данных ImageNet), они достигли точности более 75 процентов — на одном уровне с пакетным обучением Facebook и Amazon. уровни.

Масштабирование до размера пакета данных 32 000 в этой работе потеряло только 0,6 процента точности первого уровня.В настоящее время исследователям глубокого обучения необходимо использовать метод проб и ошибок для разработки новых моделей.

Это означает, что им нужно запускать процесс обучения десятки или даже сотни раз, чтобы построить модель.Относительно низкая скорость обучения влияет на скорость науки и на вид науки, которую исследователи хотят изучать. Исследователи из Google отметили, что, если на обучение нейронной сети уходит от одного до четырех дней, исследователи считают это терпимым.

Если это займет от одной до четырех недель, этот метод будет использоваться только для ценных экспериментов. А если на это потребуется больше месяца, ученые даже не попытаются. Если бы исследователи могли завершить тренировочный процесс во время перерыва на кофе, это бы значительно повысило их продуктивность.

Прорыв группы заключался в разработке алгоритма Layer-Wise Adaptive Rate Scaling (LARS), который способен эффективно распределять данные по многим процессорам для одновременных вычислений с использованием большего, чем когда-либо, размера пакета (до 32 000 элементов).LARS включает в себя гораздо больше обучающих примеров за один проход вперед / назад и адаптивно регулирует скорость обучения между каждым уровнем нейронной сети в зависимости от метрики, полученной на предыдущей итерации.

В результате этих изменений они смогли воспользоваться преимуществами большого количества процессоров Skylake и Intel Xeon Phi, доступных на Stampede2, при сохранении точности, чего не было в предыдущих методах обработки больших объемов данных.«Для приложений глубокого обучения большие наборы данных и большие модели приводят к значительному повышению точности, но за счет более длительного времени обучения, — сказал Джеймс Деммель,« профессор математики и информатики в Калифорнийском университете в Беркли ». Используя алгоритм LARS, Совместная разработка Ю.Ю с Б. Гинзбургом и И. Гитманом во время стажировки в NVIDIA, позволила нам сохранить точность даже при размере партии 32 КБ. Такой большой размер пакета позволяет нам эффективно использовать распределенные системы и завершить обучение ImageNet с AlexNet за 11 минут на 1024 процессорах Skylake, что является значительным улучшением по сравнению с предыдущими результатами ».

Результаты показывают альтернативу тенденции использования специализированного оборудования — графических процессоров, чипов Tensor Flow, FPGA или других новых архитектур — для глубокого обучения. Команда написала код на основе Caffe и использовала Intel-Caffe, который поддерживает многоузловое обучение.Фаза обучения глубокой нейронной сети обычно является наиболее трудоемкой частью глубокого обучения.

До недавнего времени процесс, выполняемый командой под руководством Калифорнийского университета в Беркли, занимал часы или дни. Достижения в области быстрого распределенного обучения повлияют на скорость науки, а также на вид науки, которую исследователи могут исследовать с помощью этих новых методов.Эксперимент является частью более широких усилий TACC по тестированию применимости аппаратного обеспечения ЦП для приложений и фреймворков глубокого и машинного обучения, включая Caffe, MXNet и TensorFlow.

Эксперты TACC показали, что при масштабировании Caffe до 1024 процессоров Skylake с использованием процессоров resNet-50 фреймворк работал с эффективностью около 73% — или почти в 750 раз быстрее, чем на одном процессоре Skylake.«Использование стандартных серверов HPC для быстрого обучения алгоритмов глубокого обучения на массивных наборах данных — новый мощный инструмент как для измеряемых, так и для моделируемых исследований», — сказал Найл Гаффни, директор TACC по интенсивным вычислениям. «Отсутствие необходимости переносить большие наборы данных между специализированными аппаратными системами сокращает время до обнаружения, основанного на данных, и может значительно повысить общую эффективность».

Поскольку исследователи и научные дисциплины все чаще используют машинное и глубокое обучение для извлечения информации из крупномасштабных экспериментальных и смоделированных наборов данных, важно иметь системы, которые могут справиться с этой рабочей нагрузкой.Недавние результаты показывают, что такие системы теперь доступны сообществу открытой науки через национальные передовые вычислительные ресурсы, такие как Stampede2.