Программное обеспечение для ускорения обучения и сжатия больших нейросетевых моделей (ПО БНМ)

Современные направления развития технологий ML и AI предполагают использование больших нейросетевых моделей для решения различных задач обработки изображений, видео, аудио, естественного языка, генерации контента в виде изображений или текста в заданном стиле и тематике и др.

Обучение и использование таких моделей необходимо для развития науки, технологий и бизнеса в России, однако это требует колоссальных затрат электроэнергии, потребляемой не только мощным компьютерным оборудованием (серверы, вычислительные кластеры, суперкомпьютеры), но и обширными поддерживающими инженерными системами (охлаждение и т.д.).

Соответствующий высокий уровень энергопотребления ведёт как к значительным финансовым затратам, связанным с обучением искусственных нейронных сетей (ИНС), так и к значительному загрязнению окружающей среды, связанному с существенным выбросом парниковых газов в атмосферу.

Таким образом, для развития технологий ML, снижения издержек и повышения экологической чистоты технических и производственных процессов, необходимо создание комплекса алгоритмов и программных продуктов, обеспечивающих более эффективное решение задач, включая ускорение глубоких ИНС на этапе обучения с учетом конкретных используемых аппаратных систем.

достигнутые результаты
Был проведен обширный анализ существующих алгоритмов и программ обучения БНМ в контексте задачи автоматической обработки естественного языка
Были выделены основные классы методов, направленных на улучшение производительности моделей типа трансформер, а также факторы, являющиеся ключевыми при разработки соответствующих методов оптимизации
Предложено и реализовано 2 новых метода для сокращения памяти при тренировке больших нейросетевых моделей
публикации

контакты

Сколковский институт науки и технологий

Территория Инновационного Центра «Сколково»

Россия, Москва, 121205, Большой бульвар д.30, стр.1