Программное обеспечение для ускорения обучения и сжатия больших нейросетевых моделей (ПО БНМ) |

Современные направления развития технологий ML и AI предполагают использование больших нейросетевых моделей для решения различных задач обработки изображений, видео, аудио, естественного языка, генерации контента в виде изображений или текста в заданном стиле и тематике и др.

Обучение и использование таких моделей необходимо для развития науки, технологий и бизнеса в России, однако это требует колоссальных затрат электроэнергии, потребляемой не только мощным компьютерным оборудованием (серверы, вычислительные кластеры, суперкомпьютеры), но и обширными поддерживающими инженерными системами (охлаждение и т.д.).

Соответствующий высокий уровень энергопотребления ведёт как к значительным финансовым затратам, связанным с обучением искусственных нейронных сетей (ИНС), так и к значительному загрязнению окружающей среды, связанному с существенным выбросом парниковых газов в атмосферу.

Таким образом, для развития технологий ML, снижения издержек и повышения экологической чистоты технических и производственных процессов, необходимо создание комплекса алгоритмов и программных продуктов, обеспечивающих более эффективное решение задач, включая ускорение глубоких ИНС на этапе обучения с учетом конкретных используемых аппаратных систем.

Александр

Михалев

Старший Преподаватель

достигнутые результаты

Был проведен обширный анализ существующих алгоритмов и программ обучения БНМ в контексте задачи автоматической обработки естественного языка

Были выделены основные классы методов, направленных на улучшение производительности моделей типа трансформер, а также факторы, являющиеся ключевыми при разработки соответствующих методов оптимизации

Предложено и реализовано 2 новых метода для сокращения памяти при тренировке больших нейросетевых моделей

команда