организовать мероприятие в Cколтехе
оставить заявку
групповые экскурсии для вузов
оставить заявку
Информационно-теоретические подходы в глубоком обучении привлекли недавний интерес благодаря фундаментальным результатам и новым гипотезам. Применение теории информации к глубоким нейронным сетям (DNN) может предоставить новые инструменты для создания объяснимого ИИ через оценку информационных потоков [1,2], а также новые способы стимулирования моделей к извлечению и обобщению информации [1,3,4,5]. Теория информации также лежит в основе некоторых новых результатов, связанных с обобщающей способностью и устойчивостью DNN [4].
Мы планируем охватить несколько исследовательских тем на пересечении глубокого обучения и теории информации. Во-первых, мы собираемся исследовать процесс глубокого обучения через призму принципа информационного "узкого места" (information bottleneck). В нашей недавней работе [6] была выявлена интересная связь между определенными характеристиками графика функции потерь во времени и графиками на информационной плоскости: мы наблюдаем несколько так называемых «фаз сжатия», первая из которых совпадает с резким снижением функции потерь. Мы планируем дальнейшее исследование этого и других интересных явлений, таких как "нейронный коллапс", "гроккинг" и т.д.
Во-вторых, мы стремимся улучшить существующие подходы к обучению представлений, основанные на теории информации. Мы планируем модифицировать широко известный метод самообучения Deep InfoMax [5], чтобы обеспечить автоматическое согласование распределений, то есть обучение представлений, допускающих заданное распределение. Это важная задача для нескольких прикладных областей. Также нас интересует разработка информационно-теоретических методов для разделения представлений.
Наконец, с ростом числа применений теории информации в глубоком обучении становится все более важной точная оценка информационно-теоретических величин. Поэтому мы планируем разработать продвинутые нейронные оценщики взаимной информации и энтропии. В [6] мы используем автоэнкодеры для сжатия данных и оценки взаимной информации между сжатыми представлениями. В [7] нормализующие потоки используются для получения аналитических выражений взаимной информации. В ходе нашего исследования мы планируем использовать выразительную мощность моделей диффузии для помощи в оценке информационно-теоретических величин.
2020–2021, Russian Foundation for Basic Research, Scientific Mentoring, “19-37-51036 – Information-theory based analysis of deep neural networks”.