Теория информации для глубинного обучения

Информационно-теоретические подходы в глубоком обучении привлекли недавний интерес благодаря фундаментальным результатам и новым гипотезам. Применение теории информации к глубоким нейронным сетям (DNN) может предоставить новые инструменты для создания объяснимого ИИ через оценку информационных потоков [1,2], а также новые способы стимулирования моделей к извлечению и обобщению информации [1,3,4,5]. Теория информации также лежит в основе некоторых новых результатов, связанных с обобщающей способностью и устойчивостью DNN [4].

Мы планируем охватить несколько исследовательских тем на пересечении глубокого обучения и теории информации. Во-первых, мы собираемся исследовать процесс глубокого обучения через призму принципа информационного "узкого места" (information bottleneck). В нашей недавней работе [6] была выявлена интересная связь между определенными характеристиками графика функции потерь во времени и графиками на информационной плоскости: мы наблюдаем несколько так называемых «фаз сжатия», первая из которых совпадает с резким снижением функции потерь. Мы планируем дальнейшее исследование этого и других интересных явлений, таких как "нейронный коллапс", "гроккинг" и т.д.

Во-вторых, мы стремимся улучшить существующие подходы к обучению представлений, основанные на теории информации. Мы планируем модифицировать широко известный метод самообучения Deep InfoMax [5], чтобы обеспечить автоматическое согласование распределений, то есть обучение представлений, допускающих заданное распределение. Это важная задача для нескольких прикладных областей. Также нас интересует разработка информационно-теоретических методов для разделения представлений.

Наконец, с ростом числа применений теории информации в глубоком обучении становится все более важной точная оценка информационно-теоретических величин. Поэтому мы планируем разработать продвинутые нейронные оценщики взаимной информации и энтропии. В [6] мы используем автоэнкодеры для сжатия данных и оценки взаимной информации между сжатыми представлениями. В [7] нормализующие потоки используются для получения аналитических выражений взаимной информации. В ходе нашего исследования мы планируем использовать выразительную мощность моделей диффузии для помощи в оценке информационно-теоретических величин.

Information plane plots for the MNIST classifier. The lower left parts of the plots (b)-(d) correspond to the first epochs. We use 95% asymptotic CIs for the MI estimates acquired from the compressed data. The colormap represents the difference of losses.

Гранты:

2020–2021, Russian Foundation for Basic Research, Scientific Mentoring, “19-37-51036 – Information-theory based analysis of deep neural networks”.

Источники:

1. R. Shwartz-Ziv and N. Tishby, Opening the black box of deep neural networks via information,CoRR, vol. abs/1703.00810, 2017.

2. Z. Goldfeld, E. Van Den Berg, K. Greenewald, I. Melnyk, N. Nguyen, B. Kingsbury, and Y. Polyanskiy, Estimating information flow in deep neural networks, Proceedings of Machine Learning Research, vol. 97, pp. 2299-2308, 2019.

3. Tishby, Naftali; Pereira, Fernando C.; Bialek, William (September 1999). The Information Bottleneck Method. The 37th annual Allerton Conference on Communication, Control, and Computing. pp. 368–377.

4. Kenji Kawaguchi, Zhun Deng, Xu Ji, Jiaoyang Huang. How Does Information Bottleneck Help Deep Learning? Proceedings of the 40th International Conference on Machine Learning, PMLR 202:16049-16096, 2023.

5. R Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Phil Bachman, Adam Trischler, and Yoshua Bengio. Learning deep representations by mutual information estimation and maximization. arXiv:1808.06670, 2019

6. Ivan Butakov, Alexander Tolmachev, Sofia Malanchuk, Anna Neopryatnaya, Alexey Frolov, and Kirill Andreev. Information bottleneck analysis of deep neural networks via lossy compression. In The Twelfth International Conference on Learning Representations, 2024

7. Ivan Butakov, Aleksander Tolmachev, Sofia Malanchuk, Anna Neopryatnaya, Alexey Frolov. Mutual information estimation via normalizing flows. arXiv preprint arXiv:2403.02187, 2024.