Исследователи выделили направления улучшения геопространственного моделирования
30 января 2025

Методы геопространственного моделирования стали важным инструментом экологического мониторинга — с его помощью управляют рисками для окружающей среды и отслеживают угрозы стихийных бедствий. Результаты моделирования в таком случае — важный источник информации для прогнозирования и понимания последствий различных сценариев социально-экономического развития и изменения климата. Всё большее применение в геопространственных исследованиях находит машинное обучение. Его используют для мониторинга растительного покрова, учёта функционирования экосистем и оценки биоразнообразия, а также для борьбы с пожарами, наводнениями и засухой.

Исследователи публикуют множество статей, в которых сообщают об улучшении моделей, решении фундаментальных задач и новых подходах, в том числе в естественных науках. Однако часто такие публикации страдают от методологических ошибок в основном из-за ограничений, присущих машинному обучению. Группа учёных из Сколтеха и Института AIRI провела анализ научной литературы, выявив типичные проблемы и предлагаемые решения, и представила результаты в статье-обзоре, опубликованной в журнале Nature Communications.

«Мы определили, что среди ключевых трудностей — несбалансированность и неравномерность данных, пространственная автокорреляция, смещения в данных, ошибки прогнозов и сложности в оценке неопределённости моделей. Хотя эти проблемы известны, существующие подходы зачастую игнорируют их, ограничиваясь стандартными процедурами обучения и валидации моделей машинного обучения», — рассказала первый автор работы Диана Колдасбаева, аспирант Сколтеха по программе «Вычислительные системы и анализ данных в науке и технике».

subscription
Изображение 1. Пример количественной оценки неопределённости для пространственного картографирования. а) Карта, демонстрирующая уровень кислотности верхнего слоя почвы. b) Карта, на которой более высокие значения указывают на большую неопределённость данных. Источник: Challenges in data-driven geospatial modeling for environmental research and practice.

«Для устранения этих ограничений требуется разработка методов, учитывающих уникальные особенности экологических данных и пространственно-временных процессов. В статье представлен единый подход к решению таких задач, включающий инструменты и техники для повышения точности моделей, а также рекомендации по улучшению оценки их качества. Мы надеемся, что наши результаты помогут в выборе направлений исследований учёным из разных стран», — поделился соавтор работы Алексей Зайцев, старший преподаватель Центра искусственного интеллекта Сколтеха.

Авторы также определили ключевые направления развития геопространственных исследований с учётом специфики экологических данных и представили собственную подборку передовых инструментов, ресурсов и проектов, которые используют возможности геопространственных технологий для решения экологических проблем. Исследователи разместили её в открытом доступе на GitHub и приглашают коллег пользоваться источником и дополнять его.

«В исследовании мы определили новые наборы данных, модели и подходы для обеспечения качества работы, необходимого для внедрения в отрасли прикладных научных разработок и решения проблемы интерпретируемости прогнозов, основанных на данных. К примеру, крайне важно создавать хорошо организованные базы данных. Более качественные данные естественным образом приводят к уменьшению искажений, связанных с дисбалансом и автокорреляцией. Мы ожидаем появления самообучения для геопространственного картографирования в экологических исследованиях, аналогично тому, что мы уже видели в языковом моделировании и компьютерном зрении», — прокомментировал работу Евгений Бурнаев, директор Центра искусственного интеллекта в Сколтехе и руководитель научной группы «Обучаемый интеллект» в Институте AIRI.