Ученые определили, сколько данных нужно для точного ИИ

Исследователи из МФТИ предложили два новых мето...

Tumisu / Pixabay

Учёные из МФТИ предложили два новых метода для определения оптимального объема данных, необходимого для обучения моделей машинного обучения. Проблема определения достаточного количества данных всегда была актуальной, поскольку слишком мало данных приводит к неточным моделям, а слишком много — вызывает неоправданные затраты. Эти новые подходы используют анализ функции правдоподобия с применением техники бутстрэпа, что позволяет значительно упростить и ускорить процесс оценки нужного размера выборки.

Работа опубликована в журнале Computational Mathematics and Mathematical Physics.

Существующие методы, такие как классические статистические, байесовские подходы и эвристические методы, не всегда подходят для всех типов данных и моделей. Они часто требуют сильных предположений и могут быть сложными в применении. Новый подход, предложенный учеными, основан на интуитивной идее: если данных достаточно, то добавление новых объектов не должно существенно изменять модель.

В качестве критериев достаточности были предложены два: "D-достаточность", основанная на стабильности результатов при изменении подвыборок данных, и "M-достаточность", которая проверяет, не улучшает ли модель существенно при добавлении нового объекта данных. Для надежности оценок использовалась техника бутстрэпа — метод многократного извлечения случайных подвыборок с возвращением из исходной выборки.

Результаты экспериментов на синтетических и реальных данных подтвердили, что предложенные методы работают эффективно, позволяют быстро и дешево оценивать, сколько данных нужно для качественного обучения модели. Эти методы применимы для различных типов данных и могут использоваться в таких областях, как медицина, финансы, социология, маркетинг и биоинформатика.

Ученые также подчеркнули, что их методы могут быть использованы для улучшения планирования экспериментов и более эффективного использования ресурсов в области машинного обучения, особенно там, где сбор данных является дорогим и трудоемким процессом.

Источник: Naked-Science.