Absolute Drift | Загружаемые программы Nintendo Switch | Игры
Важная информация
Данный контент продается компанией Nintendo of Europe GmbH. Оплата будет произведена средствами Nintendo eShop, используемыми с учетной записью Nintendo, которая использовалась для совершения покупки.
Данный контент продается компанией Nintendo of Europe GmbH. Оплата производится средствами Nintendo eShop, используемыми с учетной записью Nintendo. При покупке данного контента действует Соглашение об учетной записи Nintendo.
Данный контент могут приобрести пользователи, которые зарегистрировали учетную запись Nintendo, а также приняли соответствующие юридические соглашения. Для покупки контента для Wii U или систем линейки Nintendo 3DS также требуется код Nintendo Network. Кроме того, ваши средства, используемые с учетной записью Nintendo, должны быть объединены со средствами, привязанными к коду Nintendo Network. Если средства еще не объединены, вы сможете сделать это во время процесса покупки.
Для покупки контента для Wii U или систем линейки Nintendo 3DS ваши средства, используемые с учетной записью Nintendo, должны быть объединены со средствами, привязанными к коду Nintendo Network. Если средства еще не объединены, вы сможете сделать это во время процесса покупки. Вы сможете просмотреть подробности и завершить покупку на следующем экране.
Данное предложение действует для пользователей, которые вошли на веб-сайт с помощью учетной записи Nintendo, настройки страны которой совпадают с настройками страны этого веб-сайта. Если настройки страны вашей учетной записи Nintendo отличаются, данное предложение может быть изменено (например, цена будет отображаться в соответствующей местной валюте).
После обработки платежа контент будет загружен на консоль, связанную с вашей учетной записью Nintendo или с вашим кодом Nintendo Network в случае с Wii U или системами линейки Nintendo 3DS. На системе должно быть установлено последнее системное обновление и активирована функция автоматической загрузки. Система должна быть подключена к Интернету, и на ней должно быть достаточно свободного места. В зависимости от модели вашей игровой системы или консоли и степени ее использования может потребоваться дополнительное запоминающее устройство, чтобы загрузить программу из Nintendo eShop. Подробную информацию см. в разделе «Поддержка».
Для игр, в которых используется облачная потоковая технология, можно загрузить лишь бесплатное приложение для запуска.
Пожалуйста, убедитесь, что на вашей системе достаточно свободного места, чтобы завершить загрузку.
После обработки платежа контент будет загружен на консоль, связанную с вашей учетной записью Nintendo или с вашим кодом Nintendo Network в случае с Wii U или системами линейки Nintendo 3DS. На системе должно быть установлено последнее системное обновление и активирована функция автоматической загрузки. Система должна быть подключена к Интернету, и на ней должно быть достаточно свободного места. В зависимости от модели вашей игровой системы или консоли и степени ее использования может потребоваться дополнительное запоминающее устройство, чтобы загрузить программу из Nintendo eShop. Подробную информацию см. в разделе «Поддержка».
Для игр, в которых используется облачная потоковая технология, можно загрузить лишь бесплатное приложение для запуска.
Пожалуйста, убедитесь, что на вашей системе достаточно свободного места, чтобы завершить загрузку.
Конкретная цена отображается в зависимости от страны, указанной в настройках вашей учетной записи Nintendo.
При покупке данного контента действует Соглашение об учетной записи Nintendo.
О предзаказах
Использование неразрешенных устройств или программ, позволяющих выполнить техническую модификацию консоли Nintendo или программы, может привести к невозможности играть в эту игру.
Данный товар содержит в себе средства технической защиты.
В контент невозможно играть до даты выпуска: {{releaseDate}} . Средства за предзаказ будут автоматически списаны не ранее чем за 7 дней до выхода игры. Если вы оформите предзаказ менее чем за 7 дней до выхода игры, то средства будут списаны сразу после покупки.
© 2020 Funselektor. All rights reserved.
RC Event — Аренда трассы для дрифта. Прокат моделей для дрифта.
Трасса для дрифта
Дрифт (drift) — очень популярная дисциплина как в мире больших автомобилей, так и в моделизме. Гонщик должен пройти трассу в скольжении, что требует особого мастерства, но при этом очень увлекательно.
А теперь более подробно о моделях и трассах
МоделиДля этого аттракциона используются модели в масштабе 1:10 (длина порядка 45 см), использующие специально настроенные для дрифта шасси и резину. Кузова по умолчанию — японские дрифт-кары. По Вашему желанию можно использовать кузова нужной марки и/или покрасить их в соответствии с Вашим дизайном или даже разработать дизайн по Вашим требованиям. Примеры оригинальной раскраски приведены ниже (работы по дизайну и покраске выполнены нашим специалистом):
Трасса для дрифта
- Стандартная трасса имеет размер 6х6 метров и может быть разложена в холле, зале, на улице
- В пространства необычной формы может быть вписана трасса нестандартной конфигурации
- Размер трассы можно увеличивать практически до бесконечности — все зависит от Ваших пожеланий (тем не менее, мы не рекомендуем сильно усложнять ее - это займет много времени на привыкание у посетителей Вашего мероприятия)
- Возможна организация соревнований на мастерство прохождения трассы
Требования к месту
- Ровная и чистая* поверхность достаточной площади (как минимум — площадь трассы + полосы 1-2 метра хотя бы с двух сторон)
- Доступ к розетке 220В
Что входит в стоимость аренды трассы для дрифта
- Ограждения и элементы трассы (в качестве поверхности трассы используется пол, либо асфальт)
- Инструктор — один или несколько (в зависимости от количества машин)
- Достаточное для безостановочной работы количество аккумуляторов
- Запасные модели, запчасти
Таннер Фауст – амбассадор Volkswagen R – новости официального дилера Volkswagen в Брянске
Таннер Фауст – американский гонщик, каскадер, телеведущий, а также четырехкратный чемпион по ралли-кроссу, отстоявший свой титул в 2019 году за рулем Volkswagen Beetle R.
Пилот марки дважды становился чемпионом Formula Drift. В числе его достижений четыре золотые медали Всемирных экстремальных игр (X-Games).46-летний гонщик принимает активное участие в процессе координации и утверждения новых моделей подразделения R. «Таннер Фауст – человек с множеством талантов, и он отлично нам подходит. Таннер в харизматичной и естественной манере представляет все то, с чем ассоциируется Volkswagen R во всем мире, – отмечает Йост Капито, руководитель подразделения Volkswagen R. — Его опыт приносит реальную пользу в процессе разработки и оптимизации автомобилей серии R».
В начале февраля в Целль-ам-Зее (Австрия) Фауст снова сел за руль Beetle R и успешно прошел ледовую гонку GP Ice Race. В 2019 году за рулем 560-сильного Beetle он одержал победу на Американском чемпионате по ралли-кроссу (ARX), дав возможность ныне не выпускающейся модели уйти с почетом. В Австрии успешный тандем с легкостью дрифтовал на ледяном треке. «Beetle R – это действительно необыкновенный автомобиль.
Новыми моделями Таннера Фауста стали Volkswagen eR1 и Atlas Cross Sport, специально подготовленный для гонки Baja 1000. eR1 — это тестовый вариант полностью электрического гоночного болида на базе Volkswagen Golf. «Будущее Volkswagen и автоспорта – за электромобилями», – отмечает Фауст, ожидая возможности выступить на eR1. Следующая гонка пилота, являющаяся самой большой для Volkswagen на Ближнем Востоке, Dub Drive GC, состоялась в Абу-Даби в феврале. В дополнение к впечатляющим дрифт-шоу во время соревнований прошли выборы модели года серии R. Фауст высоко оценил модели марки, подготовленные энтузиастами для участия в Dubbie.
Джейсон Борн — не единственный герой боевиков, чьи водительские навыки были продемонстрированы амбассадором Volkswagen R. Таннер Фауст снимался в роли водителя-каскадера и в других голливудских картинах, среди которых «Железный человек-2», «Жажда скорости», а также популярная серия фильмов «Форсаж».
В третьей части саги «Тройной форсаж: Токийский дрифт» гонщик мастерски маневрирует на тюнингованных спортивных автомобилях по дорогам и узким съездам автопарковок, добавляя динамичности и яркости картине. За высокопрофессиональный дрифт в ограниченном пространстве Фауст был номинирован на премию Мировой академии каскадеров «Таурус» (Taurus World Stunt Awards), свой успех спортсмен повторил трижды. Любовь к дрифту проявилась у Таннера еще в молодости в Шотландии, где он и начал заниматься ралли. Из Европы он переехал в США, где получил университетский диплом по биологии в Колорадо.Однако страсть к автоспорту никогда не покидала его. Во время каникул каждую свободную минуту Таннер проводил на гоночной трассе. Чтобы не расставаться с любимым увлечением, он подрабатывал механиком или инструктором по вождению. Так было до 2003 года, пока он не получил диплом и не стал профессиональным автогонщиком после короткого периода участия в любительских соревнованиях.
Машинки на радиоуправлении для дрифта
Машинки на радиоуправлении для дрифта позволят осуществить (в минимизированном варианте) гоночные виражи, которые демонстрируют супергонщики. Потребуется лишь миниатюрная модель машинки, созданная на основе реального гоночного автомобиля с максимальным вниманием к деталям, а также ровная поверхность. Радиоуправляемые машинки для дрифта можно легко эксплуатировать не только в специализированных клубах, но и на площадках возле гипермаркетов и торговых центров.
Радиоуправляемые модели для дрифта могут быть оборудованы как электрическими двигателями, работающими от аккумуляторов, так и миниатюрным двигателем внутреннего сгорания. Естественно, что двигатель внутреннего сгорания мощнее и более приближает машинку к аналогу гоночного кара для гонок в реальной жизни, но электрический привод намного экономичнее и проще в использовании.
Машины на пульте управления для дрифта позволят на время почувствовать себя за рулем болида, исполняющего сложные и опасные в реальной жизни виражи. Если собрать компанию единомышленников, то можно устроить ралли с настоящими победителями, пусть и на игрушечных машинках.
Радиоуправляемые модели автомобилей для дрифта созданы максимально точно сравнительно с настоящими аналогами не только по внешнему виду, но и по функциональности. Гидравлическая амортизация, карданная трансмиссия, шины с хорошим сцеплением с поверхностью дороги с точностью передадут ощущения, которые испытывает гонщик при управлении настоящим автомобилем.
Автомодели для дрифта станут не только подарком для детей, подобное развлечение довольно часто превращается в хобби для взрослых людей. Драйв и ощущения во время удачного вхождения в поворот, особенно, если учитывается время, приносят массу адреналина, сопоставимого с реальной гонкой. Подобные машинки являются полезным сувениром, который не будет просто пылиться на полке, а позволит весело провести свободное время. Среди множества моделей можно выбрать именно ту, которая идеально подойдет как по показателям мощности, так и по внешнему виду и дизайну.
Машинки для дрифта недорого: где купить дрифт машинку в Киеве?
В какой-то момент Вы захотите обновить и модифицировать свой автомобиль, а среди всех доступных на рынке моделей именно машинки для дрифта, купить в Киеве которые рекомендуется на сайте нашего интернет-магазина «Тяга», дарят наибольшее веселые. Вы можете изменить все, от шин до подвески, даже до номерного знака. Если вы относитесь к тому типу людей, которые захотят всячески модернизировать свой автомобиль, тогда Вам подойдет дрифт-кар.
Это веселее – хотя, конечно, наступает определенное удовлетворение, если победишь кого-то в радиоуправляемой гонке, или если удастся прорваться сквозь всевозможные ужасные ландшафты на большой внедорожной радиоуправляемой машине. Но есть ли что-нибудь более приятное, чем вхождение в идеальный дрифт?
Вы знаете, что хотите купить дрифт машинку в Киеве. Одна из самых распространенных фраз среди РУ-дрифтеров – это то, что Вы можете превратить любой туристический автомобиль в дрифтера, но не можете сделать дрифтера гоночным автомобилем. Поэтому, если присматриваете машинки для дрифта недорого, Вы должны быть уверены, что это именно то, что Вы хотите.
В целом, дрифт-кар может быть хорошим решением, если ищете что-то более захватывающее, чем обычные гонки. Дрифт-машины могут быть дорогими, но они, несомненно, стоят своих инвестиций в долгосрочной перспективе. В любом случае, это не дешевое хобби, но есть причина, по которой радиоуправляемый дрифтинг сейчас так популярен.
Приличные машинки для дрифта купить в Киеве относительно легко, если Вы готовы инвестировать и тратить время на изучение лучших брендов, представленных в данном каталоге нашего интернет-магазина. Они не обязательно нуждаются в моддинге из коробки, но из всех различных типов РУ, дрифт-машины, как правило, наиболее интересны для модификации.
Часто задаваемые вопросы
- Сколько стоят машины для дрифта?
- Стоимость товаров в категории машины для дрифта интернет-магазина Тяга:
- Радиоуправляемая модель Himoto DRIFT TC HI4123BL 8100 грн.
- Полноприводная радиоуправляемая шоссейная автомодель Team Magic E4JR Brushless 12700.
- Радиоуправляемая шоссейная автомодель SPARROWHAWK VX FORD GT 6150.
- Какие машины для дрифта лучше купить в 2021?
- Интернет-магазин Тяга советует такие модели:
- Discount Tire/Falken Tire Nissan S13 гонщика Dai Yoshihara 8750.
- HPI Sprint 2 Sport в кузове Chevrolet Camaro 1967 — 7700.
- 2012 CHP Chevrolet Camaro ZL1 в уникальном стиле 8599.
- Какие машины для дрифта самые дешевые?
- На данный момент в тройку самых доступных входят:
- Раллийный автомобиль с коллекторным электродвигателем 6450.
- Шоссейная автомодель SPARROWHAWK VX FORD GT 6150.
- Радиоуправляемая машина для дрифта Himoto DRIFT TC HI4123 5200.
- Какие машины для дрифта самые дорогие?
- Среди самых дорогих:
- 2012 CHP Chevrolet Camaro ZL1 8600.
- SPRINT 2 с бесколлекторной системой и кузовом Porsche 911 GT3 10500.
- Радиоуправляемый автомобиль HPI Ken Block WR8 Flux w\Ford Fiesta H.F.H.V. 16750.
Volkswagen представил самый мощный Golf R – с режимом для дрифта
В линейке Volkswagen Golf восьмого поколения появился новый флагман – спорткар с традиционной литерой R в названии. Его шпионские фотографии без маскировки мы видели еще в феврале, а сегодня производитель устроил официальную презентацию, как теперь водится – в онлайн-формате.
Новый VW Golf R получил двухлитровую «турбочетверку» на 320 л.с. и 420 Нм – как у соплатформенных Arteon R и Tiguan R. Компания заявляет о серьезной прибавке, но тут есть один нюанс. В 2016 году, когда был плановый рестайлинг семейства седьмой генерации, отдачу двигателя хетчбэка и универсала Golf R подняли с 300 л.с. и 380 Нм до 310 л.с. и 400 Нм соответственно. В результате время разгона до 100 км/ч сократилось до 4,6 секунды. Позднее, когда Европа переходила с цикла испытаний NEDC на WLTP, а производители заново сертифицировали машины, у топовых «Гольфов» (и не только у них) отняли те же 10 л.с.
Помимо двигателя, который может сочетаться с шестиступенчатой механикой или семиступенчатым роботом, хот-хэтч позаимствовал у вышеупомянутых собратьев новую систему полного привода, которая распределяет мощность не только по осям, но и между задними колесами.
Golf R набирает сотню за 4,7 секунды и может разогнаться до 250 км/ч. Не исключено, что на более позднем этапе продаж для новинки предложат Performance-пакет: у предшественника он, помимо прочего, поднимал максимальную скорость до 267 км/ч.
В числе других особенностей – перенастроенная подвеска с более жесткими пружинами и уменьшенным на 20 мм клиренсом, увеличенный «в минус» развал колес, облегченный на 3 кг алюминиевый подрамник, более крупные тормоза. Система Vehicle Dynamics Manager теперь управляет не только амортизаторами и электронной блокировкой, но и полным приводом.
Как и Volkswagen Golf GTI Clubsport, новый Golf R проходил финальную доводку на Нюрбургринге. При этом помимо режима Special, предназначенного специально для знаменитой немецкой трассы и до настоящего времени имевшегося только у «Клабспорта», «эрке» положена еще одна эксклюзивная настройка – Drift. Также имеются стандартные для этой модели профили Comfort, Sport, Race и Individual – и никакого Eco.
В плане дизайна экстерьера новый Volkswagen Golf R выделяется:
- агрессивной лицевой частью со сплиттером «в гоночном стиле» и другой решеткой;
- 19-дюймовыми дисками с синими тормозными суппортами, боковыми «юбками»;
- уникальным задним бампером с глянцевым черным диффузором, четырьмя хромированными выпускными патрубками, спойлером на крыше.
Помимо фирменного для R-моделей синего оттенка Lapiz Blue Metallic, хот-хэтч будет доступен в белом и черном кузове. Люк в крыше включен в стандартную комплектацию. В салоне – специфическая графика и дополнительная информация на цифровой приборной панели и тачскрине мультимедийной системы Discover Pro, спортивные передние кресла из кожи Nappa, отделка «под карбон» с синими вставками и тому подобное.
В США продажи стартуют во второй половине следующего года. Цены пока не названы.
19 Фотографии
Что такое Concept Drift? Дрейф модели в машинном обучении
«Изменения — единственная постоянная в жизни».Эта цитата была написана греческим философом по имени Гераклит, и это такая интересная цитата, потому что она абсолютно правдива. Термин «постоянная» определяется как , происходящее непрерывно в течение определенного периода времени, , и, таким образом, можно сказать, что изменение составляет вечных . Это создает проблему для моделей машинного обучения, поскольку модель оптимизируется на основе переменных и параметров во время ее создания.Распространенное и иногда неверное предположение, сделанное при разработке модели машинного обучения, заключается в том, что каждая точка данных является независимой и одинаково распределенной случайной величиной (i.i.d).
Представьте себе модель классификации, созданную для обнаружения фишинговых электронных писем (спама), созданных несколько лет назад. Тогда спам-письма выглядели бы примерно так:
Можно сказать, что это спам, потому что в нем указана нереалистичная единовременная сумма денег (4 доллара.8 миллионов долларов США), он включает контакт в электронном письме и просит вас срочно следовать инструкциям или «как только вы прочтете это письмо».
С тех пор времена изменились, и мошенники создают более сложные и реалистичные электронные письма, которые затрудняют различение. Вот пример более позднего фишингового письма:
Обратите внимание, насколько отличается это спам-письмо от того, что было несколько лет назад. Как вы думаете, сможет ли созданная несколько лет назад модель обнаружения мошенничества правильно классифицировать это письмо? Вероятно, не потому, что представление фишинговых писем изменило , и модели не любят изменений .Одно из основных предположений при создании модели состоит в том, что будущие данные будут аналогичны прошлым данным, используемым для построения модели.
Это пример дрейфа модели. В этой статье вы узнаете, что такое дрейф модели, типы дрейфа модели, как определить дрейф модели и как с ним бороться.
Что такое дрейф модели?
Дрейф модели (также известный как распад модели) относится к ухудшению предсказательной способности модели из-за изменений в окружающей среде и, следовательно, взаимосвязи между переменными. Ссылаясь на приведенный выше пример, изменения в представлении спама могут привести к ухудшению работы моделей обнаружения мошенничества, созданных несколько лет назад.
Типы моделей Drift
Различают три основных типа модельного дрифта:
- Концепт дрифт
- Дрейф данных
- Изменения данных восходящего потока
Смещение концепции — это тип смещения модели, при котором изменяются свойства зависимой переменной. Модель мошенничества, приведенная выше, является примером дрейфа концепций, когда меняется классификация того, что является «мошенничеством».
Дрейф данных — это тип дрейфа модели, при котором изменяются свойства независимой (ых) переменной (ей). Примеры дрейфа данных включают изменения в данных из-за сезонности, изменения предпочтений потребителей, добавление новых продуктов и т. Д.
Изменения данных восходящего направления относятся к изменениям рабочих данных в конвейере данных. Примером этого является ситуация, когда функция больше не создается, что приводит к отсутствию значений. Другой пример — изменение измерения (например,мили в километры).
Как определить дрейф модели
Измерение точности модели
Самый точный способ обнаружить дрейф модели — сравнить предсказанные значения из данной модели машинного обучения с фактическими значениями. Точность модели ухудшается по мере того, как прогнозируемые значения все дальше и дальше отклоняются от фактических значений.
Общей метрикой, используемой для оценки точности модели среди специалистов по обработке данных, является оценка F1, главным образом потому, что она охватывает как точность, так и отзывчивость модели ( См. Ниже для визуального представления точности и отзыва). При этом есть ряд показателей, которые более актуальны, чем другие, в зависимости от ситуации. Например, ошибки 2-го типа будут чрезвычайно важны для модели распознавания изображений рака и опухоли. Таким образом, когда заданная метрика опускается ниже заданного порога, вы будете знать, что ваша модель дрейфует!
ИсточникДругие методы обнаружения дрейфа модели
Иногда не всегда удается отследить точность модели. В некоторых случаях становится намного сложнее получить прогнозируемые и фактические парные данные.Например, представьте модель, которая прогнозирует чистую прибыль государственной фирмы. Это означает, что вы сможете измерить точность прогнозов чистой прибыли модели только 4 раза в год на основе квартальных отчетов компании. В случае, если вы не можете сравнить прогнозируемые значения с фактическими значениями, есть другие альтернативы, на которые вы можете положиться:
- Тест Колмогорова-Смирнова (K-S) : K-S тест — это непараметрический тест, который сравнивает совокупные распределения двух наборов данных, в данном случае данных обучения и данных после обучения.Нулевая гипотеза для этого теста утверждает, что распределения из обоих наборов данных идентичны. Если ноль отклонен, вы можете сделать вывод, что ваша модель дрейфовала.
- Индекс стабильности населения (PSI) : PSI — это показатель, используемый для измерения того, как распределение переменной менялось с течением времени. Это популярный показатель, используемый для мониторинга изменений характеристик популяции и, таким образом, обнаружения распада модели.
- Z-оценка : Наконец, вы можете сравнить распределение функций между обучающими и живыми данными, используя z-оценку.Например, если несколько точек данных в реальном времени данной переменной имеют z-оценку +/- 3, распределение переменной могло измениться.
Как решить проблему смещения модели
Обнаружение смещения модели — это только первый шаг, следующим шагом является устранение смещения модели. Для этого есть два основных метода.
Первый — просто переобучить вашу модель по расписанию. Если вы знаете, что модель ухудшается каждые шесть месяцев, вы можете принять решение переобучать ее каждые пять месяцев, чтобы гарантировать, что точность модели никогда не упадет ниже определенного порога.
Другой способ решить проблему дрейфа модели — это онлайн-обучение. Онлайн-обучение означает просто научить модель машинного обучения обучаться в реальном времени. Он делает это, принимая данные, как только они становятся доступными, в последовательном порядке, а не обучает модель пакетными данными.
В целом, определить дрейф модели сложно
На самом деле обнаружить смещение модели сложно, и не существует универсальной схемы для обнаружения и устранения смещения модели.
А теперь представьте, что вам нужно обнаружить дрейф модели, но для сотни или даже тысячи моделей машинного обучения.Это почти невозможно. Если это описывает проблему, с которой вы столкнулись, есть несколько удивительных решений, например Datatron.
Здесь, в Datatron, мы предлагаем платформу для управления и управления всеми вашими моделями машинного обучения, искусственного интеллекта и обработки данных в производственной среде. Кроме того, мы помогаем вам автоматизировать, оптимизировать и ускорять модели машинного обучения, чтобы обеспечить их бесперебойную и эффективную работу в производственной среде. Чтобы узнать больше о наших услугах, обязательно запросите демонстрацию.
Подписывайтесь на Datatron в Twitter и LinkedIn!
Спасибо за чтение!
Дрейф моделив машинном обучении. Как и когда следует машинному обучению… | Сушрут Шендре
Как и когда следует переобучать модели машинного обучения
Понятия, люди и общества с течением времени кардинально изменились. То, что когда-то было по последнему слову техники, теперь устарело; Точно так же то, что сейчас является свежей идеей, вероятно, будет забыто через несколько лет.Точно так же понимание изменений жизненно важно для бизнеса. Представьте себе компанию по производству мобильных телефонов 15 лет назад. Смогли бы они выжить, если бы не перешли на смартфоны? Скорее всего нет. Хотя 15 лет назад обычный мобильный телефон был нормой, спрос резко переместился в сторону смартфонов. Больше всего пострадали компании, которые не смогли соответствовать темпам этого изменения в поведении клиентов.
По мере того, как мы входим в мир, который диктуется данными и аналитикой, модели машинного обучения стали основными драйверами бизнес-решений.И, как и в случае с любой другой бизнес-стратегией, эти модели со временем необходимо пересматривать, технической причиной которого является «дрейф моделей». В то время как большинство учебных программ, статей и сообщений определяют жизненный цикл машинного обучения (ML), который начинается со сбора данных и заканчивается развертыванием модели машинного обучения в соответствующей среде, они забывают очень важную особенность жизненного цикла машинного обучения: что модельного дрейфа.
По сути, это означает, что отношения между целевой переменной и независимыми переменными меняются со временем.Из-за этого дрейфа модель становится нестабильной, а прогнозы со временем становятся ошибочными. Попробуем понять это с технической точки зрения с помощью простой линейной регрессии. В линейной регрессии мы просто сопоставляем независимые переменные x_i для прогнозирования целевой переменной y :
y = α + β_1 * x_1 + β_2 * x_2 + β_3 * x_3 +…
где, α — это перехват, а β_i соответствуют коэффициентам для переменной x_i.
Часто мы предполагаем, что это отображение является статическим, т.е. мы предполагаем, что коэффициенты β_i (и точка пересечения α ) не изменяются со временем и что отношения, управляющие прогнозированием целевой переменной y , будут быть действительным и для будущих данных. Это предположение может быть верным не во всех случаях. А там, где этого не происходит, это представляет серьезную угрозу для бизнеса. Это связано с тем, что прибыль организаций в значительной степени зависит от таких моделей; и хотя эти модели могут быть репрезентативными для ситуации во время разработки, они определенно могут оказаться неверными в будущем.Из-за этих изменений в основных условиях прогнозы со временем станут менее точными.
Фото engin akyurt на UnsplashТипы заносов
Модельные заносы можно разделить на две большие категории. Первый тип называется «дрейфом концепций». Это происходит, когда меняются статистические свойства самой целевой переменной. Очевидно, что если само значение переменной, которую мы пытаемся предсказать, изменится, модель не будет работать для этого обновленного определения.Ага!
Второй и наиболее распространенный тип — «дрейф данных». Это происходит при изменении статистических свойств предикторов. Опять же, если базовые переменные изменяются, модель обречена на неудачу. Так очевидно! Классический пример того, когда это может произойти, — это когда закономерности в данных меняются из-за сезонности. Какая бы бизнес-модель ни работала летом, может не работать зимой. В то время как спрос на рейсы резко возрастает в праздничные сезоны, авиакомпаниям трудно поддерживать загруженность в межсезонье.Другой пример — изменение личных предпочтений, что может быть связано с примером смартфона, упомянутым в начале.
Как с этим справиться?
Лучший способ решить эту проблему — постоянно переоснащать модели. На основе прошлого опыта можно сделать оценку того, когда в модели начнется постепенный дрейф. На основе этого модель может быть проактивно переработана, чтобы снизить риски, связанные с дрейфом.
В ситуациях, когда данные меняются со временем, данные взвешивания могут быть хорошим вариантом.Например, финансовые модели, определяющие определенные параметры на основе недавних транзакций, могут включать функции, которые придают больший вес самым последним транзакциям и меньший — прошлым транзакциям. Это не только гарантирует надежность модели, но и помогает избежать потенциальных проблем, связанных с дрейфом.
Более сложная методология борьбы с дрейфом модели — моделирование самого изменения. Первая разработанная модель остается статичной и служит базой. Теперь, в результате изменения поведения в последних данных, можно построить новые модели для корректировки прогнозов этой базовой модели.
Как часто нужно переобучать моделей?
Теперь, когда мы увидели, что наиболее распространенное решение включает постоянное повторное обучение модели, возникают вопросы о том, как часто это нужно делать. Для этого есть несколько решений, каждое из которых различается в зависимости от ситуации.
Иногда проблема возникает сама собой. Хотя ожидание возникновения проблемы — не самый элегантный метод, он остается единственным вариантом, когда дело доходит до новых моделей, в которых нет прошлой истории, чтобы понять, когда что-то может пойти не так.Когда проблема обнаруживается, может быть проведено расследование того, что пошло не так, и могут быть внесены изменения, чтобы подавить такие проблемы в будущем.
В других случаях данные, относящиеся к объектам, рассматриваемым в модели, учитывают сезонные колебания. Здесь модель следует переучивать под эти сезоны. Например, в связи с увеличением расходов в праздничные сезоны учреждениям кредитного кредитования необходимо иметь специальные модели, чтобы справиться с этим внезапным изменением моделей.
Однако лучший способ обнаружить дрейф — это непрерывный мониторинг. Метрики, связанные со стабильностью модели, необходимо отслеживать через постоянные интервалы времени. Этот интервал может составлять неделю, месяц, квартал и т. Д. В зависимости от домена и бизнеса. Режим мониторинга может быть либо ручным, либо автоматическим сценарием, который запускает сигналы тревоги и уведомления всякий раз, когда наблюдаются внезапные аномалии.
На этом мы подошли к концу статьи. Как сказал знаменитый Гераклит: «Изменения — единственная константа».Помня об этом, организациям, которые с готовностью принимают и отслеживают эти изменения, суждено добиться успеха.
Спасибо!
Мягкое знакомство с дрейфом концепций в машинном обучении
Последнее обновление 10.12.2020 г.
Данные могут изменяться со временем. Это может привести к плохой и ухудшающейся прогнозной производительности в прогнозных моделях, которые предполагают статическую связь между входными и выходными переменными.
Эта проблема изменения основных взаимосвязей в данных называется дрейфом концепций в области машинного обучения.
В этом посте вы откроете для себя проблему дрейфа концепций и способы ее решения в ваших собственных задачах прогнозного моделирования.
Заполнив этот пост, вы будете знать:
- Проблема изменения данных с течением времени.
- Что такое дрейф понятий и как он определяется.
- Как справиться с дрейфом концепций в ваших собственных задачах прогнозного моделирования.
Начните свой проект с моей новой книги «Основные алгоритмы машинного обучения», включающей пошаговых руководств и файлы Excel Spreadsheet для всех примеров.
Приступим.
Мягкое введение в дрейф концепций в машинном обучении
Фотография Джо Клира, некоторые права защищены.
Обзор
Этот пост разделен на 3 части; их:
- Изменения данных с течением времени
- Что такое Concept Drift?
- Как решить проблему Concept Drift
Изменения данных с течением времени
Прогностическое моделирование — это проблема изучения модели на основе исторических данных и использования модели для прогнозирования новых данных, на которые мы не знаем ответа.
С технической точки зрения, прогнозное моделирование — это проблема аппроксимации функции отображения (f) с заданными входными данными (X) для прогнозирования выходного значения (y).
Часто предполагается, что это отображение является статическим, что означает, что отображение, полученное на основе исторических данных, так же верно в будущем для новых данных и что отношения между входными и выходными данными не изменяются.
Это верно для многих проблем, но не для всех.
В некоторых случаях отношения между входными и выходными данными могут изменяться со временем, что означает, что, в свою очередь, происходят изменения в неизвестной базовой функции сопоставления.
Изменения могут иметь последующие последствия, например, предсказания, сделанные моделью, обученной на более старых исторических данных, больше не являются правильными или такими же правильными, какими они могли бы быть, если бы модель была обучена на более свежих исторических данных.
Эти изменения, в свою очередь, можно будет обнаружить, и в случае обнаружения можно будет обновить изученную модель, чтобы отразить эти изменения.
… многие методы интеллектуального анализа данных предполагают, что обнаруженные закономерности статичны. Однако на практике шаблоны в базе данных со временем развиваются.Это создает две важные проблемы. Первая задача — определить, когда происходит дрейф концепции. Вторая задача — поддерживать шаблоны в актуальном состоянии, не создавая шаблоны с нуля.
— Стр. 10, Справочник по интеллектуальному анализу данных и обнаружению знаний, 2010 г.
Что такое Concept Drift?
Дрейф концепций в машинном обучении и интеллектуальном анализе данных означает изменение во времени отношений между входными и выходными данными в основной проблеме.
В других доменах это изменение может называться « ковариативный сдвиг », « сдвиг набора данных » или « нестационарность ».”
В наиболее сложных приложениях для анализа данных данные развиваются со временем и должны анализироваться практически в реальном времени. Паттерны и отношения в таких данных часто развиваются со временем, поэтому модели, построенные для анализа таких данных, со временем быстро устаревают. В машинном обучении и интеллектуальном анализе данных это явление называется дрейфом понятий.
— Обзор приложений концептуального дрейфа, 2016 г.
Понятие « concept drift » относится к неизвестной и скрытой взаимосвязи между входными и выходными переменными.
Например, одним из понятий в данных о погоде может быть сезон, который явно не указан в данных о температуре, но может влиять на данные о температуре. Другим примером может быть покупательское поведение клиентов с течением времени, на которое может влиять сила экономики, где сила экономики явно не указана в данных. Эти элементы также называют «скрытым контекстом».
Сложная проблема с обучением во многих областях реального мира состоит в том, что концепция интереса может зависеть от некоторого скрытого контекста, не указанного явно в форме прогнозных характеристик.Типичный пример — правила прогнозирования погоды, которые могут радикально меняться в зависимости от сезона. […] Часто причина изменения скрыта, не известна априори, что усложняет учебную задачу.
— Проблема дрейфа понятий: определения и родственные работы, 2004.
Изменение данных может принимать любую форму. Концептуально проще рассмотреть случай, когда существует некоторая временная согласованность изменения, так что данные, собранные в течение определенного периода времени, показывают ту же взаимосвязь и что эта взаимосвязь плавно изменяется с течением времени.
Обратите внимание, что это не всегда так, и это предположение следует оспорить. Некоторые другие типы изменений могут включать:
- Постепенное изменение с течением времени.
- Периодическое или циклическое изменение.
- Внезапное или резкое изменение.
Для каждой ситуации могут потребоваться разные схемы обнаружения и обработки смещения концепции. Часто повторяющиеся изменения и долгосрочные тенденции считаются систематическими и могут быть четко определены и обработаны.
Дрейф концепции может присутствовать в контролируемых задачах обучения, когда делаются прогнозы и данные собираются с течением времени.Это традиционно называется проблемами онлайн-обучения, учитывая ожидаемые изменения данных с течением времени.
Существуют области, в которых прогнозы упорядочены по времени, например, прогнозирование временных рядов и прогнозирование потоковых данных, где проблема дрейфа концепций более вероятна и должна быть явно проверена и решена.
Распространенной проблемой при интеллектуальном анализе потоков данных является то, что потоки данных не всегда строго стационарны, то есть концепция данных (лежащее в основе распределение входящих данных) непредсказуемо дрейфует во времени.Это подтолкнуло к необходимости своевременно обнаруживать эти концептуальные отклонения в потоках данных
— Обнаружение дрейфа концепции для потоковых данных, 2015.
Индре Злиобайте в статье 2010 года, озаглавленной «Обучение в рамках дрейфа концепций: обзор», дает основу для размышлений о дрейфе концепций и решениях, требуемых практикующим машинным обучением, а именно:
- Предположение о будущем : проектировщику необходимо сделать предположение о будущем источнике данных.
- Тип изменения : проектировщику необходимо определить возможные шаблоны изменений.
- Адаптивность учащегося : на основе типа изменения и предположений о будущем разработчик выбирает механизмы, которые делают учащегося адаптивным.
- Выбор модели : разработчику нужен критерий для выбора конкретной параметризации выбранного учащегося на каждом временном шаге (например, веса для членов ансамбля, размер окна для метода переменного окна).
Эта структура может помочь подумать о точках принятия решений, доступных вам при решении проблемы дрейфа концепции в ваших собственных задачах прогнозного моделирования.
Как решить проблему дрейфа концепций?
Есть много способов решить проблему дрейфа концепций; давайте взглянем на несколько.
1. Ничего не делать (статическая модель)
Самый распространенный способ — вообще не обрабатывать его и предполагать, что данные не изменяются.
Это позволяет вам однажды разработать единую «лучшую» модель и использовать ее для всех будущих данных.
Это должно быть вашей отправной точкой и базой для сравнения с другими методами. Если вы считаете, что ваш набор данных может подвергнуться дрейфу концепций, вы можете использовать статическую модель двумя способами:
- Concept Drift Detection . Наблюдайте за навыками статической модели с течением времени, и если навык падает, возможно, происходит дрейф концепции и требуется некоторое вмешательство.
- Базовые показатели . Используйте навыки статической модели в качестве основы для сравнения с любым вашим вмешательством.
2. Периодически устанавливайте заново
Хорошим вмешательством первого уровня является периодическое обновление вашей статической модели более свежими историческими данными.
Например, возможно, вы можете обновлять модель каждый месяц или каждый год данными, собранными за предыдущий период.
Это также может включать в себя тестирование модели на исторических данных, чтобы выбрать подходящий объем исторических данных для включения при повторной подгонке статической модели.
В некоторых случаях может быть целесообразно включать только небольшую часть самых последних исторических данных, чтобы лучше понять новые отношения между входами и выходами (например,г. использование раздвижного окна).
3. Периодически обновляйте
Некоторые модели машинного обучения можно обновлять.
Это эффективность по сравнению с предыдущим подходом (периодическая повторная подгонка), когда вместо полного отказа от статической модели существующее состояние используется в качестве отправной точки для процесса подбора, который обновляет подгонку модели с использованием выборки самых последних исторических данных. данные.
Например, этот подход подходит для большинства алгоритмов машинного обучения, использующих веса или коэффициенты, таких как алгоритмы регрессии и нейронные сети.
4. Весовые данные
Некоторые алгоритмы позволяют взвесить важность входных данных.
В этом случае вы можете использовать вес, который обратно пропорционален возрасту данных, так что больше внимания уделяется самым последним данным (больший вес) и меньше внимания самым последним данным (меньший вес).
5. Узнайте об изменениях
Ансамблевый подход может использоваться там, где статическая модель остается нетронутой, но новая модель учится корректировать прогнозы статической модели на основе взаимосвязей в более свежих данных.
Это можно рассматривать как ансамбль повышающего типа (только по духу), в котором последующие модели корректируют предсказания предыдущих моделей. Ключевое отличие здесь заключается в том, что последующие модели подходят для разных и более свежих данных, в отличие от взвешенной формы того же набора данных, как в случае AdaBoost и повышения градиента.
6. Определите и выберите модель
Для некоторых проблемных областей можно разработать системы для обнаружения изменений и выбора конкретной и другой модели для прогнозирования.
Это может быть подходящим для доменов, которые ожидают резких изменений, которые могли произойти в прошлом и которые могут быть проверены в будущем. Также предполагается, что можно разработать умелые модели для обработки каждого из обнаруживаемых изменений данных.
Например, резкое изменение может быть конкретным наблюдением или наблюдениями в диапазоне, или изменением распределения одной или нескольких входных переменных.
7. Подготовка данных
В некоторых областях, например в задачах временных рядов, можно ожидать, что данные со временем изменятся.
В задачах этого типа обычно данные подготавливаются таким образом, чтобы исключить систематические изменения данных с течением времени, такие как тенденции и сезонность, путем дифференцирования.
Это настолько распространено, что встроено в классические линейные методы, такие как модель ARIMA.
Обычно мы не рассматриваем систематическое изменение данных как проблему дрейфа концепций, потому что с этим можно справиться напрямую. Скорее, эти примеры могут быть полезным способом осмыслить вашу проблему и могут помочь вам предвидеть изменения и подготовить данные определенным образом, используя стандартизацию, масштабирование, прогнозы и многое другое, чтобы смягчить или, по крайней мере, уменьшить влияние изменений на входные переменные в будущее.
Дополнительная литература
В этом разделе представлены дополнительные ресурсы по теме, если вы хотите углубиться.
Документы
Статьи
Сводка
В этом посте вы обнаружили проблему дрейфа концепций при изменении данных для прикладного машинного обучения.
В частности, вы узнали:
- Проблема изменения данных с течением времени.
- Что такое дрейф понятий и как он определяется.
- Как справиться с дрейфом концепций в ваших собственных задачах прогнозного моделирования.
Есть вопросы?
Задайте свои вопросы в комментариях ниже, и я постараюсь ответить.
Узнайте, как работают алгоритмы машинного обучения!
Узнайте, как работают алгоритмы за считанные минуты
… с простой арифметикой и простыми примерами
Узнайте, как в моей новой электронной книге:
Освойте алгоритмы машинного обучения
Он охватывает объяснений и примеров из 10 лучших алгоритмов , например:
Линейная регрессия , k-Nearest Neighbours , Support Vector Machines и многое другое…
Наконец, отдерните занавес на
Алгоритмы машинного обучения
Пропустить академики. Только результаты.
Посмотрите, что внутриДрейф модели и обеспечение здорового жизненного цикла машинного обучения
Жизненный цикл машинного обучения начинается с хранения данных, конвейерной обработки ETL и обучения модели. В Algorithmia мы фокусируемся на следующих этапах жизненного цикла: развертывании, управлении и эксплуатации. Развертывание машинного обучения играет решающую роль в обеспечении хорошей работы модели как сейчас, так и в будущем, но также жизненно важно понимать мониторинг модели и дрейф модели к той же цели.
Отслеживая отклонение модели, вы можете определить, ухудшается ли ваша модель со временем. Например, вы можете отслеживать, снижается ли точность вашей модели после развертывания новой модели.
Эффективный процесс мониторинга дрейфа модели может гарантировать, что ваша критически важная производственная система сможет безопасно развернуть новые версии, но при необходимости вернуться к более стабильной версии.
Модель дрифт
Многие модели машинного обучения, как правило, представляют собой черные ящики, где объяснимость очень ограничена, что может затруднить понимание того, почему модель не работает так, как ожидалось.Это особенно верно в отношении того, как модель работает с новыми обучающими данными с течением времени.
Концепт дрифтМодель, которая изначально работала довольно хорошо, позже может ухудшиться из-за концепции, называемой дрейфом данных или дрейфом концепций. Дрейф данных происходит, когда основная статистическая структура ваших данных изменяется с течением времени.
Например, предположим, что изначально у нас была модель распознавания лиц, которая была обучена на человеческих лицах без очков.После того, как мы представим более разнообразный набор данных, включающий лица в очках, эта базовая репрезентативная структура лица изменится. Модель не будет знать, как классифицировать очки, что может повлиять на способность модели распознавать лица. Это может потребовать внесения изменений в модель или изменений в способах обучения модели.
Устранение смещения модели
Обычно дрейф модели наблюдается у конечных пользователей продукта. Вы замечаете, что распознавание речи вашей умной колонки со временем ухудшается, и к тому времени, когда инженеры компании узнают об этом, может оказаться нетривиальным вернуться к более старой версии.
Одна из причин этого состоит в том, что каждая модель обладает конечной мощностью выражения (т. Е. Способностью к обучению). Определенные архитектуры машинного обучения могут изучать и обобщать одни виды структур данных лучше, чем другие. Например, при распознавании речи, когда вы пытаетесь добавить больше языков в свою модель обучения, не изменяя выразимость модели, или не понимаете, что базовая статистическая структура ваших данных изменяется, вы можете получить модель с гораздо худшей производительностью, чем раньше.
И поскольку откат может привести к потере доступа к новым функциям модели, таким как добавленная языковая поддержка, решения о продукте могут помешать вам откатиться к более старой, более стабильной версии модели.
Мониторинг модели
Определение критических пороговых значений, обнаружение нарушений этих пороговых значений и защита производственной системы машинного обучения от деградации — основная цель мониторинга модели.
Мониторинг модели очень похож на непрерывную интеграцию / непрерывное развертывание (CI / CD) в традиционной разработке программного обеспечения.В системах CI / CD вы отслеживаете весь жизненный цикл разработки и развертывания программного обеспечения с помощью автоматизированных инструментов и предупреждений. Цель мониторинга моделей — внедрить некоторые из этих устоявшихся правил и систем в современные производственные системы, использующие машинное обучение.
Машинное обучение по своей сути отличается от традиционных систем разработки программного обеспечения тем, что:
- Графические процессоры — ключевой компонент машинного обучения. Традиционные системы CI / CD не предназначены для работы непосредственно с графическими процессорами и кодом, скомпилированным с помощью графического процессора (например, CUDA).
- Традиционные системы CI / CD не предназначены для проведения экспериментов по науке о данных, и выполнение этих тестов требует создания обширных конвейеров ETL для работы с источниками данных для экспериментов.
- Традиционные инструменты отладки в системах CI / CD не очень полезны для устранения проблем, связанных с дрейфом модели / данных.
Что такое пороги дрейфа модели и как за ним следить? Вот несколько примеров порогов:
- Среднее время работы модели
- Действительно ли оптимизация с высокой точностью помогла повысить производительность?
- Модель метрик, где метриками могут быть точность, точность, отзывчивость, оценка f1 и т. Д.
- Получаем ли мы больше ложных срабатываний с обновленной моделью распознавания речи?
- Метрики данных, где метрики могут быть несбалансированными классами, избыточным распределением данных и т. Д.
- Нужно ли нам настраивать архитектуру модели, чтобы адаптироваться к новой базовой структуре данных? Или, может быть, нам нужно изменить способ обучения нашей модели на данных.
Оценка модели
Когда модель развернута, мы не должны сразу направлять весь трафик в конечную точку новой версии.Только часть трафика (~ 5 процентов) должна быть направлена в новую модель и должна оцениваться с использованием одного или нескольких пороговых значений.
Если обнаружено нарушение порога, система должна пометить соответствующую модель как списанную и выполнить откат (5 процентов запросов) до последней стабильной версии.
Если нарушение не обнаружено по прошествии определенного времени, система должна начать развертывание (оставшиеся 95 процентов) до новой модели и пометить ее как последнюю стабильную версию.
Эта система мониторинга может обеспечить автоматический способ развертывания моделей машинного обучения в производстве, не вызывая значительного отклонения модели.
Стоит отметить, что существуют и другие подходы к оценке моделей, такие как A / B-тестирование, тестирование чемпион-претендент и т. Д.
Прочтите эту статью в блоге, чтобы узнать больше об оценке модели.
Сценарии использованияВ каких областях возможного применения мониторинг модели имеет смысл?
- Дрейф данных: Если вы начинаете видеть снижение вовлеченности пользователей после развертывания модели, это может быть признаком дрейфа модели.
- Возможности обучения модели: Конкретные версии модели отлично работают с подмножествами пользователей. Это может произойти, когда вы достигнете способности модели к обучению. Действительной стратегией здесь могло бы быть использование разных моделей для разных подгрупп пользователей. Прежде чем делать это, важно иметь возможность контролировать свои модели на предмет дрейфа.
- Изменение, снижающее производительность: Небольшие архитектурные изменения модели могут непреднамеренно привести к серьезному снижению производительности.Простой и автоматизированный способ отката делает вашу систему машинного обучения менее хрупкой.
- Неправильные развертывания и ошибки: Возможность быстрого тестирования новой модели на разовой основе для выявления ошибок может предотвратить появление скрытых проблем в производстве. (Например, возможно, производственные серверы используют немного другое оборудование графического процессора, что может вызвать ошибку в вашей модели и среде машинного обучения.)
- Циклы обслуживания и ручного развертывания: Наличие автоматизированной системы экономит время и ресурсы для специалистов по данным.Им не следует увлекаться созданием и отладкой инфраструктуры машинного обучения.
Разработка и реализация мониторинга модели может выглядеть по-разному в зависимости от платформы, на которой вы работаете. Алгоритмия использует очень гибкий подход. Наша платформа представляет собой бессерверную службу с подключением к графическому процессору, которая позволяет использовать преимущества бессерверной архитектуры.
Как выглядит мониторинг модели в Algorithmia? У нас есть алгоритм оркестрации, который управляет всей бизнес-логикой определения отклонения модели и принятия решения о развертывании новой модели.
Алгоритмы оркестрацииАлгоритм оркестрации в основном будет делать следующее:
- Если стабильных версий не существует, сделать первую опубликованную версию алгоритма стабильной версией.
- Следить за:
- Стабильная версия модели
- Устаревшие версии модели
- Неудачная версия модели
- Маршрутизировать все запросы к модели:
- Все запросы к стабильной версии, если нет тестовой модели
- 95 процентов из них в стабильную версию и 5 процентов из них в тестовую модель
- Следите за показателями дрейфа модели:
- Это будет использоваться для определения того, сместилась ли модель в конце периода тестирования.
- Продвижение или откат:
- Если модель не дрейфует, тестовая модель будет продвигаться как стабильная версия. Предыдущая стабильная модель будет считаться устаревшей.
- Если произошло отклонение модели, тестовая модель помечается как неудачная, и все запросы направляются в стабильную версию.
Разделение на 5 и 95 процентов здесь произвольно и может быть настроено в соответствии с вариантом использования. С точки зрения реализации, база данных может использоваться для обеспечения транзакций ACID, поскольку все запросы выполняются на распределенной бессерверной платформе.Это необходимо для предотвращения возникновения условий гонки.
Примечание: Мы также создали пример алгоритма, чтобы продемонстрировать аналогичный рабочий процесс, описанный выше. Вы можете найти исходный код здесь.
Заключение и продолжение обучения
Мы затронули ряд новых концепций, таких как дрейф данных, дрейф модели и мониторинг модели. Мы узнали, как мониторинг моделей помогает защитить системы машинного обучения от незаметного снижения производительности с течением времени, помогает обнаруживать проблемы с возможностями обучения модели и помогает настроить цикл автоматического развертывания для специалистов по данным.Мы также более подробно рассмотрели, как это может работать в среде бессерверного развертывания.
Если вы хотите узнать больше об управлении моделями, загрузите наш технический документ о семи шагах к эффективному управлению.
Больше из серии блогов по управлению AI / ML
Букварь по дрейфу данных. Когда модели машинного обучения не… | от Du Phan | данные из окопов
Чтобы упростить задачу, мы используем одномерную точку зрения, сосредоточив внимание на характеристике алкоголь .Тем не менее, рассуждения можно обобщить на несколько измерений, что обычно и имеет место на практике (несколько характеристик меняются одновременно).
Вопрос, на который мы хотим ответить:
Изменится ли производительность модели, обученной на моем тренировочном наборе (вина с уровнем алкоголя выше 11%), при подсчете баллов для новых бутылок (в которых уровень алкоголя ниже 11%). )?
Следует отметить одну важную деталь: оценка касается сравнительных характеристик модели между исходными и новыми данными, а не абсолютных характеристик модели.
Если у нас есть основные метки истинности новых данных, один из простых подходов состоит в том, чтобы оценить новый набор данных, а затем сравнить метрики производительности между исходным обучающим набором и новым набором данных. Однако в реальной жизни получение наземных меток для новых наборов данных обычно откладывается. В нашем случае нам придется покупать и выпивать все доступные бутылки, что является заманчивым выбором … но, вероятно, не лучшим выбором.
Следовательно, чтобы иметь возможность своевременно реагировать, нам нужно будет основывать производительность исключительно на характеристиках входящих данных.Логика заключается в том, что если распределение данных между фазой обучения и фазой тестирования расходится, это сильный сигнал о том, что производительность модели не будет такой же.
С учетом сказанного, на приведенный выше вопрос можно ответить, проверив дрейф данных между исходным обучающим набором и входящим набором тестов.
Теперь вернемся к нашим винам и более подробно рассмотрим различные ситуации, в которых происходит дрейф данных. В этом разделе мы обучаем и тестируем нашу модель именно так.
Из набора данных wine_alcohol_above_11 мы случайным образом разделили их на два:
- Первый для обучения модели, обозначенный cohol_above_11_train, будет далее разделен на наборы для обучения и проверки.
- Другой для тестирования модели называется cohol_above_11_test .
Мы подгоняем модель случайного леса на cohol_above_11_train. Модель набрала 0,709 балла F1 на выносливости.
Ситуация 1: Нет дрейфа
Здесь целевой набор данных является исходным набором данных wine_alcohol_above_11:
Распределение плотности cohol_above_11_train (красный) против _ _instant____2 случайная выборка дает нам два набора данных с аналогичным распределением алкоголя. Основываясь на предположении IID, производительность модели не должна сильно меняться между данными удержания набора поездов и набора тестов.При использовании этой модели для набора данных cohol_above_11_test оценка F1 составляет 0,694: когда нет дрейфа в распределении уровня алкоголя между поездом и тестовым набором, похоже, нет дрейфа и с другими функциями, и взаимосвязь изучена между функциями и целью удерживается для тестового набора.
Формально, поскольку ни P (x), ни P (y | x) не изменились, производительность модели на новом наборе данных аналогична.
С помощью обученной модели, приведенной выше, мы более подробно рассмотрим оценку F1 на бочку алкоголя в наборе данных cohol_above_11_test :
Из этой таблицы можно сделать два важных наблюдения:
- Если есть много вин с уровни алкоголя от 10% до 12% в новом наборе данных, мы должны ожидать, что оценка F1 по этим новым данным ухудшится.Напротив, если поступит больше вин от 13% до 14%, производительность будет лучше.
- До сих пор в этой модели уровень алкоголя составлял от 11% до 14%. Если ему приходится оценивать некоторые вина с уровнем алкоголя за пределами этого диапазона, его производительность непредсказуема — он может либо повыситься, либо (что более вероятно) упасть.
Последнее наблюдение приводит нас ко второй ситуации: дрейф характеристик.
Ситуация 2: дрейф признаков (или ковариативный дрейф)
Давайте теперь воспользуемся этой моделью, чтобы спрогнозировать качество вина из набора данных wine_alcohol_below_11 , того, что мы считаем невидимыми данными в действительности.Обратите внимание, что мы еще не касались этого на этапе обучения.
Из-за способа разделения исходного набора данных все вина в этом наборе данных имеют уровень алкоголя за пределами диапазона обучающего набора. При подсчете очков мы получили общий балл F1 0,295, что плохо по сравнению с результатами на этапе обучения. Оценки для каждого бункера следующие:
За исключением последнего бункера, который все еще находится в обычном диапазоне, производительность для всего остального резко падает.
Это явление называется дрейфом признаков (ковариативный дрейф или ). : это происходит, когда некоторые ранее редкие или даже невидимые векторы признаков становятся более частыми, и наоборот.Однако отношения между функцией и целью остаются прежними.
Вот еще одна иллюстрация этой ситуации в литературе, где исходный обучающий набор не совсем точно представляет фактическую популяцию, и, таким образом, модель, полученная на его основе, смещена и плохо работает на тестовых данных:
В нашем конкретном случае использования, Переобучение модели определенно может улучшить производительность, так как у модели будет возможность учиться на винах с диапазоном алкоголя за пределами 11% -14%.
Ситуация 3: Дрейф концепции
Вначале мы сказали, что необработанные данные уже имеют оценку качества от 0 до 10. Давайте сделаем шаг назад и подумаем, как они получают эту оценку.
Один из логических сценариев состоит в том, что существует группа винных экспертов, которые тестируют каждое из вин и выставляют оценку. Учитывая, что все вина из Португалии, можно смело предположить, что знатоки тоже португальские.
Допустим, в нашем местном винном магазине есть португальские бутылки.Теперь вопрос в том, будет ли эта модель работать достаточно хорошо, чтобы мы могли найти хорошее португальское вино для нас, людей, которые больше любят французские вина.
Вы можете начать видеть потенциальную проблему: модель была обучена узнавать о предпочтениях португальцев с помощью присвоенных ими оценок качества, и, вероятно, эта оценка не будет применима к тем, кто предпочитает французское вино.
Мы только что наблюдали то, что называется «дрейфом концепций»: мы все еще смотрим на португальские вина, поэтому атрибуты вин не меняются, но понятие «хорошее вино» изменилось.
Ситуация 4: Двойной дрейф
Теперь предположим, что мы сделаем еще один шаг и воспользуемся моделью для оценки французских вин. В этом сценарии атрибуты вин обязательно изменятся, как и концепция хорошего вина (как и в предыдущей ситуации). Результаты, вероятно, не будут очень удовлетворительными.
Производство машинного обучения: от развертывания до обнаружения дрейфа
Попробуйте этот ноутбук, чтобы воспроизвести шаги, описанные ниже, и посмотрите наш веб-семинар по запросу, чтобы узнать больше.
Во многих статьях и блогах рабочий процесс машинного обучения начинается с подготовки данных и заканчивается развертыванием модели в производственной среде. Но на самом деле это только начало жизненного цикла модели машинного обучения. Как говорится, «перемены — единственная константа в жизни». Это также относится к моделям машинного обучения, поскольку со временем их точность или предсказательная сила могут ухудшиться, что часто называют дрифтом модели t . В этом блоге обсуждается, как обнаружить и устранить дрейф модели.
Дрейф модели может произойти, когда есть какая-либо форма изменения данных функций или целевых зависимостей. Мы можем в общих чертах разделить эти изменения на следующие три категории: дрейф концепции, дрейф данных и изменения исходных данных.
Концепт Drift
Когда меняются статистические свойства целевой переменной, меняется и само понятие того, что вы пытаетесь предсказать. Например, определение того, что считается мошеннической транзакцией, может со временем измениться по мере разработки новых способов проведения таких незаконных транзакций.Такое изменение приведет к дрейфу концепции.
Дрейф данных
Элементы, используемые для обучения модели, выбираются из входных данных. Изменение статистических свойств этих входных данных окажет влияние на качество модели. Например, изменения данных из-за сезонности, изменения личных предпочтений, тенденций и т. Д. Приведут к дрейфу входящих данных.
Изменения исходящих данных
Иногда могут произойти рабочие изменения в восходящем конвейере данных, которые могут повлиять на качество модели.Например, изменения в кодировке функций, такие как переключение с Фаренгейта на Цельсия, и функции, которые больше не создаются, приводят к нулевым или пропущенным значениям и т. Д.
Учитывая, что такие изменения произойдут после развертывания модели в производственной среде, лучше всего отслеживать изменения и предпринимать действия, когда они происходят. Наличие цикла обратной связи от системы мониторинга и обновления моделей с течением времени поможет избежать устаревания модели.
Как мы видели выше, дрейф может происходить из различных источников, и поэтому вы должны контролировать все эти источники, чтобы обеспечить полное покрытие.Вот несколько сценариев, в которых можно развернуть мониторинг:
Данные обучения
- Схема и распределение входящих данных
- Раздача этикеток
Запросы и прогнозы
- Схема и распределение запросов
- Распространение прогнозов
- Качество прогнозов
Обнаружение дрейфа данных с помощью Delta Lake
Качество данных — это первая линия защиты от низкого качества модели и ее дрейфа.Delta Lake помогает обеспечить высокое качество и надежность построения конвейера данных, предоставляя такие функции, как соблюдение схемы, тип данных и ожидаемое качество. Обычно проблемы с качеством или правильностью данных можно исправить, обновив конвейер входящих данных, например исправив или доработав схему, очистив ошибочные метки и т. Д.
Определение дрейфа концепций и моделей с помощью Databricks Runtime для ML и MLflow
Распространенным способом обнаружения дрейфа модели является мониторинг качества прогнозов.Идеальное упражнение по обучению модели машинного обучения должно начинаться с загрузки данных из таких источников, как таблицы Delta Lake, с последующим проектированием функций, настройкой и выбором модели с использованием Databricks Runtime для машинного обучения, при этом все эксперименты и созданные модели отслеживаются в MLflow.
На этапе развертывания модели загружаются из MLflow во время выполнения для прогнозирования. Вы можете регистрировать метрики производительности модели, а также прогнозы обратно в хранилище, такое как Delta Lake, для использования в последующих системах и мониторинге производительности.Сохраняя данные обучения, показатели производительности и прогнозы в одном месте, вы можете обеспечить точный мониторинг.
Во время обучения с учителем вы используете функции и метки из данных обучения, чтобы оценить качество модели. После развертывания модели вы можете регистрировать и отслеживать два типа данных: показатели производительности модели и показатели качества модели.
- Показатели производительности модели относятся к техническим аспектам модели, таким как задержка вывода или объем памяти.Эти метрики можно легко регистрировать и отслеживать при развертывании модели на Databricks.
- Показатели качества модели зависят от фактических этикеток. После регистрации меток вы можете сравнить прогнозируемые и фактические метки, чтобы вычислить показатели качества и обнаружить дрейф в прогнозируемом качестве модели.
В приведенном ниже примере архитектуры в качестве источников потоковой передачи из Delta Lake используются данные с датчиков Интернета вещей (функции) и фактическое качество продукции (этикетки).На основе этих данных вы создаете модель для прогнозирования качества продукта на основе данных датчиков Интернета вещей. Развернутые производственные модели в MLflow загружаются в конвейер оценки, чтобы получить прогнозируемое качество продукта (прогнозируемые этикетки).
Для отслеживания дрейфа вы объединяете фактическое качество продукта (этикетки) и прогнозируемое качество (прогнозируемые этикетки) и подводите итоги в течение временного окна к качеству модели тренда. Этот обобщенный KPI для мониторинга качества модели может варьироваться в зависимости от потребностей бизнеса, и можно рассчитать несколько таких KPI, чтобы обеспечить достаточный охват.См. Пример во фрагменте кода ниже.
def track_model_quality (реальный, прогнозируемый): # Присоедините фактический ярлык и прогнозируемый ярлык quality_compare = predicted.join (реальный, "pid") # Создайте столбец, указывающий, точна ли предсказанная метка quality_compare = quality_compare.withColumn ( 'precision_prediction', F.when ((F.col ('качество') == F.col ('предсказанное_качество')), 1) \ . в противном случае (0) ) # Суммируйте точные метки в течение временного окна, чтобы получить процент точных прогнозов precision_prediction_summary = (quality_compare.groupBy (F.window (F.col ('время_процесса'), '1 день'). псевдоним ('окно'), F.col ('точное_предсказание')) .считать() .withColumn ('window_day', F.expr ('to_date (window.start)')). .withColumn ('total', F.sum (F.col ('count')). over (Window.partitionBy ('window_day'))) .withColumn ('ratio', F.col ('count') * 100 / F.col ('total')) .select ('день_окна', 'точное_предсказание', 'количество', 'всего', 'соотношение') .withColumn ('точное_предсказание', F.when (F.col ('precision_prediction') == 1, 'Точный').в противном случае ('Неточно')) .orderBy ('window_day') ) возврат precision_prediction_summary
В зависимости от того, насколько фактические метки поступают с задержкой по сравнению с прогнозируемыми, это может быть значительным индикатором запаздывания. Чтобы обеспечить раннее предупреждение о дрейфе, этот индикатор может сопровождаться опережающими индикаторами, такими как распределение прогнозируемых меток качества. Чтобы избежать ложных срабатываний, такие ключевые показатели эффективности должны разрабатываться с учетом бизнес-контекста.
Вы можете установить точный сводный тренд прогноза в пределах контроля, приемлемых для бизнес-потребностей.Сводку затем можно отслеживать с помощью стандартных методов статистического управления процессом. Когда тренд выходит за эти контрольные пределы, он может инициировать уведомление или действие для воссоздания новой модели с использованием более новых данных.
Следующие шаги
Следуйте инструкциям в этом репозитории GitHub, чтобы воспроизвести приведенный выше пример и адаптировать его к вашим вариантам использования. Дополнительную информацию см. В соответствующем веб-семинаре «Производство машинного обучения — от развертывания до обнаружения смещения».
лучших практик для работы с Concept Drift
Вы обучили модель машинного обучения, проверили ее производительность по нескольким показателям, которые выглядят хорошо, вы запустили ее в производство, а затем произошло что-то непредвиденное (наступила пандемия, такая как COVID-19), и прогнозы модели сошли с ума. Хотите знать, что случилось?
Вы стали жертвой явления, называемого дрейфом понятий.
Но не расстраивайтесь, как это происходит со всеми нами постоянно.
Гераклит, греческий философ сказал: «Изменения — единственная постоянная в жизни».
В динамичном мире нет ничего постоянного. Это особенно верно, когда речь идет о данных. Данные, полученные из источника истины, со временем меняют свое основное распределение.
В качестве примера представьте систему рекомендаций по продуктам в электронной коммерции. Как вы думаете, будет ли модель, обученная до COVID-19, одинаково хорошо работать во время пандемии COVID-19? Из-за такого рода непредвиденных обстоятельств поведение пользователей сильно изменилось.Большинство пользователей сосредотачиваются на покупке предметов первой необходимости, а не на дорогих гаджетах. Итак, данные о поведении пользователя изменились. Наряду с этим, поскольку многие продукты отсутствуют на рынке в такой ситуации, мы видим совершенно другую схему покупок для пользователей.
Часто эти изменения в данных делают модель, построенную на старых данных, несовместимой с новыми данными, эта проблема называется «дрейф концепций».
В этой статье речь пойдет о:
Примечание:
Вы можете проверить некоторые другие статьи из нашего блога:
Откройте их в новой вкладке на потом и вернитесь к чтению о концептуальном дрейфе 🙂
Что означает понятие «дрейф»?
Рис. 1: Жизненный цикл прогнозной модели«Дрейф концепций является наиболее нежелательным, но распространенным свойством потоковой передачи данных, поскольку потоки данных очень непредсказуемы.Из-за дрейфа концепций эффективность таких методов добычи полезных ископаемых, как классификация или кластеризация, ухудшается по мере увеличения вероятности ошибочной классификации. Следовательно, становится необходимым идентифицировать такие отклонения в данных, чтобы получить эффективные и точные результаты ».
(Ссылка: методы исследования дрейфа концепций в потоках больших данных)
При прогнозном моделировании (как показано на рисунке выше) мы строим контролируемую модель на основе исторических данных, а затем используем обученную модель для прогнозирования на основе невидимых данных.В процессе модель изучает взаимосвязь между целевой переменной и входными функциями.
Рис. 2: Обученная модель не смогла правильно спрогнозировать данные теста вне корпуса
Например, классификатор спама в электронной почте, который прогнозирует, является ли электронное письмо спамом или нет, на основе текстового тела электронного письма. Модель машинного обучения изучает взаимосвязь между целевой переменной (спам или не спам) и набором ключевых слов, который появляется в спаме. Эти наборы ключевых слов могут быть непостоянными, их шаблон меняется со временем .Следовательно, модель, построенная на старом наборе электронных писем, больше не работает с новым шаблоном ключевых слов. Если это так, то необходимо переобучить модель на текущем наборе данных.
На этом рисунке показана производительность модели с течением времени, поскольку вы видите, что производительность модели (измеряемая по шкале F1) ухудшается с течением времени. Это явление называется распадом модели. По мере того, как производительность падает ниже порогового значения, модель повторно обучается на повторно помеченном наборе данных.Так решается проблема распада модели. Если эта проблема не решается или не отслеживается, производительность модели будет ухудшаться, и в какой-то момент модель больше не будет служить цели.
В общем, распад Модели мог произойти из-за следующего типа сдвига.
- Ковариальный сдвиг: Сдвиг независимых переменных.
- Предыдущий сдвиг вероятности: Сдвиг целевой переменной.
- Concept Drift: Сдвиг во взаимосвязи между независимой и целевой переменной.
Концептуальный дрейф и ковариативный сдвиг
Рассмотрим модель рекомендации фильмов, которая была обучена на фильмах, которые смотрели пенсионеры, даст ли она хорошую точность, когда эта модель будет использоваться для рекомендации фильмов для детей? он не будет. Причина в том, что между этими двумя группами существует большой разрыв в интересах и деятельности. Значит, в этих условиях модель выйдет из строя. Такие изменений в распределении данных в обучающих и тестовых наборах называются ковариатным сдвигом.
Рис. 4: Разница в распределении между обучающим и тестовым набором данных в случае ковариатного сдвига (Ссылка)Основная причина возникновения ковариатного сдвига — смещение выборки и нестационарность среды.
- Смещение выборки: Это относится к систематическому недостатку в процессе сбора или маркировки данных, из-за которого обучающие примеры выбираются неравномерно из генеральной совокупности, моделируемой единообразно.
- Нестационарные стационарные среды: Появляется, когда обучающая среда отличается от тестовой, будь то из-за временного или пространственного изменения.
Covariate Shift и Concept Drift, оба являются причиной ухудшения характеристик модели, но к обоим следует относиться по-разному. Таким образом, необходимо устранить неоднозначность ковариатного сдвига от дрейфа концепций и следует применять профилактические меры, основанные на наличии ковариантного сдвига или дрейфа концепций, или и того, и другого.
Дрейф данных против дрейфа концепций
В мире больших данных ежесекундно генерируются миллиарды данных. Поскольку мы собираем данные из источника в течение длительного времени, сами данные могут измениться, и это может быть вызвано несколькими причинами. это может быть связано с динамическим поведением шума в данных или может быть связано с изменением процесса сбора данных.
Когда данные изменяются в целом, эта проблема называется дрейфом данных, тогда как изменения в контексте целевой переменной называются дрейфом понятий.Оба эти дрейфа вызывают распад модели, но требуют отдельного рассмотрения.
Примеры дрейфа концепции
- Персонализация : будь то электронная коммерция, система рекомендаций по фильмам или персональный помощник, персонализация является ключом к успеху для большинства ориентированных на клиента предприятий. В электронной коммерции система персонализации пытается профилировать модель покупок пользователя и на основе этого предоставлять персонализированные результаты поиска или рекомендовать соответствующие продукты.Из-за непредвиденных обстоятельств покупательское поведение пользователя может со временем измениться, это может быть из-за жизненного события , такого как брак, переезд в другое географическое место, или это может быть из-за пандемии, такой как COVID-19. Это событие радикально изменило покупательских привычек . Из-за факторов такого рода созданная сегодня система персонализации может потерять актуальность через несколько лет, и это связано с проблемой дрейфа концепций.
- Прогнозирование: Прогнозирование — это область исследований, в которой мы прогнозируем будущие тенденции.Он широко используется в финансах, прогнозировании погоды и спроса. Обычно такие модели строятся с использованием исторических данных, и ожидается, что они будут отражать вид тренда и сезонности, присутствующие в исторических данных, которые могут быть отслежены в будущем. Но из-за непредвиденных обстоятельств тенденция может измениться , что может привести к дрейфу концепции. В погодных данных есть сезонные изменения, которые происходят очень медленно. В других приложениях такие изменения обычно выполняются намного медленнее.Но со временем это делает существующую модель устаревшей.
Как отслеживать смещение концепций
Рис. 5: Концептуальная система контроля сносаОбщий способ отслеживания дрейфа концепций изображен на следующем изображении:
- Сначала набор обучающих данных собирается и курируется,
- , затем модель обучается на этом.
- модель постоянно проверяется на соответствие золотому набору данных, который курируется экспертами-людьми.
- Если оценка производительности снижается ниже порогового значения, срабатывает сигнал тревоги для повторного обучения модели.
В первую очередь существует 3 вида дрейфа концепций, как показано на рис. 2, и каждый тип явления требует своего метода для его обнаружения (и отслеживания изменений).
Рис. 6: Типы концептуального дрейфа- Внезапный : сдвиг концепции происходит внезапно из-за непредвиденных обстоятельств, таких как пандемия COVID-19, которая затронула несколько секторов, таких как электронная коммерция, здравоохранение, финансы, страхование и многие другие.Такое резкое изменение может произойти всего за несколько недель. Такой дрейф обычно вызван каким-то внешним событием. Если нет активной системы мониторинга для обнаружения дрейфа данных, естественно выполнить быструю оценку наличия дрейфа концепции после крупного события.
- Постепенно: Такой сдвиг занимает много времени, и для многих случаев использования это вполне естественно. Например, инфляция может повлиять на модель ценообразования, что может занять много времени, чтобы оказать значительное влияние.Постепенные или иногда называемые инкрементными изменениями обычно учитываются в модели временных рядов, фиксируя изменение сезонности, если не обращать внимания, это вызывает озабоченность и требует решения.
- Повторяющийся: Такой дрейф происходит периодически, возможно, в определенное время в году. Например, во время таких мероприятий, как Черная пятница, Хэллоуин и т. Д., Покупательские привычки пользователей отличаются от других периодов года. Таким образом, во время этого события используется другая модель, специально обученная на данных Черной пятницы.Повторяющиеся паттерны трудно отслеживать, поскольку периодичность паттерна также может быть динамической.
В зависимости от существующего типа дрейфа концепций существует разнообразный набор методов для отслеживания дрейфа концепций.
Некоторые из наиболее известных методов:
- Мониторинг работоспособности модели в течение длительного времени. Например, можно отслеживать F1-оценку как показатель точности, и если оценка ухудшается в течение длительного времени, это может быть сигналом о дрейфе концепции.
- Контроль достоверности классификации (применимо только к классификации). Оценка достоверности прогноза отражает вероятность принадлежности точки данных к прогнозируемому классу. Значительная разница в средней оценке достоверности в двух окнах указывает на появление дрейфа концепции.
Как предотвратить смещение концепций
Теперь самый большой вопрос заключается в том, можно ли избежать этой проблемы и как предотвратить ее появление.
Идеальная концептуальная система обработки заносов должна:
- быстро адаптировать к смещению концепции,
- быть устойчивым к шуму и отличить его от смещения концепции,
- распознавать и обрабатывать значительный смещение в производительности модели.
На высоком уровне существует 5 способов решения проблемы дрейфа концепций.
- Онлайн-обучение , где учащийся обновляется «на лету», поскольку модель обрабатывает один образец за раз.На самом деле большинство реальных приложений работают с потоковыми данными, и онлайн-обучение является наиболее заметным способом предотвращения дрейфа концепций.
- Периодически переобучайте модель, которая может запускаться в разных случаях, например, когда производительность модели падает ниже заданного порога или когда средний показатель достоверности между двумя окнами данных обнаруживает значительный дрейф.
- Периодически повторно тренируйтесь на репрезентативной подвыборке. Если обнаружено присутствие дрейфа концепций, выберите подвыборку совокупности, используя такой метод, как выбор экземпляра , где выборка является репрезентативной для совокупности и следует тому же распределению вероятностей, что и исходное распределение данных.Затем явно перемаркируйте эти точки данных с помощью экспертов-людей и обучите модель на специально подобранном наборе данных.
- Ансамблевое обучение с взвешиванием модели , где несколько моделей объединяются в ансамбль, а выходные данные обычно являются средневзвешенными по выходным данным отдельной модели.
- Удаление функций — еще один способ справиться с дрейфом концепции. Несколько моделей строятся с использованием одной функции за раз и отбрасывают те функции, для которых ответ AUC-ROC не на должном уровне.
Онлайн-обучение
В машинном обучении модели часто обучаются в пакетном режиме , когда учащийся оптимизируется на пакете данных за один раз. В результате получается статическая модель, предполагающая статические отношения между независимой и целевой переменной. Таким образом, по прошествии длительного времени такая модель может потребовать повторного обучения для изучения закономерностей на основе новых данных.
В реальной жизни большая часть приложения работает с потоком потоковых данных в реальном времени , где модель обрабатывает один образец за раз и поэтому может обновляться на лету.Этот процесс называется онлайн-обучением или инкрементальным обучением, которое помогает модели избежать дрейфа концепций, поскольку новые данные используются для постоянного обновления гипотезы модели.
Этот процесс позволяет нам учиться на огромном потоке данных и может легко применяться в таких приложениях, как прогнозирование временных рядов, система рекомендаций для фильмов или электронной коммерции, фильтрация спама и многое другое.
Рис. 6: Типы концептуального дрейфаВ онлайн-обучении наблюдается последовательность примеров, по одному, которые могут быть неравномерно распределены во временном интервале.Итак, на каждой временной метке t мы помечаем исторические данные (X 1 , …… X t ). Использование этих исторических данных (X 1 ,…, X t ) или их подвыборки используется для построения модели, скажем, L t .
Когда прибывает следующая точка данных X t +1, целевая переменная (y t +1) прогнозируется с использованием L t . Как только прибыл следующий экземпляр X t +2, будет доступен реальный y t +1. Итак, модель обновлена историческими данными (X 1 ,….X т , X т +1). Вероятность дрейфа концепции увеличивается, когда данные в разное время генерируются из другого источника. Часто нам не удается устранить неоднозначность между дрейфом концепций и случайным шумом, и мы неверно оцениваем шум как дрейф концепций. Мы должны быть предельно осторожны с шумом.
Примечание:
Обратите внимание, что периодическая сезонность не считается отклонением концепции, за исключением случаев, когда она неизвестна с уверенностью.Например, пик продаж мороженого связан с летом, но он может начинаться в разное время каждый год в зависимости от температуры и других факторов, поэтому точно неизвестно, когда начнется пик.
Creme — это библиотека Python для онлайн-машинного обучения, в которой модель обучается на основе одного наблюдения за раз и может использоваться для обучения на основе потоковых данных. Это один из фантастических инструментов, доступных для онлайн-обучения, который помогает нам уберечь модель от дрейфа концепций.
Модельное переобучение
Другой способ справиться с дрейфом концепций — это периодически переобучать модель , чтобы учиться на исторических данных. Если в модели наблюдается дрейф концепции, ее следует повторно обучить с использованием последних данных.
В качестве примера приложению в области финансов может потребоваться переподготовка в первую неделю апреля, чтобы учесть изменения, связанные с концом финансового года. Другим примером может быть внезапное изменение предпочтений пользователей из-за эпидемии.
Сложность состоит в том, чтобы определить момент, когда необходимо переобучение модели , но, как мы обсуждали ранее, есть способы сделать это. В любом случае, как только дрейф обнаружен, мы переобучаем модель на новых данных, чтобы учесть меняющиеся условия.
Этот процесс может быть дорогостоящим , потому что в контролируемой настройке дополнительные точки данных должны быть перемаркированы. Таким образом, вместо того, чтобы повторно обучать весь набор данных, можно было бы рассмотреть возможность выборочного создания подвыборки из всей генеральной совокупности и повторно обучить ее.Этот подход обсуждается в следующем разделе.
Повторная выборка с использованием выбора экземпляра
Выбор экземпляра — это концепция выбора подмножества из генеральной совокупности путем сохранения базового распределения неизменным, так что выборочные данные являются репрезентативными для характеристик генеральной совокупности данных.
Проще говоря, идея состоит в том, что мы:
- Выберите крошечную, но репрезентативную выборку совокупности (используя такой метод, как выбор экземпляра)
- запустите модель на подвыборке
- найдите точки данных из подвыборки, где производительность модели не дотягивает до отметка.
- при выполнении выбора экземпляра мы поддерживаем карту между репрезентативной выборкой и группой точек данных, представленных этой выборкой. Как только мы составили список наблюдений (из крошечной подвыборки), где производительность модели невысока, мы рассматриваем все точки данных, представленные этими выборками, и повторно обучаем модель на них.
Ансамблевое обучение с взвешиванием модели
Ансамблевое обучение поддерживает ансамбль из нескольких моделей, которые делают комбинированное предсказание .Обычно окончательный прогноз представляет собой средневзвешенное значение индивидуальных прогнозов, где вес отражает производительность отдельной модели на последних данных.
Мотивация метода ансамблевого обучения заключается в том, что во время изменения данные могут быть сгенерированы из смеси нескольких распределений. Ансамбль из нескольких моделей, где каждая модель в отдельности пытается охарактеризовать распределение данных и взаимосвязь между функцией и целевой переменной, должен работать лучше.
Существуют различные варианты ансамблевого обучения в зависимости от того, как обновляются модели. Один из способов состоит в том, что для каждого нового пакета данных новый классификатор обучается и комбинируется с использованием динамически взвешенной стратегии голосования большинством.
Удаление функции
Удаление функций — один из простейших, но эффективных методов решения проблемы дрейфа концепций, широко используемый в отрасли. Идея состоит в том, чтобы построить несколько моделей, в которых одновременно используется одна функция, сохраняя при этом целевую переменную .Для каждой модели после прогнозирования тестовых данных отслеживается ответ AUC-ROC, и если значение AUC-ROC для конкретной функции превышает определенный порог (возможно, 0,8), эта конкретная функция может считаться дрейфующей и, следовательно, функция может быть удалена.
Лучшие методы борьбы с дрейфом концепции
В последнее время в этой области проводится много исследований, и не существует единого стандартного де-факто алгоритма или методологии для решения проблемы дрейфа концепций.Тем не менее, во время моей работы над этими проблемами я пришел к следующему сквозному процессу, который может обнаруживать и предотвращать наличие дрейфа концепций:
Шаг 1: Сбор и предварительная обработка данных:
Этот шаг включает работу с пропущенными значениями, выбросами, кодировкой меток для категориальных переменных и т. Д.
Шаг 2: Маркировка данных:
i) Разделите поток данных на серию окон.
iii) Назначьте метку класса отдельным точкам данных в зависимости от бизнес-контекста.
Шаг 3: Обнаружение отклонения концепции:
i) Точки данных в соседних окнах анализируются для определения отклонения концепции. Метрики точности, такие как точность, точность, отзыв, кривая отклика AUC-ROC и время выполнения, классификация или ошибка кластеризации, могут быть проанализированы для обнаружения дрейфа концепции.
Шаг 4: Избегайте или устраняйте отклонение концепции:
Если обнаружено присутствие дрейфа концепций, следуйте соответствующей методике, чтобы избавиться от него.
Заключительные мысли
Дрейф концепций — важная проблема в машинном обучении и интеллектуальном анализе данных, к которой следует подходить с осторожностью.
Большая проблема заключается в том, как определить наличие дрейфа концепций, поскольку не существует универсального решения. Возникает при наличии множества скрытых факторов, которые сложно выяснить. В основном методы, связанные с «дрейфом концепций» , очень субъективны по отношению к природе проблемы . Тем не менее, методы, упомянутые в этой статье, могут стать хорошим ориентиром для построения базовой системы для обнаружения и предотвращения дрейфа концепций.
По этой теме ведется множество исследований, и в основном они посвящены разработке критериев для обнаружения важных изменений. Необходимы дополнительные исследования для создания надежной системы, которая может запускать оповещение на основе различных видов дрейфа концепций и различного уровня шума.
Артикулы:
Шибсанкар Дас
Старший специалист по данным @WalmartLabs, до этого он работал в Envestnet | Йодли, Microsoft Research и Capgemini.Журнал Analytics India наградил его наградой «40 специалистов по данным до 40» за демонстрацию опыта в области базового машинного обучения и аналитики, особенно в области глубокого обучения, генеративных моделей и обучения с глубоким подкреплением.
ЧИТАТЬ СЛЕДУЮЩИЙ
Лучшие инструменты для мониторинга моделей машинного обучения
4 мин на чтение | Павел Кийко | Отправлено: 4 марта 2021 г.,
Зачем вам следить за своей моделью? Есть много причин.Это может помочь вам понять точность ваших прогнозов, предотвратить ошибки прогнозов и настроить модели для их совершенствования.
В целом, мониторинг модели машинного обучения необходим для успеха вашей модели. Один из самых простых способов обеспечить бесперебойную работу — использовать инструменты мониторинга модели ML .
Они позволят вам автоматизировать работу и оптимизировать небольшие процессы. Часто можно одновременно запустить две модели, чтобы проверить их производительность, увидеть связь между вашей моделью и входными данными и выполнить расширенные тесты.
Выделенные инструменты также можно использовать для совместной работы с вашей командой, делиться своей работой с другими людьми — это общее пространство для совместной работы команд, участия в создании моделей и дальнейшего мониторинга.