Ольга Плосская: «В первую очередь понять, какую задачу планируется решить»

При правильном подходе к делу технологии машинного обучения позволят предприятиям существенно повысить эффективность.

Технологии машинного обучения вышли из стен исследовательских лабораторий и все чаще применяются в повседневной жизни. О том, как они используются производственными предприятиями, рассказывает Ольга Плосская, руководитель проектов отдела анализа данных компании Visiology, внедрявшей системы машинного обучения на предприятиях разных отраслей. Плосская — один из докладчиков практической конференции «Технологии машинного обучения 2018», которую издательство «Открытые системы» проведет 25 сентября.

- Какие типовые задачи решают производственные предприятия при помощи средств машинного обучения?

Во-первых, это задачи по оптимизации технологического процесса — повышению производительности оборудования путем более рационального использования или сокращению расхода сырья на единицу выпускаемой продукции.

Второй большой класс задач связан с предсказанием вероятности выхода из строя оборудования. Их цель — приняв меры по профилактике, обеспечению на складе нужных запчастей, минимизировать издержки из-за поломок и простоев оборудования.

Также можно оценивать, как повлияют на деятельность предприятия внешние риски, например валютные, или использовать машинное обучение для управления цепочками поставок: прогнозирования спроса, оптимизации управления закупками, доставкой, хранением, поддержанием оптимальных складских запасов.

- Из каких стадий состоит типовой проект в этой области?

Прежде всего необходимо сформулировать бизнес-задачу, задокументировать цель проекта, например «повысить производство такого-то продукта на 10%». Эта цель должна обязательно быть выражена в четких цифрах, иметь понятную методику измерения, а также экономическое обоснование.

Дальше надо уяснить, какие данные для анализа есть. Обычно имеется большой массив данных из различных ИТ-систем. Эти данные нужно классифицировать, очистить, нормализовать, понять, какие методы обработки применить, какие алгоритмы могут сработать. То есть оценить, можно ли решить задачу с помощью этих данных.

Когда с данными все становится более или менее ясно, можно переходить к моделированию и прототипированию. Ну а дальше идут собственно обучение, валидация и тестирование на контрольных выборках.

Перед тем как выходить на полноценную разработку, важно провести предварительный эксперимент с моделями-кандидатами, чтобы понять, насколько они применимы. По своему опыту могу сказать, что может возникнуть ситуация, когда модель, например на этапе анализа данных, очень точная, ошибки — сотые доли процента, а в реальных условиях, когда появляется обратная связь с технологическим процессом, зависимость от действий оператора установки, модель начинает себя вести «неправильно». Поэтому мы в процессе разработки проводим небольшие «натурные» эксперименты, регулярно общаемся с технологами, операторами, пользователями, вовлекаем их в работу. Необходимо, чтобы они знали: их знания, их опыт тоже учтены в модели. Тогда они будут больше доверять ей.

Такие эксперименты нужны на каждом этапе, они наглядно показывают, насколько наша модель соотносится с реальностью, и позволяют оперативно ее корректировать.

Следующий этап — опытная эксплуатация в течение достаточно длительного времени. На этом этапе мы удостоверяемся, что модель адекватно справляется с поставленными перед ней техническими задачами, смотрим, насколько достигнуты поставленные цели, соответствует ли функциональность требованиям пользователя, требуется ли доработка и насколько хорошо модель дообучается под изменяющиеся со временем условия.

При положительных результатах можно переходить к следующему этапу — внедрению в промышленную эксплуатацию. Дальше при необходимости мы оказываем поддержку в процессе работы или это делает само предприятие.

- Насколько отечественные предприятия готовы внедрять средства машинного обучения?

Бизнес-руководители полны энтузиазма, однако часто они приходят со сформулированной в общем виде задачей: «Я хочу повысить производительность, у меня есть много-много данных, давайте применим продвинутую аналитику, искусственный интеллект, машинное обучение, и мы заработаем на этом много денег».

Средний менеджмент, технологи, те, кто будет непосредственно работать с моделями, настроены более реалистично или даже скептически. Они лучше понимают, какой процесс стоит моделировать, какие есть ограничения, сколько данных у них есть и какого они качества, и поэтому более осторожно относятся к внедрению новшеств.

Наша задача – оценить и соединить все требования и ограничения, дополнить их таким образом, чтобы разрабатываемая модель была жизнеспособна, применима к текущим данным, функциональна для всех и экономически выгодна.

- От чего зависит степень настороженности?

От общей степени автоматизации бизнес-процессов конкретного предприятия, степени автоматизации его технологических процессов. И от того, насколько менеджмент и специалисты привыкли работать с такого рода решениями, доверять данным, которые они предоставляют. Предприятия среднего и крупного бизнеса в целом достаточно готовы. У них внедрены ERP, MES-системы, АСУ ТП, достаточно высокая культура непрерывных улучшений процессов. Хотя бывает так, что мы приходим на предприятие, где до этого уже были неуспешные реализации подобных задач. Тогда сталкиваемся со скепсисом. Приходится делом убеждать в возможности реализации поставленных целей.

- Как предприятие может подготовиться к внедрению машинного обучения?

В первую очередь понять, какую задачу планируется решить. Правильная формулировка бизнес-задачи, а впоследствии и математической задачи — половина успеха проекта.

Также до начала проекта хорошо бы понять, какие есть реально применимые данные, чтобы не пришлось их нарабатывать в ходе самого проекта.

Хорошо, когда предприятие автоматизировано, особенно если системы, управляющие работой предприятия и его технологическими процессами, не слишком закрытые, у них есть интерфейсы для интеграции с решениями сторонних производителей, что позволяет напрямую забирать из этих решений данные для анализа. Впрочем, наша платформа промышленной аналитики имеет широкие возможности по интеграции как с давно установленными системами АСУ ТП, так и с современными платформами Промышленного интернета.

- Какие основные проблемы возникают при внедрении?

Абстрактная формулировка бизнес–задачи, которая может привести к неправильной цели. Чтобы этого избежать, очень важно общаться со всеми пользователями финального продукта. И не только с топ-менеджментом, но и с технологами, операторами; важно, чтобы они были вовлечены в процесс формулировки бизнес-цели.

Могут возникнуть и проблемы с данными. Нужно понимать, что это за данные, как они измеряются, с какими погрешностями, тогда можно будет оценить границы применимости решения. Для этого очень важно регулярно работать на объекте и постоянно держать контакт с будущими пользователями, проводить вместе с ними предварительное тестирование перед принятием решения о верности разработанной модели.

Также возможна неверная оценка количества и качества имеющихся данных. Например, датчики на протяжении долгого времени давали систематическую ошибку, в ходе текущей работы это учитывали. Но когда начали готовить данные к использованию в проекте по машинному обучению, старые данные пришлось отбросить, и вместо массива трехлетней давности мы имеем данные за последний месяц, когда датчики наконец починили. А этого может быть недостаточно, в месячной выборке могут набраться не все примеры для решения какой-либо задачи. Это, впрочем, не смертельно, просто придется создавать комбинированную модель, совмещать классическое математическое моделирование и алгоритмы машинного обучения. Такое в нашей практике тоже было.

- О чем вы хотите рассказать участникам конференции и о чем хотели бы услышать сами?

Речь пойдет о практическим опыте, полученном в ходе реализации проектов машинного обучения на российских предприятиях. В выступлении я буду опираться на опыт выполненных проектов на химических предприятиях, в организациях сферы госуправления, в энергетических компаниях. Наш опыт в финансовой отрасли тоже применим для промпредприятий, например для прогнозирования справедливой цены на продукцию в зависимости от изменения влияющих факторов и технологических ограничений предприятия и т. д.

Интересно было бы послушать об успешно реализованных проектах data science в логистике, о технологических процессах, связанных с ними бизнес-процессах, о том, какая архитектура используется для внедрения разработок на текущий момент, узнать, какие есть пожелания у предприятий в этом направлении, чтобы оценить тенденции развития отрасли.