Skip to main content
Медиа

Ошибка в восприятии: что надо знать для успешного внедрения ИИ

By 22.01.202128 октября, 2022No Comments

Ксения Дроздова, сооснователь и тимлид команды разработки nlogic, рассказывает, каких ошибок в восприятии искусственного интеллекта (ИИ) стоит избегать, можно ли доверять ИИ и каковы приблизительные сроки внедрения решений на его основе

Термин «искусственный интеллект» уже порядком надоел, да и среди разработчиков принято называть вещи своими именами — машинное обучение, обучение нейронной сети, подкрепление правилами. Но давайте для простоты продолжим называть это искусственным интеллектом, или ИИ.

В чем проблема ИИ

На волне популярности ИИ принял множество обликов. Из-за этого типичное представление о нем стало оторванным от реальности. В исследовании компании Gartner «Hype Cycle» изучен феномен изменения ожиданий от новой технологии со временем. Он заключается в том, что после появления технологии ожидания от нее стремительно растут, затем следует волна разочарования, и только после этого наступает самый интересный этап — плато плодотворного использования.

Анализ восприятия технологий за 2020 год показывает, что ни одно из ИИ-направлений еще не вышло на плато. Поэтому важно обсуждать особенности решений в этой области, чтобы вместе с компаниями из индустрии быстрее прийти к точке эффективности.

Объективное восприятие технологии

Есть ощущение, что ИИ воспринимается как нечто, что решит любую проблему. На самом деле каждый алгоритм ИИ может справляться с задачами не хуже человека лишь в узкой области. Это значит, что для каждой задачи, скорее всего, потребуется свой алгоритм. Даже если эти задачи с первого взгляда и кажутся похожими.

Приведу простой пример — заводу во Владивостоке необходимо определять характеристики клешней краба на конвейере. Установим на конвейере камеры, соберем и разметим данные, решим эту задачу с высокими показателями качества. А теперь представим, что нужно прийти на другой завод и выстроить такой же процесс автоматизации. Можно подумать, что у нас есть готовое решение, и вносить изменения в алгоритм не придется. Не совсем так — уже при смене освещения, скорее всего, понадобится переобучать систему. Получается, что, если мы хотим использовать текущее ИИ-решение при решении другой задачи, не получится сделать это без потери качества или затрат на новый цикл обучения.

Вывод № 1: ИИ пока воспринимается не совсем объективно, что усложняет его внедрение.

Чем привлекает ИИ

Искусственный интеллект — отличный инструмент. С его помощью можно находить сложные закономерности в данных, которые заметит не каждый эксперт. Например, рассмотрим автоматизацию первой линии поддержки — то есть использование наших любимых чат-ботов. В этом классе задач боты должны уметь работать с текстами, написанными живым разговорным языком. Для этого они должны понимать текст на уровне скрытого смысла, грубо говоря, читать между строк. Обученные под такую задачу алгоритмы способны превзойти по качеству ответов человека, не являющегося экспертом.

Кроме того, решения на базе ИИ хорошо автоматизируют монотонную работу, оставляя человеку более осмысленный труд. Например, вместо перепечатывания данных с одного документа в другой юрист может сосредоточиться на содержательной части формируемого документа.

ИИ-решения в отличие от решений, основанных на жесткой логике, легко развивать и улучшать за счет нового потока данных. И, конечно, появление ИИ сделало возможным то, о чем раньше упоминали в фантастических книгах. Например, распознавание объектов на изображении, которое легло в основу алгоритмов беспилотного управления автомобилями.

Вывод № 2: ИИ — отличный инструмент, с появлением которого мы стали решать такие задачи, к которым раньше не могли даже подступиться.

Как работать с данными

Успехи ИИ неразрывно связаны с количеством и репрезентативностью данных. Эти факторы напрямую влияют на обобщающую способность алгоритма — чем качественнее дата-сет, тем модель более устойчива к разнообразию входных данных.

После подбора дата-сета следует этап разметки — выделения в большом количестве примеров тех данных, которые предстоит находить с помощью ИИ.

Например, мы хотим автоматизировать перенос данных из исковых заявлений. Мы можем начинать разметку данных после того, как соберем 100–200 исков. Как это будет происходить? Сначала два человека разметят документ независимо друг от друга — они выделят в тексте или на изображении необходимые данные. Затем разметчик-эксперт проверит все расхождения между ними. Между этими стадиями настраиваемый алгоритм будет выполнять проверки контроля качества. Например, он не разрешит закончить разметку иска до тех пор, пока не будут выделены данные истца и ответчика как обязательные атрибуты этого документа. На основе размеченных данных будет построена ИИ-модель. Она поможет увидеть пропущенные разметчиками ошибки. Разметчик-эксперт финально перепроверит эти данные.

Такой подход требует большого количества ресурсов, но без тщательной проверки нет смысла использовать разметку в принципе — обучение на ошибочных данных приведет к ошибкам в ответах системы. Эти ошибки могут нивелироваться размером дата-сета, но опыт показывает, что лучше иметь «чистые» данные, пусть и в меньшем количестве. К тому же, часть разметки нужна для тестирования качества, где критически важно получать достоверные результаты для оценки готовности проекта.

Я не раз убеждалась, что инвестирование ресурсов в работу с данными в начале проекта позволяет не только добиться решения заметно более высокого качества, но и легко масштабировать его в будущем.

Вывод № 3: Работа с данными является полноценным этапом создания ИИ-решений. Необходимо выделять на нее отдельные ресурсы.

Можно ли доверять ИИ?

Природа ИИ-решений вероятностная, поэтому всегда есть шанс на ошибку. Чтобы ее предотвратить, стоит использовать системы валидации — инструмент для корректировки ответов ИИ. На валидацию попадают такие данные, в правильности которых алгоритм не уверен, и которые предлагается проверить человеку. В дальнейшем эти данные используются для дообучения моделей, что сокращает количество «неуверенных» случаев.

А когда можно без валидации? Без валидации можно обойтись в тех случаях, когда ошибка алгоритма не приведет к ощутимым потерям. Например, валидация не нужна в рекомендательных системах или при оптимизации в компьютерной графике. В этих случаях ошибка алгоритма не приведет к явным потерям — оттоку клиентов или незапланированным расходам, в то время как правильное поведение алгоритма, наоборот, улучшит процесс.

Валидация — важный этап. Отказаться от него — это как отказаться от спасательного жилета на корабле. Не факт, что корабль перевернется, но вы должны быть к этому готовы.

Вывод № 4: Валидацию необходимо использовать в таких ИИ-системах, где ошибка будет иметь серьезные негативные последствия.

Сколько времени занимает разработка ИИ

Наконец, хочется затронуть вопрос о сроках создания и внедрения ИИ-решений.

Вряд ли можно найти единую формулу оценки времени на разработку, однако есть подход, который работает для многих проектов. Его суть — разбить проект на итерации, где время на разработку каждого следующего шага зависит от результатов, полученных на предыдущем.

Примерная продолжительность каждого этапа разработки проекта такая:

  • десять дней на подготовку данных. На этом этапе идет работа с «сырыми» данными. Задача — упорядочить их и разметить. Когда данных станет недостаточно, этап повторится, но уже параллельно с разработкой решения;
  • от 2 до 3 недель на создание минимально жизнеспособного продукта (MVP). За это время можно создать такой функционал, который работает без ошибок в основном на типичных примерах. На этом этапе определяется потолок возможного качества решения в текущих условиях;
  • от 2 недель до 6 месяцев на создание продукта. Здесь фокус направлен на улучшение показателей качества. Продолжительность этапа зависит от результатов на предыдущем шаге. Обычно путь от MVP до готового решения занимает около 4 месяцев. Но уже после первого месяца можно внедрять и тестировать работу системы.

Затем идет стадия вывода в промышленную эксплуатацию. Она может включать в себя установку решения в контур заказчика, интеграцию с внутренними системами или справочниками. И, конечно, надо заложить время на тестирование и отладку внутри целевого процесса.

В среднем, весь цикл разработки решения на основе ИИ занимает около 6 месяцев.

Источник — РБК Pro