Для кризисных центров и бизнеса
Екатеринбургская IT-компания «Социальный код» совместно с двумя студентами ДГТУ разработала первую в России библиотеку искусственного интеллекта для анализа эмоций в речи человека. Технология может применяться на горячих линиях кризисных центров, кол-центров и банков. Открытая библиотека позволит компаниям, желающим внедрить у себя технологии распознавания речи, сэкономить на разработке десятки миллионов рублей.
Aniemore — первая в России открытая библиотека искусственного интеллекта для потоковой аналитики эмоций в речи человека. Это совместная разработка генерального директора екатеринбургской IT-компании «Социальный код» Артема Аментеса и студентов ДГТУ Ильи Лубенца и Ниĸиты Давидчуĸа. Идея сделать библиотеку появилась, когда ребята проходили в компании удаленную стажировку.
— Мы занимаемся разработкой программного обеспечения и исследованиями в сфере искусственного интеллекта и оцифровки личности человека. Стараемся через цифровой след человека в интернете определять его характер, интеллект, поведение. Это достаточно сложно, потому что психология не формализованная наука. Она требует участия человека. Тем интереснее для искусственного интеллекта: может ли он в этом плане заменить людей? Один из контуров личности человека — его эмоциональное состояние. Мы с ребятами поставили задачу научиться определять эмоции в голосе человека и стали экспериментировать и пробовать, — рассказывает Артем Аментес.
В качестве материала для первичного исследования взяли голосовые сообщения. Попросили 30 артистов, 15 мужчин и 15 женщин, записать фразу «привет, как дела?» с разными эмоциями. Получилось 150 сообщений, из которых разработчики сформировали небольшой датасет — обработанный и структурированный массив данных для машинного обучения.
Проектом стали интересоваться стартапы в сфере искусственного интеллекта. Основатели Aniemore поняли, что спрос на подобные продукты есть, и решили развивать его. Проект получил грант Фонда содействия инновациям по программе «Код-ИИ» в размере 6 млн рублей.
— Мы сделали из нашей разработки открытую библиотеку искусственного интеллекта для определения эмоций в речи человека. Включили наш собственный набор данных, доступный для скачивания и использования в других проектах. Это данные со студийным качеством звука, которые собраны по определенному протоколу и хорошо размечены. То есть аудиозаписи представляются в формате сегментированных отрезков. Каждому сегменту присваивается маркировка, какая эмоция за ним стоит. На этих данных можно обучать нейросети: нейросеть их прогоняет много раз и учится распознавать, какие эмоции содержатся в речи, — говорит Артем Аментес. — Мы предоставили в открытый доступ девять моделей, которые используют разные подходы для определения эмоций в голосе.
Суть открытой библиотеки в том, что разработчикам российских компаний, внедряющим технологии распознавания речи в своих продуктах, не нужно писать код, разрабатывать все с нуля, тратить ресурсы и время на обучение, покупать дорогие видеокарты и вычислительное оборудование. Они просто скачивают из открытого репозитория веса моделей и используют их по MIT-лицензии. Российские компании суммарно могут сэкономить на этом миллиарды, отмечает Артем.
Проект поддержал Фонд содействия инновациям, поэтому данные размещены бесплатно. Библиотека позволяет добавлять в программное обеспечение возможность определять эмоциональный фон речи человека как в голосе, так и в тексте. Для этого в библиотеке разработано два соответствующих модуля — Voice и Text. Сейчас объем набора данных содержит более 3000 аудиофрагментов 200 различных людей. Система позволяет распознавать семь эмоций: злость, отвращение, страх, счастье, интерес, грусть, нейтрально. Совокупная точность определения эмоций составляет более 80%.
Разработка может применяться в кол-центрах крупных компаний, банках и кризисных центрах психологической помощи.
— В кол-центры звонит по 100 человек в день. Сначала с ними обычно разговаривает робот, спрашивает, какой вопрос, и в зависимости от ответа переводит на нужного специалиста, — комментирует разработчик. — К этому роботу можно подключить нашу технологию. Она по первым словам определит, какой человек звонит: злой, уставший или в хорошем расположении. В кол-центрах тоже работают люди, и они могут выгорать. Чтобы агрессивные собеседники не попадались одному и тому же сотруднику, система распределяет, кому перенаправить вызов, кто более эмоционально устойчив.
Разработчики Aniemore хотят достучаться и до благотворительных проектов психологической помощи, у которых нет десятков миллионов на установку таких систем, а она для них актуальна.
— Сейчас идет СВО, у родственников мобилизованных разное эмоциональное состояние. Любая чрезвычайная ситуация вызывает шквал звонков. Система позволит определить, у кого острая эмоциональная боль, и быстрее переключить их на нужного специалиста, — говорит Артем Аментес.
Проект получил достаточно высокие оценки экспертов Фонда содействия инновациям. Было отмечено, что это одна из лучших библиотек по анализу речи на русском языке. На западном рынке лидером считается Amazon Alexa, в России Aniemore является одной из передовых, рассказывает Артем.
Илья Лубенец добавляет, что к тому моменту, как команда обучила все модели, открытых аналогов системы в России не было:
— Наша библиотека и модель нацелены конкретно на русский язык. Например, интересный факт об эмоциях в тексте: только в России мы используем просто скобочки вместо смайликов. Англоязычные модели эту деталь оставят без внимания. Перспектива у библиотеки — как у любого open-source-проекта: мы развиваем не просто технологию, но и целое сообщество из разработчиков и компаний вокруг нее. Оно даст нам фидбек об ошибках, предложения по улучшению открытой кодовой базы. Такой подход поможет библиотеке идти в ногу с развитием технологий в области искусственного интеллекта, предлагать улучшения по мере возможности.
Открытая библиотека может использоваться как в небольших проектах, так и в крупных процессах, связанных с системами искусственного интеллекта, говорит Никита Давидчук:
— Мы видим большой потенциал в анализе факторов, влияющих на человеческое поведение в условиях коммуникации, включая работу команд и использование мультимодальных подходов.