en

Формирование обучающих множеств для нейросетей на основе синтезированных данных

Авторы: , А. С. Уразов , Востриков А. А.

 

Аннотация

Рассматривается подход к формированию обучающей выборки на основе визуальных данных для нейронных сетей, полученных не в результате съемки существующих объектов, а созданных искусственно. Целесообразность применения данного подхода диктуется существенным сокращением ресурсов, затрачиваемых на создание обучающих множеств. В качестве модельной прикладной задачи используется автоматическое определение эмоций на основе мимики в статическом изображении лица человека. По результатам сравнительного анализа различных реализаций подхода формулируется обобщенный план дальнейших исследований.

Ключевые слова

НЕЙРОННЫЕ СЕТИ, ОБУЧАЮЩИЕ МНОЖЕСТВА, РАСПОЗНАВАНИЕ ОБРАЗОВ, ОПРЕДЕЛЕНИЕ ЭМОЦИЙ

Введение

Благодаря существенно возросшей производительности современных вычислителей, нейросетевые технологии находят все большее распространение в различных областях деятельности человека. Вычислительная ресурсоемкость преобладающей частью требуется на этапе обучения нейронной сети (далее нейросеть), и для наиболее серьезных из решаемых задач время обучения может занимать недели и месяцы даже при условии применения самых передовых специализированных микропроцессоров. Однако не менее острой и актуальной является задача предоставления обучающего множества данных, объем которых для достижения удовлетворительных результатов, как правило, исчисляется десятками тысяч образцов. Формирование необходимого объема данных для обучения нейросети, таким образом, является не менее, а в некоторых случаях – более, ресурсоемкой частью процесса создания системы искусственного интеллекта, пусть даже решающей довольно узкий круг задач.

В качестве конкретной модельной задачи для изучения возможности оптимизации решения данной задачи выбрано определение эмоций, выражаемых мимикой лица человека. Прикладные цели в данном случае могут быть достаточно разнообразны. Определение возникновения эмоций и, как следствие, поведенческих паттернов человека, может способствовать выявлению агрессивно настроенных людей для предупреждения негативных последствий их действий вплоть до предотвращения преступлений. Мониторинг состояния водителя транспортного средства в автоматическом режиме позволяет вовремя определить состояние, несущее угрозу ему самому, пассажирам и окружающим людям. Детектируя у человека в течение длительного времени грусть и подавленное настроение, можно выявить депрессию и принять необходимые меры по коррекции психологического состояния.

В настоящее время уже существуют решения для распознавания эмоций человека, но все они имеют недостаточно высокую точность, чтобы принимать критические решения. Первопроходцем в данной отрасли является компания ««Affectiva»», их технология позволяет использовать веб-камеру для отслеживания улыбок и неудовольствия пользователя, а также уровня удивления, веселья или растерянности [1]. Ее решения используются для маркетинга и рекламы. Российская компания ««NtechLab»» стала победителем в чемпионате по распознаванию эмоций людей «EmotionNet Challenge» [2, 3]. Точность ее решения в распознавании эмоций составила около 94%. Одновременно следует за- метить, что для определения эмоционального состояния используется не только визуальная информация, но и, например, цифровое представление голосовых данных, как в решении израильского стартапа, компании ««Beyond Verbal Communications» [4].

В контексте описываемых здесь результатов была поставлена задача определения эмоций человека по входящему видеопотоку. На выходе системы должна быть полученная по данному потоку наиболее вероятная эмоция. Перед непосредственным проектированием системы был проведен анализ различных эмоциональных паттернов человека или просто эмоций.

Существует множество различных классификаций эмоций. Классификация из «Теории дифференциальных эмоций» И. Изарда, состоящая из 12 фундаментальных эмоций [5], классификация Р. Плутчик из его «Психоэволюционной теории эмоций» состоит из 8 базовых эмоций и вторичных эмоций (комбинации базовых) [6], классификация из «Теории базовых эмоций» Пола Экмана, содержащая 7 эмоций [1]. Для дифференциации эмоций проектируемой системой была применена последняя. Данная классификация выделяет следующие фундаментальные эмоции:

1) радость (довольство); 2) удивление; 3) печаль (грусть); 4) гнев (злость); 5) отвращение; 6) презрение; 1) страх. Данная классификация определяет достаточное количество эмоций человека для выполнения поставленной задачи.

Так как стоит задача классификации эмоции, необходимо выбрать подходящую архитектуру нейронной сети. Сейчас существует значительное количество различных архитектур нейронных сетей. Персептрон - одна из самых первых архитектур, является моделью восприятия информации мозгом, может выполнять задачи классификации. Глубокая сеть доверия (deep belief network, DBN) при обучении с учителем также может выполнять задачу классификации. Сверточные нейронные сети — сети, которые, в основном, используются для обработки изображений. Они обрабатывают не только полное исходное изображение, но также и отдельные его части. Такой подход позволяет выделить большее количество признаков. Метод опорных векторов (support vector machine) — данная модель представляет примеры в виде точек в пространстве, отображаемые так, чтобы отдельные категории были четко разделены промежутком. На основании сведений о применимости и свойствах архитектур нейронных сетей было принято решение об использовании архитектуры сверточной нейронной сети, так как она показывает хорошие результаты при реализации задач обработки изображений и их классификации [8].

Следующим действием было необходимо найти подходящий набор данных. Поиск происходил с помощью специализированного сервиса от Google «Dataset Search», так и с помощью обычных поисков. К сожалению, многие наборы данных имеют небольшой размер или имеют в себе неподходящие изображения, например, изображения из мультфильмов или имеющие надписи «образец», что ухудшало точность обучения нейросети.

Для тестирования нейросети был выбран набор данных с ресурса «Kaggle», под названием «emotion recognition» [9]. Данный набор содержит около 36 000 изображений с разрешением 48 на 48 пикселей. При обучении нейросети на данном наборе были получены результаты, представленные на рис. 1.

Как видно на графиках (рис. 1), итоговая точность составила около 54-55%. Для формирования собственной выборки было собрано несколько студентов и преподавателей (всего около 6 человек). Все выбранные люди демонстрировали каждую эмоцию около 10 секунд для съемки видеокамерой, стараясь показать не статичную эмоцию, а в движении. Люди, носившие очки, демонстрировали два раза каждую эмоцию (с очками и без них). Таким образом, был собран набор из 77 видеозаписей с разными эмоциями. Перед подачей данных на вход нейросети, их нужно было подготовить. Для этого с помощью программного обеспечения «PrepareDeep-Learning» (разработано доцентом С.А Чернышевым) с помощью каскада Хаара, из каждой видеозаписи выделялись лица с шагом менее 0.1 сек. На выходе программы был сгенерирован также текстовый файл с классификацией каждого изображения. Пример результата обработки видео см. на рис. 2. В итоге было получено 14 тысяч изображений. Так как каскад Хаара при работе допускает неточности, около 6% изображений были за- бракованы (различные части тела, одежды, не относящиеся к лицам). И результирующий объем был близок к 13 тысячам изображений. Перед непосредственной подачей на вход нейросети множество изображений подверглось преобразованию в текстовый, табличный, формат СБУ для того, чтобы можно было в одном файле хранить не только массив данных изображений, но также и их классификацию. После обучения нейросети на новых данных были получены результаты, представленные на рис. 8.

В соответствии с графиками (рис. 3.) точность снизилась до 20-25%, что следует оценивать как хороший и ожидаемый результат. Для увеличения точности, потребуется многократно большее количество изображений различных людей с целевыми эмоциями. Формирование та- ких изображений на основе реальной видео-, фотосъемки потребует колоссальных затрат, в частности из-за необходимости временных за- трат на людские ресурсы.

В результате анализа данного вывода возникло предложение об оценке возможности искусственного создания изображений лиц, модифицируемых по мимике, свойственной той или иной эмоции. Такой подход должен существен- но сократить затраты на формирование обучающего множества. Естественно, он распространяется не только на рассматриваемую прикладную задачу, а на любую необходимость, связанную с обучением нейросетей. Мерой качества в данном случае является идентичность результатов обучения на искусственно созданных элементах обучающего множества и на естественно полученных. В то же время, потенциальная не- достаточность такого качества не критична, так как обученную на искусственных данных нейросеть можно «дообучить» на реальных данных, сократив таким образом затраты на обучение частично.

Данный подход был рассмотрен в приложении к предложенной задаче и выбрано несколько реализаций, каждая из которых обладает собственными преимуществами и недостатками.

1. Поиск и отбор изображений лиц из открытых источников и их модификация для придания мимике отображения той или иной эмоции («Реализация 1»).

2. Создание двухмерных изображений из трехмерных моделей лица (головы) человека с модифицированной мимикой («Реализация 2»).

3. Применение средств генерации изображений, не существующих в действительности людей и их сортировка по выражению эмоций (‹Реализация 3»).

Сравнительный анализ на основе сведений, приведенных в таблице, по совокупности указывает на предпочтительное применение «Реализации 8». Причем недостаток, связанный с необходимостью сортировки изображений по эмоциям может быть нивелирован применением автоматизированных программных средств, в том числе на основе более простых нейронных сетей. Ограничение, связанное с небольшим разнообразием эмоций, существенно для реального прикладного применения системы, построенной на обученной таким образом нейросети. Однако для исследовательских задач, а именно для проверки возможности и эффективности применения искусственно синтезированных обучающих выборок, данное ограничение решающего значения не имеет.

Наиболее же подходящим открытым источником синтезируемых изображений лиц людей в настоящее время следует считать сервис Филиппа Ванга, запущенного 14 февраля 2019 года, «ThisPersonDoesNotExist» (http://thispersondoesnotexist.com). Сервис, в свою очередь, реализован на открытом коде StyleGAN-алгоритма от компании Nvidia, позволяющего генерировать изображения не существующих в действительности людей с помощью нейросети [10].

В перечень этапов дальнейших исследований, таким образом, целесообразно включить: формирование исходного множества изображений, полуавтоматическую сортировку изображений по типам эмоций и обучение на их основе собственной нейросети. Затем обученная нейросеть должна быть подвержена тестированию как на основе случайной выборки из искусственных изображений - для определения факта окончания процесса обучения, так и на основе реальных изображений — для оценки качества работы нейросети при реальном применении.

Публикация: https://www.elibrary.ru/item.asp?id=44024690

Другие новости