Область техники
Изобретение относится к способам электронного анализа диалога и к системам для осуществления таких способов.
Уровень техники
Способ данного типа известен из заявки US 2003/0097268, в которой описаны система и способ для анализа и оценивания болезненных признаков в поведении человека. Данный способ находит применение в области медицины, более конкретно при анализе интервью психиатрических пациентов. С этой целью регистрируется аудио- и видеоинформация, генерируемая пациентом, на основе которой с помощью компьютерной диагностики вырабатывается в качестве помощи лечащему врачу информация, касающаяся лечения или прогноза.
Однако известный способ неприменим к подлежащим анализу ситуациям, в которых участвует несколько человек, а не только один человек, такой как пациент. Подобная ситуация имеет место, например, когда анализируется разговор в процессе совершения продажи (далее - разговор о продаже) или интервью при приеме на работу. До настоящего времени с целью облегчения анализа обычно беседа или интервью снимались с помощью кинокамеры. Затем снятый фильм просматривался пользователем, например преподавателем семинара по продажам; кроме того, он просматривался и обсуждался с людьми, участвующими в диалоге (далее именуемыми также участниками диалога). Во время обсуждения пользователь отмечал сильные и слабые стороны индивидуальных участников, связанные с их поведением в отношении другого участника обсуждения или интервью.
Поскольку съемка каждого участника продолжается около 30 мин, человек, проводящий анализ, должен расходовать много времени, просматривая фильмы по каждому участнику. В связи с этим время, резервируемое на объяснение того, как участники могли бы улучшить свою технику заключения сделок или повысить шансы быть принятыми на работу, оставалось ограниченным.
Раскрытие изобретения
В связи с изложенным одна из задач, решаемых изобретением, состоит в создании способа и устройства, обеспечивающих автоматическую поддержку анализа диалога.
Решение этой задачи обеспечивается способом с признаками согласно п.1 прилагаемой формулы изобретения. Диалог между двумя или более людьми включает различные идентифицируемые коммуникационные паттерны, которые могут быть - с позиции одного человека (далее именуемого первым человеком) - определены, как "выслушивание", "переформулирование", "реагирование", "изложение" и "молчание". Каждый коммуникационный паттерн характеризуется тем, как высказывания участников диалога распределяются между ними:
- "выслушивание": первый человек молчит, тогда как другой говорит,
- "переформулирование": говорит, в основном, другой человек, тогда как первый человек время от времени осуществляет краткое вмешательство,
-"реагирование": говорит первый человек, но другой человек прерывает его, чтобы вмешаться,
- "изложение": говорит, в основном, первый человек, тогда как другой человек осуществляет краткое вмешательство,
- "молчание": никто не говорит.
Путем анализирования зарегистрированных аудиоданных с построением распределения высказываний, извлеченных электронным путем из принятых данных, можно автоматически идентифицировать различные вербальные коммуникационные паттерны диалога и выдать их пользователю системы, что будет соответствовать осуществлению способа согласно изобретению. Основываясь на этой дополнительно извлеченной информации, относящейся к диалогу, можно найти оценку зарегистрированного диалога. При этом можно будет, в частности, указать коммуникационные паттерны, которые не были использованы, не были использованы в достаточной мере или были слишком широко использованы участником (участниками) диалога.
В этом контексте используемый в описании термин "электронное оценивание" относится к автоматическому извлечению, с помощью электронных средств, характеристик взаимодействий, имеющих место во время диалога. Такое извлечение не основывается на анализе "вручную", простым прослушиванием высказываний участников.
Решение поставленной задачи обеспечивается также способом согласно п.2 формулы, который также является способом автоматического, в частности электронного, оценивания диалога, по меньшей мере, между двумя людьми. Данный способ включает следующие шаги: а) получение аудиоданных, воспроизводящих диалог, по меньшей мере, между двумя людьми,
d) идентифицирование заранее установленных фаз взаимодействия в процессе диалога на основе скользящего среднего значения времени, в течение которого говорит один человек, участвующий в диалоге.
Диалоги коммерческого характера, в частности беседы при заключении сделки, включают типичные фазы взаимодействия, такие как фаза презентации в начале и фаза подведения итогов в конце. Между этими фазами могут иметь место фаза выявления потребности, в течение которой лицо, осуществляющее продажу (продавец), слушает покупателя, фаза аргументирования, в течение которой говорит преимущественно продавец, предлагающий продукт, и фаза ответов на возражения, в течение которой покупатель выдвигает возражения против предложенного продукта, а продавец должен противопоставить им свои аргументы. В зависимости от контекста диалог может включать все эти фазы или только некоторые из них. Перечисленные фазы будут рассмотрены далее более подробно.
При наличии этого дополнительного шага способ автоматически снабжает пользователя вспомогательной информацией, в частности о присутствующих или отсутствующих фазах взаимодействия и/или о длительности этих фаз по отношению к диалога в целом. Эта информация важна, поскольку может быть использована для обучения человека (людей), участвовавшего (участвовавших) в диалоге с целью улучшить его (их) технику продаж или повысить шансы быть принятым (принятыми) на работу. Скользящее среднее значение времени, в течение которого говорит один человек, является удобным и надежным параметром для автоматической идентификации различных фаз согласно изобретению, поскольку оно определяет, кто говорит больше, что, в свою очередь, указывает, какая именно фаза имеет место. Кроме того, подобный анализ может проводиться в ходе диалога, т.е. он обеспечивает быстрые результаты.
Согласно предпочтительному варианту оба описанных способа можно скомбинировать, что позволит автоматически извлекать из одного комплекта аудиоданных более ценную информацию о качестве диалога и коммуникативных умениях его участников. Разумеется, скользящее среднее продолжительности периода, в течение которого говорит один человек, можно получить из распределения высказываний.
Идентификация может быть основана на обнаружении, по меньшей мере, одного перехода от одной фазы взаимодействия к другой. При этом данное обнаружение производится определением первого момента, в который скользящее среднее принимает первое граничное значение, и второго момента, в который скользящее среднее принимает второе граничное значение, причем указанный переход происходит во второй момент. Выход за пределы первого граничного значения подтверждает наличие определенной фазы. При обнаружении второго граничного значения (которое также должно быть пройдено), указывающего, что должно произойти изменение распределения высказываний, способ делает вывод, что фаза, идентифицированная в первый момент, завершается во второй момент. Такой вариант обработки данных стабилизирует анализ и определение различных фаз взаимодействия.
Первое граничное значение предпочтительно составляет 60-80%, в частности 65%, для фаз, в течение которых один человек, участвующий в диалоге, говорит больше другого человека. Для фаз, в течение которых один человек, участвующий в диалоге, говорит меньше другого человека, это значение предпочтительно составляет 20-40%, в частности 35%. Второе граничное значение составляет 45-55%, в частности 50%. При таком выборе указанных значений обеспечивается стабильное определение перехода от одной фазы к следующей.
Указанное среднее значение рассчитывают на временном интервале, составляющем около 3-10% общей продолжительности диалога, в частности 5% указанной продолжительности. Такой выбор обеспечивает стабильное определение с целью идентификации перехода от одной фазы к следующей.
Описанные способы могут дополнительно включать шаг определения того, находится ли длительность фаз взаимодействия в заранее установленных пределах. В данном варианте способ не только позволяет автоматически получить качественную оценку качества диалога, но и ее количественную меру. Это позволит лицу, анализирующему диалог, возможность выделить слишком долгие или недостаточно долгие фазы.
Согласно предпочтительному варианту шаг е) способа по изобретению может включать также анализ аудиоданных с целью идентификации заранее выбранных слов в высказываниях, по меньшей мере, двух людей, в частности только в высказывании одного, заранее выбранного человека. Эта дополнительная информация в еще большей степени улучшает качество автоматически генерируемой оценки диалога. Употребление конкретных слов немедленно свидетельствует о том, используют ли участники диалога слова, наиболее подходящие к конкретной ситуации. Например, если продавец продает новый продукт, обычно существуют заранее подобранные слова, относящиеся к данному продукту, например торговое наименование, конкретные свойства и/или достоинства. В случае оценивания торговых умений продавца может оказаться достаточным анализировать только его высказывания.
Способ предпочтительно включает также шаг f) анализа, в частности подсчета, появлений заранее выбранных слов в одной или более идентифицированных фазах взаимодействия. Применительно к рассмотренной выше ситуации продажи конкретная терминология, относящаяся к продаваемому продукту, должна преимущественно появляться в фазах "аргументирования" и "ответов на возражения". Если этого не происходит, значит, диалог не очень хорошо организован продавцом. Эта важная информация, которая автоматически обеспечивается способом по изобретению, служит дополнительной поддержкой для пользователя системы при оценивании диалогов.
Аудиоданные предпочтительно включают потоки данных от различных микрофонов, в частности от микрофонов, каждый из которых ассоциирован только с одним человеком из указанных, по меньшей мере, двух людей и сконфигурирован таким образом, что интенсивность сигнала, поступающего от одного человека, когда он говорит, превышает интенсивность сигнала от остальных людей. Наличие более чем одного микрофона облегчает построение распределения высказываний. Чтобы идентифицировать, кто говорит в данный момент, достаточно проанализировать интенсивности сигналов потоков аудиоданных в предположении, что интенсивность сигнала превышает определенный порог, когда говорит человек, ближайший к соответствующему микрофону, а сумма шума и сигнала, генерируемого другим человеком (другими людьми), не превышает этого порога.
Способ по изобретению может включать также шаг g) получения видеоданных, отображающих, по меньшей мере частично, двух людей, и шаг h) анализа видеоданных с целью определения, имеет ли место визуальное взаимодействие, по меньшей мере, между указанными двумя людьми. Термин "визуальное взаимодействие" означает, что, по меньшей мере, один из участников диалога смотрит на другого участника. В этом случае оценивание диалога основывается не только на взаимодействии между людьми, участвующими в диалоге, согласно аудиоданным, но, в дополнение, на визуальном взаимодействии, по меньшей мере, между двумя людьми, которое также устанавливается автоматически, в частности электронным путем, с использованием видеоданных. Следовательно, пользователь получает более полный массив данных для оценивания диалога.
Решение задачи, поставленной перед изобретением, обеспечивается также способом согласно п.11. Лицо, анализирующее диалоги, использует не только анализ аудиоданных: видеоданные как самостоятельный источник также дают ценную информацию о правильном поведении людей во время диалога, например касающегося продажи. Автоматическое (электронное) определение наличия или отсутствия визуального взаимодействия может быть полезным для пользователя, поскольку визуальное взаимодействие дает информацию о каналах невербальной коммуникации. Так, оно может указывать на интерес одного человека к утверждениям другого или на способность одного человека привлечь внимание другого.
В описанных выше способах шаг h) предпочтительно включает также определение того, смотрят ли друг на друга, по меньшей мере, двое из людей, путем детектирования положения их зрачков. Ситуация, в которой один человек смотрит на другого, в дальнейшем именуется "фокусирование". Она соответствует состоянию, в котором поток вербальной информации, направленный от одного человека к другому, поддерживается невербальным взаимодействием. Наличие подобного взаимодействия обеспечивает анализатору диалога дополнительную поддержку. В разговоре, связанном с продажей (далее - разговор о продаже), важной информацией в отношении фокусирования является а) как долго продавец смотрит на покупателя, b) как долго покупатель смотрит на продавца и с) как долго они одновременно смотрят друг на друга. Когда участники ведут себя сходным образом в отношении фокусирования, принимается, что они находятся в синхронизированном состоянии.
Желательно также, чтобы описанные способы включали шаг i) анализа микродвижений глаз, по меньшей мере, двух людей с целью определить, являются ли направления микродвижений глаз однотипными. Микродвижения важны, когда наблюдается отсутствие фокусирования. Известно, что микродвижения глаз существуют и что они дают информацию о восприятии. Известно также, что возможна синхронизация микродвижений глаз двух человек во время диалога и что она способствует благоприятному исходу разговора. Фиксирование автоматически и электронным путем микродвижений глаз участников диалога и определение того, синхронизированы они или нет, снабжает пользователя способа дополнительным параметром, который он может использовать для оценивания. В частности, пользователь, например преподаватель на семинаре, может указать на отсутствие синхронизации в разговоре о продаже и отметить, что продавец не использовал возможное средство коммуникации. В этом контексте микродвижения глаз - это движения зрачка в одном из следующих шести направлений: вверх и влево, вверх и вправо, влево, вправо, вниз и влево; вниз и вправо.
Согласно предпочтительному варианту описанные способы могут включать определение того, являются ли направления микродвижений глаз однотипными, по меньшей мере, в одной заранее установленной фазе взаимодействия. Во время разговора о продаже различные фазы имеют неодинаковую важность для успеха переговоров. Поэтому, после того как из потока аудиоданных выделены различные фазы взаимодействия, становится возможным связать между собой синхронизированные - как путем фокусирования, так и микродвижениями одного типа - и несинхронизированные периоды данных фаз. Это позволяет снабдить пользователя еще более полными данными о диалоге.
Шаг h) предпочтительно включает шаг h_1) идентифицирования визуальных признаков в кадре в составе видеоданных с целью определения в кадре зоны, отображающей, по меньшей мере, часть лица, в частности, по меньшей мере, оба глаза, по меньшей мере, одного из двух людей, шаг h_2) изолирования в указанной зоне полосок, в частности вертикальных, и шаг h_3) поиска внутри полосок областей, соответствующих глазам. Путем разбиения шага анализа на три четко различимых шага процесс определения, имеет ли место визуальное взаимодействие, по меньшей мере, между двумя людьми, может быть реализован надежно и быстро. Указанные кадры предпочтительно отображают оба глаза, по меньшей мере, одного человека.
Согласно изобретению способ реализует простой, но надежный вариант идентификации в видеоданных области, соответствующей глазам, путем разбиения анализа на несколько дискретных шагов. Как уже упоминалось, эти шаги включают шаг h_1) идентифицирования визуальных признаков в кадре в составе видеоданных с целью определения в кадре зоны, отображающей, по меньшей мере, часть лица, в частности, по меньшей мере, оба глаза, по меньшей мере, одного из двух людей, шаг h_2) изолирования в указанной зоне полосок, в частности вертикальных, и шаг h_3) поиска внутри полосок области, соответствующей глазу.
Шаг h_1) описанных способов предпочтительно включает выявление в кадре, по меньшей мере, одной зоны, имеющей цвет, соответствующий цвету кожи, и выбор наибольшей зоны среди подобных зон. В этом случае поток видеоданных является цветным, так что наличие фонов различных цветов облегчает выполнение шага идентифицирования визуальных признаков. Для получения интересующих данных путем выделения пикселей, соответствующих цвету кожи, может быть использована соответствующая маска.
Шаг h_2) способов предпочтительно включает идентифицирование областей падения интенсивности в пределах выявленной наибольшей области. При этом интенсивность пикселей в таких областях должна быть меньше заранее установленного предельного значения, которое является функцией максимальной интенсивности в данной области, а каждая полоска включает одну область. Области падения интенсивности в изображении, обработанном посредством маски, имеющей цвет кожи, обусловлены присутствием глаз и, следовательно, являются надежными индикаторами их положения. Если идентифицирована только одна такая область, способ по изобретению заключает, что может быть определено положение только одного глаза.
Описанные способы предпочтительно включают идентифицирование контуров внутри полосок, в частности, путем их преобразования в формат по серой шкале. После того как полоски были идентифицированы, обрабатывают только эти области, причем с целью идентификации контуров определяют градиент по серой шкале. Таким образом, учитывается то обстоятельство, что глаза человека образуют контуры, легко идентифицируемые при использовании серой шкалы.
Согласно предпочтительному варианту шаг h_2) может включать также поиск возможных центров идентифицированных контуров путем поиска кругов, которые могут соответствовать зрачку. Такой поиск может производиться определением относительных весов их интенсивностей по серой шкале в видеоданных в пределах контуров с заранее установленным цветом, предпочтительно черным. Данный анализ основывается на гипотезе, что зрачок является более темным, чем другие элементы лица. Эта гипотеза позволяет различать области падения интенсивности, соответствующие глазам и другим артефактам, например присутствию волос или, например, таким элементам, как морщины. Тем самым обеспечивается надежный способ идентификации полосок, содержащих области, соответствующие глазу.
Способы предпочтительно включают также шаг h_4) идентифицирования (как это было описано выше) положения зрачка в области, соответствующей глазу, путем поиска кругов, которые могут соответствовать зрачку, в частности определением относительных весов их интенсивностей по серой шкале в видеоданных в пределах контуров с заранее установленным цветом, предпочтительно черным. Положение зрачка дает информацию, необходимую, чтобы определить, имеет ли место визуальное взаимодействие во время диалога и, в частности, когда определены положения зрачков двух людей, смотрят ли эти люди друг на друга.
Применительно, по меньшей мере, к следующему кадру в составе видеоданных повторяют только шаг h_4) с целью идентификации положения зрачка в области, соответствующей глазу, за исключением случаев, когда положение зрачка не детектируется. Такой подход ускоряет процесс вычислений, так как не требует повторения шагов h_1)-h_3) для каждого кадра. Данные шаги выполняют, только если при выполнении шага h_4) не удается детектировать положение зрачка.
Согласно предпочтительному варианту видеоданные содержат потоки данных от различных камер, установленных в различных положениях по отношению к людям, участвующим в диалоге. Такая схема дает достаточно данных, чтобы осуществить трехмерный анализ по двумерным видеоданным и тем самым повысить качество информации о визуальном взаимодействии, в частности, при определении, смотрят ли два человека друг на друга.
Каждая камера предпочтительно снимает только одного человека. Это дополнительно облегчает обработку данных и ускоряет процесс определения. Действительно, поскольку каждый поток данных гарантированно относится только к одному человеку, достаточно производить поиск только двух полосок, включающих контуры, которые могут соответствовать контурам глаз. Камеры предпочтительно устанавливают так, что каждая камера расположена под тем же или близким углом к углу поля зрения другого человека.
Шаги h) и/или i) могут выполняться во временном интервале, более коротком, чем временной интервал между двумя кадрами видеоданных. Это гарантирует, что пользователь будет иметь необходимую информацию о поведении участника (участников) диалога немедленно по завершении диалога.
Способы по изобретению могут дополнительно включать шаг j) хранения результатов, полученных на шагах с), и/или d), и/или h), и/или i). В результате пользователь может получать доступ к результатам, когда они ему нужны. В частности, желательно хранить результаты в базе данных, которая позволяет проводить сравнение различных диалогов одного и того же участника (одних и тех же участников) и/или различных людей, оценка диалогов которых была произведена ранее. Благодаря этому технику продажи одного и того же человека можно прослеживать на протяжении нескольких сессий.
Изобретение относится также к компьютерному программному продукту, содержащему одну или более машиночитаемых сред, в которых записаны компьютерные команды, обеспечивающие выполнение шагов описанных выше способов. Изобретение относится также к запоминающей среде, содержащей указанный компьютерный программный продукт.
Изобретение относится также к системам для осуществления любого из описанных способов. При этом при использовании системы согласно п.18 формулы изобретения задача, поставленная перед изобретением, решается столь же эффективно, как и посредством способа согласно п.1.
Устройство обработки данных предпочтительно сконфигурировано с возможностью идентификации заранее выбранных слов в высказываниях, по меньшей мере, двух людей. Появление конкретных слов немедленно указывает, что, по меньшей мере, один из участников диалога использует терминологию, наиболее подходящую к ситуации. Например, когда продавец продает новый продукт, заранее выбранные слова обычно относятся к этому продукту, например к его торговому наименованию, особым свойствам и/или преимуществам.
Желательно обеспечить по одному микрофону на каждого человека, участвующего в диалоге. В этом случае каждый микрофон сконфигурирован так, что интенсивность сигнала от соответствующего человека, когда он говорит, превышает интенсивность сигнала от остальных людей. Такое выполнение облегчает анализ, поскольку определить, говорит ли данный человек или нет, можно просто проверкой, превышает ли сигнал, генерируемый соответствующим микрофоном, заданный пороговый уровень, причем уровень шумов или сигнал от высказываний других людей находятся ниже этого уровня.
Согласно одному варианту система может дополнительно содержать, по меньшей мере, одну видеокамеру для генерирования видеоданных, по меньшей мере, частично отображающих, по меньшей мере, двух людей во время диалога. При этом устройство обработки сконфигурировано с возможностью определять, имеет ли место во время диалога визуальное взаимодействие, по меньшей мере, между двумя людьми. В данном случае становится возможным анализировать как вербальные, так и невербальные взаимодействия с целью получения более детальной оценки человека, участвующего в диалоге. В частности, могут быть выявлены синергетические эффекты между вербальными и невербальными взаимодействиями, а также коммуникационные каналы. Для этого, например, можно объединить информацию по распределению высказываний с параметром фокусирования и микродвижений, чтобы идентифицировать фазы, в которых оба участника находятся в синхронизированном состоянии, т.е. каждый участник, когда он слушает и говорит, обнаруживает тот же тип поведения, что и другой участник.
Желательно сконфигурировать устройство обработки данных с возможностью детектирования в видеоданных, содержащих множество последовательных кадров, положения глаз, в частности зрачков, человека, участвующего в диалоге. Этого можно достичь путем идентифицирования в кадре визуальных признаков с целью определения зоны кадра, отображающей, по меньшей мере, часть лица, в частности, по меньшей мере, оба глаза, человека, выделением в указанной зоне, в частности, вертикальных полосок и поиска внутри полосок областей, соответствующих глазам, при условии, что на шаге h_2) выделено более одной полоски. Благодаря разбиению шага анализа на несколько шагов можно сократить суммарное время, необходимое для определения положения глаза.
Согласно предпочтительному варианту для каждого человека, участвующего в диалоге, обеспечивается по одной видеокамере. При этом видеокамеры установлены так, что каждая камера снимает только одного человека. Это дополнительно облегчает обработку данных, поскольку один поток данных отображает только одного человека, так что поиск нужно производить только в отношении одной пары глаз.
Краткое описание чертежей
Конкретные варианты изобретения станут более понятны из нижеследующего описания и прилагаемых чертежей.
На фиг.1 представлен первый вариант системы согласно изобретению.
На фиг.2 представлена блок-схема, иллюстрирующая способ по второму варианту изобретения.
Фиг.3а-3е иллюстрируют различные коммуникационные паттерны, имеющие место во время диалога.
На фиг.4 представлена вторая блок-схема, иллюстрирующая способ по третьему варианту изобретения.
Фиг.5 иллюстрирует принцип определения переходов между фазами взаимодействия.
На фиг.6 представлена третья блок-схема, иллюстрирующая способ по четвертому варианту изобретения.
На фиг.7 представлена система согласно пятому варианту изобретения.
На фиг.8 представлена четвертая блок-схема, иллюстрирующая способ по шестому варианту изобретения.
На фиг.9 представлена пятая блок-схема, иллюстрирующая способ по седьмому варианту изобретения.
На фиг.10a-10d иллюстрируются результаты различных шагов (соответствующих седьмому варианту) с целью идентификации положения области, соответствующей глазу.
На фиг.11 представлена шестая блок-схема, иллюстрирующая способ по восьмому варианту изобретения.
На фиг.12 представлена система согласно девятому варианту изобретения.
Осуществление изобретения
В дальнейшем описании различные варианты системы по изобретению, предназначенной для автоматического, в частности электронного, оценивания диалога, по меньшей мере, между двумя людьми, и различные варианты соответствующего способа будут рассмотрены на примере связанного с продажей разговора между продавцом (первым человеком, т.е. первым участником диалога) и покупателем (вторым человеком). Разумеется, изобретение применимо и к автоматическому оцениванию разговоров (диалогов) других типов, например интервью при найме на работу. Хотя все варианты будут рассмотрены применительно к разговору между двумя людьми, они могут быть распространены на разговоры с участием более двух людей.
Первый вариант
На фиг.1 представлен первый вариант системы для электронного оценивания диалога, по меньшей мере, между двумя людьми. Система 1 содержит первый и второй микрофоны 3, 5, которые подключены к устройству 7 обработки данных. Микрофоны 3 и 5 установлены вблизи мест 9, 11 соответственно, которые могут занимать продавец и покупатель. Такое расположение микрофонов 3, 5 гарантирует, что интенсивность сигнала, генерируемого в результате высказываний человека, сидящего на месте, ближайшем к микрофону (т.е. на месте 9 для микрофона 3 и на месте 11 для микрофона 5), выше, чем интенсивность сигнала, генерируемого в результате высказываний человека, сидящего на другом месте, а также выше интенсивности фонового шума. Это обстоятельство учитывается в ходе анализа устройством 7 обработки данных, которое однозначно отождествляет аудиосигналы с человеком, сидящим на месте 9, или с человеком, сидящим на месте 11. Система 1 может быть адаптирована для случая разговора более двух человек установкой дополнительных микрофонов.
Устройство 7 обработки данных содержит первый процессорный блок 13, который принимает атрибутированные высказывания. Данный блок 13 сконфигурирован с возможностью строить на основе атрибутирования высказываний распределение во временном домене высказываний двух человек в процессе диалога. Первый процессорный блок 13 способен также сравнивать результаты этого шага анализа с заранее установленными коммуникационными паттернами (которые будут рассмотрены далее) с целью идентификации одного или более коммуникационных паттернов в диалоге, например в разговоре о продаже между человеком, сидящим на месте 9, и человеком, сидящим на месте 11 (см. также второй вариант).
Устройство 7 обработки данных содержит, кроме того, второй процессорный блок 15, также принимающий соответствующие аудиоданные и сконфигурированный с возможностью идентифицирования заранее установленных фаз взаимодействия в процессе диалога на основе скользящего среднего значения времени, в течение которого говорит один человек, участвующий в диалоге. Это скользящее среднее значение определяют непосредственно из аудиоданных, а именно по результатам атрибутирования высказываний, выполняемого устройством 7 обработки данных. Фазы взаимодействия и порядок их автоматической идентификации с помощью системы 1 будут описаны далее (применительно к третьему варианту).
В качестве дополнительного компонента устройство 7 обработки данных содержит третий процессорный блок 17, сконфигурированный с возможностью идентифицирования заранее выбранных слов в высказываниях человека, сидящего на месте 9, и/или человека, сидящего на месте 11.
Результаты, полученные первым, вторым и третьим процессорными блоками 13, 15 и 17, могут сохраняться в запоминающем устройстве 19 и/или выдаваться через пользовательский интерфейс (не изображен) участникам разговора о продаже и/или третьему человеку, например преподавателю на семинаре.
Система 1 согласно изобретению может применяться для автоматического оценивания диалогов, таких как упомянутые разговоры о продаже, с выдачей результатов количественного анализа протекания диалога. Подобные количественные данные помогают пользователям, например преподавателям семинара по проведению продаж, поскольку, сразу после того как был зарегистрирован диалог между двумя его участниками, пользователь располагает ценной информацией о том, как участник/участники справились с данным диалогом.
В других вариантах система 1 может содержать не все три процессорных блока, а только один или два.
Второй вариант
Фиг.2 иллюстрирует, как система 1 используется для оценивания диалога, и соответственно иллюстрирует способ согласно изобретению для автоматического, более конкретно электронного, оценивания диалога, по меньшей мере, между двумя людьми. Для осуществления данного способа используется система 1.
Шаг S1 второго варианта состоит в получении аудиоданных, принимаемых микрофонами 3 и 5 системы 1, показанной на фиг.1.
Следующий шаг S2 состоит в анализе этих аудиоданных, имеющих вид двух раздельных потоков, чтобы произвести атрибутирование во временном домене высказываний первого человека и второго человека. Подобный анализ выполняет устройство 7 обработки данных.
Отнесение высказываний соответствующим участникам диалога основано на фильтрации интенсивности воспринятых сигналов в каждом потоке аудиоданных. Если сигнал, превышающий порог, соответствует потоку данных от микрофона 3, первый процессорный блок 13 решает, что говорит человек, находящийся на месте 9. Если же интенсивность сигнала ниже указанного порога, принимается решение, что этот человек не говорит, а воспринятый сигнал обусловлен фоновым шумом и/или высказыванием другого человека, сидящего на месте 11. Такой же анализ выполняется и для второго потока данных от микрофона 5, причем, если сигнал превышает порог, высказывание приписывается человеку, сидящему на месте 11. Данный способ прост в осуществлении, но при этом надежен. В частности, с его помощью можно идентифицировать ситуацию, когда оба человека говорят одновременно.
По завершении атрибутирования высказываний двух человек во временном домене становится возможным извлечь дополнительную информацию, характеризующую качество разговора между двумя людьми. Прежде всего появляется возможность определить коммуникационные паттерны, имеющие место в ходе диалога, такого как разговор о продаже. Различные коммуникационные паттерны диалога между продавцом и покупателем иллюстрируются фиг.3.
Фиг.3а иллюстрирует коммуникационный паттерн "выслушивания". Серые блоки на временной оси (оси t) иллюстрируют на этой фигуре высказывания, тогда как отсутствие этих блоков указывает, что соответствующий человек не говорит. Паттерн "выслушивания" характеризуется тем, что продавец (первый человек) молчит, а говорит покупатель (второй человек).
Второй коммуникационный паттерн (фиг.3b) соответствует паттерну "переформулирования". Согласно этому паттерну говорит, в основном, второй человек (покупатель), тогда как первый человек кратко вмешивается только время от времени. Как правило, первый человек может выражать свое согласие или повторять ключевое слово или группы ключевых слов.
Фиг.3с иллюстрирует паттерн "реагирования". Согласно этому паттерну говорит первый человек, но второй человек прерывает его, чтобы вмешаться. Здесь возникает ситуация, когда говорят оба человека, причем в типичной ситуации продолжает говорить второй человек. В этом случае правильная реакция продавца состояла бы в том, чтобы остановиться как можно скорее, чтобы позволить покупателю выразить свои мысли.
На фиг.3d представлен паттерн "изложения". Здесь говорит, в основном, первый человек, тогда как второй человек только вмешивается время от времени.
Наконец, на фиг.3е представлен паттерн "молчания", когда никто не говорит.
Хороший продавец должен быть способен активно использовать пять различных паттернов в зависимости от ситуации, в которой он оказывается в процессе разговора. Если продавец эффективно применяет свои коммуникативные умения, он будет способен продемонстрировать ценность продукта, который он пытается продать, с учетом ожиданий и поведения своего собеседника, покупателя.
Возвращаясь ко второму варианту изобретения, по завершении анализа атрибутированных высказываний на шаге S2 устройство 7 обработки данных (его первый процессорный блок 13) переходит на шаг S3 для идентифицирования различных коммуникационных паттернов типа описанных выше. Оно производится путем построения распределения высказываний между двумя людьми, основанного на атрибутировании, определенного на шаге S2. Это распределение затем сравнивают с различными моделями коммуникационных паттернов.
Соответствующий результат используют, чтобы определить на шаге S4 статистику по количеству наблюдений каждого паттерна, их длительности, а также определить, не слишком ли велик был в паттерне реагирования временной интервал, в течение которого говорили оба человека, и т.д.
Если продавец не использует или только плохо использует один или более паттернов в ходе проводимых им разговоров, пользователь системы, например преподаватель на семинаре, может немедленно обнаружить отсутствие соответствующего коммуникационного паттерна и отметить, что продавец не использует все имеющиеся у него возможности в отношении коммуникационных паттернов или что за счет адаптации своих умений он может добиться существенного улучшения.
Результаты анализа шагов S3 и S4 выдаются пользователю (на шаге S5) посредством пользовательского интерфейса и/или сохраняются в запоминающем устройстве 19 (шаг S6) в составе базы данных.
Третий вариант
Фиг.4 также иллюстрирует способ, который использует система 1 для оценивания диалога и который соответствует третьему варианту изобретения, более конкретно, способу автоматического (электронного) оценивания диалога, по меньшей мере, между двумя людьми, использующему систему 1 согласно первому варианту изобретения.
Шаги S1 и S2 идентичны аналогичным шагам второго варианта, так что их описание не приводится.
В данном варианте анализ атрибутированных высказываний двух людей используется с целью идентификации последовательности фаз взаимодействия, что соответствует шагу S7. Такой анализ проводится во втором процессорном блоке 15 системы 1.
Разговор о продаже может в типичном варианте содержать, по меньшей мере, некоторые из следующих фаз взаимодействия.
I. "Презентация": короткая фаза в начале разговора, во время которой два человека представляются друг другу. Как правило, участники разговора обсуждают различные вопросы, не связанные с продуктом или услугой, который (которая) является предметом разговора о продаже. В рассматриваемой модели говорит, в основном, продавец.
II. Затем обычно следует фаза "выявление потребности", более длинная, чем предыдущая фаза. В этой фазе главную роль играет покупатель, которого, однако, направляет продавец. Продавец старается дать покупателю возможность выразить свои потребности, чтобы быть в состоянии предложить соответствующий продукт (соответствующую услугу). В этой фазе поток информации направлен, в основном, от покупателя к продавцу.
III. Данная фаза - это "фаза аргументирования", во время которой продавец представляет свой продукт; поэтому, в основном, говорит продавец.
IV. Затем следует "фаза ответов на возражения", в ход которой вмешиваются оба участника. Покупатель выдвигает свои возражения против продукта, тогда как продавец отвечает на них и одновременно более точно идентифицирует потребности покупателя. По существу, в этой фазе информация передается в обоих направлениях.
V. Наконец, каждый разговор о продаже завершается "заключительной фазой". В течение этой фазы продавец обычно перечисляет только что принятые решения.
Рассмотренные фазы необязательно должны следовать в указанном порядке, причем какая-то фаза может отсутствовать. Например, если предложенный продукт точно отвечает ожиданиям покупателя, фаза IV не имеет места. То, как организованы фазы, зависит от различных параметров, например от отрасли промышленности или от того, как фирма хочет проводить подобные разговоры о продаже. При этом фазы I и V, по определению, присутствуют всегда, соответственно в начале и в конце.
Шаг S7 третьего варианта соответственно состоит в том, чтобы идентифицировать заранее установленные фазы взаимодействия в процессе диалога, основываясь на скользящем среднем значении времени, в течение которого говорит один, заранее выбранный на шаге S2 человек, участвующий в диалоге ("активного времени"). Как было пояснено выше, свойства потока информации между покупателем и продавцом характеризуют различные фазы разговора. С использованием параметра "скользящее среднее значение активного времени" на основе атрибутированных длительностей активности одного или другого участника могут быть определены автоматическим (электронным) образом различные фазы взаимодействия и их последовательность.
На фиг.5 иллюстрируется зависимость от времени скользящего среднего значения 21 активного времени продавца, участвующего в разговоре о продаже. Разумеется, скользящее среднее можно было определить также и для покупателя. Ось t (горизонтальная ось) на фиг.5 соответствует времени, а вертикальная ось - скользящему среднему значению (в процентах). Наилучшие результаты были достигнуты, когда скользящее среднее значение 21 рассчитывалось на временном интервале, составляющем примерно 3-10% общей продолжительности диалога, в частности 5% общей продолжительности, составляющей от 10 до 20 мин.
Сначала идентифицируют все различные фазы диалога, причем идентификация основывается на обнаружении перехода от одной фазы к следующей.
Второй процессорный блок 15 выполнен с возможностью идентификации первого момента 23, в который скользящее среднее значение 21 принимает первое граничное значение 25, равное в данном примере 65%, и второго момента 27, в который скользящее среднее значение 21 принимает второе граничное значение 29, равное в данном примере 50%. После того как первый и второй моменты 23, 27 были идентифицированы, способ по изобретению заключает, что переход между двумя фазами происходит во второй момент 27. Анализ продолжается с целью идентифицировать следующий момент 31, в который достигается второе первое граничное значение 33 (составляющее в данном примере 35%). Данная фаза заканчивается в следующий момент 35, в который повторно достигается второе граничное значение 29. Таким же образом способ по изобретению идентифицирует следующие фазы, которые заканчиваются в моменты 36, 37, тогда как диалог завершается в момент 38.
Первое, а также верхнее и нижнее граничные значения могут быть адаптированы к типу анализируемого диалога.
Далее способ идентифицирует различные фазы презентации, выявления потребности, аргументирования, ответов на возражения и заключения. Прежде всего производится отнесение фаз к одной из двух категорий. Короткие фазы имеют длительности, меньшие 20%, а длинные - длительности, составляющие 20% от полного времени или более.
Короткие фазы атрибутируются затем следующим образом.
Если фаза является первой фазой и продавец говорит больше или столько же, сколько и покупатель, фаза идентифицируется как фаза презентации.
Если фаза является последней, а активное время не сбалансировано, фаза идентифицируется как заключительная фаза.
Если фаза не является ни первой, ни последней и продавец говорит больше, чем покупатель, фаза идентифицируется как фаза аргументирования. Если же больше говорит покупатель, фаза является фазой определения потребностей.
Для более длинных фаз необходим дополнительный параметр, чтобы отличить фазы аргументации и определения потребностей от фазы ответов на возражения. Этот дополнительный параметр оценивает распределение активного времени рассматриваемой фазы между двумя говорящими людьми. Для данного параметра рассматриваются три области. В первой области активное время сбалансировано между обоими людьми, во второй области продавец говорит больше, чем покупатель, тогда как в третьей области больше говорит покупатель. В случае сбалансированности средние значения активного времени для обоих участников близки к 50%, например лежат в интервале 42,5-57,5%.
Используя это третье граничное значение, фазы можно атрибутировать следующим образом: если среднее значение активного времени соответствует области продавца, фаза является фазой аргументирования; если же среднее значение соответствует области покупателя, фаза является фазой определения потребностей. В случае сбалансированного активного времени фаза является фазой ответов на возражения, в течение которой имеет место спор между участниками.
С учетом приведенных правил первая фаза, заканчивающаяся в момент 27, является фазой презентации. Вторая фаза, заканчивающаяся в момент 35, - это фаза определения потребностей, причем видно, что в этой фазе больше говорит покупатель, поскольку он описывает свои потребности. Фаза, которая заканчивается в момент 36, соответствует фазе аргументирования, в которой продавец отвечает на выраженные потребности покупателя, указывая продукт, который их удовлетворит.
Следующая фаза, заканчивающаяся в момент 37, - это четвертая фаза, соответствующая фазе ответов на возражения. Наконец, последняя фаза, заканчивающаяся в момент 38, - заключительная фаза.
Если идентифицируются две последовательные фазы взаимодействия одного типа, процессорный блок 15 может быть дополнительно настроен так, чтобы эти фазы автоматически объединялись в одну фазу.
Шаг S8 способа состоит в анализе результатов определения фаз взаимодействия. В том случае, если в разговоре отсутствуют одна или более из названных фаз или если некоторые фазы оказались слишком длинными или слишком короткими, пользователь системы 1 непосредственно от данной системы получает информацию о том, что продавец не действовал оптимальным образом. Как следствие, он может предложить определенные улучшения коммуникационных умений участников диалога.
Результаты анализа, полученные на шагах S7 и S8, выдаются пользователю (шаг S5) через пользовательский интерфейс и/или записываются в запоминающее устройство 19 (шаг S6), например в базу данных (как и во втором варианте).
Второй и третий варианты могут быть эффективно скомбинированы в единый способ, позволяющий получить более полную картину диалога и коммуникационных умений. Например, в различных фазах взаимодействия могут быть автоматически определены различные коммуникационные паттерны, которые затем могут быть учтены пользователем.
Четвертый вариант
На фиг.6 иллюстрируется четвертый вариант, соответствующий третьему примеру использования системы 1 и третьему способу согласно изобретению, предназначенному для электронного оценивания диалога, по меньшей мере, между двумя людьми. По сравнению со вторым вариантом, показанным на фиг.2, этот способ содержит дополнительный шаг S9 идентифицирования заранее выбранных слов в высказываниях, по меньшей мере, продавца. Согласно варианту данного способа заранее выбранные слова можно идентифицировать и в высказываниях покупателя. Другие шаги, т.е. шаги S1-S4, предшествующие шагу S9, и шаги S5, S6, следующие за шагом S9, тождественны аналогичным шагам второго варианта и поэтому не рассматриваются.
Заранее выбирают слова (в типичном варианте 20-50 характерных слов, например 30 таких слов), которые идентифицируют и/или описывают продаваемый продукт или продаваемую услугу и которые могут относиться также к профессиональной обстановке, в которой должен проходить разговор о продаже. Идентификация заранее выбранных слов в высказываниях продавца помогает определить, использует ли продавец правильный словарь, чтобы, если нужные слова не используются, принять адекватные меры (например, провести тренинг по продаже продукта) для повышения эффективности продавца.
Аналогичным образом дополнительный шаг S9 может быть добавлен к третьему варианту. Альтернативно, можно объединить третий и четвертый варианты, чтобы обеспечить еще более подробный анализ диалога и коммуникативных умений.
Важность идентификации заранее выбранных слов обусловлена тем, что появление таких слов в большей или меньшей степени зависит от типа фазы взаимодействия в ходе разговора, в течение которой они произносятся или нет. Заранее выбранные слова, определяющие продаваемый продукт, особенно важно использовать в фазах "аргументирования" и "ответа на возражения" с целью повысить вероятность успешности разговора. Поэтому идентификация заранее выбранных слов в зависимости от фазы взаимодействия, в которой участники находятся в текущий момент, играет важную роль и подсказывает пользователю системы и способа, например преподавателю, возможные улучшения в случае, если продавец не действует оптимальным образом.
Согласно изобретению варианты с первого по четвертый могут быть также адаптированы к ситуации, в которой участники не сидят друг перед другом, а ведут разговор по телефону. В этом случае также возможно атрибутирование высказываний и определение коммуникационных паттернов, фаз взаимодействия и использования заранее выбранных слов.
Пятый вариант
На фиг.7 иллюстрируется пятый вариант изобретения, более конкретно вторая система согласно изобретению для электронного оценивания диалога, по меньшей мере, между двумя людьми. Система 41 содержит две видеокамеры 43, 45 для регистрации видеоданных, отображающих, по меньшей мере, двух людей во время их разговора. Подобно микрофонам 3, 5 в первом варианте, видеокамеры 43, 45 расположены так, что видеокамера 43 снимает человека, занимающего место 11 (идентичное месту 11 в первом варианте), тогда как вторая камера 45 снимает человека, занимающего место 9. Каждая из камер 43, 45 предпочтительно снимает в каждый момент только одного человека, чтобы облегчить обработку данных.
Каждая из камер 43, 45 связана с устройством 47 обработки, выполненным с возможностью определять, имеет ли место визуальное взаимодействие, по меньшей мере, между двумя людьми в процессе их диалога. Устройство 47 обработки содержит четвертый процессорный блок 49, выполненный с возможностью определять положение глаз, в частности зрачков, людей, находящихся на местах 9 и 11, чтобы установить, смотрит ли один человек на другого или смотрят ли эти люди друг на друга. Таким образом, могут быть выделены три состояния фокусирования: продавец смотрит на покупателя, покупатель смотрит на продавца и оба они смотрят друг на друга. Наличие или отсутствие фокусирования является важным параметром, характеризующим качество разговора о продаже. При отсутствии фокусирования пользователь системы 41, в данном случае преподаватель семинара по продажам, может отметить этот дефект коммуникативных умений, в особенности продавца, в результате чего тот сможет улучшить свою технику продаж.
Устройство 47 обработки может дополнительно содержать пятый процессорный блок 51 для анализа микродвижений глаз, по меньшей мере, двух людей, находящихся на местах 9 и 11. Пятый процессорный блок 51 выполнен с возможностью определять направления микродвижений глаз участников диалога, а затем устанавливать их соответствие одному типу движений. Известно, что у двух разговаривающих людей имеется тенденция согласовывать свои микродвижения. Если устройство 47 обработки определяет, что такая синхронизация между двумя людьми отсутствует, на это можно указать говорящим, т.е. отметить отсутствие в ходе разговора взаимодействия данного вида. После этого можно будет провести специальный тренинг продавца, чтобы он мог использовать данный коммуникационный канал. Таким образом, можно автоматическим (электронным) путем выдать пользователю системы 41 еще один параметр, характеризующий разговор о продаже между покупателем и продавцом, а именно наличие или отсутствие синхронизации.
Аналогично первому варианту система 41 также может содержать запоминающее устройство 19 и пользовательский интерфейс (не изображен), информирующий о результатах анализа, выдаваемых четвертым и пятым процессорными блоками 49, 51.
Шестой вариант
Фиг.8 иллюстрирует использование системы 41 согласно пятому варианту для получения информации о визуальном взаимодействии, т.е. осуществление шестого варианта изобретения, соответствующего способу электронного оценивания диалога, по меньшей мере, между двумя людьми с использованием системы 41 согласно пятому варианту. Шестой вариант изобретения также будет описан применительно к разговору о продаже между двумя людьми. При этом первый человек, например продавец, сидит на месте 9, а второй человек, покупатель, - на месте 11. Камера 43 генерирует видеоданные, соответствующие, по меньшей мере, части лица покупателя, а камера 45 - видеоданные, соответствующие, по меньшей мере, части лица продавца.
Способ согласно шестому варианту начинается с шага S11, т.е. с получения устройством 47 обработки видеоданных, генерируемых видеокамерами 43 и 45.
Следующий шаг S12 состоит в анализе видеоданных четвертым процессорным блоком 49 с целью определить, имеет ли место во время разговора о продаже визуальное взаимодействие и, следовательно, фокусирование и/или синхронизация, как это было описано выше.
Таким образом, согласно изобретению анализ видеоданных содержит первый шаг - шаг обнаружения присутствия фокусирования, т.е. определения, смотрят ли участники друг на друга (шаг S13) и/или второй шаг - шаг обнаружения присутствия синхронизации, т.е. определения того, относятся ли микродвижения глаз участников к одному типу (шаг S14).
Результаты такого анализа, дающие (электронным и автоматическим путем) оценку невербального взаимодействия между продавцом и покупателем, выдаются пользователю через пользовательский интерфейс (шаг S15) и/или сохраняются в запоминающем устройстве 19 (шаг S16).
Как и варианты с первого по четвертый, пятый и шестой варианты используются для оценивания диалога (такого, как разговор о продаже) автоматическим (электронным) путем. Однако в этом случае анализируемые параметры относятся к невербальному взаимодействию. Невербальное взаимодействие - это параметр, который следует принимать во внимание. Например, продавец, который не смотрит на собеседника, не обеспечивает оптимальный разговор о продаже, даже если и существуют ситуации, в которых нет необходимости смотреть на другого человека, в частности, когда делаются записи или в четко выраженной фазе концентрации, в которой продавец слушает покупателя. Такие ситуации соответствуют исключениям, имеющим место только в короткие временные интервалы. Помимо параметра фокусирования анализ визуального взаимодействия может также обеспечить (электронным, автоматическим путем) информацию о присутствии и отсутствии синхронизации между микродвижениями глаз участников диалога.
Седьмой вариант
На фиг.9 иллюстрируется седьмой вариант изобретения: способ определения электронным путем положения глаз человека по видеоданным, содержащим множество последовательных кадров. Данный способ особенно эффективен для определения положения зрачков, т.е. он соответствует подробному описанию шагов S12 и S13 шестого варианта. Этот способ, как и в шестом варианте, начинается с приема видеоданных, генерируемых видеокамерами 43 и 45 (шаг S21). Фиг.10а иллюстрирует кадр 53 головы 55 человека, взятый из потока видеоданных, сгенерированных камерой 43. Чтобы облегчить анализ, фон 57 позади человека имеет цвет, отличный от цвета кожи. Следует также упомянуть, что способ согласно седьмому варианту может быть реализован также только с одной видеокамерой, снимающей лицо только одного человека.
Следующий шаг S22 состоит в определении в потоке видеоданных, полученных от видеокамеры, одного кадра, который может содержать, по меньшей мере, часть лица человека, подвергающуюся анализу. В этом варианте определение зоны, отображающей лицо или часть лица, основано на применении маски, накладываемой на данные, образующие кадр, чтобы выделить ту часть кадра, в которой присутствуют цвета кожи. Использование находящегося позади места 9 или 11 фона, который не содержит таких цветов, облегчает данную часть анализа. В том случае, если данный шаг анализа выдает несколько зон, содержащих цвета кожи, выбирают наибольшую зону. Такой выбор основан на том, что камеры 43 и/или 45 установлены и настроены таким образом, что в кадре находятся только голова человека и часть фона, не содержащего цветов кожи. Для улучшения результатов ту же самую обработку кадра можно повторить несколько раз. На фиг.10b представлен практический результат такого подхода: квадрат 59 - эта выделенная зона, имеющая цвета кожи, которая может содержать область, соответствующую глазу.
Следующий шаг S23 состоит в выполнении детального исследования выделенной зоны, содержащей лицо человека, съемка которого производилась, чтобы выделить полоски, которые могут включать глаза этого человека. Такую обработку данных осуществляют следующим образом: регистрируют вертикальный или горизонтальный профиль интенсивности или цвета пикселей, образующих выбранную зону. Затем определяют максимальное значение в этом профиле и удаляют локальные максимумы путем сглаживания профилей. После этого производят поиск спадов интенсивности (спад интенсивности соответствует пикселям с интенсивностью ниже заранее установленного предельного значения, которое, в свою очередь, определено в зависимости от ранее идентифицированного максимального значения в данной зоне или в соответствующей вертикальной или горизонтальной полоске). Спады на профилях могут, действительно, быть обусловлены присутствием глаза, приводящим к появлению отверстий в маске. Если подобный спад найден в одном профиле, рассматриваются смежные профили с целью найти соответствующие спады, которые будут указывать на взаимосвязанные структуры. Профили, принадлежащие к подобным взаимосвязанным структурам, определят одну полоску, которая может содержать изображение глаза указанного человека. Фиг.10с иллюстрирует результат этого шага, показывая три полоски 61а, 61b, 61с, которые могли бы содержать глаза человека. Полоска 61с справа имеет спад интенсивности на участках морщин, расположенных справа от глаза.
Если на одном кадре из потока видеоданных найдена только одна полоска, автоматически делается вывод, что эта полоска непригодна для идентификации положений двух глаз заснятого человека. Способ прерывается на шаг S23, после чего анализируется следующий кадр из потока видеоданных, начиная с шага S21.
Данный способ может быть усовершенствован использованием следующих вариантов. Можно исключить найденные внутри зоны связанные структуры слишком малых размеров. Связанные структуры, лежащие вплотную одна к другой, могут быть объединены и/или слишком большие связанные структуры могут быть разделены с получением двух полосок. Имеется также возможность увеличить полоску в случае, если связанные структуры относительно малы, но достаточно велики, чтобы в случае объединения включать глаз человека.
После того как полоски, способные включать глаз человека, изолированы, выполняется следующий шаг S24, шаг поиска внутри полосок областей, соответствующих глазам, в случае, если на предыдущем шаге было выделено больше одной полоски. В этом варианте вычисляется контурная карта изображения по серой шкале внутри каждой полоски. Затем определяют потенциальное положение центра зрачка в каждой изучаемой полоске путем рассмотрения пересечений сегментов, сформированных вдоль радиуса каждого из соприкасающихся кругов для всех точек контура. Точка, вокруг которой наблюдается наибольшее пересечение таких сегментов, принимается за центр зрачка внутри полоски, поскольку зрачок является элементом лица с наиболее круглым контуром. Количество пересечений для такого центра является характеристикой качества определения. При этом вероятность того, что данная точка является центром зрачка, увеличивается, если уровень (оттенок) серого в ней является более темным, поскольку зрачок является черным. Соответственно, можно учитывать веса пересечений по их положению на серой шкале.
Если на предыдущем шаге были выделены более двух полосок, наименее вероятными кандидатами являются полоски с наименьшим весом; соответственно, их можно отбросить. После этого для каждой из двух оставшихся полосок область, соответствующая глазу, определяется как прямоугольник заранее установленных размеров, достаточно большой, чтобы включать целый глаз на соответствующем кадре, и центрированный относительно точки, выбранной в качестве центра зрачка. Результат этого шага для рассматриваемого примера показан на фиг.10d. В полосках 61а и 61b были идентифицированы области 63а и 63b, соответствующие глазам, тогда как в полоске 61с вес потенциального центра оказался слишком низким по сравнению с весами центров предыдущих областей.
После того как область, соответствующая глазу внутри полоски, будет идентифицирована, следующий шаг S25 состоит в определении положения зрачка внутри этой области. Для этого используется тот же алгоритм, но только внутри выделенных областей, соответствующих глазам.
На данном шаге оценки качества, полученные в процессе определения, нормализуются в зависимости от размеров области, одинаковых для всех областей. Это делает возможным последующее сравнение результатов, полученных для различных кадров в составе видеоданных.
После того как положения зрачков определены для обоих людей, съемка которых производилась системой 41, становится возможным установить, смотрят ли эти люди друг на друга или нет. Данная возможность обусловлена тем фактом, что положения видеокамер фиксированы, так что, зная положение зрачка на кадре, устройство 47 обработки может установить, соответствуют ли положения зрачков двух человек ситуации, когда они смотрят друг на друга. В конкретной модификации этого варианта определение положения зрачка на каждом изображении можно использовать для выявления последовательностей кадров в составе видеоданных, на которых снимаемый человек смотрит на своего собеседника (свою собеседницу). В упрощенной версии этого варианта идентификации глаз человека достаточно для вывода о том, что данный человек смотрит на другого человека, так что в случае идентификации глаз обоих людей можно заключить, смотрят ли они друг на друга.
В дополнение, проанализировав положения зрачка и самого глаза, можно определить микродвижения глаза для каждого человека. Более конкретно, определяют, в каком из шести возможных направлений относительно глаза (вверх и влево, вверх и вправо, влево, вправо, вниз и влево; вниз и вправо) движется зрачок. В том случае, если поведение глаз обоих людей одинаково, делается вывод, что глаза находятся в состоянии синхронизации.
Восьмой вариант
Фиг.11 иллюстрирует восьмой вариант, также соответствующий способу электронного оценивания диалога, по меньшей мере, между двумя людьми. В дополнение к шагам S21-S25, которые являются такими же, как в седьмом варианте, этот вариант содержит дополнительные шаги S26 и S27, позволяющие дополнительно ускорить процесс определения положения зрачка на кадре видеоданных. После того как будет определено положение зрачка в области, соответствующей глазам, на первом кадре (шаг S25), устройство 47 обработки проводит анализ следующего кадра видеоданных, но не начинает его с шага S22 идентифицирования зоны, соответствующей лицу, а сразу же переходит к повторному определению положения зрачка в области, которая соответствует месту, в котором область, соответствующая глазу, была идентифицирована на предыдущем кадре. Согласно одной модификации данного варианта эту область расширяют, чтобы повысить вероятность обнаружения зрачка.
Фактически в этом варианте учитывается тот факт, что во время разговора о продаже положение головы и соответственно глаз не изменяется очень быстро, и это делает высокой вероятность того, что на последующих кадрах зрачок может быть обнаружен в положениях, близких к положению, в котором он находился на предыдущих кадрах. В результате нет необходимости повторять шаги S22-S24.
Если на шаге S27 было установлено, что зрачок на следующем кадре был, действительно, обнаружен на шаге S26, шаг S26 снова повторяют для следующего кадра, без перехода к шагам S22-S25. Однако, если устройство 47 обработки не может на шаге S26 идентифицировать зрачок в области, соответствующей глазу, способ согласно варианту продолжается с шага S22, как и в предыдущем варианте.
Девятый вариант
На фиг.12 иллюстрируется третья система согласно изобретению, соответствующая девятому варианту изобретения. Система 71 соответствует комбинации систем 1 и 41 согласно первому и пятому вариантам изобретения. Таким образом, она содержит микрофоны 3, 5 и две видеокамеры 43, 45, каждая из которых связана с устройством 73 обработки, содержащим с первого по пятый процессорные блоки 13, 15, 17, 49, 51 и выполненным с возможностью анализировать и аудиоданные, и видеоданные, поступающие от микрофонов и видеокамер. Повторное подробное описание этих компонентов не приводится, поскольку оно было приведено при рассмотрении первого и четвертого вариантов изобретения. Как уже упоминалось, при участии в разговоре более двух человек система 71 может быть адаптирована к этому соответственным увеличением количества микрофонов и/или видеокамер.
Кроме того, система 71, как и в предыдущих вариантах, может содержать также запоминающее устройство 19 и/или пользовательский интерфейс (не изображен). С помощью такой системы можно осуществлять описанные способы, комбинируя их. Например, автоматическое (электронное) оценивание диалога двух людей может быть проведено на основе анализа их вербального, а также невербального взаимодействий.
В дополнение, можно использовать преимущество данного варианта, состоящее в синергии между данными, извлеченными из аудиоданных и из видеоданных. В результате становится возможным анализировать фокусирование и/или микродвижения глаз как функции фаз взаимодействия, имеющих место во время разговора о продаже.
Одновременное рассмотрение параметров "распределение высказываний" и "фокусирование" позволяет получить первую меру наличия синхронизации между двумя людьми, т.е. состояния, в котором имеет место согласованное поведение людей. Это может быть полезно для успешного завершения разговора. Если, например, продавец не смотрит на покупателя (продавец несфокусирован), когда говорит, но смотрит на него, когда слушает, и если покупатель принимает такой же способ поведения, оба они находятся в синхронизированном состоянии, т.е. поведение обоих участников согласовано. Следовательно, даже если оба человека не смотрят друг на друга, способ по изобретению может идентифицировать состояние синхронизации, полезное для успеха диалога. Например, если покупатель является стеснительным человеком, который не решается смотреть на другого человека, он предпочитает, чтобы и другой человек перестал смотреть на него.
В случае когда фокусирование отсутствует, становится интересным проанализировать микродвижения глаз, поскольку определенная синхронизация достигается и в случае, когда микродвижения обоих людей соответствуют одному типу. В дополнение, микродвижение глаз каждого человека анализируется в течение первой и/или второй фазы диалога, т.е. фаз "презентации" и/или "определения потребностей". В течение трех последующих фаз система 71 определяет, имеет ли место синхронизация микродвижений между двумя людьми или каждый человек сохраняет свой собственный тип микродвижений.
Данные, полученные о возможностях продавца в отношении синхронизации, позволяют дать количественную оценку его адаптационных способностей. Как правило, человек повторяет одни и те же режимы вербальной и невербальной коммуникации. Однако правильный тренинг коммуникационных умений позволяет адаптироваться к поведению покупателя. С использованием способа и устройства по изобретению подобный анализ может быть переведен на количественную основу.
Обеспечивается также возможность проверки фокусирования как функции различных фаз, так что пользователь системы 71 может получить еще больше информации о характере состоявшегося разговора о продаже между двумя людьми.
Устройство обработки предпочтительно выполняется таким образом, чтобы анализ проводился немедленно. Например, положение зрачка рассчитывают в интервале между кадрами, так что становится возможным анализ в реальном времени. Преимуществом такого варианта является то, что по завершении диалога пользователь сразу же получает данные о вербальных и невербальных взаимодействиях между двумя людьми и может определить профиль продавца.
Каждая из систем 1, 41 и 71 может содержать также базу данных с заранее установленными профилями. Сравнивая результаты анализа вербальных и невербальных взаимодействий между продавцом и покупателем со свойствами вербальных и невербальных взаимодействий заранее установленных профилей, системы могут выводить заранее установленный профиль продавца в наибольшей степени отвечающий оцениваемому человеку. Это позволяет указать такому человеку специальные варианты тренинга, чтобы улучшить его коммуникативные умения и тем самым повысить его шансы успешно завершать разговоры о продаже.
Все описанные способы могут быть реализованы с использованием компьютерных программ, записываемых в виде компьютерных программных продуктов, содержащих одну или более машиночитаемых сред, которые содержат компьютерные команды, обеспечивающие выполнение описанных выше шагов. Согласно изобретению для хранения компьютерных программ может быть использована соответствующая запоминающая среда.
Изобретение относится к средствам электронного оценивания диалога. Технический результат заключается в повышении эффективности оценивания диалога. Получают видеоданные, отображающие, по меньшей мере частично, двух людей. Анализируют видеоданные с целью определения, имеет ли место визуальное взаимодействие, по меньшей мере, между указанными двумя людьми в процессе диалога, включающее определение того, смотрят ли друг на друга, по меньшей мере, двое указанных людей, путем детектирования положения их зрачков. Анализируют микродвижения глаз, по меньшей мере, двух людей с целью определить, являются ли направления микродвижений глаз однотипными. 2 н. и 23 з.п. ф-лы, 15 ил.
1. Способ автоматического оценивания диалога, по меньшей мере, между двумя людьми, включающий следующие шаги:
g) получение видеоданных, отображающих, по меньшей мере, частично двух людей,
h) анализ видеоданных с целью определения, имеет ли место визуальное взаимодействие, по меньшей мере, между указанными двумя людьми в процессе диалога, включающий определение того, смотрят ли друг на друга, по меньшей мере, двое указанных людей, путем детектирования положения их зрачков, и
i) анализ микродвижсний глаз, по меньшей мере, двух людей с целью определить, являются ли направления микродвижений глаз однотипными.
2. Способ по п.1, отличающийся тем, что на шаге i) микродвижения глаз являются движениями зрачка в одном из следующих шести направлений:
вверх и влево, вверх и вправо, влево, вправо, вниз и влево; вниз и вправо.
3. Способ по п.2, отличающийся тем, что шаг i) включает определение того, являются ли направления микродвижений глаз однотипными, по меньшей мере, в одной заранее установленной фазе взаимодействия.
4. Способ по п.1, отличающийся тем, что шаг h) включает следующие шаги:
шаг h_1) идентифицирования визуальных признаков в кадре в составе видеоданных с целью определения в кадре зоны, отображающей, по меньшей мере, часть лица, по меньшей мере, одного из двух людей,
шаг h_2) изолирования в указанной зоне полосок, в частности вертикальных,
и
шаг h_3) поиска внутри полосок областей, соответствующих глазам, при условии, что на шаге h_2) было изолировано более одной полоски.
5. Способ по п.4, отличающийся тем, что шаг h_2) дополнительно включает идентифицирование внутри полосок контуров путем их преобразования в формат по серой шкале и поиск возможных центров идентифицированных контуров путем поиска кругов, которые могут соответствовать зрачку, определением относительных весов их интенсивностсй по серой шкале в видеоданных в пределах контуров с заранее установленным цветом.
6. Способ по п.5, отличающийся тем, что дополнительно включает шаг h_4) идентифицирования положения зрачка в области, соответствующей глазу, путем поиска кругов, которые могут соответствовать зрачку, определением относительных весов их интенсивностсй по серой шкале в видеоданных в пределах контуров с заранее установленным цветом.
7. Способ по п.6, отличающийся тем, что, по меньшей мере, для следующего кадра в составе видеоданных повторяют только шаг h_4) с целью идентификации положения зрачка в области, соответствующей глазу, за исключением случаев, когда положение зрачка не детектируется.
8. Способ по п.7, отличающийся тем, что видеоданные содержат потоки данных от различных камер, установленных в различных положениях по отношению к людям, участвующим в диалоге.
9. Способ по п.8, отличающийся тем, что каждая камера снимает только одного человека.
10. Способ по п.1, отличающийся тем, что способ включает следующие шаги:
а) получение аудиоданных, воспроизводящих диалог, по меньшей мере, между двумя людьми,
b) анализ аудиоданных с целью определить распределение высказываний, по меньшей мере, двух людей в процессе диалога во временном домене,
c) идентифицирование в диалоге одного или более коммуникационных паттернов путем сравнения результатов шага анализа с заранее установленными коммуникационными паттернами.
11. Способ по п.1, отличающийся тем, что дополнительно включает следующие шаги:
а) получение аудиоданных, содержащих диалог, по меньшей мере, между двумя людьми,
d) идентифицирование заранее установленных фаз взаимодействия в процессе диалога на основе скользящего среднего значения времени, в течение которого говорит один человек, участвующий в диалоге.
12. Способ по п.11, отличающийся тем, что указанное идентифицирование, по меньшей мере, одной фазы взаимодействия включает обнаружение перехода от одной фазы взаимодействия к другой путем определения первого момента, в который скользящее среднее принимает первое граничное значение, и второго момента, в который скользящее среднее принимает второе граничное значение, при этом указанный переход происходит во второй момент.
13. Способ по п.12, отличающийся тем, что первое граничное значение составляет 60-80% для фаз, в течение которых один человек, участвующий в диалоге, говорит больше другого человека, и 20-40% для фаз, в течение которых один человек, участвующий в диалоге, говорит меньше другого человека, а второе граничное значение составляет 45-55%.
14. Способ по п.11, отличающийся тем, что указанное среднее значение рассчитывают на временном интервале, составляющем около 3-10% от общей продолжительности диалога.
15. Способ по п.10 или 11, отличающийся тем, что дополнительно включает шаг е) анализа аудиоданных с целью идентификации заранее установленных слов в высказываниях, по меньшей мере, двух людей.
16. Способ по п.15, отличающийся тем, что дополнительно включает шаг f) подсчета появлений заранее выбранных слов в одной или более идентифицированных фазах взаимодействия.
17. Способ по п.10 или 11, отличающийся тем, что аудиоданные включают потоки данных от различных микрофонов, в частности от микрофонов, каждый из которых ассоциирован только с одним человеком из указанных, по меньшей мере, двух людей и сконфигурирован таким образом, что интенсивность сигнала, поступающего от одного человека, когда он говорит, превышает интенсивность сигнала от остальных людей.
18. Система для автоматического, в частности электронного, оценивания диалога, по меньшей мере, между двумя людьми, содержащая, по меньшей мере, одну видеокамеру (43, 45) для генерирования видеоданных, по меньшей мере, частично отображающих, по меньшей мере, двух людей во время диалога, и устройство (73) обработки, сконфигурированное с возможностью определять, имеет ли место визуальное взаимодействие, по меньшей мере, между двумя людьми во время диалога, причем устройство обработки дополнительно сконфигурировано с возможностью детектирования в видеоданных, содержащих множество последовательных кадров, положения глаз человека, участвующего в диалоге, путем идентифицирования в кадре визуальных признаков с целью определения зоны кадра, отображающей, по меньшей мере, часть лица человека, выделением в указанной зоне вертикальных полосок и поиска внутри полосок областей, соответствующих глазам, при условии, что ранее выделено более одной полоски, и с возможностью определять, являются ли микродвижения глаз двух человек однотипными.
19. Система по п.18, отличающаяся тем, что содержит по одной видеокамере (43, 45) на каждого человека, участвующего в диалоге, при этом видеокамеры (43, 45) установлены так, что каждая камера (43, 45) снимает только одного человека.
20. Система по п.18, отличающаяся тем, что устройство обработки сконфигурировано с возможностью определять движения зрачка в одном из следующих шести направлений: вверх и влево, вверх и вправо, влево, вправо, вниз и влево; вниз и вправо.
21. Система по п.18, отличающаяся тем, что дополнительно содержит:
a) по меньшей мере, один микрофон (3, 5) для улавливания диалога и генерирования аудиоданных и
b) устройство (7) обработки данных, сконфигурированное с возможностью анализа аудиоданных с целью определения распределения высказываний, по меньшей мере, двух людей в процессе диалога во временном домене и сконфигурированное с возможностью сравнения шага анализа с заранее установленными коммуникационными паттернами с целью идентификации в диалоге одного или более коммуникационных паттернов.
22. Система по п.18, отличающаяся тем, что дополнительно содержит:
a) по меньшей мере, один микрофон (3, 5) для улавливания диалога и генерирования аудиоданных и
b) устройство (7) обработки данных, сконфигурированное с возможностью идентификации заранее установленных фаз взаимодействия в процессе диалога на основе скользящего среднего значения времени, в течение которого говорит один человек, участвующий в диалоге.
23. Система по п.21, отличающаяся тем, что устройство (7) обработки данных сконфигурировано с возможностью идентификации заранее установленных фаз взаимодействия в процессе диалога на основе скользящего среднего значения времени, в течение которого говорит один человек, участвующий в диалоге.
24. Система по любому из пп.21-23, отличающаяся тем, что устройство (7) обработки данных сконфигурировано с возможностью идентификации заранее выбранных слов в высказываниях.
25. Система по любому из пп.21-23, отличающаяся тем, что содержит по одному микрофону (3, 5) на каждого человека, участвующего в диалоге, при этом каждый микрофон (3, 5) сконфигурирован так, что интенсивность сигнала от соответствующего человека, когда он говорит, превышает интенсивность сигнала от остальных людей.
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
Аппарат для очищения воды при помощи химических реактивов | 1917 |
|
SU2A1 |
ЕР 1058453 В1, 10.03.2004 | |||
Способ приготовления мыла | 1923 |
|
SU2004A1 |
СПОСОБ ПЕРЕДАЧИ РЕЧЕВОЙ АКТИВНОСТИ В РАСПРЕДЕЛЕННОЙ СИСТЕМЕ РАСПОЗНАВАНИЯ ГОЛОСА И СИСТЕМА ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2002 |
|
RU2291499C2 |
Авторы
Даты
2013-01-10—Публикация
2008-06-25—Подача