ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННУЮ ЗАЯВКУ
[001] Настоящая заявка испрашивает приоритет китайской заявки № 2018102988451, поданной 4 апреля 2018 г. и озаглавленной «Voice Wake-Up Method and Apparatus», которая полностью включена в настоящее описание посредством ссылки.
ОБЛАСТЬ ТЕХНИКИ
[002] Варианты осуществления настоящего изобретения относятся к технической области компьютерных приложений, и в частности к способу и приспособлению для голосовой активации.
ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ
[003] С постепенным развитием технологии голосового взаимодействия все больше и больше интеллектуальных терминалов обладают функцией голосовой активации, то есть цель активации интеллектуальных терминалов достигается за счет понимания голосовой информации голосовых данных пользователей. Способ голосовой активации был предоставлен в предшествующем уровне техники, в котором слово активации предварительно задано пользователем и после приема голосового сигнала терминал определяет, совпадает ли голосовой сигнал со словом активации. Если он совпадает, то интеллектуальное устройство в состоянии ожидания активируется; если он не совпадает, то активация не выполняется. При этом процесс взаимодействия запускается сразу после активации интеллектуального устройства. Если в процессе взаимодействия происходит прерывание, то интеллектуальное устройство необходимо повторно активировать, и процесс взаимодействия повторно начинается с самого начала.
[004] Если после этого прерывания пользователь желает возобновить работу на том же участке взаимодействия, что и до прерывания, это приведет к увеличению затрат на взаимодействие и ухудшению впечатления пользователя от взаимодействия, поскольку интеллектуальное устройство необходимо повторно активировать и процесс взаимодействия повторно запускается с самого начала, а предыдущий участок взаимодействия был исполнен до прерывания.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[005] Для решения или по меньшей мере частичного решения вышеупомянутых проблем варианты осуществления настоящего изобретения предоставляют приспособление для голосовой активации и способ для преодоления по меньшей мере недостатка процесса взаимодействия, который необходимо повторно выполнять при активации устройства после прерываний в предшествующем уровне техники, тем самым обеспечивая продолжение процесса взаимодействия, который имел место перед ожиданием.
[006] Согласно первому аспекту вариантов осуществления настоящего изобретения предоставляется способ голосовой активации, который включает:
[007] определение библиотеки слов активации реального времени на основе состояния взаимодействия с пользователем, причем библиотека слов активации реального времени сконфигурирована для выполнения последующего процесса взаимодействия; и
[008] получение голосового сигнала, введенного пользователем, и выполнение активации на основе библиотеки слов активации реального времени и голосового сигнала.
[009] Согласно второму аспекту вариантов осуществления настоящего изобретения предоставляется приспособление для голосовой активации, которое содержит:
[0010] первый модуль определения, сконфигурированный для определения библиотеки слов активации реального времени на основе состояния взаимодействия с пользователем, причем библиотека слов активации реального времени сконфигурирован для выполнения последующего процесса взаимодействия; и
[0011] модуль активации, сконфигурированный для получения голосового сигнала, введенного пользователем, и выполнения активации на основе библиотеки слов активации реального времени и голосового сигнала.
[0012] Согласно третьему аспекту вариантов осуществления настоящего изобретения предоставляется приспособление для голосовой активации, которое содержит:
[0013] по меньшей мере один процессор; и
[0014] по меньшей мере одно запоминающее устройство, с возможностью связи соединенное с процессором, при этом:
[0015] запоминающее устройство хранит программные команды, которые могут исполняться процессором, и процессор может выполнять способ голосовой активации, предоставленный в первом аспекте, посредством вызова программных команд.
[0016] Согласно четвертому аспекту вариантов осуществления настоящего изобретения предоставляется энергонезависимый машиночитаемый носитель данных, причем энергонезависимый машиночитаемый носитель данных хранит компьютерные команды, которые приводят к выполнению компьютером способа голосовой активации, предоставленного в первом аспекте.
[0017] Для способа, предоставленного вариантами осуществления настоящего изобретения, библиотеку слов активации реального времени определяют на основе состояния взаимодействия с пользователем, получают голосовой сигнал, введенный пользователем, и выполняют активацию на основе библиотеки слов активации реального времени и голосового сигнала. После прерывания предыдущего процесса взаимодействия активация выполняется на основе библиотеки слов активации реального времени, в результате чего это может предоставить пользователям ощущение отсутствия ожидания при повторном выполнении активации, так, что пользователь может прямо продолжать сценарии взаимодействия, которые имели место перед ожиданием, без повторения процесса взаимодействия, который был выполнен ранее. Поэтому стоимость взаимодействия может быть снижена, а впечатление пользователя может быть улучшено.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ
[0018] Чтобы сделать варианты осуществления настоящего изобретения или технические решения в предшествующем уровне техники более ясными, графические материалы, необходимые в вариантах осуществления или описании предшествующего уровня техники, кратко представлены далее. Очевидно, что графические материалы в последующем описании представляют лишь некоторые варианты осуществления настоящего изобретения. Для специалистов в данной области техники на основе этих графических материалов могут быть получены другие графические материалы без каких-либо творческих усилий.
[0019] На фиг. 1 показана блок-схема способа голосовой активации, предоставленного вариантом осуществления настоящего изобретения; и
[0020] на фиг. 2 показана блок-схема способа голосовой активации, предоставленного другим вариантом осуществления настоящего изобретения; и
[0021] на фиг. 3 показана блок-схема способа голосовой активации, предоставленного еще одним вариантом осуществления настоящего изобретения; и
[0022] на фиг. 4 показана структурная схема сети активации, предоставленной вариантом осуществления настоящего изобретения; и
[0023] на фиг. 5 показана структурная схема приспособления для голосовой активации, предоставленного вариантом осуществления настоящего изобретения; и
[0024] на фиг. 6 показана структурная схема устройства голосовой активации, предоставленного вариантом осуществления настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ
[0025] Чтобы сделать цели, технические решения и преимущества вариантов осуществления настоящего изобретения яснее, технические решения в вариантах осуществления настоящего изобретения будут описаны ясно и полностью вместе с сопровождающими графическими материалами в вариантах осуществления настоящего изобретения. Очевидно, что варианты осуществления, описанные ниже, являются частью вариантов осуществления настоящего изобретения, а не всеми вариантами осуществления. На основе вариантов осуществления в настоящем изобретении все другие варианты осуществления, полученные специалистами в данной области техники без творческих усилий, должны подпадать под объем защиты настоящего изобретения.
[0026] Голосовую активацию выполняют путем распознавания голосового сигнала пользователя так, чтобы понять цель активации интеллектуального устройства. Процесс активации в связанных технологиях можно увидеть в следующем примере: использование интеллектуального устройства в качестве интеллектуального динамика со словом активации «эхо-эхо», предварительно заданным пользователем в качестве примеров, причем если интеллектуальный динамик обнаруживает, что пользователь вводит голосовой сигнал «эхо-эхо» (т.е. голосовой сигнал может не иметь смысла, при этом голосовой сигнал сконфигурирован только для активации интеллектуального динамика), то он может начать взаимодействовать с пользователем. Конкретный процесс взаимодействия может выглядеть следующим образом:
[0027] Пользователь: Эхо-эхо.
[0028] Интеллектуальный динамик: Как я могу вам помочь?
[0029] Пользователь: Запусти мне песню.
[0030] Интеллектуальный динамик: Хорошо, у вас есть любимый певец или песня?
[0031] Пользователь: Я хочу послушать Джея Чоу.
[0032] Интеллектуальный динамик: Какую песню Джея Чоу вы бы хотели услышать? ...
[0033] После того как интеллектуальный динамик задаст вопрос «Какую песню Джея Чоу вы бы хотели услышать?», интеллектуальный динамик может случайным образом воспроизвести песню Джея Чоу, а затем перейдет в состояние ожидания, если интеллектуальный динамик не получит от пользователя желаемого ответа на вопрос в течение некоторого периода времени. Есть две ситуации, в которых невозможно получить желаемый ответ: ответ не принят в течение предварительно заданного периода времени или принят ответ, не связанный с вопросом, в течение предварительно заданного периода времени (например, как в случае с перекрестными вопросами или непрямыми ответами). После того, как интеллектуальный динамик входит в состояние ожидания, пользователю необходимо произнести «эхо-эхо» и перезапустить процесс взаимодействия, если необходимо снова активировать интеллектуальный динамик. На этом этапе, если целью пользователя является активация интеллектуального динамика, чтобы послушать песни Джея Чоу, то необходимо повторить следующий процесс взаимодействия:
[0034] Пользователь: Эхо-эхо.
[0035] Интеллектуальный динамик: Как я могу вам помочь?
[0036] Пользователь: Запусти мне песню.
[0037] Интеллектуальный динамик: Хорошо, у вас есть любимый певец или песня?
[0038] Пользователь: Я хочу послушать Джея Чоу.
[0039] Видно, что вышеупомянутый процесс взаимодействия повторяется. Принимая во внимание вышеописанную ситуацию, один из вариантов осуществления настоящего изобретения предоставляет способ голосовой активации, который может быть выполнен интеллектуальным устройством, и интеллектуальное устройство может представлять собой носимое устройство, бортовое оборудование, мобильное устройство, ПК, интеллектуальный бытовой прибор или т.п., что не определено конкретно в вариантах осуществления настоящего изобретения. Способ может быть применен к различным сценариям взаимодействия, таким как сценарии использования домашних бытовых приборов, сценарии взаимодействия службы поддержки клиентов и сценарии покупки билетов, которые также не определены конкретно в вариантах осуществления настоящего изобретения. Как показано на фиг. 1, способ включает: этап 101. – определение библиотеки слов активации реального времени на основе состояния взаимодействия с пользователем, причем библиотека слов активации реального времени сконфигурирована для выполнения последующего процесса взаимодействия; и этап 102. – получение голосового сигнала, введенного пользователем, и выполнение активации на основе библиотеки слов активации реального времени и голосового сигнала.
[0040] Перед выполнением этапа 101 интеллектуальное устройство было когда-то активировано пользователем и был инициирован процесс взаимодействия с пользователем, т.е. предыдущий процесс взаимодействия. В предыдущем процессе взаимодействия интеллектуальное устройство может быть активировано с помощью определенной библиотеки слов активации. Определенная библиотека слов активации может быть использована в качестве исходной библиотеки слов активации. Исходная библиотека слов активации может быть автоматически установлена, когда интеллектуальное устройство покидает завод, или может быть сгенерирована следующими способами: сперва интеллектуальное устройство принимает текст слова активации или голосовой сигнал, введенный пользователем; при этом, текст слова активации может быть предварительно определен пользователем и подтвержден пользователем, а голосовой сигнал может быть смысловым или не иметь смысла.
[0041] Если текст слова активации принимается интеллектуальным устройством, то текст слова активации сегментируют; определяют последовательность фонем или марковскую последовательность уровней состояний, слова активации в соответствии со списком соответствия между каждым сегментированным словом и фонемой; вызывают программу генерирования библиотеки слов активации, чтобы генерировать исходную библиотеку слов активации на основе последовательности фонем или уровней состояния; после определения нового слова активации пользователь может активировать интеллектуальное устройство посредством применения исходной библиотеки слов активации.
[0042] Если голосовой сигнал принимается интеллектуальным устройством, то сначала могут быть извлечены акустические характеристики, такие как параметры группы фильтров голосового сигнала; конструируют библиотеку слов декодирования фонем или уровней состояния, вызывают акустическую модель для декодирования акустических характеристик посредством библиотеки слов декодирования фонем или уровней состояния, и получают последовательность фонем или уровней состояния слова активации; вызывают программу генерирования библиотеки слов активации, чтобы генерировать исходную библиотеку слов активации на основе последовательности фонем или уровней состояния.
[0043] Интеллектуальное устройство может не получить желаемый ответ от пользователя на определенном участке предыдущего процесса взаимодействия и поэтому перейти в состояние ожидания. После того, как интеллектуальное устройство перешло в состояние ожидания, может быть определено текущее состояние взаимодействия с пользователем. Состояние взаимодействия с пользователем можно разделить на два типа: первый тип заключается в том, что пользователь хочет продолжить предыдущий процесс взаимодействия, который имел место перед ожиданием, в последующем процессе взаимодействия; второй тип заключается в том, что пользователь хочет начать новый процесс взаимодействия в последующем процессе взаимодействия. После определения библиотеки слов активации реального времени может быть получен голосовой сигнал, введенный пользователем, и активацию выполняют на основе библиотеки слов активации реального времени и голосового сигнала.
[0044] Для способа, предоставленного вариантами осуществления настоящего изобретения, библиотеку слов активации реального времени определяют на основе состояния взаимодействия с пользователем, получают голосовой сигнал, введенный пользователем, и выполняют активацию на основе библиотеки слов активации реального времени и голосового сигнала. После прерывания предыдущего процесса взаимодействия активацию выполняют на основе библиотеки слов активации реального времени, в результате чего это может предоставить пользователям ощущение отсутствия ожидания при повторном выполнении активации, так, что пользователь может прямо продолжать сценарии взаимодействия, которые имели место перед ожиданием, без повторения процесса взаимодействия, который был выполнен ранее. Поэтому стоимость взаимодействия может быть снижена, а впечатление пользователя может быть улучшено.
[0045] Вариант осуществления настоящего изобретения, основанный на содержании предыдущих вариантов осуществления, предоставляет способ определения библиотеки слов активации реального времени на основе состояния взаимодействия с пользователем, включающий: получение ключевых слов в первой информации о взаимодействии предыдущего процесса взаимодействия и добавление ключевых слов в исходную библиотеку слов активации для получения библиотеки слов активации реального времени, когда состояние взаимодействия с пользователем заключается в том, чтобы продолжать предыдущий процесс взаимодействия, который имел место перед ожиданием; использование исходной библиотеки слов активации как библиотеки слов активации реального времени, когда состояние взаимодействия с пользователем заключается в том, чтобы перезапустить процесс взаимодействия.
[0046] А именно, если состояние взаимодействия с пользователем заключается в том, чтобы продолжать предыдущий процесс взаимодействия, который имел место перед ожиданием, то ключевые слова в первой информации о взаимодействии предыдущего процесса взаимодействия получают в соответствии с правилами информации о ключевых словах. Когда получают ключевые слова в первой информации о взаимодействии предыдущего процесса взаимодействия, первая информация о взаимодействии может представлять собой информацию о взаимодействии, включенную в различные участки взаимодействия в предыдущем процессе взаимодействия, или информацию, полученную во время предыдущего процесса взаимодействия, как необходимо пользователю, что конкретно не определено в вариантах осуществления настоящего изобретения. Ключевые слова могут представлять собой существительные или глаголы, включенные в различные участки взаимодействия в процессе взаимодействия перед процессом ожидания, или могут представлять собой существительные, поиск которых осуществляется на основе вопросов, заданных пользователем на участке взаимодействия, что также конкретно не определено в вариантах осуществления настоящего изобретения. Библиотека слов активации реального времени может быть получена посредством добавления ключевых слов к исходной библиотеке слов активации. После получения голосового сигнала, введенного пользователем, активация может быть выполнена на основе библиотеки слов активации реального времени и голосового сигнала.
[0047] Принимая интеллектуальное устройство в виде интеллектуального динамика в качестве примера, предыдущий процесс взаимодействия перед ожиданием может быть упомянут в предшествующих примерах. Соответственно, ключевые слова могут представлять собой существительные или глаголы, включенные в различные участки взаимодействия в процессе взаимодействия, такие как «слушать», «Джей Чоу» и «песня», а также могут представлять собой существительные, поиск которых осуществляется на основе вопросов, заданных пользователем на участке взаимодействия, например названия песен «Simple Love» и «Tornado» в соответствующей музыкальной библиотеке Джея Чоу. Библиотека слов активации реального времени может быть определена вышеуказанными ключевыми словами. Когда пользователь вводит голосовой сигнал, например «Джей Чоу», голосовой сигнал может быть распознан библиотекой слов активации реального времени так, что на основе результата распознавания интеллектуальное устройство может быть активировано для продолжения предыдущего процесса взаимодействия, который имел место перед ожиданием, и при этом определяют, что следующей операцией будет проигрывание песен Джея Чоу вместо представления актуальной краткой информации о Джей Чоу. Когда библиотека слов активации реального времени сконструирована, существительные, поиск которых выполняется в соответствии с вопросами, заданными пользователем на участке взаимодействия, такие как название песни «Simple Love», также используют в качестве ключевых слов и, следовательно, когда голосовой сигнал, введенный пользователем, звучит как «проиграй «Simple Love», интеллектуальное устройство также может быть активировано для проигрывания песни «Simple Love». Кроме того, когда голосовой сигнал, введенный пользователем, звучит как «слушать «Simple Love» или «Simple Love», песня «Simple Love» также может быть проиграна.
[0048] На основе содержания предыдущих вариантов осуществления, в качестве необязательного варианта осуществления, способ получения ключевых слов в первой информации о взаимодействии предыдущего процесса взаимодействия в соответствии с правилами информации о ключевых словах не определен конкретно в вариантах осуществления настоящего изобретения, включая, помимо прочего: получение ключевых слов в первой информации о взаимодействии предыдущего процесса взаимодействия в соответствии с частью речи и/или членами предложения.
[0049] При этом правила информации о ключевых словах могут представлять собой правило выбора, применяемое для выбора ключевых слов из первой информации о взаимодействии. В частности, правило информации о ключевых словах может звучать как «выбор в соответствии с частью речи и/или членами предложения», например выбор существительных или прилагательных в соответствии с частью речи и/или выбор сказуемых и дополнений в соответствии с членами предложения. Содержание правил информации о ключевых словах не определено конкретно в вариантах осуществления настоящего изобретения.
[0050] На основе содержания предыдущих вариантов осуществления, в качестве необязательного варианта осуществления первая информация о взаимодействии содержит любой из следующих трех типов информации: информацию о команде пользователя, информацию о машинном ответе и информацию о запросе. При этом информация о команде пользователя подразумевает выданные пользователем команды или заданные пользователем вопросы при взаимодействии с интеллектуальным устройством; информация о машинном ответе подразумевает информацию о том, что интеллектуальное устройство отвечает на выданные пользователем команды или заданные пользователем вопросы; а информация о запросе подразумевает информацию, запрашиваемую интеллектуальным устройством, как необходимо пользователю. После того, как ключевые слова в информации о взаимодействии в соответствии с правилами информации о ключевых словах получены, библиотека слов активации может быть сконструирована на основе ключевых слов. Следует отметить, что процесс получения ключевых слов может быть выполнен заранее, тем самым повышая скорость обновления исходной библиотеки слов активации.
[0051] Следует отметить, что перед извлечением ключевых слов сначала может быть обучена модель понимания смысла на основе сценариев взаимодействия, для извлечения итоговой информации, связанной с информацией о взаимодействии, и затем ключевые слова извлекают из итоговой информации на основе правил информации о ключевых словах, которые не определены конкретно в вариантах осуществления настоящего изобретения.
[0052] После получения ключевых слов в первой информации о взаимодействии ключевые слова также могут быть расширены синонимами, чтобы определять библиотеку слов активации реального времени на основе ключевых слов и ключевых слов синонимичного расширения. В это время библиотека слов активации реального времени содержит содержимое расширенных ключевых слов в дополнение к содержимому ключевых слов в первой информации о взаимодействии, чтобы, когда следующий пользователь введет голосовой сигнал, по смыслу связанный с первой информацией о взаимодействии, полученной перед ожиданием, голосовой сигнал также мог быть распознан с последующим выполнением активации. Таким образом повышается гибкость способа активации.
[0053] На основе содержания предыдущих вариантов осуществления, перед выполнением этапа 101, в качестве необязательного варианта осуществления один вариант осуществления настоящего изобретения дополнительно предоставляет способ определения состояния взаимодействия с пользователем, включающий: определение состояния взаимодействия с пользователем на основе параметра состояния пользователя и параметра логики взаимодействия.
[0054] При этом параметр состояния пользователя сконфигурирован для представления состояния пользователя во время взаимодействия, а параметр логики взаимодействия сконфигурирован для представления логики взаимодействия во время взаимодействия. В частности, параметр состояния пользователя может быть сконфигурирован для описания времени ответа, за которое пользователь взаимодействует с интеллектуальным устройством, и состояния пользователя, когда интеллектуальное устройство получает ответ пользователя; параметр логики взаимодействия может быть сконфигурирован для описания того, является ли смысл голосового сигнала, принятого интеллектуальным устройством перед ожиданием, релевантным для вопроса.
[0055] На основе содержания предыдущих вариантов осуществления, в качестве необязательного варианта осуществления, способ «определения состояния взаимодействия с пользователем на основе параметра состояния пользователя и параметра логики взаимодействия» конкретно не определен в вариантах осуществления настоящего изобретения, включая, помимо прочего, следующие два метода: ввод параметра состояния пользователя и параметра логики взаимодействия в модель прогнозирования состояния взаимодействия и вывод состояния взаимодействия с пользователем; или сведение параметра состояния пользователя и параметра логики взаимодействия к общей форме и определение состояния взаимодействия с пользователем в соответствии с результатом сведения к общей форме.
[0056] Для первого метода, описанного выше, модель прогнозирования состояния взаимодействия может быть получена после того, как путем обучения будут получены эталонный параметр состояния пользователя и эталонный параметр логики взаимодействия. В частности, параметры состояния пользователя и параметры логики взаимодействия пользователя в различных состояниях взаимодействия могут быть соответственно определены заранее. То есть, когда пользователь хочет продолжить процесс взаимодействия, который имел место перед ожиданием, в этот момент времени определяют параметр состояния пользователя и параметр логики взаимодействия. Когда пользователь хочет начать новый процесс взаимодействия, в этот момент времени определяют параметр состояния пользователя и параметр логики взаимодействия. Параметр состояния пользователя и параметр логики взаимодействия пользователя в различных состояниях взаимодействия используют в качестве эталонных параметров, причем эталонные параметры используют в качестве вводных данных исходной модели, а состояние взаимодействия с пользователем используют в качестве выходных данных, так что исходная модель может быть обучена для получения модели прогнозирования состояния взаимодействия. После того, как модель прогнозирования состояния взаимодействия получена с помощью обучения, состояние взаимодействия с пользователем может быть определено с помощью модели прогнозирования состояния взаимодействия, полученной посредством обучения.
[0057] Для второго метода, описанного выше, поскольку параметр состояния пользователя и параметр логики взаимодействия могут представлять собой данные с разными размерностями, параметр состояния пользователя и параметр логики взаимодействия могут быть сначала сведены в данные одной размерности; затем сведенным к общей форме параметру состояния пользователя и параметру логики взаимодействия присваивают вес и суммируют их. Если результат суммирования больше, чем предварительно установленный порог, то это означает, что процесс взаимодействия, который имел место перед ожиданием, был завершен и пользователь в следующий раз желает начать новый процесс взаимодействия. Если результат суммирования не больше, чем предварительно установленный порог, то это означает, что процесс взаимодействия, который имел место перед ожиданием, не был завершен и пользователь в следующий раз желает продолжить процесс взаимодействия, который выполнялся перед ожиданием. При этом предварительно установленный порог может быть установлен по мере необходимости и в вариантах осуществления настоящего изобретения конкретно не определен.
[0058] На основе содержания предыдущих вариантов осуществления, в качестве необязательного варианта осуществления, как параметр состояния пользователя, так и параметр логики взаимодействия могут содержать различную информацию; при этом параметр состояния пользователя содержит по меньшей мере один из последующих пяти типов информации: продолжительность ответа пользователя, расстояние до пользователя, состояние тела пользователя, состояние лица пользователя и личность пользователя; параметр логики взаимодействия содержит по меньшей мере один из следующих двух типов информации: целостность логики взаимодействия и корреляция контекстной семантики взаимодействия.
[0059] В частности, продолжительность ответа пользователя может представлять собой отрезок времени от момента последнего взаимодействия в предыдущем процессе взаимодействия перед переходом интеллектуального устройства в ожидание (интеллектуальное устройство переходит в ожидание сразу после последнего взаимодействия) до момента приема голосового сигнала пользователя. Разумеется, продолжительность ответа пользователя также может представлять собой отрезок времени от момента входа интеллектуального устройства в ожидание до момента приема голосового сигнала пользователя, или оно может представлять собой отрезок времени от времени ожидания до текущего времени, что конкретно не определено в вариантах осуществления настоящего изобретения. При этом, чем дольше продолжительность ответа пользователя, тем более вероятно, что голосовой сигнал, введенный пользователем (т.е. ответ после ожидания), не связан с предыдущим процессом взаимодействия, который имел место перед ожиданием.
[0060] Расстояние до пользователя означает физическое расстояние между пользователем и интеллектуальным устройством. При этом, чем больше расстояние до пользователя, тем дальше пользователь находится от интеллектуального устройства, и в это время более вероятно, что голосовой сигнал, введенный пользователем, не связан с предыдущим процессом взаимодействия, который имел место перед ожиданием. Расстояние до пользователя можно оценить в соответствии со степенью ослабления звука относительно интеллектуального устройства или можно оценить посредством инфракрасного обнаружения, что конкретно не определено в вариантах осуществления настоящего изобретения.
[0061] Состояние тела пользователя представляет перемещение тела пользователя. Когда пользователь совершает определенное движение тела по направлению к интеллектуальному устройству, например делает предварительно заданный жест, это означает, что голосовой сигнал, введенный пользователем, с большей вероятностью будет связан с процессом взаимодействия, который имел место перед ожиданием. Состояние тела пользователя может быть определено камерой на интеллектуальном устройстве, что конкретно не определено в вариантах осуществления настоящего изобретения.
[0062] Состояние лица пользователя может включать выражение лица и/или ориентацию лица, что конкретно не определено в вариантах осуществления настоящего изобретения. Если взять в качестве примера состояние лица пользователя, включая ориентацию лица, то ориентация лица представляет собой угол, под которым отображается лицо пользователя. При этом, чем ближе ориентация лица пользователя к ориентации интеллектуального устройства, тем более вероятно, что голосовой сигнал, введенный пользователем, связан с процессом взаимодействия, который имел место перед ожиданием. Ориентация лица пользователя может быть определена камерой, загруженной в интеллектуальное устройство, и технологией распознавания лиц, что конкретно не определено в вариантах осуществления настоящего изобретения.
[0063] Личность пользователя может быть использована для определения того, является ли пользователь, участвовавший в предыдущем процессе взаимодействия интеллектуального устройства, который имел место перед ожиданием, тем же, что и пользователь, участвующий в последующем процессе взаимодействия. Если пользователь, участвующий во взаимодействии в двух процессах взаимодействия, является одним и тем же человеком, это означает, что голосовой сигнал, введенный пользователем, с большей вероятностью будет связан с предыдущим процессом взаимодействия, который имел место перед ожиданием. Личность пользователя может быть определена посредством распознавания лица, что конкретно не определено в вариантах осуществления настоящего изобретения.
[0064] Целостность логики взаимодействия указывает на то, отвечает ли пользователь на вопрос, заданный интеллектуальным устройством, до того как интеллектуальное устройство перейдет в ожидание. Целостность логики взаимодействия положительно коррелирует со степенью ответа пользователя на вопрос, причем, чем выше степень ответа пользователя на вопрос, тем выше степень целостности логики взаимодействия.
[0065] Корреляция контекстной семантики взаимодействия указывает на то, связан ли ответ, данный пользователем, с вопросом, заданным интеллектуальным устройством перед переходом интеллектуального устройства в ожидание. При этом чем более релевантным является ответ пользователя на вопрос, тем выше корреляция контекстной семантики взаимодействия.
[0066] Следует отметить, что, как можно увидеть из предыдущих вариантов осуществления, когда определяют состояние взаимодействия с пользователем, оно может быть определено посредством способа взвешенного суммирования или модели прогнозирования состояния взаимодействия. Если состояние взаимодействия с пользователем определяется моделью прогнозирования состояния взаимодействия, то один или более из вышеуказанных семи типов информации могут быт введены в модель прогнозирования состояния взаимодействия, тем самым выводя состояние взаимодействия с пользователем. Если состояние взаимодействия с пользователем определяется способом взвешенного суммирования, то каждая информация может быть взвешена и суммирована, поскольку как параметр состояния пользователя, так и параметр логики взаимодействия могут содержать один или более типов информации. Если взять в качестве примера параметр состояния пользователя, содержащий вышеупомянутые три типа информации, и параметр логики взаимодействия, содержащий вышеупомянутые два типа информации, то разные размерности вышеуказанной информации сводят к одной форме и затем сведенные к одной форме данные взвешивают и суммируют для получения результата суммирования. Конкретный процесс показан в следующей формуле:
[0068] В приведенной выше формуле Y представляет результат суммирования. T представляет сегментарно сведенную к одной форме продолжительность ответа пользователя, L представляет сегментарно сведенное к одной форме расстояние до пользователя, alpha представляет сегментарно сведенную к одной форме ориентацию лица пользователя, R представляет целостность логики взаимодействия, S представляет корреляцию семантики контекстного взаимодействия, a1, a2, ..., a5 представляют их соответствующие веса и a6 представляет постоянный весовой параметр.
[0069] На основе содержания предыдущих вариантов осуществления, в качестве необязательного варианта осуществления, один вариант осуществления настоящего изобретения предоставляет способ определения корреляции контекстной семантики взаимодействия. Как показано на фиг. 2, способ включает: этап 201 – получение второй информации о взаимодействии предыдущего процесса взаимодействия и извлечение вектора слов этой информации о взаимодействии; и этап 202 – ввод вектора слов в модель корреляции вопросов и ответов и вывод корреляции контекстной семантики взаимодействия; при этом модель корреляции вопросов и ответов получают посредством обучения на основе эталонной информации о взаимодействии.
[0070] На этапе 201 вторая информация о взаимодействии может содержать информацию о команде пользователя и информацию об ответе машины, что конкретно не определено в вариантах осуществления настоящего изобретения. Перед выполнением этапа 202 большое количество эталонной информации о взаимодействии (т.е. информации о вопросах и ответах между интеллектуальным устройством и пользователем) может быть собрано предварительно, может быть извлечен вектор слов эталонной информации о взаимодействии, и вектор слов может быть использован в качестве входных данных исходной модели так, чтобы получать двоичную или регрессионную модель корреляции вопросов и ответов посредством обучения. При этом способ моделирования модели может представлять собой RNN или CNN, что конкретно не определено в вариантах осуществления настоящего изобретения. Информация о взаимодействии в процессе взаимодействия, который имел место перед ожиданием, может быть получена с помощью предварительной записи и распознавания голоса, что также конкретно не определено в вариантах осуществления настоящего изобретения.
[0071] На основе содержания предыдущих вариантов осуществления, в качестве необязательного варианта осуществления, один вариант осуществления настоящего изобретения предоставляет способ определения сети активации реального времени на основе библиотеки слов активации реального времени. Как показано на фиг. 3, способ включает: этап 301 – использование каждого ключевого слова как слова активации и получение последовательности фонем или марковской последовательности состояний, соответствующих каждому слову активации; и этап 302 – соединение последовательностей фонем или марковских последовательностей состояний, соответствующих каждому из слов активации, для конструирования сети активации реального времени.
[0072] В частности, слово активации может быть отображено в последовательность фонем или марковскую последовательность состояний с помощью списка отображения «текст-фонемы». При этом степень детализации последовательности может соответствовать степени детализации моделирования акустической модели, сконфигурированной для декодирования акустических параметров. На основе вышеприведенного примера структура сети активации реального времени может быть такой, как показано на фиг. 4.
[0073] Соответственно, после того, как сеть активации реального времени сконструирована и введена в действие, голосовой сигнал может быть распознан на основе сети активации реального времени, а именно, могут быть определены команды, которые желает выполнить пользователь. Например, если содержимое голосового сигнала – «слушать «Simple Love», то интеллектуальное устройство может быть активировано с помощью сети активации реального времени и запускается команда «слушать «Simple Love». Поскольку ключевые слова и расширенные синонимами ключевые слова в предыдущем процессе взаимодействия, который имел место перед ожиданием, сохранены в сети активации реального времени, то удобно продолжить предыдущий процесс взаимодействия, который имел место перед ожиданием, без повторного запуска нового процесса взаимодействия.
[0074] Следует отметить, что сконструированная библиотека слов активации применима к предыдущему процессу взаимодействия, который имел место перед ожиданием. Если интеллектуальное устройство снова переходит в ожидание после текущей активации, то ранее сконструированная библиотека слов активации реального времени не обязательно применима к новой активации. Поэтому после завершения текущего сеанса взаимодействия автоматически сконструированная библиотека слов активации реального времени может быть удалена, а на следующей фазе повторной активации новая библиотека слов активации реального времени может быть переделана в соответствии со способом, предоставленным в вариантах осуществления настоящего изобретения. Альтернативно, если состояние взаимодействия с пользователем заключается в том, чтобы перезапустить процесс взаимодействия, то ранее добавленное слово активации удаляют или исходную библиотеку слов активации прямо используют как библиотеку слов активации реального времени.
[0075] Следует отметить, что все описанные выше необязательные варианты осуществления могут быть объединены любым способом для формирования необязательного варианта осуществления настоящего изобретения, который не будет повторно описываться в данном документе.
[0076] На основе содержания предыдущих вариантов осуществления, один вариант осуществления настоящего изобретения предоставляет приспособление для голосовой активации, сконфигурированное для выполнения способа голосовой активации, описанного в предыдущих вариантах осуществления способа. Как показано на фиг. 5, приспособление содержит:
[0077] первый модуль 501 определения, сконфигурированный для определения библиотеки слов активации реального времени на основе состояния взаимодействия с пользователем, причем библиотека слов активации реального времени сконфигурирована для выполнения последующего процесса взаимодействия; и
[0078] модуль 502 активации, сконфигурированный для получения голосового сигнала, введенного пользователем, и выполнения активации на основе библиотеки слов активации реального времени и голосового сигнала.
[0079] В качестве необязательного варианта осуществления, первый модуль 501 определения содержит:
[0080] первый блок получения, сконфигурированный для получения ключевых слов в первой информации о взаимодействии предыдущего процесса взаимодействия в соответствии с правилами информации о ключевых словах, когда состояние взаимодействия с пользователем заключается в том, чтобы продолжить предыдущий процесс взаимодействия, который имел место перед ожиданием, и для добавления ключевых слов в исходную библиотеку слов активации для получения библиотеки слов активации реального времени; и
[0081] второй блок получения, сконфигурированный для использования исходной библиотеки слов активации как библиотеки слов активации реального времени, когда состояние взаимодействия с пользователем заключается в том, чтобы перезапустить процесс взаимодействия.
[0082] В качестве необязательного варианта осуществления, первый блок получения сконфигурирован для получения ключевых слов в первой информации о взаимодействии предыдущего процесса взаимодействия в соответствии с частью речи и/или членами предложения.
[0083] В качестве необязательного варианта осуществления, первая информация о взаимодействии содержит любой из следующих трех типов информации: информацию о команде пользователя, информацию о машинном ответе и информацию о запросе.
[0084] В качестве необязательного варианта осуществления, приспособление дополнительно содержит:
[0085] второй модуль определения, сконфигурированный для определения состояния взаимодействия с пользователем на основе параметра состояния пользователя и/или параметра логики взаимодействия, причем параметр состояния пользователя сконфигурирован для представления состояния пользователя во время взаимодействия, а параметр логики взаимодействия сконфигурирован для представления логики взаимодействия во время взаимодействия.
[0086] В качестве необязательного варианта осуществления второй модуль определения сконфигурирован для ввода параметра состояния пользователя и/или параметра логики взаимодействия в модель прогнозирования состояния взаимодействия и для вывода состояния взаимодействия с пользователем; или сведения к одной форме параметра состояния пользователя и параметра логики взаимодействия и определения состояния взаимодействия с пользователем в соответствии с результатом сведения к одной форме.
[0087] В качестве необязательного варианта осуществления, параметр состояния пользователя содержит по меньшей мере один из следующих пяти типов информации: продолжительность ответа пользователя, расстояние до пользователя, состояние тела пользователя, состояние лица пользователя и личность пользователя; и
[0088] параметр логики взаимодействия содержит по меньшей мере один из следующих двух типов информации: целостность логики взаимодействия и корреляцию контекстной семантики взаимодействия.
[0089] В качестве необязательного варианта осуществления, приспособление дополнительно содержит:
[0090] модуль получения, сконфигурированный для получения второй информации о взаимодействии предыдущего процесса взаимодействия и для извлечения вектора слов информации о взаимодействии; и
[0091] модуль вывода, сконфигурированный для ввода вектора слов в модель корреляции вопросов и ответов и для вывода корреляции контекстной семантики взаимодействия; при этом модель корреляции вопросов и ответов получают посредством обучения на основе эталонной информации о взаимодействии.
[0092] Для приспособления, предоставленного вариантами осуществления настоящего изобретения, библиотека слов активации реального времени определяется на основе состояния взаимодействия с пользователем, получается голосовой сигнал, введенный пользователем, и активация выполняется на основе библиотеки слов активации реального времени и голосового сигнала. После прерывания предыдущего процесса взаимодействия активация выполняется на основе библиотеки слов активации реального времени, в результате чего это может предоставить пользователям ощущение отсутствия ожидания при повторном выполнении активации, так, что пользователь может прямо продолжать сценарии взаимодействия, которые имели место перед ожиданием, без повторения процесса взаимодействия, который был выполнен ранее. Поэтому стоимость взаимодействия может быть снижена, а впечатление пользователя может быть улучшено.
[0093] На фиг. 6 показано схематическое изображение физической структуры устройства голосовой активации. Как показано на фиг. 6, устройство может содержать: процессор 610, интерфейс 620 связи, запоминающее устройство 630 и шину 640. При этом процессор 610, интерфейс 620 связи и запоминающее устройство 630 осуществляют связь друг с другом посредством шины 640. Интерфейс 640 связи может быть сконфигурирован для выполнения передачи информации между сервером и интеллектуальным TV. Процессор 610 может вызвать логические команды, хранящиеся в запоминающем устройстве 630, для исполнения следующих методов: определения библиотеки слов активации реального времени на основе состояния взаимодействия с пользователем, причем библиотека слов активации реального времени сконфигурирована для выполнения последующего процесса взаимодействия; получения голосового сигнала, введенного пользователем, и выполнения активации на основе библиотеки слов активации реального времени и голосового сигнала.
[0094] Кроме того, описанные ранее логические команды, хранящиеся в запоминающем устройстве 630, могут быть реализованы в виде функциональных блоков программного обеспечения и могут храниться на машиночитаемом носителе данных при продаже или использоваться как независимый продукт. На основе этого понимания технические решения настоящего изобретения могут быть воплощены в форме программных продуктов, и компьютерные программные продукты хранятся на машиночитаемых носителях данных и содержат ряд команд, приводящих к выполнению компьютерным устройством (которое может представлять собой персональный компьютер, сервер или словарное устройство и т.д.) всех или части этапов способов согласно различным вариантам осуществления настоящего изобретения. Вышеупомянутые носители данных включают: U-диск, мобильный жесткий диск, ROM (постоянное запоминающее устройство), RAM (оперативное запоминающее устройство), магнитный диск, компакт-диск и другие носители, которые могут хранить программный код.
[0095] Вариант осуществления настоящего изобретения предоставляет энергонезависимый машиночитаемый носитель данных, который хранит компьютерные команды, и эти компьютерные команды приводят к выполнению компьютером способа голосовой активации, предоставленного предыдущими вариантами осуществления, например, включая: определение библиотеки слов активации реального времени на основе состояния взаимодействия с пользователем, причем библиотека слов активации реального времени сконфигурирована для выполнения последующего процесса взаимодействия; получение голосового сигнала, введенного пользователем, и выполнение активации на основе библиотеки слов активации реального времени и голосового сигнала.
[0096] Специалистам в данной области техники может быть понятно, что все или часть этапов в вариантах осуществления способа, приведенных выше, могут быть выполнены с помощью аппаратного обеспечения, связанного с программными командами. Указанная программа может быть сохранена на машиночитаемом носителе данных, и когда программу исполняют, выполняют этапы, включающие указанные выше варианты осуществления способа; при этом указанные выше носители данных включают: ROM, RAM, магнитный диск, компакт-диск и другие носители, которые могут хранить программные коды.
[0097] Описанные выше варианты осуществления устройства являются лишь схематическими, при этом блоки, описанные как отдельные компоненты, могут быть или не быть физически разделены, а компоненты, отображаемые как блоки, могут быть или не быть физическими блоками, а именно, они могут быть расположены в одном месте или могут быть распределены среди множества блоков библиотеки слов. Часть или все из модулей могут быть выбраны в соответствии с фактическими потребностями для достижения цели решений вариантов осуществления. Это может понять и реализовать специалист в данной области техники без приложения творческих усилий.
[0098] Из описания приведенных выше вариантов осуществления специалистам в данной области техники может быть понятно, что каждый вариант осуществления может быть реализован с помощью программного обеспечения и необходимой общей аппаратной платформы, и, разумеется, он также может быть реализован аппаратным обеспечением. На основе этого понимания вышеуказанные технические решения могут быть воплощены в форме программных продуктов, и компьютерные программные продукты могут быть сохранены на машиночитаемых носителях данных, таких как ROM/RAM, магнитный диск, компакт-диск. Программное обеспечение также содержит множество команд, позволяющих компьютерному устройству (может представлять собой персональный компьютер, сервер или устройство библиотеки слов и т.д.) выполнять способы различных вариантов осуществления или некоторых частей вариантов осуществления.
[0099] Следует отметить, что варианты осуществления предназначены лишь для иллюстрации технических решений настоящего изобретения, а не для их ограничения; хотя настоящее изобретение было подробно описано со ссылкой на предшествующие варианты осуществления, специалисты в данной области техники должны понимать, что технические решения, задокументированные в предыдущих вариантах осуществления, все равно могут быть модифицированы или части их технических характеристик могут быть эквивалентно заменены; и такие модификации или замены не отклоняются от объема технических решений вариантов осуществления настоящего изобретения.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ И СИСТЕМА УПРАВЛЕНИЯ ДИАЛОГОВЫМ АГЕНТОМ В КАНАЛЕ ВЗАИМОДЕЙСТВИЯ С ПОЛЬЗОВАТЕЛЕМ | 2019 |
|
RU2818036C1 |
УПРАВЛЕНИЕ АКТИВАЦИЕЙ ДЛЯ НЕСКОЛЬКИХ ГОЛОСОВЫХ ПОМОЩНИКОВ | 2020 |
|
RU2817625C2 |
КЛАССИФИКАЦИЯ ТИПА ЭМОЦИИ ДЛЯ ИНТЕРАКТИВНОЙ ДИАЛОГОВОЙ СИСТЕМЫ | 2015 |
|
RU2705465C2 |
ВОПЛОЩЕНИЕ ВИЗУАЛЬНОГО ПРЕДСТАВЛЕНИЯ С ПОМОЩЬЮ ИЗУЧЕННОГО ВВОДА ОТ ПОЛЬЗОВАТЕЛЯ | 2010 |
|
RU2554548C2 |
СПОСОБЫ И СИСТЕМЫ ДЛЯ КОНФИГУРИРОВАНИЯ И АКТИВАЦИИ КЛАССОВ ЭНЕРГОСБЕРЕЖЕНИЯ ПОСРЕДСТВОМ МОБИЛЬНОЙ СТАНЦИИ В РЕЖИМЕ ОЖИДАНИЯ | 2009 |
|
RU2453076C2 |
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБРАБОТКИ ЗВУКА И НОСИТЕЛЬ ИНФОРМАЦИИ | 2019 |
|
RU2735363C1 |
СОВЕРШЕНИЕ ЗАДАЧИ БЕЗ МОНИТОРА В ЦИФРОВОМ ПЕРСОНАЛЬНОМ ПОМОЩНИКЕ | 2015 |
|
RU2710984C2 |
СПОСОБ ОБРАБОТКИ ЕСТЕСТВЕННОГО ВЫРАЖЕНИЯ, СПОСОБ, УСТРОЙСТВО И СИСТЕМА ОБРАБОТКИ И ОТВЕТА | 2014 |
|
RU2672176C2 |
ПРОГРАММИРОВАНИЕ АВТОМАТИЗАЦИИ В 3D ГРАФИЧЕСКОМ РЕДАКТОРЕ С ТЕСНО СВЯЗАННОЙ ЛОГИКОЙ И ФИЗИЧЕСКИМ МОДЕЛИРОВАНИЕМ | 2014 |
|
RU2678356C2 |
ОБРАБОТКА И АНАЛИЗ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ В ДИАЛОГОВОЙ ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЕ ПОМОЩНИКА ПО ПЛАНИРОВАНИЮ | 2018 |
|
RU2770184C2 |
Изобретение относится к области вычислительной техники. Технический результат заключается в обеспечении возможности пользователю прямо продолжать сценарий взаимодействия, который имел место перед ожиданием, без необходимости в повторении процесса взаимодействия. Способ включает определение библиотеки слов активации реального времени на основе состояния взаимодействия пользователя, причем библиотеку слов активации реального времени используют для последующего процесса взаимодействия, получение голосового сигнала, введенного пользователем, и выполнение активации на основе библиотеки слов активации реального времени и голосового сигнала. 4 н. и 14 з.п. ф-лы, 6 ил.
1. Способ голосовой активации, включающий:
определение текущего состояния взаимодействия с пользователем после перехода в состояние ожидания;
определение библиотеки слов активации реального времени на основе состояния взаимодействия с пользователем, причем библиотека слов активации реального времени сконфигурирована для выполнения последующего процесса взаимодействия; и
получение голосового сигнала, введенного пользователем, и выполнение активации на основе библиотеки слов активации реального времени и голосового сигнала;
при этом состояние взаимодействия с пользователем заключается в том, чтобы продолжать предыдущий процесс взаимодействия, который имел место перед ожиданием; или в том, чтобы перезапустить процесс взаимодействия.
2. Способ по п. 1, отличающийся тем, что определение библиотеки слов активации реального времени на основе состояния взаимодействия с пользователем включает:
получение ключевых слов в первой информации о взаимодействии предыдущего процесса взаимодействия в соответствии с правилами информации о ключевых словах и добавление ключевых слов в исходную библиотеку слов активации для получения библиотеки слов активации реального времени, когда состояние взаимодействия с пользователем заключается в том, чтобы продолжать предыдущий процесс взаимодействия, который выполняли перед ожиданием; и
использование исходной библиотеки слов активации как библиотеки слов активации реального времени, когда состояние взаимодействия с пользователем заключается в том, чтобы перезапустить процесс взаимодействия.
3. Способ по п. 2, отличающийся тем, что получение ключевых слов в первой информации о взаимодействии предыдущего процесса взаимодействия в соответствии с правилами информации о ключевых словах включает:
получение ключевых слов в первой информации о взаимодействии предыдущего процесса взаимодействия в соответствии с частью речи и/или членом предложения.
4. Способ по п. 2 или 3, отличающийся тем, что первая информация о взаимодействии содержит любой из следующих трех типов информации: информацию о команде пользователя, информацию о машинном ответе и информацию о запросе.
5. Способ по п. 1, отличающийся тем, что определение текущего состояния взаимодействия с пользователем включает:
определение состояния взаимодействия с пользователем на основе параметра состояния пользователя и/или параметра логики взаимодействия, причем параметр состояния пользователя сконфигурирован для представления состояния пользователя во время взаимодействия, а параметр логики взаимодействия сконфигурирован для представления логики взаимодействия во время взаимодействия.
6. Способ по п. 5, отличающийся тем, что определение состояния взаимодействия с пользователем на основе параметра состояния пользователя и/или параметра логики взаимодействия включает:
ввод параметра состояния пользователя и/или параметра логики взаимодействия в модель прогнозирования состояния взаимодействия и вывод состояния взаимодействия с пользователем; или
сведение к общей форме параметра состояния пользователя и параметра логики взаимодействия и определение состояния взаимодействия с пользователем в соответствии с результатом сведения к общей форме.
7. Способ по п. 5 или 6, отличающийся тем, что параметр состояния пользователя содержит по меньшей мере один из следующих пяти типов информации: продолжительность ответа пользователя, расстояние до пользователя, состояние тела пользователя, состояние лица пользователя и идентификационные данные пользователя; и
параметр логики взаимодействия включает по меньшей мере один из следующих двух типов информации: целостность логики взаимодействия и корреляцию контекстной семантики взаимодействия.
8. Способ по п. 7, отличающийся тем, что дополнительно включает:
получение второй информации о взаимодействии предыдущего процесса взаимодействия и извлечение вектора слов информации о взаимодействии; и
ввод вектора слов в модель корреляции вопросов и ответов и вывод корреляции контекстной семантики взаимодействия; при этом модель корреляции вопросов и ответов получена посредством обучения на основе эталонной информации о взаимодействии.
9. Приспособление для голосовой активации, содержащее:
второй модуль определения, сконфигурированный для определения текущего состояния взаимодействия с пользователем после перехода в состояние ожидания;
первый модуль определения, сконфигурированный для определения библиотеки слов активации реального времени на основе состояния взаимодействия с пользователем, причем библиотека слов активации реального времени сконфигурирована для выполнения последующего процесса взаимодействия; и
модуль активации, сконфигурированный для получения голосового сигнала, введенного пользователем, и выполнения активации на основе библиотеки слов активации реального времени и голосового сигнала;
при этом состояние взаимодействия с пользователем заключается в том, чтобы продолжать предыдущий процесс взаимодействия, который имел место перед ожиданием; или в том, чтобы перезапустить процесс взаимодействия.
10. Приспособление по п. 9, отличающееся тем, что первый модуль определения содержит:
первый блок получения, сконфигурированный для получения ключевых слов в первой информации о взаимодействии предыдущего процесса взаимодействия в соответствии с правилами информации о ключевых словах и для добавления ключевых слов в исходную библиотеку слов активации для получения библиотеки слов активации реального времени, когда состояние взаимодействия с пользователем заключается в том, чтобы продолжать предыдущий процесс взаимодействия, который имел место перед ожиданием; и
второй блок получения, сконфигурированный для использования исходной библиотеки слов активации как библиотеки слов активации реального времени, когда состояние взаимодействия с пользователем заключается в том, чтобы перезапустить процесс взаимодействия.
11. Приспособление по п. 10, отличающееся тем, что первый блок получения сконфигурирован для получения ключевых слов в первой информации о взаимодействии предыдущего процесса взаимодействия в соответствии с частью речи и/или членами предложения.
12. Приспособление по п. 10 или 11, отличающееся тем, что первая информация о взаимодействии содержит любой из следующих трех типов информации: информацию о команде пользователя, информацию о машинном ответе и информацию о запросе.
13. Приспособление по п. 9, отличающееся тем, что второй модуль определения сконфигурирован для определения состояния взаимодействия с пользователем на основе параметра состояния пользователя и/или параметра логики взаимодействия, причем параметр состояния пользователя сконфигурирован для представления состояния пользователя во время взаимодействия, а параметр логики взаимодействия сконфигурирован для представления логики взаимодействия во время взаимодействия.
14. Приспособление по п. 13, отличающееся тем, что второй модуль определения сконфигурирован для ввода параметра состояния пользователя и/или параметра логики взаимодействия в модель прогнозирования состояния взаимодействия и для вывода состояния взаимодействия с пользователем; или сведения к одной форме параметра состояния пользователя и параметра логики взаимодействия и определения состояния взаимодействия с пользователем в соответствии с результатом сведения к одной форме.
15. Приспособление по п. 13 или 14, отличающееся тем, что параметр состояния пользователя содержит по меньшей мере один из следующих пяти типов информации: продолжительность ответа пользователя, расстояние до пользователя, состояние тела пользователя, состояние лица пользователя и личность пользователя; и
параметр логики взаимодействия содержит по меньшей мере один из следующих двух типов информации: целостность логики взаимодействия и корреляцию контекстной семантики взаимодействия.
16. Приспособление по п. 15, отличающееся тем, что дополнительно содержит:
модуль получения, сконфигурированный для получения второй информации о взаимодействии предыдущего процесса взаимодействия и для извлечения вектора слов информации о взаимодействии; и
модуль вывода, сконфигурированный для ввода вектора слова в модель корреляции вопросов и ответов и для вывода корреляции контекстной семантики взаимодействия; при этом модель корреляции вопросов и ответов получена посредством обучения на основе эталонной информации о взаимодействии.
17. Приспособление для голосовой активации, содержащее:
по меньшей мере один процессор; и
по меньшей мере одно запоминающее устройство, с возможностью связи соединенное с процессором, при этом:
запоминающее устройство хранит программные команды, которые могут исполняться процессором, и процессор выполняет способ по любому из пп. 1-8 посредством вызова программных команд.
18. Энергонезависимый машиночитаемый носитель данных, отличающийся тем, что энергонезависимый машиночитаемый носитель данных хранит компьютерные команды, которые приводят к выполнению компьютером способа по любому из пп. 1-8.
CN 107564518 A, 09.01.2018 | |||
Способ приготовления мыла | 1923 |
|
SU2004A1 |
Способ и приспособление для нагревания хлебопекарных камер | 1923 |
|
SU2003A1 |
Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса | 1924 |
|
SU2015A1 |
СИСТЕМА И СПОСОБ ДЛЯ АКТИВАЦИИ МОБИЛЬНОГО УСТРОЙСТВА ДЛЯ ИНИЦИИРОВАНИЯ СВЯЗИ | 2012 |
|
RU2596588C2 |
Авторы
Даты
2021-11-24—Публикация
2019-01-28—Подача