СПОСОБ И СИСТЕМА ОПРЕДЕЛЕНИЯ ГОВОРЯЩЕГО ПОЛЬЗОВАТЕЛЯ УПРАВЛЯЕМОГО ГОЛОСОМ УСТРОЙСТВА Российский патент 2021 года по МПК G10L17/18 

Описание патента на изобретение RU2744063C1

[0001] Настоящая технология относится к способу и системе обработки пользовательского высказывания. В частности, настоящая технология относится к способам и системам для определения личности говорящего пользователя управляемого голосом устройства.

УРОВЕНЬ ТЕХНИКИ

[0002] Электронные устройства, такие как смартфоны и планшеты, могут осуществлять доступ к растущему и разнообразному количеству приложений и служб обработки и/или доступа к информации различных типов. Однако начинающие пользователи и/или пользователи с ограниченными возможностями и/или пользователи, управляющие транспортным средством, могут быть не в состоянии эффективно взаимодействовать с такими устройствами, главным образом, из-за разнообразия функций, предоставляемых этими устройствами, или невозможности использовать человеко-машинные интерфейсы, предоставляемые такими устройствами (например, клавиатуру). Например, пользователь, который управляет транспортным средством, или пользователь с нарушениями зрения, может не иметь возможности использовать клавиатуру сенсорного экрана, связанную с некоторыми из этих устройств.

[0003] Системы личных помощников с элементами искусственного интеллекта (IPA) являются примерами управляемого голосом устройства. Системы IPA были разработаны для выполнения функций в ответ на пользовательские запросы. Такие системы IPA могут использоваться, например, для поиска информации и навигации, но также и для простого «общения». Традиционная система IPA, такая как, например, система IPA Siri®, может принимать произносимое пользователем высказывание в форме цифрового аудиосигнала от некоторого устройства и выполнять большое разнообразие задач за пользователя. Например, пользователь может взаимодействовать с системой IPA Siri®, предоставляя произносимые высказывания (через голосовой интерфейс Siri®) для запроса, например, какая сейчас погода, где находится ближайший торговый центр и тому подобное. Пользователь также может запросить исполнение различных приложений, установленных на электронном устройстве. Как упомянуто выше, пользователь также может захотеть просто и непринужденно «пообщаться» с системой IPA без предоставления каких-либо конкретных запросов к системе.

[0004] Эти персональные помощники реализуются либо как программное обеспечение, интегрированное в устройство (например, помощник SIRI™, которым оснащены устройства APPLE™), либо как обособленные аппаратные устройства с соответствующим программным обеспечением (например, устройство AMAZON™ ECHO™). Персональные помощники обеспечивают основанный на высказываниях интерфейс между электронным устройством и пользователем.

[0005] Круг задач, которые пользователь может решать с использованием IPA, особым образом не ограничен. В качестве примера, пользователь может выполнить поиск и получить ответ на свой вопрос. Например, пользователь может выдавать голосовые команды на поиск (например, говоря: "Какая погода сегодня в Нью-Йорке, США?"). IPA сконфигурирован с возможностью захвата высказывания, преобразования высказывания в текст и обработки генерируемой пользователем команды. В этом примере IPA сконфигурирован с возможностью исполнения поиска и определения текущего прогноза погоды для Нью-Йорка. IPA сконфигурирован с возможностью затем генерирования генерируемого машиной высказывания, представляющего ответ на пользовательский запрос. В этом примере IPA может быть сконфигурирован с возможностью генерирования произносимого (речевого) высказывания: «5 градусов Цельсия с северо-восточным ветром».

[0006] В качестве другого примера, пользователь может выдавать команды для управления IPA, такие как, например: «Воспроизведи «One Day in Your Life» Anastacia». В ответ на такую команду IPA может найти локально сохраненную песню, которая соответствует названию и исполнителю, и воспроизвести эту песню для пользователя. Точно так же, если IPA не может найти такую песню, хранящуюся локально, IPA может быть сконфигурирован с возможностью осуществления доступа к удаленному хранилищу песен, такому как учетная запись облачного хранилища или онлайновый сервис потоковой передачи песен.

[0007] Другие типы команд, конечно, возможны. Они могут меняться от воспроизведения видео, извлечения документов или простого «общения» с IPA.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0008] Разработчики настоящей технологии осознали некоторые технические проблемы, связанные с существующими системами IPA.

[0009] Более конкретно, разработчики настоящей технологии признали, что типичный IPA может использоваться в домохозяйстве, в котором имеется несколько проживающих вместе членов. Например, некоторый IPA может использоваться в домохозяйстве, в котором есть три члена - два родителя и ребенок.

[0010] Все три резидента в домохозяйстве могут быть «зарегистрированными пользователями» IPA. В целях регистрации IPA требует от каждого пользователя «предоставления» своей учетной записи. Другими словами, каждый пользователь генерирует профиль, связанный с IPA. Такой профиль может включать имя для входа в систему, учетные данные для входа в систему (например, пароль или другой маркер аутентификации), а также образец произнесенного высказывания.

[0011] Например, IPA может запросить каждого пользователя записать образец голоса. В зависимости от реализаций, IPA может запросить каждого потенциального пользователя либо записать образец произвольного высказывания предопределенной длительности (например, произвольный образец продолжительностью 1 или 2 минуты), либо прочитать предопределенный текст (которым может быть предопределенная выдержка из книги, такой как «Гордость и предубеждение» Джейн Остин).

[0012] Используя такое предварительно записанное пользовательское высказывание, IPA может быть в состоянии лучше обрабатывать произносимое высказывание пользователя (при использовании) и/или иметь возможность идентифицировать (и в некоторых случаях аутентифицировать) пользователя. Последнее может быть полезно, когда IPA обрабатывает запрос пользователя (при использовании). Будучи способным идентифицировать некоторого конкретного пользователя из нескольких потенциальных пользователей (в данном примере - трех), IPA может быть в состоянии лучше адаптировать/индивидуализировать ответ, который IPA предоставляет на произнесенный запрос этого отдельного пользователя.

[0013] Возможность идентифицировать (и потенциально аутентифицировать) определенного пользователя из набора зарегистрированных пользователей, связанных с IPA (в этом примере - три пользователя), может дополнительно позволить IPA управлять правами доступа, что может быть особенно полезно (но без ограничения) в тех реализациях, где с каждым из зарегистрированных пользователей связан его собственный предварительно авторизованный набор основанных на голосовом управлении действий.

[0014] Разработчики настоящей технологии признали, что идентификация определенного пользователя из множества потенциальных пользователей может быть сложной задачей. Учитывая, что и регистрационный образец высказывания пользователя, и голосовая команда во время фактического использования имеют тенденцию быть относительно короткими по продолжительности, идентификация определенного пользователя с использованием относительно короткого образца высказывания и относительно короткого высказывания во время использования может быть технологически сложной.

[0015] Эта проблема может еще более усугубляться тем фактом, что IPA может использоваться «гостями», то есть пользователями, которые не зарегистрированы в IPA. Некоторые из этих гостей могут быть относительно частыми пользователями, например, когда определенный человек посещает домохозяйство несколько раз и использует IPA во время посещения. С другой стороны, такой гость может быть нечастым посетителем или даже разовым пользователем IPA.

[0016] Последнее особенно верно в тех обстоятельствах, когда IPA может находиться рядом с открытым окном жилища на одну семью. Может случиться, что IPA захватывает пользовательское высказывание прохожего, проходящем мимо открытого окна. IPA должен быть в состоянии распознать, что произнесенное высказывание было сгенерировано гостем, который не авторизован посредством IPA.

[0017] Говоря в широком смысле, разработчики настоящей технологии разработали неограничивающие варианты осуществления на основе предпосылки, что IPA может быть в состоянии более правильно идентифицировать определенного говорящего пользователя IPA путем генерирования параметра объединенной вероятности того, что определенный один из множества пользователей является источником произнесенного высказывания, принятого в определенный момент времени. Параметр объединенной вероятности основан на связанных с ним первой вероятности и второй вероятности.

[0018] По меньшей мере в некоторых неограничивающих вариантах осуществления настоящей технологии первая вероятность и вторая вероятность могут быть сгенерированы следующим образом.

[0019] IPA сконфигурирован с возможностью исполнения алгоритма машинного обучения (MLA), причем MLA был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей первую вероятность того, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора зарегистрированных пользователей.

[0020] IPA дополнительно сконфигурирован с возможностью исполнения анализа частоты пользовательского использования (частотности пользователя) управляемого голосом устройства для каждого пользователя из набора зарегистрированных пользователей, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей вторую вероятность, причем вторая вероятность является основанной на частоте априорной вероятностью.

[0021] IPA может выбрать определенного пользователя из набора зарегистрированных пользователей в качестве говорящего пользовательское высказывание субъекта, причем этот определенный пользователь связан с наивысшим значением объединенной вероятности.

[0022] Таким образом, в соответствии с первым обширным аспектом настоящей технологии обеспечен способ определения говорящего субъекта, причем говорящий субъект может быть выбран из набора зарегистрированных пользователей, связанных с управляемым голосом устройством. Способ может быть исполнен электронным устройством, сконфигурированным с возможностью исполнения алгоритма машинного обучения (MLA). Способ содержит: прием электронным устройством указания пользовательского высказывания, причем пользовательское высказывание было выполнено говорящим субъектом; исполнение электронным устройством MLA, причем MLA был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр первой вероятности, указывающий, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора зарегистрированных пользователей; исполнение электронным устройством анализа частоты пользовательского использования управляемого голосом устройства для каждого пользователя из набора зарегистрированных пользователей, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр второй вероятности, причем параметр второй вероятности является основанной на частоте априорной вероятностью; генерирование электронным устройством для каждого пользователя из набора зарегистрированных пользователей объединенной вероятности на основе связанных с ним первой вероятности и второй вероятности; выбор электронным устройством определенного пользователя из набора зарегистрированных пользователей в качестве говорящего пользовательское высказывание субъекта, причем определенный пользователь связан с наивысшим значением объединенной вероятности.

[0023] В некоторых реализациях способа, электронным устройством является одно из управляемого голосом устройства и сервера, соединенного с управляемым голосом устройством через сеть связи.

[0024] В некоторых реализациях способа набор зарегистрированных пользователей содержит зарегистрированного пользователя и гостевого пользователя, при этом упомянутый выбор содержит: сравнение объединенной вероятности каждого пользователя из набора зарегистрированных пользователей с предопределенным порогом; в ответ на то, что каждая из объединенных вероятностей находится ниже упомянутого предопределенного порога, определение, что говорящим субъектом является гостевой пользователь; в ответ на то, что по меньшей мере одна из объединенных вероятностей превышает упомянутый предопределенный порог, исполнение: выбора зарегистрированного пользователя в качестве говорящего пользовательское высказывание субъекта, причем упомянутый зарегистрированный пользователь связан с наивысшим значением объединенной вероятности.

[0025] В некоторых реализациях способа способ дополнительно содержит: на основе определения говорящего субъекта, обновление основанной на частоте априорной вероятности, связанной с каждым пользователем из набора зарегистрированных пользователей; и сохранение обновленных основанных на частоте априорных вероятностей в памяти, связанной с электронным устройством.

[0026] В некоторых реализациях способа способ дополнительно содержит извлечение пользовательского профиля, связанного с говорящим субъектом, и предоставление говорящему субъекту набора авторизованных основанных на голосовом управлении действий.

[0027] В некоторых реализациях способа способ дополнительно содержит извлечение пользовательского профиля, связанного с одним из гостевого пользователя и зарегистрированного пользователя, который был определен в качестве говорящего субъекта, и предоставление набора авторизованных основанных на голосовом управлении действий, при этом набор основанных на голосовом управлении действий, связанных с гостевым пользователем, меньше, чем набор основанных на голосовом управлении действий, связанных с зарегистрированным пользователем.

[0028] В некоторых реализациях способа способ дополнительно содержит ведение базы данных априорных вероятностей для каждого пользователя из набора зарегистрированных пользователей.

[0029] В некоторых реализациях способа способ дополнительно содержит обновление априорных вероятностей для по меньшей мере некоторых пользователей из набора зарегистрированных пользователей на основе упомянутого выбора.

[0030] В некоторых реализациях способа анализ частоты пользовательского использования устанавливает вес поднабора априорной вероятности для каждого пользователя из набора зарегистрированных пользователей, причем поднабор включает в себя предопределенное количество наиболее недавних прошлых вычислений.

[0031] В некоторых реализациях способа набор зарегистрированных пользователей содержит зарегистрированного пользователя и гостевого пользователя, и при этом способ дополнительно содержит установку некоторого предопределенного минимального значения априорной вероятности, ниже которого априорная вероятность для гостевого пользователя падать не может.

[0032] В некоторых реализациях способа установка предопределенного минимального значения основана на количестве зарегистрированных пользователей из набора зарегистрированных пользователей, и в котором упомянутое предопределенное минимальное значение не выше, чем любая из априорных вероятностей любого из зарегистрированных пользователей из набора зарегистрированных пользователей.

[0033] В некоторых реализациях способа способ дополнительно содержит ведение базы данных определенных в прошлом личностей говорящих субъектов.

[0034] В некоторых реализациях способа набор зарегистрированных пользователей содержит зарегистрированного пользователя и гостевого пользователя, при этом в ответ на то, что предопределенное количество определенных в прошлом личностей говорящих субъектов являются гостевым говорящим субъектом, способ дополнительно содержит исполнение предопределенного гостевого сценария.

[0035] В некоторых реализациях способа исполнение предопределенного гостевого сценария содержит, во время дополнительного исполнения MLA, который был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы генерировать, для каждого пользователя из набора зарегистрированных пользователей, первую вероятность того, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора зарегистрированных пользователей: искусственное сокращение времени, затрачиваемого на генерирование первой вероятности.

[0036] В некоторых реализациях способа способ дополнительно содержит: извлечение определенных в прошлом личностей говорящих субъектов; обновление прогноза личностей говорящих субъектов с использованием текущих значений априорных вероятностей; сохранение обновленных априорных вероятностей.

[0037] В некоторых реализациях способа способ дополнительно содержит сравнение обновленных априорных вероятностей с определенными в прошлом личностями говорящих субъектов и использование определенных различий для дополнительного обучения MLA.

[0038] В соответствии с другим обширным аспектом настоящей технологии обеспечено электронное устройство, содержащее: процессор, сконфигурированный с возможностью исполнения алгоритма машинного обучения (MLA); память, соединенную с процессором, причем память хранит исполняемые компьютером инструкции, которые при исполнении побуждают процессор: принять указание пользовательского высказывания, причем пользовательское высказывание было выполнено говорящим субъектом, использующим управляемое голосом устройство, причем говорящий субъект выбирается из набора зарегистрированных пользователей, связанных с управляемым голосом устройством; исполнить MLA, причем MLA был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр первой вероятности, указывающий, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора зарегистрированных пользователей; исполнить анализ частоты пользовательского использования управляемого голосом устройства для каждого пользователя из набора зарегистрированных пользователей, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр второй вероятности, причем параметр второй вероятности является основанной на частоте априорной вероятностью; сгенерировать для каждого пользователя из набора зарегистрированных пользователей объединенную вероятность на основе связанных с ним первой вероятности и второй вероятности; выбрать определенного пользователя из набора зарегистрированных пользователей в качестве говорящего пользовательское высказывание субъекта, причем определенный пользователь связан с наивысшим значением объединенной вероятности.

[0039] В некоторых реализациях электронного устройства электронным устройством является одно из управляемого голосом устройства и сервера, соединенного с управляемым голосом устройством через сеть связи.

[0040] В соответствии с другим обширным аспектом настоящей технологии обеспечен способ определения говорящего субъекта, причем говорящий субъект может быть выбран из набора зарегистрированных пользователей, связанных с управляемым голосом устройством. Способ может быть исполнен электронным устройством, сконфигурированным с возможностью исполнения алгоритма машинного обучения (MLA). Способ содержит: исполнение MLA для определения параметра первой вероятности, указывающего, является ли говорящий пользовательское высказывание субъект пользователем из набора зарегистрированных пользователей; исполнение анализа частоты пользовательского использования для генерирования, для каждого пользователя из набора зарегистрированных пользователей, параметра второй вероятности, являющегося основанной на частоте априорной вероятностью; генерирование электронным устройством для каждого пользователя из набора зарегистрированных пользователей объединенной вероятности на основе связанных с ним первой вероятности и второй вероятности; выбор определенного пользователя из набора зарегистрированных пользователей в качестве говорящего пользовательское высказывание субъекта на основе значения объединенной вероятности.

[0041] В контексте настоящего описания, если специально не указано иное, «сервер» представляет собой компьютерную программу, которая работает на надлежащем аппаратном обеспечении и способна принимать запросы (например, от клиентских устройств) по сети и выполнять эти запросы, или вызывать выполнение этих запросов. Аппаратное обеспечение может быть одним физическим компьютером или одной физической компьютерной системой, но ни то, ни другое не является обязательным для настоящей технологии. В настоящем контексте использование выражения "сервер" не предполагает, что каждая задача (например, принятые инструкции или запросы) или какая-либо конкретная задача будут приняты, выполнены или вызваны для выполнения одним и тем же сервером (т.е. тем же самым программным обеспечением и/или аппаратным обеспечением); данное выражение предполагает, что любое количество программных элементов или аппаратных устройств может быть задействовано в приеме/отправке, выполнении или вызове для выполнения любой задачи или запроса, или последствий любой задачи или запроса; и все это программное обеспечение и аппаратное обеспечение может быть одним сервером или многочисленными серверами, причем оба данных случая включены в выражение "по меньшей мере один сервер".

[0042] В контексте настоящего описания, если специально не указано иное, «клиентское устройство» представляет собой электронное устройство, связанное с пользователем, и включает в себя любое компьютерное аппаратное обеспечение, которое способно выполнять программное обеспечение, надлежащее для соответствующей рассматриваемой задачи. Таким образом, некоторые (неограничивающие) примеры клиентских устройств включают в себя персональные компьютеры (настольные ПК, ноутбуки, нетбуки и т.д.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что вычислительное устройство, выступающее в качестве клиентского устройства в настоящем контексте, не исключается из возможности выступать в качестве сервера для других клиентских устройств. Использование выражения "клиентское устройство" не исключает использования многочисленных клиентских устройств при приеме/отправке, выполнении или вызове для выполнения какой-либо задачи или запроса, или последствий любой задачи или запроса, или этапов любого описанного в данном документе способа.

[0043] В контексте настоящего описания, если специально не указано иное, «вычислительное устройство» представляет собой любое электронное устройство, которое способно выполнять программное обеспечение, надлежащее для соответствующей рассматриваемой задачи. Вычислительным устройством может быть сервер, клиентское устройство и т.д.

[0044] В контексте настоящего описания, если специально не указано иное, "база данных" представляет собой любую структурированную совокупность данных, независимо от ее конкретной структуры, программное обеспечение для администрирования базы данных, или компьютерное оборудование, на котором данные хранятся, реализуются или их делают доступными для использования иным образом. База данных может находиться на том же оборудовании, что и процесс, который сохраняет или использует информацию, хранящуюся в базе данных, или она может находиться на отдельном аппаратном обеспечении, например, на выделенном сервере или множестве серверов.

[0045] В контексте настоящего описания, если специально не указано иное, выражение "информация" включает в себя информацию любого характера или вида, которая может быть сохранена в базе данных любым образом. Таким образом, информация включает в себя, но без ограничения, аудиовизуальные произведения (фотографии, фильмы, звуковые записи, презентации и т.д.), данные (картографические данные, данные о местоположении, численные данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы и т.д.

[0046] В контексте настоящего описания, если специально не указано иное, подразумевается, что выражение «компонент» включает в себя программное обеспечение (соответствующее конкретному аппаратному контексту), которое является как необходимым, так и достаточным для достижения конкретной функции (функций), на которую ссылаются.

[0047] В контексте настоящего описания, если специально не указано иное, подразумевается, что выражение "носитель хранения информации" включает в себя носители любого характера и вида, в том числе RAM, ROM, диски (CD-ROM, DVD, дискеты, накопители на жестких дисках и т.д.), USB-ключи, твердотельные накопители, ленточные накопители и т.д.

[0048] В контексте настоящего описания, если специально не указано иное, выражение «текст» предназначено для обозначения читаемой человеком последовательности символов и слов, которые они образуют. Текст обычно может быть закодирован в считываемые компьютером форматы, такие как ASCII. Текст обычно отличается от кодированных данных, не относящихся к символам, таких как графические изображения в виде растровых изображений и программный код. Текст может обладать множеством разных форм, например, он может быть письменным или печатным произведением, таким как книга или документ, сообщением электронной почты, текстовым сообщением (например, отправленным с использованием системы мгновенных сообщений) и т.д.

[0049] В контексте настоящего описания, если специально не указано иное, выражение «акустический» предназначено для обозначения звуковой энергии в форме волн, имеющих частоту, причем частота обычно находится в диапазоне слышимости человека. «Аудио» относится к звуку в акустическом диапазоне, доступном для человека. «Речь» и «синтезированная речь», как правило, используются в данном документе для обозначения аудио или акустических, например, разговорных, представлений текста. Акустические и аудиоданные могут обладать множеством разных форм, например, они могут быть записью, песней и т.д. Акустические и аудиоданные могут храниться в файле, таком как файл МР3, который может быть сжат для хранения или для более быстрой передачи.

[0050] В контексте настоящего описания, если специально не указано иное, выражение «нейронная сеть» предназначено для обозначения системы программ и структур данных, предназначенных для имитации работы человеческого мозга. Нейронные сети обычно содержат ряд алгоритмов, которые могут идентифицировать базовые взаимоотношения и связи в наборе данных, используя процесс, который подражает работе человеческого мозга. Организация и весовые коэффициенты связей в наборе данных обычно определяют выходной результат. Таким образом, нейронная сеть, как правило, подвергается воздействию одновременно всех входных данных или параметров и поэтому способна моделировать их взаимозависимости. В отличие от алгоритмов машинного обучения, которые используют деревья решений и, следовательно, ограничены их ограничениями, нейронные сети не ограничены и поэтому подходят для моделирования взаимозависимостей.

[0051] В контексте настоящего описания, если специально не указано иное, слова "первый", "второй", "третий" и т.д. использовались в качестве прилагательных только для того, чтобы позволить отличать существительные, которые они модифицируют, друг от друга, а не для описания какой-либо особой взаимосвязи между такими существительными. Таким образом, например, следует понимать, что использование терминов "первый сервер" и "третий сервер" не подразумевает какого-либо конкретного порядка, типа, хронологии, иерархии или ранжирования (например) таких серверов, равно как и их использование (само по себе) не означает, что какой-либо "второй сервер" обязательно должен существовать в любой определенной ситуации. Кроме того, как обсуждается в других контекстах данного документа, ссылка на "первый" элемент и "второй" элемент не исключает того, что эти два элемента фактически являются одним и тем же элементом реального мира. Таким образом, например, в некоторых случаях "первый" сервер и "второй" сервер могут быть одним и тем же программным обеспечением и/или аппаратным обеспечением, в других случаях они могут представлять собой разное программное обеспечение и/или аппаратное обеспечение.

[0052] Каждая из реализаций настоящей технологии обладает по меньшей мере одной(одним) из вышеупомянутых целей и/или аспектов, но не обязательно имеет их все. Следует понимать, что некоторые аспекты настоящей технологии, которые возникли в попытке достичь вышеупомянутой цели, могут не удовлетворять этой цели и/или удовлетворять другим целям, которые не описаны в данном документе явным образом.

[0053] Дополнительные и/или альтернативные признаки, аспекты и преимущества реализаций настоящей технологии станут очевидными из нижеследующего описания, сопроводительных чертежей и приложенной формулы изобретения.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0054] Для лучшего понимания настоящей технологии, а также других аспектов и ее дополнительных признаков, ссылка приводится на нижеследующее описание, которое должно использоваться в сочетании с сопроводительными чертежами, на которых:

[0055] Фигура 1 иллюстрирует схематичное представление системы, реализуемой в соответствии с неограничивающим вариантом осуществления настоящей технологии.

[0056] Фигура 2 иллюстрирует схему потока сигналов, которая иллюстрирует процесс регистрации, реализуемый в системе по Фигуре 1, причем процесс регистрации реализуется в соответствии с различными неограничивающими вариантами осуществления настоящей технологии.

[0057] Фигура 3 иллюстрирует блок-схему последовательности операций способа, причем способ исполняется в соответствии с неограниченными вариантами осуществления настоящей технологии в системе по Фигуре 1.

ПОДРОБНОЕ ОПИСАНИЕ

[0058] Со ссылкой на Фигуру 1 проиллюстрировано схематичное представление системы 100, причем система 100 подходит для реализации неограничивающих вариантов осуществления настоящей технологии. Следует четко понимать, что изображенная система 100 является лишь иллюстративной реализацией настоящей технологии. Таким образом, нижеследующее описание предназначено лишь для того, чтобы использоваться в качестве описания иллюстративных примеров настоящей технологии. Это описание не предназначено для определения объема или ограничения настоящей технологии. В некоторых случаях то, что считается полезными примерами модификаций системы 100, также может быть изложено ниже. Это делается лишь для того, чтобы помочь пониманию и, опять же, не для того, чтобы определить объем или ограничить настоящую технологию.

[0059] Эти модификации не являются исчерпывающим списком и, как будет понятно специалисту в данной области техники, возможны другие модификации. Кроме того, те случаи, когда этого не было сделано (т.е. когда не было представлено примеров модификаций), не следует интерпретировать так, что никакие модификации не возможны и/или что описанное является единственным способом реализации такого элемента в настоящей технологии. Специалисту в данной области будет понятно, что это, вероятно, не так. Кроме того, следует понимать, что система 100 может предоставлять в некоторых случаях простые реализации настоящей технологии, и что в таком случае они были представлены для помощи в понимании. Специалисты в данной области поймут, что различные реализации настоящей технологии могут иметь большую сложность.

[0060] Вообще говоря, система 100 сконфигурирована с возможностью приема произносимых пользователем высказываний, обработки произносимых пользователем высказываний и генерирования генерируемых машиной высказываний (например, в ответ на то, что произносимое пользователем высказывание является высказыванием типа «общения» («chat»)). Примерная реализация системы 100 направлена на среду, в которой взаимодействие между пользователем и электронным устройством реализуется, по меньшей мере частично, через основанный на высказываниях интерфейс. Другими словами, на среду, имеющую по меньшей мере одно управляемое голосом электронное устройство. Следует отметить, что в соответствии с неограничивающими вариантами осуществления настоящей технологии термин «высказывание» предназначен для обозначения любого из полностью произносимого пользователем высказывания, части (фрагмента) произносимого пользователем высказывания или совокупности из нескольких воспроизводимых пользователем высказываний.

[0061] Однако следует отметить, что варианты осуществления настоящей технологии этим не ограничены. Как таковые, способы и процедуры, описанные в данном документе, могут быть реализованы в любом варианте системы 100, где желательно идентифицировать источник произносимого пользователем высказывания, направленного на электронное устройство, путем обработки этого произносимого пользователем высказывания.

[0062] В рамках иллюстрации на Фигуре 1 система 100 сконфигурирована с возможностью исполнения по меньшей мере одного из: (i) предоставления генерируемых машиной ответов на пользовательские запросы, которые, как можно сказать, приводят к «разговору» между данным пользователем и данным электронным устройством и (ii) исполнения действий на основе произнесенных пользователем высказываний, имеющих команды для управления системой 100.

[0063] Например, звуковые указания 150 (такие как произносимые высказывания) от пользователя 102 могут быть обнаружены электронным устройством 104, которое в ответ сконфигурировано с возможностью предоставления звуковых указаний 152 (таких как произносимые высказывания или «генерируемые машиной высказывания») и/или исполнения действий на основе команд, содержащихся в таких звуковых указаниях 152.

[0064] Таким образом, в по меньшей мере некоторых неограничивающих вариантах осуществления настоящей технологии, взаимодействие между пользователем 102 и электронным устройством 104 можно рассматривать в качестве приводящего к разговору 154 между пользователем 102 и электронным устройством 104, причем разговор 154 состоит из (i) звуковых указаний 150 и (ii) звуковых указаний 152.

[0065] В по меньшей мере некоторых других неограничивающих вариантах осуществления настоящей технологии взаимодействие между пользователем 102 и электронным устройством 104 может привести к тому, что электронное устройство 104 исполнит по меньшей мере одно действие на основе команд, содержащихся в звуковых указаниях 152.

[0066] Например, когда звуковые указания 150 содержат команду для воспроизведения некоторой конкретной песни, звуковые указания 152 могут содержать воспроизводимую песню. Альтернативно или дополнительно, действие может включать в себя выполнение поиска и вывод результата поиска через звуковые указания 152, включение или выключение электронного устройства 104, управление громкостью электронного устройства 104 и тому подобное.

[0067] Однако следует отметить, что выводимые данные с электронного устройства 104 не обязательно должны быть в форме звуковых указаний 152 в каждом варианте осуществления настоящей технологии. По существу, предполагается, что в альтернативных неограничивающих вариантах осуществления настоящей технологии выводимые данные с электронного устройства 104 могут иметь другую форму, например, зрительно-воспринимаемую на экране, распечатке принтера, другом устройстве вывода и т.п. Аналогичным образом, в настоящем описании не подразумевается, что электронное устройство 104 может принимать пользовательские команды исключительно посредством звуковых указаний 150. По существу, предполагается, что электронное устройство 104 также может принимать пользовательские команды посредством других устройств ввода, таких как сенсорный экран, клавиатура, сенсорная панель, мышь и тому подобное.

Пользовательское устройство

[0068] Как упоминалось ранее, система 100 содержит электронное устройство 104. Реализация электронного устройства 104 конкретным образом не ограничена, но, в качестве примера, электронное устройство 104 может быть реализовано в виде персонального компьютера (настольные ПК, ноутбуки, нетбуки и т.д.), устройства беспроводной связи (такого как смартфон, сотовый телефон, планшет, умная колонка и т.д.) и т.п. Как таковое, электронное устройство 104 иногда может именоваться «электронным устройством», «конечным пользовательским устройством», «клиентским электронным устройством» или просто «устройством». Следует отметить, что связь электронного устройства 104 с пользователем 102 не обязательно предполагает или подразумевает какой-либо режим работы - например необходимость входа в систему, необходимость регистрации или тому подобное.

[0069] Предполагается, что электронное устройство 104 содержит аппаратное обеспечение и/или программное обеспечение и/или микропрограммное обеспечение (или их комбинацию), что известно в данной области техники, для того, чтобы (i) обнаруживать или захватывать звуковые указания 150 и (ii) предоставлять или воспроизводить звуковые указания 152. Например, электронное устройство 104 может содержать один или несколько микрофонов (не проиллюстрированы) для захвата звуковых указаний 150 и один или несколько динамиков (не проиллюстрированы) для предоставления или воспроизведения звуковых указаний 152.

[0070] Электронное устройство 104 также содержит аппаратное обеспечение и/или программное обеспечение и/или микропрограммное обеспечение (или их комбинацию), что известно в данной области техники, для того, чтобы исполнить приложение 105 личного помощника с элементами искусственного интеллекта (IPA). Вообще говоря, назначением приложения 105 IPA, также известного как «чат-бот», является (i) обеспечение пользователю 102 возможности отправлять запросы или команды в форме произносимых высказываний (например, звуковых указаний 150) и, в ответ, (ii) предоставление пользователю 102 ответов в форме произносимых высказываний (например, звуковых указаний 152) и/или исполнение действий на основе команд, содержащихся в звуковых указаниях 150. Отправка запросов/команд и предоставление ответов может исполняться приложением 105 IPA через так называемый «пользовательский интерфейс на основе естественного языка» (отдельно не проиллюстрирован).

[0071] Вообще говоря, пользовательский интерфейс на основе естественного языка в приложении 105 IPA может быть любым типом компьютерно-человеческого интерфейса, в котором лингвистические явления, такие как слова, фразы, предложения и тому подобное, выступают в качестве элементов управления пользовательского интерфейса для извлечения, выбора, изменения или иного генерирования данных в приложении 105 IPA или посредством такого приложения.

[0072] Например, когда электронное устройство 104 обнаруживает произносимые высказывания пользователя 102 (например, звуковые указания 150), приложение 105 IPA может использовать свой пользовательский интерфейс на основе естественного языка для анализа произносимых высказываний пользователя 102 и извлечения из них данных, которых указывают запросы или команды пользователя 102.

[0073] Кроме того, данные, указывающие ответы, которые должны быть предоставлены пользователю 102, которые могут быть приняты или сгенерированы электронным устройством 104, анализируются пользовательским интерфейсом на основе естественного языка в приложении 105 IPA для предоставления или воспроизведения произносимых высказываний (например, звуковых указаний 152), указывающих ответы на пользовательские запросы или команды.

Сеть связи

[0074] В проиллюстрированном примере системы 100 электронное устройство 104 соединено с возможностью связи с сетью 110 связи для доступа к и передачи пакетов данных на/от сервера 106 и/или других веб-ресурсов (не проиллюстрированы). В некоторых неограничивающих вариантах осуществления настоящей технологии сеть 110 связи может быть реализована как Интернет. В других вариантах осуществления настоящей технологии сеть 110 связи может быть реализована иначе, например, как какая-либо глобальная сеть связи, локальная сеть связи, частная сеть связи и тому подобное. То, как реализована линия связи (отдельно не пронумерована) между электронным устройством 104 и сетью 110 связи, будет зависеть, в частности, от того, как реализовано электронное устройство 104.

[0075] Просто как пример, а не как ограничение, в тех вариантах осуществления настоящей технологии, в которых электронное устройство 104 реализовано как устройство беспроводной связи (например, как смартфон), линия связи может быть реализована как линия беспроводной связи (такая как, но без ограничения, линия сети связи 3G, линия сети связи 4G, Wireless Fidelity или WiFi® для краткости, Bluetooth® и тому подобные). В тех примерах, где электронное устройство 104 реализовано как ноутбук, линия связи может быть либо беспроводной (такой как Wireless Fidelity или WiFi® для краткости, Bluetooth® или тому подобное), либо проводной (такой как Ethernet-соединение).

[0076] В некоторых неограничивающих вариантах осуществления настоящей технологии приложение 105 IPA сконфигурировано с возможностью передачи захватываемого произносимого пользователем высказывания (которое было частью звуковых указаний 150) на сервер 106. Это изображено на Фигуре 1 в виде сигнала 160, передаваемого от электронного устройства 104 на сервер 106 через сеть 110 связи. Сигнал 160 содержит запись произнесенного высказывания, захваченную электронным устройством 104 и изображенную на Фигуре 1 позицией 155.

[0077] В некоторых неограничивающих вариантах осуществления настоящей технологии передача сигнала 160 и записи произнесенного высказывания 155, содержащейся в нем, на сервер 106 позволяет серверу 106 обрабатывать запись произнесенного высказывания 155 для извлечения команд, содержащихся в нем, и генерировать инструкции, позволяющие электронному устройству 104 исполнить действия, которые являются ответными на пользовательские команды.

[0078] Следует отметить, что в альтернативных неограничивающих вариантах осуществления настоящей технологии обработка записи произнесенного высказывания 155 (или в более широком смысле звуковых указаний 150) может быть исполнена локально посредством электронного устройства 104. В этих альтернативных неограничивающих вариантах осуществления настоящей технологии система 100 может быть реализована без требования наличия сервера 106 или сети 110 связи (хотя они все еще могут присутствовать для функциональной возможности резервного копирования или тому подобного). В этих альтернативных неограничивающих вариантах осуществления настоящей технологии функциональные возможности сервера 106, которые будут описаны ниже в данном документе, могут быть реализованы как часть электронного устройства 104.

[0079] В этих альтернативных неограничивающих вариантах осуществления настоящей технологии электронное устройство 104 содержит требуемое аппаратное обеспечение, программное обеспечение, микропрограммное обеспечение или их комбинацию для исполнения таких функциональных возможностей, что будет описано ниже в данном документе со ссылкой на работу сервера 106.

Сервер

[0080] Как упоминалось ранее, система 100 также содержит сервер 106, который может быть реализован как обычный компьютерный сервер. В примере варианта осуществления настоящей технологии сервер 106 может быть реализован как сервер Dell™ PowerEdge™, работающий под управлением операционной системы Microsoft™ Windows Server™. Само собой разумеется, сервер 106 может быть реализован в любом другом подходящем аппаратном, программном и/или микропрограммном обеспечении или в их комбинации. В проиллюстрированном неограничивающем варианте осуществления настоящей технологии сервер 106 является единственным сервером. В альтернативных неограничивающих вариантах осуществления настоящей технологии функциональные возможности сервера 106 могут быть распределены и могут быть реализованы посредством многочисленных серверов.

[0081] Вообще говоря, сервер 106 сконфигурирован с возможностью (i) принимать данные, указывающие запросы или команды, от электронного устройства 104, (ii) анализировать данные, указывающие запросы или команды, и, в ответ, (iii) генерировать данные, указывающие генерируемые машиной ответы, и (iv) передавать данные, указывающие сгенерированные машиной ответы, на электронное устройство 104. С этой целью на сервер 106 размещается служба 108 IPA, связанная с приложением 105 IPA.

[0082] Служба 108 IPA содержит различные компоненты, которые могут позволить реализовать ее вышеупомянутые функциональные возможности.

[0083] Служба 108 IPA может реализовывать модуль 128 обработки естественного языка. Модуль 128 обработки естественного языка может быть сконфигурирован с возможностью: (i) приема сигнала 160; (ii) извлечения записи произнесенного высказывания 155, содержащейся в нем; (iii) обработки произнесенного высказывания 155 для извлечения пользовательских команд, которые были выданы как часть звуковых указаний 150.

[0084] Для этого модуль 128 обработки естественного языка сконфигурирован с возможностью преобразования речи в текст с использованием алгоритма преобразования речи в текст (не проиллюстрирован). В соответствии с различными неограничивающими вариантами осуществления настоящей технологии алгоритм преобразования речи в текст может быть основан на одном или нескольких из: скрытых марковских моделей, алгоритмов распознавания речи на основе динамической трансформации временной шкалы (DTW), сквозных алгоритмов автоматического распознавания речи, различных технологий на основе нейронных сетей (NN) и т.п.

[0085] В соответствии с неограничивающими вариантами осуществления настоящей технологии, служба 108 IPA сервера 106 дополнительно сконфигурирована с возможностью исполнения процедуры 129 определения говорящего субъекта. Процедура 129 определения говорящего субъекта сконфигурирована с возможностью исполнения первого модуля 130 анализа и второго модуля 132 анализа.

[0086] В качестве иллюстрации функциональности неограничивающего варианта осуществления процедуры 129 определения говорящего субъекта предположим, что электронное устройство 104 находится в домашнем хозяйстве, которое связано с набором 180 пользователей (которые также могут быть рассмотрены в качестве «набора 180 зарегистрированных пользователей»). Набор 180 пользователей включает в себя пользователя 102, причем этот пользователь 102 является «первым пользователем» 102, а также набор дополнительных пользователей 182, из которых только два изображены на Фигуре 1. Однако следует понимать, что набор 180 пользователей может иметь меньше или больше членов в любом местоположении электронного устройства 104.

[0087] Другими словами, набор 180 пользователей содержит трех пользователей - первого пользователя 102 и набор дополнительных пользователей 182, которые, в приведенном выше примере, могут быть двумя родителями и ребенком.

[0088] Следует отметить, что каждый из набора 180 пользователей является зарегистрированным пользователем приложения 105 IPA, исполняемого электронным устройством 104. Для этого каждый пользователь из набора 180 пользователей прошел процесс регистрации, исполняемый приложением 105 IPA. Процесс регистрации также иногда упоминается специалистами в данной области техники как процесс «enrollment» («регистрации»). Точная реализация процесса регистрации особым образом не ограничена.

[0089] Неограничивающий пример реализации процесса 200 регистрации проиллюстрирован со ссылкой на Фигуру 2, которая изображает схему потока сигналов, которая иллюстрирует процесс регистрации, который реализуется в соответствии с различными неограничивающими вариантами осуществления настоящей технологии. Описание Фигуры 2 будет представлено с использованием примера первого пользователя 102, использующего приложение 105 IPA. Однако процесс регистрации может быть реализован по существу аналогичным для других пользователей из набора 180 пользователей.

[0090] Как часть этапа 202 первый пользователь 102 из набора 180 пользователей предоставляет учетные данные 204 для входа. Учетные данные 204 для входа могут принимать форму комбинации имени пользователя и пароля или любой другой подходящей реализации. Учетные данные 204 для входа могут быть предоставлены с помощью либо произнесенного высказывания (как часть произнесенного высказывания 155, которое затем передается на сервер 106 в качестве сигнала 160), либо ввода с использованием клавиатуры (не проиллюстрирована), связанной или соединенной с электронным устройством 104, или с использованием устройства ввода-вывода любого другого типа, которое связано с электронным устройством 104 или первым пользователем 102.

[0091] Затем сервер 106 создает запись, связанную с первым пользователем 102, в связи с предоставленными таким образом учетными данными 204 для входа. В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 106 создает запись, связанную с учетными данными 204 для входа, в базе 124 данных. База 124 данных может быть размещена на сервере 106 или иным образом доступна для сервера 106.

[0092] Например, сервер 106 может поддерживать хранилище 123 записей о пользователях в базе 124 данных. Хранилище 123 записей о пользователях может включать в себя множество записей (отдельно не пронумерованных) для ведения списка учетных данных 204 для входа для зарегистрированных пользователей из набора 180 пользователей.

[0093] Как часть этапа 306 первый пользователь 102 из набора 180 пользователей предоставляет образец 206 голоса. Образец 206 голоса может быть принят посредством приложения 105 IPA, запрашивающего (например, посредством звуковых указаний 152) первого пользователя 102 записать образец голоса (например, посредством звуковых указаний 150).

[0094] В зависимости от неограничивающей реализации приложение 105 IPA может запросить первого пользователя 102 либо записать образец случайного высказывания предопределенной длины, либо прочитать предопределенный текст.

[0095] Модуль 128 обработки естественного языка сервера 106 принимает образец 206 голоса (например, в форме сигнала 160) и сохраняет образец 206 голоса в базе 124 данных. В некотором неограничивающем варианте осуществления настоящей технологии модуль 128 обработки естественного языка сервера 106 сохраняет образец 206 голоса в связи с записью, которая была создана в связи с учетными данными 204 для входа в хранилище 123 записей о пользователях в базе 124 данных.

[0096] Учитывая сценарий, представленный выше, и в соответствии с неограничивающими вариантами осуществления настоящей технологии, в результате исполнения процедуры (подпрограммы) 129 определения говорящего субъекта сервер 106 сконфигурирован с возможностью идентификации на основе принятого высказывания, произнесенного пользователем во время использования (такого как произнесенное высказывание, выполненное одним из набора 180 пользователей и принятое службой 108 IPA в форме звуковых указаний 150 и переданное на сервер 106 в качестве записи произнесенного высказывания 155 в сигнале 160), того, какой пользователь из набора 180 пользователей обеспечил данное произнесенное высказывание.

[0097] С этой целью и в соответствии с неограничивающими вариантами осуществления настоящей технологии процедура 129 определения говорящего субъекта сконфигурирована с возможностью исполнения первого модуля 130 анализа и второго модуля 132 анализа.

[0098] Первый модуль 130 анализа сконфигурирован с возможностью генерирования параметра первой вероятности. С этой целью первый модуль 130 анализа сконфигурирован с возможностью исполнения алгоритма машинного обучения (MLA), причем MLA был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы сгенерировать для каждого пользователя из набора 180 пользователей первую вероятность того, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора 180 пользователей.

[0099] Вообще говоря, MLA, реализованный первым модулем 130 анализа, представляет собой компьютерный алгоритм, который может «обучаться» по обучающим данным и делать прогнозы на основе данных в процессе использования ("in-use"). MLA обычно обучается во время фазы его обучения на основе обучающих данных, чтобы, в некотором смысле, «обучиться» связям и/или закономерностям в обучающих данных для выполнения прогнозов, во время фазы его использования, на основе данных в процессе использования.

[00100] Более конкретно, MLA, исполняемый первым модулем 130 анализа, обучается на основе характеристик (признаков) пользовательского высказывания, например, на основе анализа голосовых характеристик пользовательского высказывания. Голосовые характеристики пользовательских высказываний включают в себя, но без ограничения: интонацию, громкость, высоту звука, напряжение, спектральные картины и тому подобное. В соответствии с неограничивающими вариантами осуществления настоящей технологии, первый модуль 130 анализа также может включать в себя банк фильтров, который может содержать набор (массив) полосовых фильтров, который разделяет входной сигнал на множество составляющих, каждая из которых несет один частотный поддиапазон произнесенного пользователем высказывания.

[00101] В соответствии с неограничивающими вариантами осуществления настоящей технологии, MLA, исполняемый первым модулем 130 анализа, сконфигурирован с возможностью генерирования вектора, представляющего голосовые характеристики высказывания, произносимого пользователем во время использования. MLA, исполняемый первым модулем 130 анализа, может быть дополнительно сконфигурирован с возможностью сравнения сгенерированного таким образом вектора, представляющего произносимое во время использования высказывание, с векторами сохраненных образцов 206 голоса из базы 124 данных.

[00102] Говоря общими словами, первый модуль 130 анализа может реализовывать искусственную нейронную сеть (ANN), которая сконфигурирована с возможностью генерирования и анализа голосовых отпечатков ("voiceprints"). В других вариантах осуществления настоящей технологии первый модуль 130 анализа может быть реализован в виде сверточной нейронной сети (CNN), которая может генерировать векторные представления голосовых характеристик. В альтернативных неограничивающих вариантах осуществления настоящей технологии первый модуль анализа может быть реализован как глубокая нейронная сеть (DNN).

[00103] Таким образом, MLA, исполняемый первым модулем 130 анализа, сконфигурирован с возможностью генерирования параметра первой вероятности на основе анализа голосовых характеристик произносимого во время использования высказывания и сохраненных образцов 206 голоса. Параметр первой вероятности указывает вероятность того, является ли говорящий пользовательское высказывание субъект определенным пользователем из набора 180 пользователей. Другими словами, возвращаясь к тому, что в этом примере набор 180 пользователей содержит трех пользователей (первого пользователя 102 и двух пользователей из набора дополнительных пользователей 182), MLA, исполняемый первым модулем 130 анализа, сконфигурирован с возможностью генерирования, для каждого пользователя из набора 180 пользователей, соответствующего параметра первой вероятности, указывающего, насколько вероятно, что данный пользователь из набора 180 пользователей является говорящим субъектом - источником текущего высказывания в процессе использования.

[00104] В некоторых вариантах осуществления настоящей технологии первый модуль 130 анализа сначала может вычислить параметр первой вероятности, используя следующую формулу:

[00105] При этом PrM (V1, V2) является представлением значения объединенной вероятности совпадения любых двух векторов (таких как вектор некоторого произнесенного в текущий момент высказывания и вектор некоторого сохраненного образца 206 голоса); Р (аналогичные) - вероятность того, что они являются аналогичными; и Р (разные) - вероятность того, что они являются разными. Следует отметить, что в соответствии с неограничивающими вариантами осуществления настоящей технологии параметр первой вероятности, в некотором смысле, представляет собой показатель правдоподобия того, что текущий говорящий субъект является кем-то определенным, чей предварительно записанный образец имеется, или гостем. В некоторых альтернативных неограничивающих вариантах осуществления настоящей технологии первый модуль 130 анализа может использовать модель, которая возвращает значение Р(аналогичные) и может вычислять Р (разные) как «1-Р (аналогичные)».

[00106] В качестве примера, MLA, исполняемый первым модулем 130 анализа, может генерировать показатели правдоподобия (первые вероятности) следующим образом:

[00107] Как проиллюстрировано вышеупомянутым неограничивающим примером, MLA, исполняемый первым модулем 130 анализа, сконфигурирован с возможностью генерирования, для каждого пользователя из первого пользователя 102 и двух пользователей из набора дополнительных пользователей 182, соответствующего параметра первой вероятности, указывающего, насколько вероятно, что определенный пользователь из набора 180 пользователей является говорящим субъектом - источником текущего высказывания в процессе использования, причем первые параметры составляют, соответственно, 0,89, 3,8 (что может превышать полную вероятность 1) и 0,21.

[00108] В этом примере MLA, исполняемый первым модулем 130 анализа, определил, что на основе проанализированных голосовых характеристик произнесенного высказывания, более вероятно, что источником произнесенного высказывания является первый пользователь 102 (с достоверностью 89%) и что оставшаяся часть набора 180 пользователей с меньшей вероятностью является источником произнесенного высказывания (соответствующие уровни достоверности 28% и 21% для двух других пользователей в наборе дополнительных пользователей 182 из набора 180 пользователей).

[00109] В по меньшей мере некоторых неограничивающих вариантах осуществления настоящей технологии MLA, исполняемый первым модулем 130 анализа, дополнительно сконфигурирован с возможностью генерирования параметра первой вероятности, связанного с «гостевым пользователем». Параметр первой вероятности, связанный с гостевым пользователем, указывает вероятность того, что источник произносимого в текущий момент высказывания не является ни одним из набора 180 пользователей. Другими словами, в соответствии с по меньшей мере некоторыми из неограничивающих вариантов осуществления настоящей технологии, гостевой пользователь может считаться незарегистрированным пользователем электронного устройства 104. Или, другими словами, гостевым пользователем можно считать пользователя, который не прошел процесс регистрации, описанный в связи с Фигурой 2.

[00110] В некоторых неограничивающих вариантах осуществления настоящей технологии MLA, исполняемый первым модулем 130 анализа, сконфигурирован с возможностью определения параметра первой вероятности для гостевого пользователя способом, аналогичным тому, как MLA, исполняемый первым модулем 130 анализа, определяет параметр первой вероятности для любого другого пользователя из набора 180 пользователей (например, посредством генерирования вектора для произносимого в текущий момент высказывания и определения того, отличается ли этот вектор от векторов всех сохраненных образцов 206 голоса).

[00111] Второй модуль 132 анализа сконфигурирован с возможностью исполнения анализа частоты использования пользователем электронного устройства 104 для каждого определенного пользователя из набора 180 пользователей, чтобы сгенерировать для каждого пользователя из набора 180 пользователей параметр второй вероятности. Параметр второй вероятности является основанной на частоте априорной вероятностью.

[00112] В тех неограничивающих вариантах осуществления настоящей технологии, где MLA, исполняемый первым модулем 130 анализа, также сгенерировал параметр первой вероятности для гостевого пользователя, второй модуль 132 анализа дополнительно сконфигурирован с возможностью генерирования второго параметра вероятности, связанного с гостевым пользователем.

[00113] В некоторых неограничивающих вариантах осуществления настоящей технологии второй модуль 132 анализа сконфигурирован с возможности поддержки хранилища 125 пользовательских счетчиков. Хранилище 125 пользовательских счетчиков может поддерживаться, например, в базе 124 данных. В соответствии с неограничивающими вариантами осуществления настоящей технологии, второй модуль 132 анализа сконфигурирован с возможностью осуществления приращения записи определенного счетчика, связанной с определенным пользователем из набора 180 пользователей, когда определено, что определенный пользователь из набора 180 пользователей использовал электронное устройство и, в частности, взаимодействовал с приложением 105 IPA.

[00114] Другими словами, как будет понятно после ознакомления с представленными в данном документе идеями, как только определено, что определенный пользователь из набора 180 пользователей взаимодействовал с приложением 105 IPA (на основе параметра первой вероятности, описанного выше, параметра второй вероятности и параметра объединенной вероятности, которые будут описаны в данном документе ниже), второй модуль 132 анализа осуществляет приращение связанной записи счетчика в хранилище 125 пользовательских счетчиков.

[00115] В соответствии с неограничивающими вариантами осуществления настоящей технологии, второй модуль 132 анализа сконфигурирован с возможностью исполнения анализа частоты использования пользователем электронного устройства 104 посредством анализа хранилища 125 пользовательских счетчиков для определения, для каждого пользователя из набора 180 пользователей, параметра второй вероятности, основанного на исторической частоте из статистической информации по использованию. Другими словами, второй модуль 132 анализа определяет параметр второй вероятности на основе того, насколько вероятно, на основе исторической статистической информации, что данный пользователь из набора пользователей является текущим источником произносимого высказывания.

[00116] В некоторых вариантах осуществления настоящей технологии второй модуль 132 анализа сконфигурирован с возможностью исполнения анализа частоты использования пользователем электронного устройства 104 посредством анализа всех исторических данных, хранящихся в хранилище 125 пользовательских счетчиков в связи с набором 180 пользователей, связанных с электронным устройством 104 и приложением 105 IPA.

[00117] В других вариантах осуществления настоящей технологии второй модуль 132 анализа сконфигурирован с возможностью исполнения анализа частоты использования пользователем электронного устройства 104 посредством подмножества данных, хранящихся в хранилище 125 пользовательских счетчиков в связи с набором 180 пользователей, связанных с электронным устройством 104 и приложением 105 IPA. Например, второй модуль 132 анализа сконфигурирован с возможностью извлечения данных, связанных с некоторым предопределенным прошлым периодом времени, например, прошлым месяцем, двумя прошедшими неделями, прошедшим днем и т.п.

[00118] В некоторых неограничивающих вариантах осуществления настоящей технологии второй модуль 132 анализа сконфигурирован с возможностью извлечения полных данных, но для придания большего веса более свежей информации, чем более старой информации, например, присвоения большего веса информации прошедшей недели по сравнению с остальной более старой информацией. Другими словами, в некоторых неограничивающих вариантах осуществления настоящей технологии второй модуль анализа может назначить больший вес некоторой части хранимых данных, указывающих прошлое использование электронного устройства 104 и/или приложения 105 IPA. В некоторых неограничивающих вариантах осуществления настоящей технологии второй модуль 132 анализа также может иметь доступ к вычисленным в прошлом значению первой вероятности и значению второй вероятности вместе с временными метками, когда такие значения были вычислены.

[00119] Предположим, что исторические данные, хранящиеся в хранилище 125 пользовательских счетчиков в связи с набором 180 пользователей, связанных с электронным устройством 104 и приложением 105 IPA за релевантный период времени, указаны следующим образом:

[00120] Таким образом, второй модуль 132 анализа сконфигурирован с возможностью исполнения анализа частоты использования пользователем электронного устройства 104 и определения параметра второй вероятности, являющегося априорной вероятностью того, что определенный пользователь из набора 180 пользователей является источником произнесенного в текущий момент высказывания:

[00121] Второй модуль 132 анализа дополнительно сконфигурирован с возможностью сгенерировать для каждого пользователя из набора 180 пользователей параметр объединенной вероятности на основе связанных с ним первой вероятности и второй вероятности. В некоторых неограничивающих вариантах осуществления настоящей технологии параметр объединенной вероятности генерируется путем перемножения соответствующих первого параметра и второго параметра. Тем не менее, можно использовать любую другую подходящую функцию. В некоторых вариантах осуществления настоящей технологии результирующая объединенная вероятность может быть нормирована таким образом, что каждая из объединенных вероятностей находится в диапазоне от нуля до единицы; со всеми вычисленными объединенными вероятностями, в сумме составляющими единицу.

[00122] Второй модуль 132 анализа дополнительно сконфигурирован с возможностью выбрать определенного пользователя из набора 180 пользователей в качестве говорящего текущее пользовательское высказывание субъекта, причем этот определенный пользователь связан с наивысшим значением объединенной вероятности. В примере, проиллюстрированном выше, второй модуль 132 анализа выбирает первого пользователя 102 в качестве текущего источника произнесенного высказывания.

[00123] Применения идентифицированной таким образом личности источника произнесенного высказывания

[00124] В некоторых неограничивающих вариантах осуществления настоящей технологии личность идентифицированного источника произнесенного в текущий момент высказывания (то есть первого пользователя 102 в этом примере) может использоваться для реализации или улучшения реализации функциональных возможностей электронного устройства 104.

[00125] В некоторых неограничивающих вариантах осуществления настоящей технологии модуль 128 обработки естественного языка может использовать знание об идентифицированном говорящем субъекте для извлечения пользовательского профиля, связанного с идентифицированным говорящим субъектом (то есть связанного с первым пользователем 102). Это может быть исполнено, например, для того, чтобы предоставить говорящему субъекту набор авторизованных основанных на голосовом управлении действий, которые конкретно выбраны на основе пользовательского профиля первого пользователя. Указание такого пользовательского профиля и список авторизованных основанных на голосовом управлении действий могут быть сохранены в хранилище 123 записей о пользователях.

[00126] Таким образом, предполагается, что модуль 128 обработки естественного языка дополнительно сконфигурирован с возможностью извлечения пользовательского профиля, связанного с первым пользователем 102 (идентифицированным в качестве источника произнесенного в текущий момент высказывания), из хранилища 123 записей о пользователях.

[00127] В некоторых вариантах осуществления настоящей технологии поддержание пользовательских профилей и списка авторизованных основанных на голосовом управлении действий может позволить провести различие в том, что разрешено делать некоторым или всем пользователям из набора 180 пользователей, а что разрешено делать гостевым пользователям.

[00128] Например, предполагается, что некоторые или все пользователи из набора 180 пользователей могут предоставлять список действий, которые они или другие пользователи из набора 180 пользователей могут исполнять с использованием электронного устройства 104. Также предполагается, что гостевой пользовательский профиль может поддерживаться хранилищем 123 записей о пользователях и что набор основанных на голосовом управлении действий, связанных с гостевым пользователем, меньше, чем набор основанных на голосовом управлении действий, связанных с любым или некоторыми из зарегистрированных пользователей (например, одним из набора 180 пользователей).

[00129] Модуль 128 обработки естественного языка может быть дополнительно сконфигурирован с возможностью обновления хранилища 125 пользовательских счетчиков, чтобы осуществлять приращение счетчика, связанного с первым пользователем 102 (который был определен в качестве говорящего субъекта / источника произнесенного в текущий момент высказывания).

[00130] Более конкретно, на основе определения говорящего субъекта модуль 128 обработки естественного языка может быть сконфигурирован с возможностью обновления основанной на частоте априорной вероятности, связанной с каждым пользователем из набора зарегистрированных пользователей; и сохранения обновленных основанных на частоте априорных вероятностей в хранилище 125 пользовательских счетчиков. В частности, модуль 128 обработки естественного языка обновляет счетчик, связанный с текущим говорящим субъектом, для увеличения его параметра априорной вероятности.

[00131] В некоторых неограничивающих вариантах осуществления настоящей технологии параметр априорной вероятности, связанный с гостевым пользователем, может быть связан с абсолютным минимальным значением, чтобы гарантировать, что гостевой пользователь может быть определен. В некоторых реализациях минимальное значение для параметра априорной вероятности для гостевого пользователя может быть функцией от общего количества зарегистрированных пользователей из набора 180 пользователей. В некоторых неограничивающих реализациях это предопределенное минимальное значение не может быть выше вероятностей зарегистрированного пользователя.

[00132] Альтернативные варианты осуществления - обновление априорной вероятности и управление вероятностью гостевого пользователя

[00133] В некоторых неограничивающих вариантах осуществления настоящей технологии определение текущего говорящего субъекта может использоваться для обновления и/или корректировки определенных в прошлом априорных пользовательских вероятностей.

[00134] В некоторых неограничивающих вариантах осуществления настоящей технологии после того, как набор 180 пользователей прошел процесс регистрации, как описано выше, и до того, как электронное устройство 104 использовалось впервые, каждому из пользователей из набора 180 пользователей назначается некоторый предопределенный параметр априорной вероятности. Например, такой предварительно назначенный параметр может быть 1 или 0,5. Кроме того, гостевому пользователю также может быть назначен параметр априорной вероятности, такой как 0,25 или 0,5; причем его значение зависит от количества зарегистрированных пользователей из набора 180 пользователей. Например, значение параметра априорной вероятности, назначенного гостевому пользователю, может быть ниже, чем любой параметр априорной вероятности, назначенный зарегистрированным пользователям из набора 180 пользователей.

[00135] В течение первых нескольких циклов использования электронного устройства 104 (несмотря на то, что статистической информации было собрано недостаточно), прогнозы, осуществляемые первым модулем 130 анализа, в действительности будут «выигрывать» или «преобладать», поскольку они не «сдерживаются» выходными данными второго модуля 132 анализа.

[00136] После некоторого времени использования электронного устройства 104 процедура 129 определения говорящего субъекта собирает достаточно статистической информации о том, кто из набора 180 пользователей использует приложение 105 IPA электронного устройства 104, причем выходные данные, выводимые со второго модуля 132 анализа, начинают оказывать «сдерживающий» эффект, как было описано выше.

[00137] В некоторых неограничивающих вариантах осуществления настоящей технологии модуль 128 обработки естественного языка может использовать текущие определения источника произносимых высказываний для «исправления» прошлых прогнозов и использовать эту информацию для дальнейшего обучения второго модуля 132 анализа. В некотором смысле модуль 128 обработки естественного языка может исполнять пересмотр, фильтрацию и повторное обучение на основе прошлых прогнозов.

[00138] В некоторых неограничивающих вариантах осуществления настоящей технологии модуль 128 обработки естественного языка может дополнительно исполнять кластеризацию сохраненных образцов 206 голоса. В некоторых неограничивающих вариантах осуществления настоящей технологии модуль 128 обработки естественного языка может анализировать кластеризованные таким образом сохраненные образцы 206 голоса. Например, большие кластеры могут быть связаны с зарегистрированными пользователями из набора 180 пользователей, в то время как меньший кластер(ы) может быть связан с гостевым пользователем(пользователями).

[00139] Организация сохраненных образцов 206 голоса в кластеры может быть исполнена модулем 128 обработки естественного языка на основе количества собранных информационных точек об определенном пользователе из набора 180 пользователей или гостевом пользователе. Чем больше модуль 128 обработки естественного языка знает об определенном пользователе (то есть одном из набора 180 пользователей или гостевом пользователе), тем больше и точнее становится связанный кластер.

[00140] Кластеризованные сохраненные образцы 206 голоса могут быть введены в модель другого MLA (не проиллюстрирована) для пересчета или обучения будущих прогнозов. В некоторых варианта х осуществления настоящей технологии, по мере того как модуль 128 обработки естественного языка получает больше информации о гостевом пользователе, гостевой пользователь может быть увязан модулем 128 обработки естественного языка с гостевым профилем, ему может быть назначен псевдопользовательский ключ или ему может быть предложено пройти процедуру регистрации.

[00141] В некоторых неограничивающих вариантах осуществления настоящей технологии с течением времени модуль 128 обработки естественного языка может накапливать некоторое количество голосовых отпечатков от определенного пользователя из набора 180 пользователей, что может позволить модулю 128 обработки естественного языка обновлять/исправлять прогнозы, сделанные первым модулем 130 анализа.

[00142] Альтернативные варианты осуществления - другие применения

[00143] Говоря общими словами, варианты осуществления настоящей технологии могут использоваться для обработки произносимых высказываний для двух обширных целей - идентификации пользователя (т.е. сопоставления текущего пользователя с предопределенным списком пользователей, таким как список зарегистрированных пользователей) и аутентификации пользователя (т.е. подтверждения личности пользователя). Более конкретно, неограничивающие варианты осуществления настоящей технологии могут использоваться для идентификации известных пользователей и аутентификации гостевых пользователей (то есть неизвестных пользователей).

[00144] В некоторых вариантах осуществления настоящей технологии первый модуль 130 анализа, который может быть реализован как CNN, может быть обучен некоторым конкретным образом в зависимости от того, какую задачу система 100 должна решать при использовании - верификацию и/или аутентификацию.

[00145] Для целей CNN, реализующей задачу идентификации, CNN обучается определять расстояние от некоторого текущего вектора произнесенного в текущий момент высказывания до векторов сохраненных образцов 206 голоса.

[00146] Для целей CNN, реализующей задачу верификации, CNN обучается в дополнение к ее способности определять расстояние для идентификации пользователя, CNN дополнительно обучается исполнять верификацию личности пользователя, например, путем повышения порога уровня достоверности, осуществления вторичного подтверждения процесса идентификации пользователя и т.д.

[00147] Принимая во внимание вышеописанную архитектуру можно исполнить способ определения говорящего субъекта, причем говорящий субъект выбирается исходя из набора 180 зарегистрированных пользователей, связанных с управляемым голосом устройством (таким как электронное устройство 104). Способ может быть исполнен электронным устройством, сконфигурированным с возможностью исполнения алгоритма машинного обучения (MLA).

[00148] В некоторых неограничивающих вариантах осуществления настоящей технологии электронное устройство может быть электронным устройством 104 (то есть управляемым голосом устройством). В других неограничивающих вариантах осуществления настоящей технологии электронное устройство может быть сервером 106.

[00149] Со ссылкой на Фигуру 3 проиллюстрирована блок-схема последовательности операций способа 300, причем способ 300 реализуется в соответствии с неограничивающими вариантами осуществления настоящей технологии. Для целей описания способа 300 предполагается, что способ 300 исполняется сервером 106 и, более конкретно, процедурой 129 определения говорящего субъекта.

[00150] Этап 302 - прием электронным устройством указания пользовательского высказывания, причем пользовательское высказывание было выполнено говорящим субъектом;

[00151] Способ 300 начинается на этапе 302, на котором процедура 129 определения говорящего субъекта принимает указание пользовательского высказывания, причем пользовательское высказывание было выполнено говорящим субъектом. Это может быть исполнено посредством процедуры 129 определения говорящего субъекта, принимающей сигнал 160, причем сигнал 160 содержит запись произнесенного высказывания 155 (то есть представляющую звуковые указания 150, имеющие одно или несколько высказываний, произнесенных некоторым пользователем из набора 180 пользователей).

[00152] Этап 304 - исполнение электронным устройством MLA, причем MLA был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр первой вероятности, указывающий, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора зарегистрированных пользователей;

[00153] На этапе 304 процедура 129 определения говорящего субъекта исполняет MLA, причем MLA был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр первой вероятности, указывающий, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора зарегистрированных пользователей.

[00154] Этап 306 - исполнение электронным устройством анализа частоты пользовательского использования управляемого голосом устройства для каждого пользователя из набора зарегистрированных пользователей, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр второй вероятности, причем параметр второй вероятности является основанной на частоте априорной вероятностью;

[00155] На этапе 306 процедура 129 определения говорящего субъекта исполняет анализ частоты пользовательского использования управляемого голосом устройства (то есть электронного устройства 104 и, более конкретно, использования приложения 105 IPA) для каждого пользователя из набора 180 зарегистрированных пользователей, чтобы сгенерировать для каждого пользователя из набора 180 зарегистрированных пользователей параметр второй вероятности, причем параметр второй вероятности является основанной на частоте априорной вероятностью.

[00156] В некоторых неограничивающих вариантах осуществления способа 300 анализ частоты пользовательского использования устанавливает вес поднабора априорной вероятности для каждого пользователя из набора зарегистрированных пользователей, причем поднабор включает в себя предопределенное количество наиболее недавних прошлых вычислений.

[00157] Этап 308 - генерирование электронным устройством для каждого пользователя из набора зарегистрированных пользователей объединенной вероятности на основе связанных с ним первой вероятности и второй вероятности;

[00158] На этапе 308 процедура 129 определения говорящего субъекта генерирует для каждого пользователя из набора зарегистрированных пользователей объединенную вероятность на основе связанных с ним первой вероятности и второй вероятности.

[00159] Этап 310 - выбор электронным устройством определенного пользователя из набора зарегистрированных пользователей в качестве говорящего пользовательское высказывание субъекта, причем этот определенный пользователь связан с наивысшим значением объединенной вероятности;

[00160] На этапе 310 процедура 129 определения говорящего субъекта выбирает определенного пользователя из набора зарегистрированных пользователей в качестве говорящего пользовательское высказывание субъекта, причем этот определенный пользователь связан с наивысшим значением объединенной вероятности.

[00161] Следует напомнить, что набор 180 пользователей, в общем, может иметь зарегистрированных пользователей (то есть тех пользователей, которые прошли процесс 200 регистрации, таких как первый пользователь 102 и набор дополнительных пользователей 182) и гостевых пользователей. Таким образом, в некоторых неограничивающих вариантах осуществления способа 300, набор зарегистрированных пользователей содержит зарегистрированного пользователя и гостевого пользователя, и при этом этап выбор содержит: сравнение объединенной вероятности каждого пользователя из набора 180 зарегистрированных пользователей с некоторым предопределенным порогом; в ответ на то, что каждая из объединенных вероятностей находится ниже предопределенного порога, определение, что говорящий субъект является гостевым пользователем; в ответ на то, что по меньшей мере одна из объединенных вероятностей выше предопределенного порога, исполнение: выбора зарегистрированного пользователя в качестве говорящего пользовательское высказывание субъекта, причем зарегистрированный пользователь связан с наивысшим значением объединенной вероятности.

[00162] В некоторых неограничивающих вариантах осуществления способа 300, способ 300 дополнительно содержит: на основе определения говорящего субъекта, обновление основанной на частоте априорной вероятности, связанной с каждым пользователем из набора зарегистрированных пользователей; и сохранение обновленных основанных на частоте априорных вероятностей в памяти, например, в хранилище 125 пользовательских счетчиков.

[00163] В некоторых неограничивающих вариантах осуществления способа 300 способ 300 дополнительно содержит извлечение пользовательского профиля, связанного с говорящим субъектом, и предоставление говорящему субъекту набора авторизованных основанных на голосовом управлении действий. Например, процедура 129 определения говорящего субъекта может извлекать пользовательский профиль из хранилища 123 записей о пользователях.

[00164] В некоторых неограничивающих вариантах осуществления способа 300 способ 300 дополнительно содержит извлечение пользовательского профиля, связанного с одним из гостевого пользователя и зарегистрированного пользователя, который был определен в качестве говорящего субъекта, и предоставление набора авторизованных основанных на голосовом управлении действий, при этом набор основанных на голосовом управлении действий, связанных с гостевым пользователем, меньше, чем набор основанных на голосовом управлении действий, связанных с зарегистрированным пользователем.

[00165] В некоторых неограничивающих вариантах осуществления способа 300 способ 300 дополнительно содержит ведение базы данных априорных вероятностей для каждого пользователя из набора зарегистрированных пользователей. Как было упомянуто выше, процедура 129 определения говорящего субъекта может поддерживать хранилище 125 пользовательских счетчиков.

[00166] В некоторых неограничивающих вариантах осуществления способа 300 способ 300 дополнительно содержит обновление априорных вероятностей для по меньшей мере некоторых пользователей из набора зарегистрированных пользователей на основе упомянутого выбора, например, обновление хранилища 125 пользовательских счетчиков.

[00167] В некоторых неограничивающих вариантах осуществления способа 300 набор 180 зарегистрированных пользователей содержит зарегистрированного пользователя и гостевого пользователя. В некоторых из этих вариантов осуществления способ 300 дополнительно содержит установку предопределенного минимального значения априорной вероятности, ниже которого априорная вероятность для гостевого пользователя падать не может. Предопределенное минимальное значение может быть основано на количестве зарегистрированных пользователей из набора 180 зарегистрированных пользователей. В некоторых из этих неограничивающих вариантов осуществления настоящей технологии предопределенное минимальное значение не выше, чем любая из априорных вероятностей любого из зарегистрированных пользователей из набора 180 зарегистрированных пользователей.

[00168] В некоторых неограничивающих вариантах осуществления способа 300 способ 300 дополнительно содержит ведение базы данных определенных в прошлом личностей говорящих субъектов (это может быть осуществлено, например, в качестве части хранилища 125 пользовательских счетчиков, поддерживаемого в базе 124 данных).

[00169] В некоторых неограничивающих вариантах осуществления способа 300, в ответ на то, что предопределенное количество определенных в прошлом личностей говорящих субъектов являются гостевым говорящим субъектом, способ 300 дополнительно содержит исполнение предопределенного гостевого сценария. Этап исполнения предопределенного гостевого сценария может содержать, во время дополнительного исполнения MLA, который был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы генерировать, для каждого пользователя из набора зарегистрированных пользователей, первую вероятность того, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора зарегистрированных пользователей: искусственное сокращение времени, затрачиваемого на генерирование первой вероятности.

[00170] В некоторых неограничивающих вариантах осуществления способа 300 способ 300 дополнительно содержит: извлечение определенных в прошлом личностей говорящих субъектов; обновление прогноза личностей говорящих субъектов с использованием текущих значений априорных вероятностей; сохранение обновленных априорных вероятностей.

[00171] В некоторых неограничивающих вариантах осуществления способа 300 способ 300 дополнительно содержит сравнение обновленных априорных вероятностей с определенными в прошлом личностями говорящих субъектов и использование определенных различий для дополнительного обучения MLA.

[00172] Некоторые из вышеупомянутых этапов, а также прием/отправка сигналов хорошо известны в данной области техники и, как таковые, были опущены в некоторых частях этого описания для простоты. Сигналы могут отправляться/приниматься с использованием оптических средств (например, оптоволоконного соединения), электронных средств (например, используя проводное или беспроводное соединение) и механических средств (например, средств, основанных на давлении, на температуре, или на основе любого другого подходящего физического параметра).

[00173] Некоторые технические эффекты неограничивающих вариантов осуществления настоящей технологии могут включать в себя предоставление способа для более эффективного (то есть вероятно более корректного) определения говорящего субъекта, который произнес текущее речевое пользовательское высказывание.

[00174] Следует четко понимать, что не все технические эффекты, упомянутые в данном документе, должны обеспечиваться в каждом варианте осуществления настоящей технологии. Например, варианты осуществления настоящей технологии могут быть реализованы без обеспечения пользователю некоторых из упомянутых технических эффектов, в то время как другие варианты осуществления могут быть реализованы с обеспечением пользователю других технических эффектов или без обеспечения каких-либо технических эффектов.

[00175] Модификации и улучшения вышеописанных реализаций настоящей технологии могут стать очевидными для специалистов в данной области техники. Предшествующее описание предназначено для того, чтобы быть примерным, а не ограничивающим. Поэтому подразумевается, что объем настоящей технологии ограничен только объемом прилагаемой формулы изобретения.

Похожие патенты RU2744063C1

название год авторы номер документа
Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу 2018
  • Минькин Федор Александрович
RU2761940C1
Способ и система классификации пользователя электронного устройства 2021
  • Алиев Владимир Андреевич
  • Каргальцев Степан Александрович
  • Бабенко Артем Валерьевич
RU2795152C2
Способ и система для синтеза речи из текста 2017
  • Кириченко Владимир Владимирович
  • Луференко Петр Владиславович
RU2692051C1
СПОСОБ И КОМПЬЮТЕРНОЕ УСТРОЙСТВО ДЛЯ ОПРЕДЕЛЕНИЯ НАМЕРЕНИЯ, СВЯЗАННОГО С ЗАПРОСОМ ДЛЯ СОЗДАНИЯ ЗАВИСЯЩЕГО ОТ НАМЕРЕНИЯ ОТВЕТА 2017
  • Любимов Николай Андреевич
RU2711104C2
СПОСОБЫ И ЭЛЕКТРОННЫЕ УСТРОЙСТВА ДЛЯ ОПРЕДЕЛЕНИЯ НАМЕРЕНИЯ, СВЯЗАННОГО С ПРОИЗНЕСЕННЫМ ВЫСКАЗЫВАНИЕМ ПОЛЬЗОВАТЕЛЯ 2018
  • Карпухин Иван Александрович
RU2711153C2
ЭЛЕКТРОННОЕ УСТРОЙСТВО И СПОСОБ УПРАВЛЕНИЯ ИМ 2020
  • Ли, Ынджи
  • Ко, Хёнмок
  • Ли, Кенхун
  • Джан, Сэбом
  • Джун, Пурым
  • Чой, Сунджа
  • Пэон, Чханхо
  • Хон, Джиён
  • Хван, Инчул
RU2792288C1
Способ предоставления рекомендаций на платформе для онлайн-торговли 2021
  • Ковалев Вадим Евгеньевич
  • Левин Владимир Евгеньевич
RU2824340C2
ВЕРИФИКАЦИЯ ГОВОРЯЩЕГО 2017
  • Морено Игнасио Лопес
  • Вань Ли
  • Ван Цюань
RU2697736C1
СПОСОБ И СИСТЕМА ДЛЯ ОБРАБОТКИ ПОЛЬЗОВАТЕЛЬСКОГО РАЗГОВОРНОГО РЕЧЕВОГО ФРАГМЕНТА 2019
  • Алипов Вячеслав Вячеславович
  • Садовников Олег Александрович
  • Зубков Никита Владимирович
RU2757264C2
Устройство и способ для голосового взаимодействия с сохранением конфиденциальности 2018
  • Фонтэн Патрик
  • Нойманн Кристоф
RU2768506C2

Иллюстрации к изобретению RU 2 744 063 C1

Реферат патента 2021 года СПОСОБ И СИСТЕМА ОПРЕДЕЛЕНИЯ ГОВОРЯЩЕГО ПОЛЬЗОВАТЕЛЯ УПРАВЛЯЕМОГО ГОЛОСОМ УСТРОЙСТВА

Изобретение относится к системам для определения личности говорящего пользователя управляемого голосом устройства. Технический результат заключается в повышении точности идентификации определенного говорящего пользователя. Способ содержит исполнение алгоритма машинного обучения (MLA) для определения параметра первой вероятности, указывающего, является ли говорящий пользовательское высказывание субъект пользователем из набора зарегистрированных пользователей, исполнение анализа частоты пользовательского использования для генерирования, для каждого пользователя из набора зарегистрированных пользователей, параметра второй вероятности, являющегося основанной на частоте априорной вероятностью, генерирование электронным устройством для каждого пользователя из набора зарегистрированных пользователей объединенной вероятности на основе связанных с ним первой вероятности и второй вероятности, выбор определенного пользователя из набора зарегистрированных пользователей в качестве говорящего пользовательское высказывание субъекта на основе значения объединенной вероятности. 3 н. и 16 з.п. ф-лы, 3 ил.

Формула изобретения RU 2 744 063 C1

1. Способ определения говорящего субъекта, причем говорящего субъекта выбирают из набора зарегистрированных пользователей, связанных с управляемым голосом устройством, причем способ исполняется электронным устройством, сконфигурированным с возможностью исполнения алгоритма машинного обучения (MLA), причем способ содержит:

прием электронным устройством указания пользовательского высказывания, причем пользовательское высказывание было выполнено говорящим субъектом;

исполнение электронным устройством MLA, причем MLA был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр первой вероятности, указывающий, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора зарегистрированных пользователей;

исполнение электронным устройством анализа частоты пользовательского использования управляемого голосом устройства для каждого пользователя из набора зарегистрированных пользователей, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр второй вероятности, причем параметр второй вероятности является основанной на частоте априорной вероятностью;

генерирование электронным устройством для каждого пользователя из набора зарегистрированных пользователей объединенной вероятности на основе связанных с ним первой вероятности и второй вероятности;

выбор электронным устройством определенного пользователя из набора зарегистрированных пользователей в качестве говорящего пользовательское высказывание субъекта, причем определенный пользователь связан с наивысшим значением объединенной вероятности.

2. Способ по п. 1, в котором электронным устройством является одно из управляемого голосом устройства и сервера, соединенного с управляемым голосом устройством через сеть связи.

3. Способ по п. 1, в котором набор зарегистрированных пользователей содержит зарегистрированного пользователя и гостевого пользователя, и в котором выбор содержит:

сравнение объединенной вероятности каждого пользователя из набора зарегистрированных пользователей с предопределенным порогом;

в ответ на то, что каждая из объединенных вероятностей находится ниже упомянутого предопределенного порога, определение, что говорящим субъектом является гостевой пользователь;

в ответ на то, что по меньшей мере одна из объединенных вероятностей превышает упомянутый предопределенный порог, исполнение:

выбора зарегистрированного пользователя в качестве говорящего пользовательское высказывание субъекта, причем упомянутый зарегистрированный пользователь связан с наивысшим значением объединенной вероятности.

4. Способ по п. 3, при этом способ дополнительно содержит:

на основе определения говорящего субъекта, обновление основанной на частоте априорной вероятности, связанной с каждым пользователем из набора зарегистрированных пользователей; и

сохранение обновленных основанных на частоте априорных вероятностей в памяти, связанной с электронным устройством.

5. Способ по п. 1, при этом способ дополнительно содержит извлечение пользовательского профиля, связанного с говорящим субъектом, и предоставление говорящему субъекту набора авторизованных основанных на голосовом управлении действий.

6. Способ по п. 3, при этом способ дополнительно содержит извлечение пользовательского профиля, связанного с одним из гостевого пользователя и зарегистрированного пользователя, который был определен в качестве говорящего субъекта, и предоставление набора авторизованных основанных на голосовом управлении действий, при этом набор основанных на голосовом управлении действий, связанных с гостевым пользователем, меньше, чем набор основанных на голосовом управлении действий, связанных с зарегистрированным пользователем.

7. Способ по п. 1, при этом способ дополнительно содержит ведение базы данных априорных вероятностей для каждого пользователя из набора зарегистрированных пользователей.

8. Способ по п. 7, дополнительно содержащий обновление априорных вероятностей для по меньшей мере некоторых пользователей из набора зарегистрированных пользователей на основе упомянутого выбора.

9. Способ по п. 1, в котором анализ частоты пользовательского использования устанавливает вес поднабора априорной вероятности для каждого пользователя из набора зарегистрированных пользователей, причем поднабор включает в себя предопределенное количество наиболее недавних прошлых вычислений.

10. Способ по п. 9, в котором набор зарегистрированных пользователей содержит зарегистрированного пользователя и гостевого пользователя, и при этом способ дополнительно содержит установку некоторого предопределенного минимального значения априорной вероятности, ниже которого априорная вероятность для гостевого пользователя падать не может.

11. Способ по п. 10, в котором установка предопределенного минимального значения основана на количестве зарегистрированных пользователей из набора зарегистрированных пользователей, и в котором упомянутое предопределенное минимальное значение не выше, чем любая из априорных вероятностей любого из зарегистрированных пользователей из набора зарегистрированных пользователей.

12. Способ по п. 9, при этом способ дополнительно содержит ведение базы данных определенных в прошлом личностей говорящих субъектов.

13. Способ по п. 12, в котором набор зарегистрированных пользователей содержит зарегистрированного пользователя и гостевого пользователя, и в котором в ответ на то, что предопределенное количество определенных в прошлом личностей говорящих субъектов являются гостевым говорящим субъектом, способ дополнительно содержит исполнение предопределенного гостевого сценария.

14. Способ по п. 13, в котором исполнение предопределенного гостевого сценария содержит, во время дополнительного исполнения MLA, который был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы генерировать, для каждого пользователя из набора зарегистрированных пользователей, первую вероятность того, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора зарегистрированных пользователей:

искусственное сокращение времени, затрачиваемого на генерирование первой вероятности.

15. Способ по п. 12, при этом способ дополнительно содержит:

извлечение определенных в прошлом личностей говорящих субъектов;

обновление прогноза личностей говорящих субъектов с использованием текущих значений априорных вероятностей;

сохранение обновленных априорных вероятностей.

16. Способ по п. 15, при этом способ дополнительно содержит сравнение обновленных априорных вероятностей с определенными в прошлом личностями говорящих субъектов и использование определенных различий для дополнительного обучения MLA.

17. Электронное устройство, содержащее:

процессор, сконфигурированный с возможностью исполнения алгоритма машинного обучения (MLA);

память, соединенную с процессором, причем память хранит исполняемые компьютером инструкции, которые при исполнении побуждают процессор:

принять указание пользовательского высказывания, причем пользовательское высказывание было выполнено говорящим субъектом, использующим управляемое голосом устройство, причем говорящий субъект выбирается из набора зарегистрированных пользователей, связанных с управляемым голосом устройством;

исполнить MLA, причем MLA был обучен анализировать голосовые характеристики пользовательского высказывания, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр первой вероятности, указывающий, является ли говорящий пользовательское высказывание субъект упомянутым пользователем из набора зарегистрированных пользователей;

исполнить анализ частоты пользовательского использования, управляемого голосом устройства для каждого пользователя из набора зарегистрированных пользователей, чтобы сгенерировать для каждого пользователя из набора зарегистрированных пользователей параметр второй вероятности, причем параметр второй вероятности является основанной на частоте априорной вероятностью;

сгенерировать для каждого пользователя из набора зарегистрированных пользователей объединенную вероятность на основе связанных с ним первой вероятности и второй вероятности;

выбрать определенного пользователя из набора зарегистрированных пользователей в качестве говорящего пользовательское высказывание субъекта, причем определенный пользователь связан с наивысшим значением объединенной вероятности.

18. Электронное устройство по п. 17, причем электронным устройством является одно из управляемого голосом устройства и сервера, соединенного с управляемым голосом устройством через сеть связи.

19. Способ определения говорящего субъекта, причем говорящего субъекта выбирают из набора зарегистрированных пользователей, связанных с управляемым голосом устройством, причем способ исполняется электронным устройством, сконфигурированным с возможностью исполнения алгоритма машинного обучения (MLA), причем способ содержит:

исполнение MLA для определения параметра первой вероятности, указывающего, является ли говорящий пользовательское высказывание субъект пользователем из набора зарегистрированных пользователей;

исполнение анализа частоты пользовательского использования для генерирования, для каждого пользователя из набора зарегистрированных пользователей, параметра второй вероятности, являющегося основанной на частоте априорной вероятностью;

генерирование электронным устройством для каждого пользователя из набора зарегистрированных пользователей объединенной вероятности на основе связанных с ним первой вероятности и второй вероятности;

выбор определенного пользователя из набора зарегистрированных пользователей в качестве говорящего пользовательское высказывание субъекта на основе значения объединенной вероятности.

Документы, цитированные в отчете о поиске Патент 2021 года RU2744063C1

Токарный резец 1924
  • Г. Клопшток
SU2016A1
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек 1923
  • Григорьев П.Н.
SU2007A1
Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами 1924
  • Ф.А. Клейн
SU2017A1
Токарный резец 1924
  • Г. Клопшток
SU2016A1
ИНТЕГРАЦИЯ КОРПОРАТИВНОЙ АВТОРИЗАЦИИ ИДЕНТИЧНОСТИ В КОНФЕРЕНЦИЯХ 2009
  • Анантханараянан Кришнан
  • Нараянан Санкаран
  • Секаран Дхигха
  • Сринивасан Сриватса
RU2507692C2

RU 2 744 063 C1

Авторы

Карпухин Иван Александрович

Даты

2021-03-02Публикация

2018-12-18Подача