Показать метаданные Скрыть метаданные

(19)

(11)

2 795 152

(13)

(51)

МПК

G06N3/08(2006-01-01)

G06N20/10(2019-01-01)

G06Q10/06(2012-01-01)

G10L15/08(2006-01-01)

(21) (22)

Заявка

2021103269, 2021-02-10

(24)

Дата начала отсчета патента

2021-02-10

(22)

дата подачи заявки

2021-02-10

(45)

опубликовано

2023-04-28

(72)

авторы

Алиев Владимир АндреевичКаргальцев Степан АлександровичБабенко Артем Валерьевич

(73)

патентообладатели

Общество С Ограниченной Ответственностью

(56)

Документы, цитированные в отчете о поиске

US 8411977 B1, 02.04.2013

Способ и система классификации пользователя электронного устройства Российский патент 2023 года по МПК G06N3/08 G06N20/10 G06Q10/06 G10L15/08

Описание патента на изобретение RU2795152C2

Область техники, к которой относится изобретение

[001] Настоящая технология относится в общем к обработке естественного языка; и более конкретно - к способу и системе классификации пользователя электронного устройства.

Уровень техники

[002] Электронные устройства, такие как смартфоны и планшетные компьютеры, могут осуществлять доступ к растущему и разнообразному количеству приложений и служб для обработки и/или осуществления доступа к информации различных типов. Однако начинающие пользователи и/или пользователи с ограниченными возможностями и/или пользователи могут быть не в состоянии эффективно взаимодействовать с такими устройствами в основном из-за разнообразия функций, обеспечиваемых этими устройствами, или невозможности использовать интерфейсы между устройством и пользователем, предусмотренные в таких устройствах (такие как клавиатура). Например, пользователь, который управляет транспортным средством, или пользователь с нарушениями зрения может не иметь возможности использовать клавиатуру сенсорного экрана, связанную с некоторыми из этих устройств.

[003] Для выполнения функций в ответ на такие запросы пользователей были разработаны приложения виртуального помощника. Такие приложения виртуального помощника могут использоваться, например, для поиска информации, навигации, а также для широкого спектра команд. Обычное приложение виртуального помощника (такое как приложение виртуального помощника Siri™, приложение виртуального помощника Alexa™ и тому подобное) может принимать голосовое высказывание пользователя в форме цифрового аудиосигнала от электронного устройства и выполнять для пользователя широкий спектр задач. Например, пользователь может общаться с приложением виртуального помощника, вводя голосовые высказывания для запроса, например, того, какая сейчас погода, где находится ближайший торговый центр и тому подобного.

[004] В качестве другого примера, пользователь может подать приложению виртуального помощника команду для извлечения и воспроизведения определенного мультимедийного содержимого, такого как мультимедийное содержимое в виде аудио- или видеоданных. Например, чтобы подать такую команду, сначала от пользователя может потребоваться ввести (то есть произнести) слово или фразу для активации, связанную с приложением виртуального помощника, такую как «Привет, Siri», «Алекса», «Окей, Google» и тому подобное, чтобы активировать приложение виртуального помощника для приема команды. Кроме того, пользователю может потребоваться ввести саму команду и указание мультимедийного содержимого, которое он хочет использовать, например, «Воспроизвести музыку в стиле диско», «Я хочу посмотреть Queen's Gambit», «Включите радио Monte-Carlo, пожалуйста», и тому подобное. В ответ на прием команды приложение виртуального помощника может быть выполнено с возможностью, например, выполнения через связанные служебные приложения поиска мультимедийного содержимого и вызова воспроизведения мультимедийного содержимого на электронном устройстве.

[005] Однако для некоторого мультимедийного контента могут существовать ограничения на использование пользователями определенных категорий. Например, некоторое содержимое мультимедийное (такое как, например, фильмы или песни) может содержать лексику и/или сцены, которые считаются откровенными или оскорбительными, и демонстрация которых ребенку может быть нежелательной. В другом примере некоторое мультимедийное содержимое может содержать сцены насилия, которые могут быть неуместными для уязвимых категорий пользователей, таких как беременные женщины и пожилые люди.

[006] Таким образом, в ситуации, когда пользователи разных категорий имеют доступ к одному и тому же электронному устройству, существует необходимость в определении категории пользователя, когда пользователь отправляет определенную команду в приложение виртуального помощника и в обеспечении/ограничении доступа к запрашиваемому мультимедийному содержимому и/или связанным веб-ресурсам на основании определенной категории пользователей.

[007] Для решения указанной выше технической проблемы в уровне техники были предложены определенные подходы.

[008] Публикация заявки на патент Китая №: 110,706,692-А, опубликованная 17 января 2020 г. и озаглавленная "Training Method and System of Child Voice Recognition Model", раскрывает способ обучения модели распознавания голоса ребенка. Способ содержит следующие этапы: получение обучающих данных; получение безусловно сформированной сети противодействия посредством обучения базовой акустической модели; ввод случайных шумовых данных в безусловно сформированную сеть противодействия для получения акустических характеристик усиления шума; ввод акустических характеристик усиления шума в базовую акустическую модель для получения мягкой метки апостериорной вероятности, соответствующей каждому кадру акустических характеристик с усилением шума; обучение усиленной модели акустического распознавания речи ребенка с использованием по меньшей мере акустических характеристик с усилением шума и мягких меток, и обучающих данных речи ребенка и жестких меток в качестве выборки обучающих данных. Вариант осуществления изобретения также обеспечивает систему обучения модели распознавания голоса ребенка. Согласно варианту осуществления изобретения, при условии, что голос ребенка ограничен, сущность произношения голоса ребенка изменяется, формируются диверсифицированные голоса ребенка и точность распознавания модели распознавания голоса ребенка повышается.

[009] Публикация заявки на патент США №: 2019/235,831-А1, опубликованная 1 августа 2019 г., принадлежащая Amazon Technologies Inc. и озаглавленная "User Input Processing Restriction in a Speech Processing System", раскрывает методы ограничения содержимого, доступного системе обработки голоса, от определенных пользователей системы. В систему могут входить детские устройства. Когда пользователь (например, взрослый пользователь или пользователь-ребенок) обеспечивает ввод в детское устройство, система может обрабатывать ввод для определения содержимого, уместного для ребенка, на основании того, что активируемое устройство является детским устройством. Помимо включения детских устройств система может также включать в себя детские профили. Когда пользователь обеспечивает ввод в устройство, система может идентифицировать пользователя, определять возраст пользователя и обрабатывать ввод для определения содержимого, уместного с учетом возраста пользователя. Система может быть выполнена таким образом, что пользователь-ребенок может быть ограничен активацией определенных намерений, голосовых сообщений, навыков и тому подобного. Система может включать в себя ограничения, которые применяются единообразно к каждому пользователю-ребенку и/или детскому устройству. Кроме того, система может включать в себя ограничения, уникальные для конкретного пользователя-ребенка и/или детского устройства.

[0010] Публикация заявки на патент США №: 2020/220,935-А1, опубликованная 9 июля 2020 г., принадлежащая Amazon Technologies Inc. и озаглавленная "Speech Processing Performed with respect to First and Second User Profiles in a Dialog Session", раскрывает методы реализации «изменчивого» идентификатора пользователя. Система принимает первые входные аудиоданные и на их основе определяет первые результаты обработки голоса. Система также определяет первого пользователя, который произнес высказывание, представленное в первых входных аудиоданных. Система устанавливает многооборотный сеанс диалога с первым источником содержимого и принимает первые выходные данные от первого источника содержимого на основании первых результатов обработки голоса и первого пользователя. Система побуждает устройство представить первое выходное содержимое, связанное с первыми выходными данными. Затем система принимает вторые входные аудиоданные и на их основании определяет вторые результаты обработки голоса. Система также определяет, что вторые входные аудиоданные соответствуют одному и тому же многооборотному диалоговому сеансу. Система определяет второго пользователя, который произнес высказывание, представленное во вторых входных аудиоданных, и принимает вторые выходные данные из первого источника содержимого на основании вторых результатов обработки голоса и второго пользователя. Система побуждает устройство представить второе выходное содержимое, связанное со вторыми выходными данными. Раскрытие изобретения

[0011] Задача настоящей технологии состоит в устранении по меньшей мере некоторых неудобств, имеющихся в уровне техники.

[0012] Вообще говоря, определенные подходы из уровня техники, известные разработчикам настоящей технологии, направлены на использование алгоритма машинного обучения (MLA), обученного определению категории пользователя для пользователя, отправляющего определенную команду приложениям виртуального помощника. Как правило, в соответствии с подходами из уровня техники MLA может быть обучен на основании обучающего набора данных, включающего в себя выборки высказываний, сделанных разными пользователями, каждому из которых была присвоена метка, формируемая оценщиком, указывающая на соответствующую категорию пользователей, как ее воспринимают соответствующий оценивающий человек.

[0013] Однако разработчики настоящей технологии обнаружили, что подходы из уровня техники могут обеспечивать менее точное определение категории пользователя по меньшей мере при определенных обстоятельствах. Более конкретно, разработчики обнаружили, что точность определения категории пользователя может быть повышена по меньшей мере в некоторых неограничивающих вариантах осуществления настоящей технологии, если MLA обучается на основании обучающего набора данных, включающего в себя распределение меток во множестве меток, созданных оценщиком, присвоенных соответствующим множеством оценивающих людей каждой из выборок высказываний.

[0014] Кроме того, каждая из выборок высказываний может быть представлена по меньшей мере в некоторых неограничивающих вариантах осуществления настоящей технологии его соответствующим частотно-временным представлением, таким как соответствующее мел-частотное представление, и обработано во время обучения MLA как изображение, что, как считается, позволяет более точно обучить MLA классификации пользователей.

[0015] Кроме того, разработчики обнаружили, что введение шума в выборки высказываний по меньшей мере в некоторых неограничивающих вариантах осуществления настоящей технологии, перед запросом множества меток, формируемых оценщиком, у оценивающих людей может дополнительно повысить итоговое качество классификации и повысить устойчивость обученного таким образом MLA к шуму в фазе использования.

[0016] Таким образом, некоторые неограничивающие варианты осуществления настоящей технологии могут обеспечить возможность более точного определения категории пользователя для пользователя, произносящего определенную команду, для ее отправки в приложение виртуального помощника электронного устройства, что может дополнительно позволить более эффективно фильтровать неуместное мультимедийное содержимое для пользователей из определенных категорий пользователей.

[0017] Более конкретно, в соответствии с первым широким аспектом настоящей технологии предложен реализуемый компьютером способ обучения алгоритма машинного обучения (MLA) определению класса пользователя для пользователя, производящего пользовательское высказывание. Способ выполняется на сервере, включающем в себя процессор. При этом способ содержит: прием посредством процессора обучающего аудиосигнала, представляющего обучающее пользовательское высказывание, причем обучающее пользовательское высказывание произведено обучающим пользователем; запрос посредством процессора множества меток, формируемых оценщиком, для обучающего аудиосигнала, причем определенная метка из множества меток, формируемых оценщиком, сформирована соответствующим одним из множества оценщиков-людей; причем определенная метка из множества меток, формируемых оценщиком, указывает, воспринимается ли обучающий пользователь соответствующим оценщиком как пользователь из первого класса пользователей и второго класса пользователей; формирование посредством процессора объединенной метки, формируемой оценщиком, для обучающего аудиосигнала, причем объединенная метка, формируемая оценщиком, указывает на распределение меток для множества меток, формируемых оценщиком, между первым классом пользователей и вторым классом пользователей; формирование посредством процессора обучающего набора данных, включающего в себя обучающий аудиосигнал и объединенную метку, формируемую оценщиком; обучение посредством процессора на основании обучающего набора данных MLA для определения класса пользователя для пользователя, производящего пользовательское высказывание при использовании.

[0018] В некоторых реализациях способа, способ дополнительно содержит: сегментирование посредством процессора обучающего аудиосигнала на множество частей обучающего сигнала; присвоение посредством процессора объединенной метки, формируемой оценщиком, каждой из множества частей обучающего сигнала; и при этом формирование посредством процессора обучающего набора данных содержит формирование обучающего набора данных на основании множества частей обучающего сигнала.

[0019] В некоторых реализациях способа, способ дополнительно содержит преобразование каждой из множества частей обучающего сигнала в ее соответствующее частотно-временное представление.

[0020] В некоторых реализациях способа преобразование содержит применение к каждой из множества частей обучающего сигнала преобразования Фурье.

[0021] В некоторых реализациях способа преобразование дополнительно содержит формирование соответствующего мел-частотного представления на основании соответствующего частотно-временного представления.

[0022] В некоторых реализациях способа соответствующее мел-частотное представление включает в себя заданное количество равномерно распределенных мел-полос.

[0023] В некоторых реализациях способа объединение множества меток, формируемых оценщиком, содержит определение их среднего значения.

[0024] В некоторых реализациях способа, способ дополнительно содержит перед запросом множества меток, формируемых оценщиком для обучающего аудиосигнала, введение шума в обучающий аудиосигнал.

[0025] В некоторых реализациях способа введение шума включает в себя подавление по меньшей мере одного заданного уровня частоты обучающего аудиосигнала.

[0026] В некоторых реализациях способа введение шума включает в себя модуляцию по меньшей мере одного заданного уровня частоты обучающего аудиосигнала.

[0027] В некоторых реализациях способа, способ дополнительно содержит использование MLA для определения класса пользователя для пользователя, производящего пользовательское высказывание при использовании, при этом пользовательское высказывание при использовании захватывается устройством громкоговорителя, соединенным с возможностью осуществления связи с сервером, причем использование MLA содержит: формирование посредством процессора на основании пользовательского высказывания при использовании аудиосигнала при использовании; формирование посредством процессора для аудиосигнала при использовании его частотно-временного представления при использовании; применение посредством процессора MLA к частотно-временному представлению при использовании для формирования параметра распределения между значениями вероятности, соответственно, указывающими на то, что пользователь, производящий пользовательское высказывание при использовании, является одним из первого класса пользователей и второго класса пользователей, таким образом, что: в ответ на параметр распределения, равный или превышающий заданное пороговое значение распределения, пользователь определяется как принадлежащий к первому классу пользователей; и в ответ на параметр распределения ниже заданного порогового значения распределения пользователь определяется как принадлежащий ко второму классу пользователей.

[0028] В некоторых реализациях способа устройство громкоговорителя выполнено с возможностью работы в первом режиме работы и втором режиме работы, и способ дополнительно содержит: в ответ на определение пользователя как принадлежащего к первому классу пользователей, побуждение устройства громкоговорителя, находящегося во втором режиме работы, переключиться в первый режим работы.

[0029] В некоторых реализациях способа первый режим работы связан с извлечением посредством устройства громкоговорителя содержимого, заранее выбранного для пользователей из первого класса пользователей; а второй режим работы связан с извлечением посредством громкоговорителя содержимого, заранее выбранного для пользователей из второго класса пользователей.

[0030] В некоторых реализациях способа первый класс пользователей включает в себя ребенка, а второй класс пользователей включает в себя взрослого.

[0031] В некоторых реализациях способа MLA содержит сверточную нейронную сеть.

[0032] В соответствии со вторым широким аспектом настоящей технологии предложен сервер для обучения алгоритма машинного обучения (MLA) определению класса пользователя для пользователя, производящего пользовательское высказывание. Сервер включает в себя: процессор и постоянный машиночитаемый носитель, содержащий команды. Процессор при выполнении команд выполнен с возможностью: приема обучающего аудиосигнала, представляющего высказывание обучающего пользователя, причем высказывание обучающего пользователя производится обучающим пользователем; запроса множества меток, формируемых оценщиком, для обучающего аудиосигнала, причем определенная метка из множества меток, формируемых оценщиком, сформирована соответствующим одним из множества оценщиков-людей; причем определенная метка из множества меток, формируемых оценщиком, указывает, воспринимается ли обучающий пользователь соответствующим оценщиком как один из первого класса пользователей и второго класса пользователей; формирования объединенной метки, формируемой оценщиком, для обучающего аудиосигнала, причем объединенная метка, формируемая оценщиком, указывает на распределение меток для множества меток, формируемых оценщиком, между первым классом пользователей и вторым классом пользователей; формирования обучающего набора данных, включающего в себя обучающий аудиосигнал и объединенную метку, формируемую оценщиком; обучения MLA на основании обучающего набора данных определению класса пользователя для пользователя, производящего пользовательское высказывание при использовании.

[0033] В некоторых реализациях сервера процессор дополнительно выполнен с возможностью: сегментирования обучающего аудиосигнала на множество частей обучающего сигнала; присваивания объединенной метки, формируемой оценщиком, каждой из множества частей обучающего сигнала; и при этом процессор выполнен с возможностью формирования обучающего набора данных на основании множества частей обучающего сигнала.

[0034] В некоторых реализациях сервера процессор дополнительно выполнен с возможностью преобразования каждой из множества частей обучающего сигнала в ее соответствующее частотно-временное представление.

[0035] В некоторых реализациях сервера для преобразования каждой из множества частей обучающего сигнала в ее соответствующее частотно-временное представление процессор выполнен с возможностью применения к каждой из множества частей обучающего сигнала преобразования Фурье.

[0036] В некоторых реализациях сервера сервер соединен с возможностью осуществления связи через сеть связи с устройством громкоговорителя, и процессор дополнительно выполнен с возможностью использования MLA для определения класса пользователя для пользователя, производящего используемое пользовательское высказывание, захваченное устройством громкоговорителя, путем выполнения: формирования на основании используемого пользовательского высказывания аудиосигнала при использовании; формирования для аудиосигнала при использовании его частотно-временного представления при использовании; применения MLA к частотно-временному представлению при использовании для формирования параметра распределения между значениями вероятности, соответственно, указывающими на то, что пользователь, производящий пользовательское высказывание при использовании, является пользователем из первого класса пользователей и второго класса пользователей, таким образом, что: в ответ на то, что параметр распределения равен или больше заданного порогового значения распределения, пользователь определяется как принадлежащий к первому классу пользователей; и в ответ на то, что параметр распределения меньше заданного порогового значения распределения, пользователь определяется как принадлежащий ко второму классу пользователей.

[0037] В контексте настоящего описания «сервер» представляет собой компьютерную программу, которая работает на надлежащем аппаратном обеспечении и способна принимать запросы (например, от клиентских устройств) по сети и выполнять эти запросы, или вызывать выполнение этих запросов. Аппаратное обеспечение может быть одним физическим компьютером или одной физической компьютерной системой, но ни то, ни другое не является обязательным для настоящей технологии. В настоящем контексте использование выражения «сервер» не предполагает, что каждая задача (например, принятые команды или запросы) или какая-либо конкретная задача будут приняты, выполнены или будет вызвано их выполнение одним и тем же сервером (т.е. тем же самым программным обеспечением и/или аппаратным обеспечением); данное выражение предполагает, что в приеме/отправке, выполнении или вызове выполнения любой задачи или запроса, или последствий любой задачи или запроса может быть задействовано любое количество программных элементов или аппаратных устройств; и все это программное обеспечение и аппаратное обеспечение может представлять собой один сервер или множество серверов, оба из которых включены в выражение «по меньшей мере один сервер».

[0038] В контексте настоящего описания «клиентское устройство» представляет собой любое компьютерное аппаратное обеспечение, которое способно выполнять программное обеспечение, подходящее для соответствующей решаемой задачи. Таким образом, некоторые (неограничивающие) примеры клиентских устройств включают в себя персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.д.), смартфоны и планшетные компьютеры, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что устройство, выступающее в качестве клиентского устройства в настоящем контексте, не исключает возможности выступать в качестве сервера для других клиентских устройств. Использование выражения «клиентское устройство» не исключает использования множества клиентских устройств при приеме/отправке, выполнении или вызове выполнения какой-либо задачи или запроса, или последствий какой-либо задачи или запроса, или этапов любого способа, описанного в данном документе.

[0039] В контексте настоящего описания «база данных» представляет собой любой структурированный набор данных, независимо от ее конкретной структуры, программного обеспечения для администрирования базы данных, или компьютерного аппаратного обеспечения, на котором данные сохраняются, реализуются или иным образом обеспечивается к ним доступ для использования. База данных может находиться на том же аппаратном обеспечении, что и процесс, который сохраняет или использует информацию, сохраняемую в базе данных, или она может находиться на отдельном аппаратном обеспечении, таком как выделенный сервер или множество серверов.

[0040] В контексте настоящего описания выражение «информация» включает в себя информацию любого характера или вида, которая может любым способом сохраняться в базе данных.

Таким образом, информация включает в себя, не ограничиваясь, аудиовизуальные произведения (изображения, фильмы, аудиозаписи, презентации и т.д.), данные (данные о местоположении, численные данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы, списки слов и т.д.

[0041] В контексте настоящего описания подразумевается, что выражение «компонент» включает в себя программное обеспечение (соответствующее конкретному аппаратному контексту), которое является как необходимым, так и достаточным для реализации конкретной упоминаемой функции (функций).

[0042] В контексте настоящего описания предполагается, что выражение «используемый компьютером носитель информации» включает в себя носители любого характера и вида, в том числе RAM, ROM, диски (CD-ROM, DVD, гибкие диски, накопители на жестких дисках и т.д.), USB-ключи, твердотельные накопители, ленточные накопители и т.д.

[0043] В контексте настоящего описания слова «первый», «второй», «третий» и т.д. используются только в качестве прилагательных для обеспечения возможности различения друг от друга существительных, которые они модифицируют, а не для описания каких-либо конкретных отношений между такими существительными. Таким образом, например, следует понимать, что использование понятий «первый сервер» и «третий сервер» не подразумевает какого-либо конкретного порядка, типа, хронологии, иерархии или ранжирования (например) упомянутых серверов, равно как и их использование (само по себе) не означает, что в любой определенной ситуации должен обязательно существовать какой-либо «второй сервер». Кроме того, как описано в других контекстах в данном документе, упоминание «первого» элемента и «второго» элемента не исключает того, что эти два элемента фактически являются одним и тем же элементом реального мира. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут представлять собой одно и то же программное обеспечение и/или аппаратное обеспечение, в других случаях они могут представлять собой разное программное обеспечение и/или аппаратное обеспечение.

[0044] Каждая из реализаций настоящей технологии имеет по меньшей мере одну из вышеупомянутых задач и/или аспектов, но не обязательно имеет их все. Следует понимать, что некоторые аспекты настоящей технологии, полученные в попытке решения вышеупомянутой задачи, могут не соответствовать этой задаче и/или соответствовать другим задачам, которые явным образом не описаны в данном документе.

[0045] Дополнительные и/или альтернативные признаки, аспекты и преимущества реализаций настоящей технологии станут очевидными из нижеследующего описания, сопровождающих чертежей и приложенной формулы изобретения.

Краткое описание чертежей

[0046] Для лучшего понимания настоящей технологии, а также других ее аспектов и дополнительных признаков, обратимся к нижеследующему описанию, которое следует использовать в сочетании с сопровождающими чертежами, на которых:

[0047] На Фиг. 1 изображена принципиальная схема примерной компьютерной системы для реализации некоторых неограничивающих вариантов осуществления систем и/или способов по настоящей технологии.

[0048] На Фиг. 2 изображена сетевая вычислительная среда, подходящая для некоторых реализаций настоящей технологии.

[0049] На Фиг. 3 показан пример базы данных указателя мультимедийного содержимого, используемой процессором компьютерной системы по Фиг. 1 для определения режима работы электронного устройства, присутствующего в сетевой вычислительной среде по Фиг. 2, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.

[0050] На Фиг. 4 изображена принципиальная схема этапа запроса сервером, присутствующим в сетевой вычислительной среде по Фиг. 2, меток от оценщиков-людей для обучающего пользовательского высказывания, используемого для формирования обучающего набора данных для обучения алгоритма машинного обучения (MLA) в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.

[0051] На Фиг. 5 изображена принципиальная схема процесса формирования сервером, присутствующим в сетевой вычислительной среде по Фиг. 2, частотно-временных представлений, связанных с обучающим пользовательским высказыванием, используемым для формирования обучающего набора данных, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.

[0052] На Фиг. 6 изображена принципиальная схема процесса формирования сервером, присутствующим в сетевой вычислительной среде по Фиг. 2, частотно-временного представления пользовательского высказывания при использовании, произведенного пользователем электронного устройства по Фиг. 2, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.

[0053] На Фиг. 7 изображена принципиальная схема процесса применения сервером, присутствующим в сетевой вычислительной среде по Фиг. 2, MLA, обученного на основании обучающего набора данных, к частотно-временному представлению, связанному с пользовательским высказыванием при использовании, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.

[0054] На Фиг. 8 изображена блок-схема способа определения класса пользователя для пользователя электронного устройства по Фиг. 2 в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.

Осуществление изобретения

[0055] Приведенные в данном документе примеры и условные формулировки предназначены главным образом для помощи читателю в понимании принципов настоящей технологии, а не ограничения ее объема такими конкретно приведенными примерами и условиями. Следует понимать, что специалисты в данной области могут разработать различные конфигурации, которые, хотя они и не описаны явным образом в настоящем документе, тем не менее они реализуют принципы настоящей технологии и включены в ее сущность и объем.

[0056] Кроме того, для облегчения понимания в нижеследующем описании реализации настоящей технологии могут быть описаны в относительно упрощенном виде. Специалистам в данной области будет понятно, что различные реализации настоящей технологии могут иметь более высокую сложность.

[0057] В некоторых случаях также могут быть изложено то, что считается полезными примерами модификаций настоящей технологии. Это делается лишь для облегчения понимания и, опять же, не для определения объема или установления границ настоящей технологии. Эти модификации не представляют собой исчерпывающий перечень, и специалист в данной области может осуществлять другие модификации, при этом не выходя за рамки объема настоящей технологии. Кроме того, случаи, когда примеры модификаций не представлены, не следует толковать таким образом, что модификации не могут быть выполнены и/или что описанное является единственным способом реализации такого элемента настоящей технологии.

[0058] Кроме того, все содержащиеся в данном документе утверждения, в которых указаны принципы, аспекты и реализации настоящей технологии, а также их конкретные примеры, подразумевают охват как структурных, так и функциональных их эквивалентов, вне зависимости от того, известны ли они в настоящее время или будут разработаны в будущем. Таким образом, например, специалистам в данной области будет понятно, что любые блок-схемы в данном документе представляют концептуальные виды иллюстративной схемы, реализующей принципы настоящей технологии. Аналогичным образом, следует понимать, что любые блок-схемы, схемы последовательности операций, схемы изменения состояний, псевдо-коды и тому подобное представляют различные процессы, которые могут быть по существу представлены на машиночитаемых носителях и таким образом выполнены компьютером или процессором вне зависимости от того, показан ли такой компьютер или процессор явным образом.

[0059] Функции различных элементов, показанных на чертежах, в том числе любого функционального блока, отмеченного как «процессор» или «графический процессор», могут быть реализованы путем использования специализированного аппаратного обеспечения, а также аппаратного обеспечения, способного выполнять программное обеспечение, в сочетании с надлежащим программным обеспечением. При обеспечении процессором функции могут быть обеспечены одним специализированным процессором, одним совместно используемым процессором и/или множеством отдельных процессоров, некоторые из которых могут быть совместно используемыми. В некоторых вариантах осуществления настоящей технологии процессор может быть процессором общего назначения, например центральным процессором (CPU), или процессором, предназначенным для определенной цели, например графическим процессором (GPU). Кроме того, использование понятия «процессор» или «контроллер» в явном виде не следует толковать как относящееся исключительно к аппаратному обеспечению, способному выполнять программное обеспечение, и оно может в неявном виде включать в себя, не ограничиваясь, аппаратное обеспечение цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), постоянное запоминающее устройство (ROM) для сохранения программного обеспечения, оперативную память (RAM) и/или энергонезависимый носитель. Также может быть включено другое аппаратное обеспечение, традиционное и/или специализированное.

[0060] Программные модули, или просто модули, в качестве которых может подразумеваться программное обеспечение, могут быть представлены в настоящем документе в виде любого сочетания элементов блок-схемы или других элементов, указывающих на выполнение этапов процесса, и/или текстового описания. Такие модули могут выполняться аппаратным обеспечением, которое показано в явном или неявном виде.

[0061] Учитывая эти основополагающие сведения, рассмотрим теперь некоторые неограничивающие примеры, иллюстрирующие различные реализации аспектов настоящей технологии.

Компьютерная система

[0062] Обращаясь к Фиг. 1, изображена компьютерная система 100, подходящая для использования в некоторых реализациях настоящей технологии. Компьютерная система 100 содержит различные аппаратные компоненты, включая один или более одноядерных или многоядерных процессоров, совместно представленных процессором 110, графическим процессором (GPU) 111, твердотельным накопителем 120, оперативной памятью 130, интерфейсом 140 дисплея и интерфейсом 150 ввода/вывода.

[0063] Связь между различными компонентами компьютерной системы 100 может быть обеспечена одной или более внутренними и/или внешними шинами 160 (например, шиной PCI, универсальной последовательной шиной, шиной "Firewire" IEEE 1394, шиной SCSI, шиной Serial-ATA и т.д.), с которой электронным способом соединены различные компоненты оборудования.

[0064] Интерфейс 150 ввода/вывода может быть соединен с сенсорным экраном 190 и/или с одной или более внутренними и/или внешними шинами 160. Сенсорный экран 190 может быть частью дисплея. В некоторых вариантах осуществления сенсорный экран 190 является дисплеем. Сенсорный экран 190 может также упоминаться как экран 190. В вариантах осуществления, проиллюстрированных на Фиг. 1, сенсорный экран 190 содержит сенсорное аппаратное обеспечение 194 (например, чувствительные к давлению ячейки, встроенные в слой дисплея, позволяющие обнаруживать физическое взаимодействие между пользователем и дисплеем) и контроллер 192 сенсорного ввода/вывода, обеспечивающий возможность связи с интерфейсом 140 дисплея и/или одной или более внутренними и/или внешними шинами 160. В некоторых вариантах осуществления интерфейс 150 ввода/вывода может быть соединен с клавиатурой (не показана), мышью (не показана) или трекпадом (не показан), позволяя пользователю взаимодействовать с компьютерной системой 100 в дополнение или вместо сенсорного экрана 190. В некоторых вариантах осуществления компьютерная система 100 может содержать один или более микрофонов (не показаны). Микрофоны могут записывать аудиоданные, такие как пользовательские высказывания. Пользовательские высказывания могут быть преобразованы в команды для управления компьютерной системой 100.

[0065] Следует отметить, что некоторые компоненты компьютерной системы 100 могут быть исключены в некоторых неограничивающих вариантах осуществления настоящей технологии. Например, может отсутствовать сенсорный экран 190, особенно (но не ограничиваясь) если компьютерная система реализована в виде устройства интеллектуального громкоговорителя.

[0066] Согласно реализациям настоящей технологии твердотельный накопитель 120 сохраняет программные команды, подходящие для загрузки в оперативную память 130 и выполняемых процессором 110 и/или графическим процессором 111. Например, программные команды могут быть частью библиотеки или приложения.

Сетевая вычислительная среда

[0067] Обращаясь к Фиг. 2, изображена принципиальная схема сетевой вычислительной среды 200, подходящей для использования с в некоторых неограничивающих вариантах осуществления систем и/или способов по настоящей технологии. Сетевая вычислительная среда 200 содержит сервер 202, соединенный с возможностью осуществления связи посредством сети 208 связи с электронным устройством 204. В неограничивающих вариантах осуществления настоящей технологии электронное устройство 204 может быть связано с пользователем 216.

[0068] В некоторых неограничивающих вариантах осуществления настоящей технологии электронное устройство 204 может представлять собой любое компьютерное аппаратное обеспечение, которое способно выполнять программное обеспечение, подходящее для соответствующей решаемой задачи. Таким образом, некоторые неограничивающие примеры электронного устройства 204 могут включать в себя персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.д.), смартфоны и планшетные компьютеры.

[0069] Электронное устройство 204 может содержать некоторые или все компоненты компьютерной системы 100, изображенной на Фиг. 1. В некоторых неограничивающих вариантах осуществления настоящей технологии электронное устройство 204 может представлять собой интеллектуальный громкоговоритель (такой как, например, Яндекс.Станция™, созданная ООО «Яндекс», ул. Льва Толстого, 16, Москва, 119021, Россия), содержащий процессор 110, твердотельный накопитель 120 и оперативное запоминающее устройство 130.

[0070] В некоторых неограничивающих вариантах осуществления настоящей технологии электронное устройство 204 может содержать аппаратное и/или программное обеспечение и/или микропрограммное обеспечение (или их сочетание), так что процессор 110 может быть выполнен с возможностью выполнения приложения 205 виртуального помощника. Вообще говоря, приложение 205 виртуального помощника способно к дистанционной активации в ответ на одно или более «слов активации» (также известных как «инициирующие слова») и способно выполнять задачи или службы в ответ на принятую после этого команду. Например, приложение 205 виртуального помощника может быть реализовано в виде приложения виртуального помощника ALISA™ (создано ООО «Яндекс», ул. Льва Толстого, 16, Москва, 119021, Россия) или другие коммерческие или проприетарные приложения виртуального помощника, заранее установленные на электронное устройство 204. При этом электронное устройство 204 может принимать команду через микрофон 207, реализованный в электронном устройстве 204.

[0071] В неограничивающих вариантах осуществления настоящей технологии микрофон 207 выполнен с возможностью захвата любого звука, издаваемого вблизи 250 от электронного устройства 204, тем самым формируя аналоговый аудиосигнал. Например, микрофон 207 электронного устройства 204 может формировать аудиосигнал 210 в ответ на пользовательское высказывание 206. В некоторых неограничивающих вариантах осуществления настоящей технологии микрофон 207 может быть либо автономным устройством, соединенным с возможностью осуществления связи с электронным устройством 204, либо частью электронного устройства 204.

[0072] Согласно некоторым неограничивающим вариантам осуществления настоящей технологии, пользовательское высказывание 206 может включать в себя заданное слово активации, связанное с приложением 205 виртуального помощника. Кроме того, в некоторых неограничивающих вариантах осуществления настоящей технологии пользовательское высказывание 206 может содержать голосовую команду, выдаваемую пользователем 216 после выдачи заданного слова активации вблизи 250 электронного устройства 204.

[0073] Таким образом, в ответ на прием и распознавание заданного слова активации процессор 110 может быть выполнен с возможностью побуждения приложения 205 виртуального помощника принимать голосовую команду пользователя 216 и выполнять ее.

[0074] Таким образом, согласно некоторым неограничивающим вариантам осуществления настоящей технологии выполнение принятой голосовой команды может быть связано с процессором 110, выполняющим по меньшей мере одно из множества служебных приложений 209, выполняемых (или выполненных с возможностью доступа другим способом) одним из электронного устройства 204 или сервера 202.

[0075] Вообще говоря, множество служебных приложений 209 соответствует электронным приложениям, выполненным с возможностью доступа процессора 110 электронного устройства 204. В некоторых неограничивающих вариантах осуществления настоящей технологии множество служебных приложений 209 содержит по меньшей мере одно служебное приложение (не показано отдельно), управляемое тем же лицом, которое создало вышеупомянутое приложение 205 виртуального помощника. Например, если приложение 205 виртуального помощника является приложением виртуального помощника ALISA™, множество служебных приложений 209 может включать в себя приложение веб-браузера Yandex.Browser™, новостное приложение Yandex.News™, торговое приложение Yandex.Market™ и тому подобное. Разумеется, множество служебных приложений 209 может также включать в себя служебные приложения, которые не управляются тем же лицом, которое создало вышеупомянутое приложение 205 виртуального помощника, и могут содержать, например, приложения социальных сетей, такие как приложение социальных сетей Vkontakte™, приложения для потоковой передачи видеоданных, такие как приложение для потоковой передачи видеоданных Netflix™, и приложение для потоковой передачи музыки, такое как приложение для потоковой передачи музыки Spotify™. В некоторых неограничивающих вариантах осуществления настоящей технологии множество служебных приложений 209 может включать в себя электронную службу, такую как диалоговое приложение (такое как Yandex.Dialogs™), приложение для заказа такси, приложение для заказа еды и тому подобное. В некоторых неограничивающих вариантах осуществления настоящей технологии множество служебных приложений 209 может быть связано с одним или более электронными устройствами, связанными с электронным устройством 204 (не показаны).

[0076] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 реализован в виде обычного компьютерного сервера и может содержать некоторые или все компоненты компьютерной системы 100 по Фиг. 1. В конкретном неограничивающем примере сервер 202 реализован в виде сервера Dell™ PowerEdge™ под управлением операционной системы Microsoft™ Windows Server™, но также может быть реализован в виде любого другого подходящего аппаратного обеспечения, программного обеспечения и/или микропрограммного обеспечения, или их сочетания. В проиллюстрированном неограничивающем варианте осуществления настоящей технологии сервер 202 представляет собой один сервер. В альтернативных неограничивающих вариантах осуществления настоящей технологии (не показаны) функциональные возможности сервера 202 могут быть распределены и могут быть реализованы посредством множества серверов.

[0077] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может управляться тем же лицом, которое создало приложение 205 виртуального помощника. Например, если приложение виртуального помощника 205 является приложением виртуального помощника ALISA™, сервер 202 также может управляться ООО «Яндекс», ул. Льва Толстого, 16, Москва, 119021, Россия. В альтернативных вариантах осуществления сервер 202 может управляться лицом, отличным от того, которое создало вышеупомянутое приложение 205 виртуального помощника.

[0078] В дополнительных неограничивающих вариантах осуществления настоящей технологии голосовая команда в пользовательском высказывании 206 может представлять запрос пользователя на использование определенного мультимедийного содержимого, такого как, в качестве примера, фильм или песня. Для этого в некоторых неограничивающих вариантах осуществления настоящей технологии приложение 205 виртуального помощника может быть выполнено с возможностью (1) распознавания голосовой команды в пользовательском высказывании 206; (2) определения запроса пользователя; (3) отправки запроса пользователя соответствующему одному из множества служебных приложений 209, выполненных с возможностью извлечения через сеть 208 связи мультимедийного содержимого, запрошенного пользователем 216; и (4) приема запрошенного мультимедийного содержимого для его воспроизведения с использованием по меньшей мере одного из электронного устройства 204 и дополнительного электронного устройства (не показано отдельно), соединенного с возможностью осуществления связи с электронным устройством 204.

[0079] В некоторых неограничивающих вариантах осуществления настоящей технологии для распознавания голосовой команды в пользовательском высказывании 206 и для определения связи между принятой голосовой командой и соответствующими приложениями из множества служебных приложений 209 процессор 110 может быть выполнен с возможностью побуждения приложения 205 виртуального помощника передать данные, указывающие принятую голосовую команду, на сервер 202 для дальнейшей обработки посредством приложения автоматического распознавания речи (ASR) (не показано отдельно), выполняемого на нем. В конкретных неограничивающих вариантах осуществления настоящей технологии приложение ASR может быть реализовано, как описано в принадлежащей заявителю заявке на патент США №17/114,059, озаглавленной "METHOD AND SYSTEM FOR PROCESSING USER SPOKEN UTTERANCE", поданной 7 декабря 2020 г., содержимое которой полностью включено в настоящий документ путем ссылки.

[0080] Таким образом, в некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью приема от электронного устройства 204 голосовой команды для выполнения по меньшей мере одного из множества служебных приложений 209.

[0081] Однако в некоторых неограничивающих вариантах осуществления настоящей технологии перед выполнением по меньшей мере одного из множества служебных приложений 209 сервер 202 может быть выполнен с возможностью определения класса пользователя для пользователя 216, производящего

пользовательское высказывание 206, чтобы дополнительно побудить приложение 205 виртуального помощника либо разрешить, либо ограничить извлечение и воспроизведение запрошенного мультимедийного содержимого.

[0082] Вообще говоря, класс пользователя может указывать на одну или более присущих пользователю категорий, связанных с пользователем 216, включая, например, не ограничиваясь, возраст пользователя, пол пользователя, социально-экономический параметр пользователя и тому подобное. Для этого каждая присущая пользователю категория может включать в себя один или более классов пользователей. Например, в некоторых неограничивающих вариантах осуществления настоящей технологии категория возраста пользователя может включать в себя по меньшей мере два класса пользователей: первый класс пользователей и второй класс пользователей, при этом первый класс пользователя включает в себя ребенка, а второй класс пользователя включает в себя взрослого. Также следует отметить, что в других неограничивающих вариантах осуществления настоящей технологии категория возраста пользователя может включать в себя третий класс пользователя для пожилых людей. В другом примере, как может стать очевидным, категория пола пользователя может также включать в себя по меньшей мере два класса пользователей: мужской и женский.

[0083] Для этого в некоторых неограничивающих вариантах осуществления настоящей технологии электронное устройство 204 может быть выполнено с возможностью работы в одном или более режимах работы, соответственно, связанных с каждым из первого класса пользователей и второго класса пользователей. Например, электронное устройство 204 может быть выполнено с возможностью работы в первом режиме работы и во втором режиме работы, связанном с процессором 110, выполненным с возможностью извлечения мультимедийного содержимого, заданного для пользователей первого класса и для пользователей второго класса, соответственно.

[0084] Таким образом, в некоторых неограничивающих вариантах осуществления настоящей технологии электронное устройство 204 может быть соединено с возможностью осуществления связи (или иным образом иметь доступ) с базой 214 данных указателей мультимедийного содержимого, включающей в себя указания мультимедийного содержимого, заранее выбранного для одного из первого класса пользователей и второго класса пользователей. В некоторых неограничивающих вариантах осуществления настоящей технологии неполный список указаний мультимедийного содержимого может включать в себя по меньшей мере одно из типа определенного элемента мультимедийного содержимого (такого как, например, аудиофайл, видеофайл и радиостанция), названия определенного элемента мультимедийного содержимого, жанр, связанный с определенным элементом мультимедийного содержимого (поп/рэп, триллер/комедия/детское, рок/лаунж и тому подобное), указания ненормативной лексики и/или откровенных сцен в мультимедийном содержимом и тому подобного. В альтернативных неограничивающих вариантах осуществления настоящей технологии база 214 данных указателей мультимедийного содержимого может сохранять указания разрешенного и/или запрещенного содержимого для каждого из классов пользователей. Например, база данных 214 указателей мультимедийного содержимого может иметь флаг для содержимого с нецензурной лексикой «разрешено» для взрослых и «запрещено» для детей.

[0085] В некоторых неограничивающих вариантах осуществления настоящей технологии, как изображено на Фиг. 2, база 214 данных указателей мультимедийного содержимого размещена на электронном устройстве 204 и может обновляться, например, регулярно посредством сервера 202 через сеть 208 связи. В других неограничивающих вариантах осуществления настоящей технологии база 214 данных указателей мультимедийного содержимого может быть размещена на сервере 202, позволяя процессору 110 осуществлять к ней доступ через сеть 208 связи.

[0086] На Фиг. 3 изображена принципиальная схема примерной реализации базы 214 данных указателей мультимедийного содержимого в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.

[0087] Как можно понять из Фиг. 3, база 214 данных указателей мультимедийного содержимого может включать в себя множество записей, связанных с различным мультимедийным содержимым, которое может пожелать использовать пользователь 216. Кроме того, база 214 данных указателей мультимедийного содержимого может включать в себя множество заданных полей, включающих в себя указания мультимедийного содержимого, представленного каждой записью из множества записей. Как упомянуто выше, хотя в изображенных вариантах реализации множество заданных полей включает в себя пять заданных полей, следует отметить, что в других неограничивающих вариантах реализации настоящей технологии множество заданных полей может включать в себя, в зависимости от определенного элемента мультимедийного содержимого, большее количество заданных полей, таких как, не ограничиваясь, в качестве лишь нескольких примеров, «Исполнители», «Производство» и «Страна».

[0088] Кроме того, согласно определенному неограничивающему варианту осуществления настоящей технологии, множество заданных полей базы 214 данных указателей мультимедийного содержимого может включать в себя поле 302 класса пользователя, соответствующее значение которого было заранее присвоено каждой из множества записей базы 214 данных указателей мультимедийного содержимого на основании по меньшей мере одного соответствующего значения других полей из множества заданных полей. Например, поскольку первая запись 304 из множества записей указывает на мультипликационный фильм Soul, соответствующее значение поля 302 класса пользователя, заранее присвоенное ей, равно «Первое», что указывает на то, что мультипликационный фильм Soul, как не включающий в себя какого-либо откровенного содержимого, был заранее выбран для пользователей первого класса пользователей, то есть для детей.

[0089] В другом примере, второй записи 306, указывающей на фильм The silence, было заранее присвоено соответствующее значение «Второй» поля 302 класса пользователя, что указывает на то, что фильм The Silence был заранее выбран для пользователей второго класса пользователей, вследствие одного из его жанра и содержания откровенного содержимого, и, следовательно, он должен быть ограничен для пользователей из первого класса пользователей.

[0090] Таким образом, на основании по меньшей мере одного из связанных указаний определенный элемент мультимедийного содержимого может быть заранее выбран для одного из первого класса пользователей, второго класса пользователей. Очевидно, что мультимедийное содержимое, заранее выбранное для второго класса пользователей, может также включать в себя содержимое,, которое заранее выбрано для первого класса пользователей.

[0091] Таким образом, в некоторых неограничивающих вариантах осуществления настоящей технологии перед выполнением голосовой команды пользователя 216 процессор 110 электронного устройства 204 может быть выполнен с возможностью: (1) определения, соответствует ли класс пользователя 216 текущему режиму работы электронного устройства 204; и (2) определения на основании базы 214 данных указателей мультимедийного содержимого, соответствует ли пользовательский запрос из введенной голосовой команды классу пользователя. Например, во втором режиме работы процессор 110 может быть выполнен с возможностью выполнения голосовой команды, выданной пользователем 216, если определено, что пользователь 216 относится ко второму классу пользователей. Другими словами, во втором режиме работы электронное устройство 204 может быть выполнено с возможностью неприменения ограничений на извлечение и воспроизведение мультимедийного содержимого, если класс пользователя для пользователя 216 определен как взрослый.

[0092] Однако, при работе электронного устройства 204 во втором режиме работы процессор определил, что пользователь 216 относится к первому классу пользователей (то есть ребенок), и процессор 110 может быть дополнительно выполнен с возможностью вызова переключения электронного устройства 204 в первый режим работы. Кроме того, процессор 110 может быть выполнен с возможностью определения на основании базы 214 данных указателей мультимедийного содержимого, что запрос пользователя, введенный посредством пользовательского высказывания 206, не соответствует первому классу пользователя, и дополнительно игнорировать голосовую команду или, в качестве альтернативы, выдать сообщение об ошибке (например, «Запрошенное содержимое не может быть извлечено» или «Отправленная команда не может быть выполнена»). Другими словами, таким образом процессор 110 может быть выполнен с возможностью ограничения доступа детей к мультимедийному содержимому, заранее выбранному для взрослых.

[0093] В дополнительных неограничивающих вариантах осуществления настоящей технологии переключение электронного устройства 204 в первый режим работы может включать в себя побуждение процессором 110 каждого приложения из множества служебных приложений 209 переключаться на их соответствующий родительский контроль или другой тип безопасного режима, ограничивающего доступ к мультимедийному содержимому, заданному соответствующими приложениями из множества служебных приложений 209 только для взрослой аудитории.

[0094] Возвращаясь к Фиг. 2, в некоторых неограничивающих вариантах осуществления настоящей технологии класс пользователя для пользователя 216 может быть определен с использованием алгоритма 280 машинного обучения (MLA), обученного сервером 202 для классификации пользователей на основании обучающих пользовательских высказываний от различных обучающих пользователей. Таким образом, возвращаясь к Фиг. 2, после определения класса пользователя 216 в некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью формирования пакета 212 данных, включающего в себя определенный класс пользователя, для его передачи на электронное устройство 204.

[0095] В неограничивающих вариантах осуществления настоящей технологии MLA 280 может быть основана на нейронных сетях (NN), сверточных нейронных сетях (CNN), моделях на основе дерева решений, MLA на основе дерева решений с градиентным усилением, MLA на основе обучения по правилам ассоциации, MLA на основе глубокого обучения, MLA на основе индуктивного логического программирования, MLA на основе метода опорных векторов, MLA на основе кластеризации, байесовских сетей, MLA на основе обучения с подкреплением, MLA на основе репрезентативного обучения, MLA с обучением на основе подобия и метрик, MLA на основе разреженного словаря, MLA на основе генетических алгоритмов, и тому подобного. Для обучения MLA 280 сервер 202 может использовать подход с контролируемым обучением, не выходя за рамки настоящей технологии.

[0096] Вообще говоря, можно сказать, что сервер 202 и/или процессор 110 электронного устройства 204 выполняет два соответствующих процесса в отношении MLA 280. Первым процессом из двух процессов является процесс обучения, выполняемый сервером 202 и/или процессором 110 электронного устройства 204, причем сервер 202 выполнен с возможностью обучения MLA 280 на основании обучающего набора данных определению класса пользователя 216, что будет описано ниже с обращением к Фиг. 3 и 4. Второй процесс является процессом при использовании, в котором сервер 202 выполняет обученный таким образом MLA 280 для определения класса пользователя 216, что будет описано ниже с обращением к Фиг. 5 и 6, в соответствии с определенными неограничивающими вариантами осуществления настоящей технологии.

[0097] Согласно некоторым неограничивающим вариантам осуществления настоящей технологии, как процесс обучения, так и процесс при использовании могут выполняться сервером 202 и/или процессором 110 электронного устройства 204 в сетевой вычислительной среде 200, описанной выше с обращением к Фиг. 2.

Сеть связи

[0098] В некоторых неограничивающих вариантах осуществления настоящей технологии сеть 208 связи представляет собой сеть Интернет. В альтернативных неограничивающих вариантах осуществления настоящей технологии сеть 208 связи может быть реализована в виде любой подходящей локальной сети (LAN), глобальной сети (WAN), частной сети связи и тому подобного. Следует явным образом понимать, что реализации сети связи предназначены лишь для целей иллюстрации. То, каким образом реализована соответствующая линия связи (не пронумерованная отдельно) между каждым из сервера 202 и электронного устройства 204 и сетью 208 связи, будет зависеть, среди прочего, от того, каким образом реализован каждый из сервера 202 и электронного устройства 204. Лишь в качестве примера, но не ограничения, в тех вариантах осуществления настоящей технологии, в которых электронное устройство 204 реализовано в виде устройства беспроводной связи, такого как интеллектуальный громкоговоритель, линия связи может быть реализована в виде линии беспроводной связи. Примеры линий беспроводной связи включают в себя, не ограничиваясь, линию связи в сети 3G, линию связи в сети 4G и тому подобное. Сеть 208 связи может также использовать беспроводное соединение с сервером 202 и электронным устройством 204.

Процесс обучения

[0099] Как упомянуто выше, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии, сервер 202 может быть выполнен с возможностью обучения MLA 280 на основании обучающего набора данных, процесс формирования которого будет теперь описан. Приведенное ниже описание может применяться с соответствующими изменениями к вариантам осуществления, в которых обучение выполняет процессор 110 электронного устройства 204.

[00100] Обращаясь к Фиг. 4, изображена принципиальная схема этапа запроса сервером 202 меток, формируемых оценщиком, для обучающего аудиосигнала 404, используемого для формирования обучающего набора данных в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.

[00101] Согласно некоторым неограничивающим вариантам осуществления настоящей технологии для формирования обучающего набора данных сервер 202 может быть выполнен с возможностью приема обучающего аудиосигнала 404, представляющего обучающее пользовательское высказывание, и формирования из него с использованием аналого-цифрового преобразователя (отдельно не показан) сервера 202. Например, обучающее пользовательское высказывание может, подобно пользовательскому высказыванию 206, включать в себя по меньшей мере одно из слова активации, связанного с приложением 205 виртуального помощника, и обучающей голосовой команды, которая должна быть отправлена в соответствующие приложения из множества служебных приложений 209. Обучающее пользовательское высказывание может быть произведено обучающим пользователем, отличным от пользователя 216. Как станет очевидно, для формирования обучающего набора данных в сервер 202 может быть введено множество обучающих аудиосигналов (например, сотни, тысячи или даже сотни тысяч), связанных с обучающими пользователями из разных классов пользователей, каждые из которых могут обрабатываться в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии, как описано ниже.

[00102] Кроме того, для приема обучающего аудиосигнала 404 сервер 202 может быть соединен с возможностью осуществления связи с базой 402 данных обучающих аудиосигналов, сохраняющей различные обучающие аудиосигналы, аналогичные обучающему аудиосигналу 404, сформированные из соответствующих обучающих пользовательских высказываний, произведенных разными обучающими пользователями. В качестве альтернативы, в некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью приема обучающего аудиосигнала 404 из внешней базы данных (не показана) через сеть 208 связи.

[00103] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью введения шума в обучающий аудиосигнал 404. Например, сервер 202 может быть выполнен с возможностью подавления по меньшей мере одного заданного уровня частоты обучающего аудиосигнала 404 таким образом, что при воспроизведении обучающего аудиосигнала 404 звук, соответствующий по меньшей мере заданному уровню частоты, приглушается. В других неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью введения шума в обучающий аудиосигнал 404 путем модуляции по меньшей мере одного его заданного уровня частоты таким образом, чтобы исказить звук по меньшей мере на одном заданном уровне частоты при воспроизведении обучающего аудиосигнала 404. В других неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью подавления и/или модуляции случайно выбранного уровня частоты обучающего аудиосигнала 404.

[00104] Кроме того, согласно некоторым неограничивающим вариантам осуществления настоящей технологии, сервер 202 может быть выполнен с возможностью передачи обучающего аудиосигнала 404 множеству оценщиков-людей 406 для его воспроизведения на соответствующих электронных устройствах оценщиков, связанных с ними. Вообще говоря, определенное электронное устройство оценщика (не указанное отдельно на Фиг. 4) может быть выполнено с возможностью (1) приема по сети 208 связи обучающего аудиосигнала 404 от сервера 202; (2) воспроизведения обучающего аудиосигнала 404; и (3) приема ввода от соответствующего одного из множества оценщиков-людей 406 в отношении обучающего аудиосигнала 404 после его восприятия. В некоторых неограничивающих вариантах осуществления настоящей технологии определенное электронное устройство оценщика может быть реализовано аналогично электронному устройству 204, изображенному на Фиг. 2, и, таким образом, может включать в себя персональный компьютер, смартфон и тому подобное. Для этого определенное электронное устройство оценщика может включать в себя некоторые или все компоненты компьютерной системы 100, изображенной на Фиг. 1.

[00105] Таким образом, каждого из множества людей-оценщиков 406 можно попросить ввести, используя соответствующее электронное устройство оценщика, соответствующую метку, формируемую оценщиком - например, определенный оценщик-человек 408 вводит определенную метку 410, формируемую оценщиком (в контексте настоящего документа также называемую просто «меткой»). Согласно некоторым неограничивающим вариантам осуществления настоящей технологии определенная метка 410, формируемая оценщиком, может указывать, воспринимается ли обучающий пользователь, связанный с обучающим аудиосигналом 404, определенным оценщиком 408, как относящийся к первому классу пользователей и второму классу пользователей. Другими словами, возвращаясь к примеру, в котором первый класс пользователей содержит ребенка, а второй класс пользователей содержит взрослого, определенная метка 410, формируемая оценщиком, может указывать, воспринимает ли определенный оценщик 408 обучающего пользователя, произведшего обучающие пользовательские высказывания из обучающего аудиосигнала 404, как ребенка или взрослого.

[00106] Следует отметить, что то, каким образом каждый из множества оценщиков-людей 406 может обеспечивать соответствующие метки, формируемые оценщиком, не ограничено, и в зависимости от конкретных реализаций определенному оценщику-человеку 408 может быть предписано обеспечить определенную метку 410, формируемую оценщиком, например, в одном из следующих форматов:

двоичный выбор «первого класса пользователя» или «второго класса пользователя»;

шкала от «1» до «5», в которой «1» соответствует первому классу пользователя, а «5» соответствует второму классу пользователя;

шкала от «1» до «10», в которой «1» соответствует первому классу пользователя, а «10» соответствует второму классу пользователя;

и т.д.

[00107] Кроме того, в некоторых неограничивающих вариантах осуществления настоящей технологии электронные устройства оценщиков (не показанные отдельно на Фиг. 4) могут быть выполнены с возможностью передачи обеспеченных таким образом меток, формируемых оценщиком, для обучающего аудиосигнала 404, таких как определенная метка 410, формируемая оценщиком, обеспеченная определенным оценщиком 408, на сервер 202. Сервер 202 может быть дополнительно выполнен с возможностью использования меток, формируемых оценщиком, для обучения MLA 280.

[00108] Согласно некоторым неограничивающим вариантам осуществления настоящей технологии, сервер 202 может быть выполнен с возможностью формирования на основании меток, формируемых оценщиками, обеспеченных множеством оценщиков-людей 406, объединенной метки 412, формируемой оценщиком, которая может быть сохранена в базе 402 данных обучающих аудиосигналов для присваивания обучающему аудиосигналу 404 для обучения MLA 280.

[00109] В некоторых неограничивающих вариантах осуществления настоящей технологии для формирования объединенной метки 412, формируемой оценщиком, сервер 202 может быть выполнен с возможностью определения среднего значения для всех меток, формируемых оценщиком, обеспеченных множеством оценщиков-людей 406. Например, в тех вариантах осуществления настоящей технологии, в которых определенная метка 410, формируемая оценщиком, представляет собой двоичное значение, причем «0» обозначает первый класс пользователя, а «1» обозначает второй класс пользователя, предположим, что 4 0% из множества оценщиков-людей 406 присвоили обучающему аудиосигналу 404 «0», и 60% из множества оценщиков-людей 406 присвоили «1», в таком случае объединенная метка 412, формируемая оценщиком, имеет значение 0,6, что может указывать на степень вероятности того, что обучающий пользователь относится ко второму классу пользователей.

[00110] Однако в других неограничивающих вариантах осуществления настоящей технологии объединенная метка 412, формируемая оценщиком, может указывать на распределение меток среди меток, формируемых оценщиком, соответственно, представляющих обучающего пользователя, воспринимаемого соответствующим одним из множества людей-оценщиков 406 как являющегося пользователем одного из первого класса пользователей и второго класса пользователей. Таким образом, продолжая приведенный выше пример, сервер 202 может быть выполнен с возможностью определения распределения меток между первым классом пользователей и вторым классом пользователей как 2:3 и использования этого значения в сочетании с обучающим аудиосигналом 404 для обучения MLA 280.

[00111] Следует отметить, что в тех вариантах осуществления, в которых класс пользователей для пользователя 216 включает в себя более двух классов пользователей, сервер 202 может быть выполнен с возможностью определения распределения меток среди всех классов пользователей. Например, если класс пользователей дополнительно включает в себя третий класс пользователей (например, пожилых людей, как упомянуто выше), сервер 202 может быть выполнен с возможностью определения значения объединенной метки 412, формируемой оценщиком, как X: Y: Z, где X, Y и Z соответственно представляют части меток, формируемых оценщиком, указывающих на то, что обучающий пользователь воспринимается соответствующими людьми из множества оценщиков-людей 406 как пользователь, относящийся к одному из первого класса пользователей, второго класса пользователей и третьего класса пользователей.

[00112] Кроме того, для формирования обучающего набора данных согласно некоторым неограничивающим вариантам осуществления настоящей технологии сервер 202 может быть выполнен с возможностью сегментирования обучающего аудиосигнала 404 для его дальнейшей обработки.

[00113] Обращаясь к Фиг. 5, изображена принципиальная схема этапа формирования сервером 202 обучающего набора данных на основании обучающего аудиосигнала 404 и объединенной метки 412, формируемой оценщиком, в соответствии с определенными неограничивающими вариантами осуществления настоящей технологии.

[00114] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью использования амплитудно-временного представления 502 обучающего аудиосигнала 404 для сегментирования обучающего аудиосигнала 404 на множество обучающих частей 504. Например, сервер 202 может быть выполнен с возможностью равномерного сегментирования обучающего аудиосигнала 404 на основании желаемого уровня детализации, то есть формирования множества обучающих частей 504 обучающего аудиосигнала 404, имеющего заданное количество обучающих частей равной продолжительности.

[00115] Однако в других неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью сегментирования обучающего аудиосигнала 404 на основании заданного временного окна с заданной продолжительностью Δt. Заданная продолжительность может быть определена, например, как 0,5 секунды; однако также могут быть предусмотрены другие их значения, не выходящие за рамки объема настоящей технологии, такие как 0,01 секунды, 0,1 секунды, 0,3 секунды или 1 секунда. В других неограничивающих вариантах осуществления настоящей технологии сервер 202 также может быть выполнен с возможностью сегментирования определенных частей обучающего аудиосигнала 404 чаще, чем других, на основании, например, соответствующих уровней амплитуды.

[00116] Кроме того, сервер 202 может быть выполнен с возможностью формирования на основании каждой из множества обучающих частей 504 множества спектрограмм 508, связанных с обучающим аудиосигналом 404. Вообще говоря, определенная спектрограмма 510, связанная с определенной обучающей частью 506 из множества обучающих частей 504 обучающего аудиосигнала 404, указывает ее соответствующее частотно-временное представление. Более конкретно, определенная спектрограмма 510 представляет, как частотные компоненты определенной обучающей части 506 изменяются во времени.

[00117] Для этого, чтобы сформировать определенную спектрограмму 510, согласно некоторым неограничивающим вариантам осуществления настоящей технологии сервер 202 может быть выполнен с возможностью преобразования определенной обучающей части 506 из временной области, представленной амплитудно-временным представлением 502 обучающего аудиосигнала 404, в частотную область. В этом отношении в некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью применения дискретного преобразования Фурье (DFT) к определенной обучающей части 506. То, каким образом сервер 202 может быть выполнен с возможностью вычисления DFT, не ограничено, и в различных вариантах осуществления настоящей технологии может включать в себя, в качестве примера, применение одного из семейства алгоритмов быстрого преобразования Фурье (FFT), дополнительно включая алгоритм FFT с простым коэффициентом, алгоритм FFT Брууна, алгоритм FFT Райдера, алгоритм FFT Блюстейна и гексагональное FFT.

[00118] Кроме того, следует отметить, что для формирования соответствующего частотно-временного представления определенной обучающей части 506 сервер 202 также может быть выполнен с возможностью применения других дискретных преобразований, включая, не ограничиваясь: обобщенное DFT, дискретное пространственное преобразование Фурье, Z-преобразование, модифицированное дискретное косинусное преобразование, дискретное преобразование Хартли и тому подобное.

[00119] Кроме того, в некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью выражения частотного спектра, связанный с определенной спектрограммой 510, в мел-шкале. В этом отношении, в контексте настоящей технологии определенная спектрограмма 510 также может называться «мел-частотным представлением» или «мел-спектрограммой» ("MEL"), связанной с определенной обучающей частью 506.

[00120] Вообще говоря, мел-шкала относится к результату определенного нелинейного преобразования частотного спектра определенной спектрограммы 510 таким образом, что частотный спектр разделен на заданное количество мел-полос, которые равномерно удалены друг от друга, таким образом аппроксимируя слуховую реакцию человека. Другими словами, с точки зрения уровней основного тона, воспринимаемых человеческим ухом, каждая из результирующих мел-полос может восприниматься как находящаяся на равном расстоянии от соседней мел-полосы, что может не иметь место в случае с уровнями частот. Соответственно, сервер 202 может быть дополнительно выполнен с возможностью разложения компонентов амплитуды определенной обучающей части 506 в пределах определенной спектрограммы 510 для соответствия мел-полосам.

[00121] В некоторых неограничивающих вариантах осуществления настоящей технологии заданное количество мел-полос может быть определено экспериментальным путем на основании параметров MLA 280 и может включать в себя, например, не ограничиваясь, 40, 60, 88, 128 или 256 мел-полос.

[00122] Наконец, в некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью присваивания каждой из множества спектрограмм 508, связанных с обучающим аудиосигналом 404, объединенной метки 412, формируемой оценщиком, тем самым формируя множество обучающих объектов для включения их в обучающий набор данных.

[00123] Следует явным образом понимать, что согласно некоторым неограничивающим вариантам осуществления настоящей технологии сервер 202 может быть снабжен множеством обучающих аудиосигналов (таких как сотни, тысячи или даже сотни тысяч), к каждому из которых сервер 202 может быть выполнен с возможностью применения подхода к формированию множества обучающих объектов, описанного выше в отношении обучающего аудиосигнала 404 с обращением к Фиг. 4 и 5, тем самым формируя больше обучающих объектов для обучающего набора данных. Таким образом, сервер 202 может дополнительно быть выполнен с возможностью ввода сформированного таким образом обучающего набора данных в MLA 280, обучая MLA 280 определению класса пользователя для пользователя 216, как упомянуто выше с обращением к Фиг. 2.

[00124] Как можно понять, в тех вариантах осуществления настоящей технологии, в которых объединенная метка 412, формируемая оценщиком, определена как соответствующий уровень вероятности, указывающий на то, что обучающий пользователь является пользователем из одного из первого класса пользователей и второго класса пользователей, в процессе использования MLA 280 выполнен с возможностью определения параметра вероятности, указывающего, что пользователь 216 является пользователем из одного из первого класса пользователей и второго класса пользователей. Однако в тех вариантах осуществления настоящей технологии, в которых объединенная метка 412, формируемая оценщиком, определена в виде распределения меток среди меток, формируемых оценщиком, указывающего на то, что обучающий пользователь воспринимается как пользователь одного из первого класса пользователей и второго класса пользователей, в процессе использования MLA 280 выполнен с возможностью определения параметра распределения между соответствующими значениями вероятности, указывающими на то, что пользователь 216 является пользователем одного из первого класса пользователей и второго класса пользователей.

Процедура использования

[00125] После того, как MLA 280 обучен, его можно далее использовать для определения класса пользователя для пользователя 216, производящего пользовательское высказывание 206. Для этого, возвращаясь к Фиг. 2, согласно некоторым неограничивающим вариантам осуществления настоящей технологии процессор 110 электронного устройства 204 может быть выполнен с возможностью (1) захвата пользовательского высказывания 206 с использованием микрофона 207; (2) формирования связанного с ним аудиосигнала 210; и (3) передачи аудиосигнала 210 на сервер 202 для дальнейшей обработки.

[00126] Обращаясь к Фиг. 6, изображена принципиальная схема этапа обработки сервером 202 аудиосигнала 210 в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.

[00127] В некоторых неограничивающих вариантах осуществления настоящей технологии после приема аудиосигнала 210 сервер 202 может быть выполнен с возможностью формирования его амплитудно-временного представления 604 при использовании. Кроме того, сервер 202 может быть выполнен с возможностью формирования на основании амплитудно-временного представления 604 при использовании частотно-временного представления 610 аудиосигнала 210 при использовании.

[00128] Для этого в некоторых неограничивающих вариантах осуществления настоящей технологии, аналогично формированию каждой из множества спектрограмм 508, связанных с обучающим аудиосигналом 404, сервер 202 может быть выполнен с возможностью применения DFT к амплитудно-временному представлению 604 при использовании с использованием одного из семейства алгоритмов FFT. В других неограничивающих вариантах осуществления настоящей технологии для формирования частотно-временного представления 610 аудиосигнала 210 при использовании сервер 202 может быть выполнен с возможностью применения кратковременного преобразования Фурье (STFT) к амплитудно-временному представлению 604 при использовании. Вообще говоря, STFT содержит последовательность преобразований Фурье для каждого из более коротких временных сегментов, так называемых «временных окон», размещенных друг за другом вдоль оси времени, связанной со аудиосигналом 210.

[00129] Следует отметить, что формат частотно-временного представления 610 аудиосигнала 210 при использовании обычно должен соответствовать формату определенной спектрограммы 510, связанной с обучающим аудиосигналом 404. Таким образом, в тех вариантах осуществления, в которых частотный спектр определенной спектрограммы 510 выражается в уровнях частот (то есть в герцах), частотный спектр частотно-временного представления 610 при использовании также должен быть выражен в уровнях частот. Кроме того, в тех вариантах осуществления, в которых частотный спектр данной спектрограммы 510 выражен в мел-полосах, частотный спектр частотно-временного представления 610 при использовании также должен быть выражен в мел-полосах.

[00130] Кроме того, как лучше всего проиллюстрировано на Фиг. 7, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии сервер 202 может быть дополнительно выполнен с возможностью применения MLA 280, обученного на основании обучающего набора данных, как описано выше, к частотно-временному представлению 610 аудиосигнала 210 при использовании для определения класса пользователя для пользователя 216 электронного устройства 204 как одного из первого класса пользователей и второго класса пользователей. Таким образом, сервер 202 может быть выполнен с возможностью формирования пакета 212 данных для его передачи электронному устройству 204 для дальнейшего использования.

[00131] Как отмечалось выше в настоящем документе, в некоторых неограничивающих вариантах осуществления настоящей технологии после процесса обучения MLA 280 может выполняться на электронном устройстве 204 процессором 110. В этих вариантах осуществления амплитудно-временное представление 604 при использовании и частотно-временное представление 610 аудиосигнала 210 при использовании также может быть сформировано процессором 110 с использованием подходов, аналогичных описанным с обращением к Фиг. 6 в отношении сервера 202. Кроме того, процессор 110 может быть выполнен с возможностью применения MLA 280 к частотно-временному представлению при использовании для определения класса пользователя 216.

[00132] Кроме того, как упомянуто выше, после приема пакета 212 данных, процессор 110 электронного устройства 204 может быть выполнен с возможностью выполнения одного или более заданных действий. Например, предположим, что MLA 280 определил, что класс пользователя 216 является первым классом пользователя, а электронное устройство 204 в настоящее время работает во втором режиме работы, тогда в ответ на прием пакета 212 данных процессор 110 может быть выполнен с возможностью побуждения электронного устройства 204 переключиться в первый режим работы, ограничивая доступ к определенному мультимедийному содержимому со стороны пользователя 216.

Способ

[00133] Учитывая архитектуру и примеры, приведенные выше, можно выполнить метод обучения и MLA (такой как MLA 280 сетевой вычислительной среды 200) для определения класса пользователя для пользователя электронного устройства, такого как пользователь 216 электронного устройства 204. Обращаясь к Фиг. 8, изображена блок-схема способа 800 согласно неограничивающим вариантам осуществления настоящей технологии. Способ 800 может быть выполнен сервером 202.

Этап 802: ПРИЕМ ПРОЦЕССОРОМ ОБУЧАЮЩЕГО АУДИОСИГНАЛА, ПРЕДСТАВЛЯЮЩЕГО ОБУЧАЮЩЕЕ ПОЛЬЗОВАТЕЛЬСКОЕ ВЫСКАЗЫВАНИЕ

[00134] Способ 800 начинается на этапе 802, на котором сервер 202 может быть выполнен с возможностью приема обучающего аудиосигнала 404 из базы 402 данных обучающих аудиосигналов. Как описано выше с обращением к Фиг. 4, согласно некоторым неограничивающим вариантам осуществления настоящей технологии обучающий аудиосигнал 404 может быть сформирован на основе обучающего пользовательского высказывания, произведенного обучающим пользователем, отличным от пользователя 216.

[00135] В некоторых неограничивающих вариантах осуществления настоящей технологии на этапе 802 сервер 202 может быть выполнен с возможностью введения шума в обучающий аудиосигнал 404 путем подавления и/или изменения по меньшей мере одного уровня частоты обучающего аудиосигнала 404. В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью определения упомянутого по меньшей мере одного уровня частоты случайным образом.

[00136] Таким образом, способ 800 переходит к этапу 804. Этап 804: ЗАПРОС ПРОЦЕССОРОМ МНОЖЕСТВА МЕТОК, ФОРМИРУЕМЫХ ОЦЕНЩИКОМ, ДЛЯ ОБУЧАЮЩЕГО АУДИОСИГНАЛА

[00137] На этапе 804 сервер 202 может быть выполнен с возможностью передачи через сеть 208 связи обучающего аудиосигнала 404 множеству оценщиков-людей 406, каждый из которых может воспроизвести обучающий аудиосигнал 404 с использованием соответствующего электронного устройства оценщика и присвоить ему соответствующую метку, формируемую оценщиком, такую как определенная метка 410, формируемая оценщиком, обеспеченная определенным оценщиком 408.

[00138] Как описано выше с обращением к Фиг. 4, согласно некоторым неограничивающим вариантам осуществления настоящей технологии определенная метка 410, формируемая оценщиком, может указывать на то, воспринимает ли определенный оценщик 408 на основании обучающего аудиосигнала 404 обучающего пользователя как относящегося к одному из первого класса пользователя и второго класса пользователя.

[00139] Таким образом, такие формируемые оценщиком метки для обучающего аудиосигнала 404, обеспеченные множеством оценщиков 406, могут далее передаваться на сервер 202 для дальнейшей обработки.

[00140] Таким образом, способ 800 переходит к этапу 806.

Этап 806: ФОРМИРОВАНИЕ ПРОЦЕССОРОМ ОБЪЕДИНЕННОЙ МЕТКИ, ФОРМИРУЕМОЙ ОЦЕНЩИКОМ, ДЛЯ ОБУЧАЮЩЕГО АУДИОСИГНАЛА

[00141] На этапе 806, согласно некоторым неограничивающим вариантам осуществления настоящей технологии, сервер 202 может быть выполнен с возможностью приема меток, формируемых оценщиком, от множества оценщиков-людей 406 и формирования объединенной метки 412, формируемой оценщиком.

[00142] В некоторых неограничивающих вариантах осуществления настоящей технологии для формирования объединенной метки 412, формируемой оценщиком, сервер 202 может быть выполнен с возможностью определения среднего значения всех меток, формируемых оценщиком, обеспеченных множеством оценщиков-людей 406. Таким образом, в этих вариантах осуществления объединенная метка 412, формируемая оценщиком, может указывать на уровень вероятности того, что обучающий пользователь является пользователем одного из первого класса пользователей и второго класса пользователей.

[00143] В других неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью определения объединенной метки 412, формируемой оценщиком, в качестве значения распределения меток среди меток, формируемых оценщиком, соответственно представляющих обучающего пользователя, воспринимаемого соответствующим человеком из множества оценщиков-людей 406, как относящегося к одному из первого класса пользователей и второго класса пользователей.

[00144] Таким образом, способ 800 переходит к этапу 808.

Этап 808: ФОРМИРОВАНИЕ ПРОЦЕССОРОМ ОБУЧАЮЩЕГО НАБОРА ДАННЫХ, ВКЛЮЧАЮЩЕГО В СЕБЯ ОБУЧАЮЩИЙ АУДИОСИГНАЛ И ОБЪЕДИНЕННУЮ МЕТКУ, ФОРМИРУЕМУЮ ОЦЕНЩИКОМ

[00145] На этапе 808 после формирования объединенной метки 412, формируемой оценщиком, сервер 202 может быть выполнен с возможностью продолжения формирования обучающего набора данных на основании обучающего аудиосигнала 404.

[00146] Для этого, как описано выше с обращением к Фиг. 5, сервер 202 может быть выполнен с возможностью сегментирования обучающего аудиосигнала 404 на множество обучающих частей 504. Кроме того, сервер может быть выполнен с возможностью формирования для каждой из множества обучающих частей 504 множества спектрограмм 508, таких как определенная спектрограмма 510, связанная с определенной обучающей частью 506.

[00147] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью формирования определенной спектрограммы 510 путем применения DFT к определенной обучающей части 506.

[00148] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 202 может быть выполнен с возможностью выражения частотного спектра, связанного с определенной спектрограммой 510, в мел-шкале, включающей в себя заданное количество равномерно распределенных мел-полос.

[00149] Таким образом, сформировав множество спектрограмм 508, сервер 202 может быть выполнен с возможностью присваивания каждой из них объединенной метки 412, формируемой оценщиком, тем самым формируя обучающие объекты для включения их в обучающий набор данных. Кроме того, как отмечено выше, сервер 202 может быть выполнен с возможностью применения этапов 802-808 к другим обучающим аудиосигналам, связанным с обучающими пользователями из разных классов пользователей, чтобы сформировать большее число обучающих объектов для обучающего набора данных.

[00150] Таким образом, способ 800 переходит к этапу 810.

Этап 810: ОБУЧЕНИЕ ПРОЦЕССОРОМ НА ОСНОВАНИИ ОБУЧАЮЩЕГО НАБОРА ДАННЫХ MLA ОПРЕДЕЛЕНИЮ КЛАССА ПОЛЬЗОВАТЕЛЯ ДЛЯ ПОЛЬЗОВАТЕЛЯ, ПРОИЗВОДЯЩЕГО ПОЛЬЗОВАТЕЛЬСКОЕ ВЫСКАЗЫВАНИЕ ПРИ ИСПОЛЬЗОВАНИИ

[00151] На этапе 810, согласно некоторым неограничивающим вариантам осуществления настоящей технологии, сервер 202 может быть выполнен с возможностью введения обучающего набора данных в MLA 280 для обучения MLA 280 определению класса пользователя для пользователя 216, производящего пользовательское высказывание 206, как относящегося к первому классу пользователей и второму классу пользователей.

[00152] В некоторых неограничивающих вариантах осуществления настоящей технологии MLA 280 содержит сверточную нейронную сеть.

[00153] Кроме того, сервер 202 может быть выполнен с возможностью использования MLA 280 для определения класса пользователя для пользователя 216. С этой целью, как описано выше с обращением к Фиг. 6, сервер 202 может быть выполнен с возможностью приема аудиосигнала 210, формируемого процессором 110 электронного устройства 204 в ответ на захват пользовательского высказывания 206, и его обработки для дальнейшего применения MLA 280.

[00154] Более конкретно, сервер 202 может быть выполнен с возможностью формирования частотно-временного представления 610 аудиосигнала 210 при использовании способом, аналогичным описанному выше в отношении определенной спектрограммы 510. Кроме того, сервер 202 может быть выполнен с возможностью применения MLA 280 к частотно-временному представлению 610 при использовании и формирования пакета 212 данных, включающего в себя класс пользователя для пользователя 216.

[00155] Кроме того, как описано выше с обращением к Фиг. 7, сервер 202 может быть выполнен с возможностью передачи пакета 212 данных на электронное устройство 204; и процессор 110 электронного устройства 204 может быть выполнен с возможностью приема пакета 212 данных и, в зависимости от определенного класса пользователя, выполнения одного или более заданных действий. Например, если пакет 212 данных включает в себя данные, указывающие на то, что класс пользователя для пользователя 216 является первым классом пользователя (то есть ребенок), и электронное устройство 204 в настоящее время работает во втором режиме работы (связанном со вторым классом пользователя, то есть взрослый), то в ответ на прием пакета 212 данных процессор 110 может быть выполнен с возможностью побуждения электронного устройства 204 переключиться в первый режим работы, ограничивая доступ к определенному мультимедийному содержимому для пользователя 216.

[00156] Таким образом, некоторые варианты осуществления способа 800, за счет обучения MLA 280 на основании объединенной метки 412, формируемой оценщиком, и введения шума в обучающий аудиосигнал 404, могут обеспечить более высокую точность определения класса пользователя для пользователя 216 электронного устройства 204 и, как следствие, его более стабильные рабочие характеристики.

[00157] Таким образом, способ 800 завершается.

[00158] Следует явным образом понимать, что не все технические эффекты, упомянутые в настоящем документе, должны быть реализованы в каждом из вариантов осуществления настоящей технологии.

[00159] Специалистам в данной области техники могут стать очевидными модификации и усовершенствования вышеописанных реализаций настоящей технологии. Вышеприведенное описание предназначено для того, чтобы быть примерным, а не ограничивающим. Поэтому предполагается, что объем настоящей технологии ограничен лишь объемом прилагаемой формулы изобретения.

Иллюстрации к изобретению RU 2 795 152 C2

Реферат патента 2023 года Способ и система классификации пользователя электронного устройства

Изобретение относится к вычислительной технике. Технический результат заключается в повышении точности определения класса пользователя электронного устройства. Способ обучения алгоритма машинного обучения (MLA) определению класса пользователя для пользователя, производящего пользовательское высказывание, причем способ выполняется на сервере, включающем в себя процессор, причем способ содержит: прием обучающего аудиосигнала, представляющего обучающее пользовательское высказывание; запрос процессором множества меток для обучающего аудиосигнала, причем определенная метка из множества меток указывает на то, воспринимается ли обучающий пользователь как пользователь из одного первого класса и второго класса; формирование объединенной метки для обучающего аудиосигнала, причем объединенная метка указывает распределение меток для множества меток между первым классом и вторым классом; формирование обучающего набора данных, включающего в себя обучающий аудиосигнал и объединенную метку для обучения MLA определению класса пользователя для пользователя, производящего пользовательское высказывание при использовании. 2 н. и 18 з.п. ф-лы, 8 ил.

Формула изобретения RU 2 795 152 C2

1. Реализуемый компьютером способ обучения алгоритма машинного обучения (MLA) определению класса пользователя для пользователя, производящего пользовательское высказывание, причем способ выполняется на сервере, включающем в себя процессор, причем способ содержит этапы, на которых:

принимают посредством процессора обучающий аудиосигнал, представляющий обучающее пользовательское высказывание,

причем обучающее пользовательское высказывание произведено обучающим пользователем;

запрашивают посредством процессора множество меток для обучающего аудиосигнала,

причем определенная метка из множества меток сформирована соответствующим электронным устройством оценщика из множества электронных устройств оценщиков;

причем упомянутая определенная метка из множества меток указывает, является ли обучающий пользователь пользователем одного из первого класса пользователей и второго класса пользователей;

формируют посредством процессора объединенную метку для обучающего аудиосигнала,

причем объединенная метка указывает на распределение меток для множества меток между первым классом пользователей и вторым классом пользователей;

формируют посредством процессора обучающий набор данных, включающий в себя обучающий аудиосигнал и объединенную метку;

обучают MLA посредством процессора на основании обучающего набора данных определению класса пользователя для пользователя, производящего пользовательское высказывание при использовании.

2. Способ по п. 1, дополнительно содержащий этапы, на которых:

сегментируют посредством процессора обучающий аудиосигнал на множество частей обучающего сигнала;

присваивают посредством процессора объединенную метку каждой из множества частей обучающего сигнала; и при этом формирование посредством процессора обучающего набора данных содержит этап, на котором формируют обучающий набор данных на основании множества частей обучающего сигнала.

3. Способ по п. 2, дополнительно содержащий этап, на котором преобразуют каждую из множества частей обучающего сигнала в ее соответствующее частотно-временное представление.

4. Способ по п. 3, в котором преобразование содержит этап, на котором применяют к каждой из множества частей обучающего сигнала преобразование Фурье.

5. Способ по п. 4, в котором преобразование дополнительно содержит этап, на котором формируют на основании соответствующего частотно-временного представления соответствующее мел-частотное представление.

6. Способ по п. 5, в котором соответствующее мел-частотное представление включает в себя заданное количество равномерно распределенных мел-полос.

7. Способ по п. 1, в котором объединение множества меток содержит этап, на котором определяют их среднее значение.

8. Способ по п. 1, дополнительно содержащий перед запросом множества меток для обучающего аудиосигнала этап, на котором вводят шум в обучающий аудиосигнал.

9. Способ по п. 8, в котором введение шума включает в себя этап, на котором подавляют по меньшей мере один заданный уровень частоты обучающего аудиосигнала.

10. Способ по п. 8, в котором введение шума включает в себя этап, на котором модулируют по меньшей мере один заданный уровень частоты обучающего аудиосигнала.

11. Способ по п. 1, дополнительно содержащий этап, на котором используют MLA для определения класса пользователя для пользователя, производящего пользовательское высказывание при использовании, при этом пользовательское высказывание при использовании захватывается устройством громкоговорителя, соединенным с возможностью осуществления связи с сервером, при этом использование MLA содержит этапы, на которых:

формируют посредством процессора на основании пользовательского высказывания при использовании аудиосигнал при использовании;

формируют посредством процессора для аудиосигнала при использовании его частотно-временное представление при использовании;

применяют посредством процессора MLA к частотно-временному представлению при использовании для формирования параметра распределения между значениями вероятности, соответственно указывающими на то, что пользователь, производящий пользовательское высказывание при использовании, является пользователем одного из первого класса пользователей и второго класса пользователей, таким образом, что:

в ответ на то, что параметр распределения равен или больше заданного порогового значения распределения, определяют пользователя как относящегося к первому классу пользователей; и

в ответ на то, что параметр распределения меньше заданного порогового значения распределения, определяют пользователя как относящегося ко второму классу пользователей.

12. Способ по п. 11, в котором устройство громкоговорителя выполнено с возможностью работы в первом режиме работы и втором режиме работы, и способ дополнительно содержит этап, на котором:

в ответ на определение пользователя как относящегося к первому классу пользователей, вызывают переключение устройства громкоговорителя, находящегося во втором режиме работы, в первый режим работы.

13. Способ по п. 12, в котором:

первый режим работы связан с извлечением посредством устройства громкоговорителя содержимого, заранее выбранного для пользователей первого класса пользователей; и

второй режим работы связан с извлечением посредством устройства громкоговорителя содержимого, заранее выбранного для пользователей второго класса пользователей.

14. Способ по п. 1, в котором первый класс пользователей включает в себя ребенка, а второй класс пользователей включает в себя взрослого.

15. Способ по п. 1, в котором MLA содержит сверточную нейронную сеть.

16. Сервер для обучения алгоритма машинного обучения (MLA) определению класса пользователя для пользователя, производящего пользовательское высказывание, причем сервер включает в себя:

процессор;

постоянный машиночитаемый носитель, содержащий команды; причем процессор при выполнении упомянутых команд выполнен с возможностью:

приема обучающего аудиосигнала, представляющего обучающее пользовательское высказывание,

причем обучающее пользовательское высказывание произведено обучающим пользователем;

запроса множества меток для обучающего аудиосигнала,

причем определенная метка из множества меток указывает, является ли обучающий пользователь пользователем одного из первого класса пользователей и второго класса пользователей;

формирования объединенной метки для обучающего аудиосигнала,

формирования обучающего набора данных, включающего в себя обучающий аудиосигнал и объединенную метку;

обучения MLA на основании обучающего набора данных определению класса пользователя, производящего пользовательское высказывание при использовании.

17. Сервер по п. 16, в котором процессор дополнительно выполнен с возможностью:

сегментирования обучающего аудиосигнала на множество частей обучающего сигнала;

присваивания объединенной метки каждой из множества частей обучающего сигнала; и

формирования обучающего набора данных на основании множества частей обучающего сигнала.

18. Сервер по п. 17, в котором процессор дополнительно выполнен с возможностью преобразования каждой из множества частей обучающего сигнала в ее соответствующее частотно-временное представление.

19. Сервер по п. 18, в котором для преобразования каждой из множества частей обучающего сигнала в ее соответствующее частотно-временное представление процессор выполнен с возможностью применения к каждой из множества частей обучающего сигнала преобразования Фурье.

20. Сервер по п. 16, в котором сервер соединен с возможностью осуществления связи через сеть связи с устройством громкоговорителя, и процессор дополнительно выполнен с возможностью использования MLA для определения класса пользователя для пользователя, производящего пользовательское высказывание при использовании, захваченное устройством громкоговорителя, путем выполнения:

формирования на основании пользовательского высказывания при использовании аудиосигнала при использовании;

формирования для аудиосигнала при использовании его частотно-временного представления при использовании;

применения MLA к частотно-временному представлению при использовании для формирования параметра распределения между значениями вероятности, соответственно указывающими, что пользователь, производящий пользовательское высказывание при использовании, является пользователем одного из первого класса пользователей и второго класса пользователей, таким образом, что:

в ответ на то, что параметр распределения равен или больше заданного порогового значения распределения его, пользователь определяется как относящийся к первому классу пользователей; и

в ответ на то, что параметр распределения меньше заданного порогового значения распределения, пользователь определяется как относящийся ко второму классу пользователей.

Документы, цитированные в отчете о поиске Патент 2023 года RU2795152C2

Станок для придания концам круглых радиаторных трубок шестигранного сечения	1924	Гаркин В.А.	SU2019A1
Способ восстановления спиралей из вольфрамовой проволоки для электрических ламп накаливания, наполненных газом	1924	Вейнрейх А.С. Гладков К.К.	SU2020A1
US 8411977 B1, 02.04.2013
Станок для придания концам круглых радиаторных трубок шестигранного сечения	1924	Гаркин В.А.	SU2019A1
Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем	1924	Волынский С.В.	SU2012A1
РАСПРЕДЕЛЁННОЕ ОБУЧЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПЕРСОНАЛИЗАЦИИ	2018	Кудинов Михаил Сергеевич Пионтковская Ирина Игоревна Невидомский Алексей Юрьевич Попов Вадим Сергеевич Вытовтов Петр Константинович Полуботко Дмитрий Валерьевич Малюгина Ольга Валерьевна	RU2702980C1

RU 2 795 152 C2

Авторы

Алиев Владимир Андреевич

Каргальцев Степан Александрович

Бабенко Артем Валерьевич

Даты

2023-04-28—Публикация

2021-02-10—Подача

название	год	авторы	номер документа
СПОСОБ И СИСТЕМА ГЕНЕРИРОВАНИЯ ОБУЧАЮЩИХ ДАННЫХ ДЛЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ	2021	Бирюков Валентин Андреевич Павличенко Никита Витальевич Федорова Валентина Павловна	RU2819647C2
СПОСОБ И СИСТЕМА ДЛЯ КЛАССИФИКАЦИИ СЛОВА В КАЧЕСТВЕ НЕЦЕНЗУРНОГО СЛОВА	2020	Либман Михаил Борисович	RU2803576C2
Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу	2018	Минькин Федор Александрович	RU2761940C1
СПОСОБ И СИСТЕМА ДЛЯ ОБРАБОТКИ ПОЛЬЗОВАТЕЛЬСКОГО РАЗГОВОРНОГО РЕЧЕВОГО ФРАГМЕНТА	2019	Алипов Вячеслав Вячеславович Садовников Олег Александрович Зубков Никита Владимирович	RU2757264C2
Способы и системы для формирования списка цифровых задач	2021	Бирюков Валентин Андреевич Кузнецов Дмитрий Сергеевич	RU2837803C2
Способ и сервер для определения обучающего набора для обучения алгоритма машинного обучения (MLA)	2020	Дорогуш Анна Вероника Юрьевна Алипов Вячеслав Вячеславович Кручинин Дмитрий Андреевич Оганесян Дмитрий Алексеевич	RU2817726C2
Способ и система для формирования метки цифровой задачи алгоритмом машинного обучения	2022	Павличенко Никита Витальевич Цейтлин Борис Александрович Усталов Дмитрий Алексеевич	RU2829151C2
СПОСОБ И СИСТЕМА ОПРЕДЕЛЕНИЯ ГОВОРЯЩЕГО ПОЛЬЗОВАТЕЛЯ УПРАВЛЯЕМОГО ГОЛОСОМ УСТРОЙСТВА	2018	Карпухин Иван Александрович	RU2744063C1
СПОСОБ И СИСТЕМА ДЛЯ РАНЖИРОВАНИЯ ЦИФРОВЫХ ОБЪЕКТОВ НА ОСНОВЕ СВЯЗАННОЙ С НИМИ ЦЕЛЕВОЙ ХАРАКТЕРИСТИКИ	2019	Устименко Алексей Иванович Воробьев Александр Леонидович Гусев Глеб Геннадьевич Сердюков Павел Викторович	RU2757174C2
СПОСОБ И СИСТЕМА ОБУЧЕНИЯ СИСТЕМЫ ЧАТ-БОТА	2023	Зинов Николай Александрович Коренев Артём Аркадьевич	RU2820264C1