Область техники, к которой относится изобретение
[001] Настоящая технология в общем относится к обработке естественного языка, а конкретно к способу и системе для обработки пользовательского разговорного речевого фрагмента.
Уровень техники
[002] Электронные устройства, такие как смартфоны и планшеты, имеют возможность осуществлять доступ к растущему и разнообразному числу приложений и услуг для обработки и/или осуществлять доступ к различным типам информации. Тем не менее, неопытные пользователи и/или ограниченно дееспособные пользователи, и/или пользователи, управляющие транспортным средством, не могут эффективно соединяться с такими устройствами, главным образом вследствие множества функций, предоставленных посредством этих устройств, либо неспособности использовать машинно-пользовательские интерфейсы, предоставленные посредством таких устройств (такие как клавиатура). Например, пользователь, который осуществляет вождение, или пользователь, который является слабовидящим, не может использовать клавиатуру сенсорного экрана, ассоциированную с некоторыми из этих устройств.
[003] Приложения виртуального помощника разработаны для того, чтобы выполнять функции в ответ на пользовательские запросы. Такие приложения виртуального помощника могут использоваться, например, для извлечения информации, навигации, но также и для широкого спектра запросов. Традиционное приложение виртуального помощника, такое как, например, Siri™, может принимать разговорный пользовательский речевой фрагмент в форме цифрового аудиосигнала из устройства и выполнять разнообразные задачи для пользователя. Например, пользователь может обмениваться данными с Siri® посредством предоставления разговорных речевых фрагментов для выяснения, например, того, какая сейчас погода, где находится ближайший торговый центр, и т.п. Пользователь также может запрашивать выполнение различных приложений, установленных на электронном устройстве.
[004] Вообще говоря, традиционные приложения виртуального помощника обучаются для того, чтобы формировать множество гипотез на основе речевого фрагмента и выбирать наиболее вероятную гипотезу в качестве корректного текстового представления речевого фрагмента на основе фраз, на которых они ранее обучены.
[005] Статья, озаглавленная "A Bandit Approach to Posterior Dialog Orchestration Under the Budget", опубликованная на 32-й Конференции по нейронным системам обработки информации (NeurIPS 2018) авторами Sohini Upadhyay и др., исследует задачу онлайновой апостериорной диалоговой оркестровки, при которой апостериорная оркестровка задается как задача выбора поднабора навыков, которые наиболее надлежащим образом отвечают на пользовательский ввод с использованием признаков, извлеченных как из пользовательского ввода, так и из отдельных навыков.
[006] Патент США № 9484021 B1, выданный 1 ноября 2016 года компании Amazon Technologies, Inc. и озаглавленный "Disambiguation in Speech Recognition", изучает обработку автоматического распознавания речи (ASR), включающую в себя двухстадийную конфигурацию. После ASR-обработки входящего речевого фрагмента, при которой ASR выводит список из N лучших вариантов, включающий в себя несколько гипотез, первая стадия определяет то, следует или нет выполнять команду, ассоциированную с одной из гипотез, либо то, следует или нет выводить некоторые гипотезы списка из N лучших вариантов для разрешения неоднозначности. Вторая стадия определяет то, какие гипотезы должны быть включены в варианты выбора для разрешения неоднозначности. Первая модель машинного обучения используется на первой стадии, и вторая модель машинного обучения используется на второй стадии. Многостадийная конфигурация обеспечивает меньшее число ошибок обработки речи, а также сокращенное число речевых фрагментов, отправленных для разрешения неоднозначности, что в силу этого улучшает возможности работы пользователей.
[007] Публикация заявки на патент США № 2019/0279617 A1, опубликованная 12 сентября 2019 года компанией SoundHound, Inc. и озаглавленная "Voice Characterization-Based Natural Language Filtering", изучает определение характеристики речевого фрагмента, и гипотеза по транскрипции формируется для речевого фрагмента. Грамматические правила затем используются для того, чтобы синтаксически анализировать гипотезу по транскрипции, чтобы формировать множество гипотез по интерпретации, имеющих количественный показатель правдоподобия. Набор авторизованных предметных областей определяется на основе характеристики, и множество гипотез по интерпретации фильтруются согласно набору авторизованных предметных областей. Из оставшихся гипотез по интерпретации, одна выбирается согласно своим количественным показателям правдоподобия. Характеристика может включать в себя одну или более характеристик, таких как настроение, просодия либо то, имеет или нет речевой фрагмент нарастающую интонацию.
[008] Патент США № 10229683 B2, выданный 12 марта 2019 года компании SoundHound, Inc. и озаглавленный "Speech-Enabled System with Domain Disambiguation", изучает способы интерпретации разговорных речевых фрагментов от пользователя и отклика на речевые фрагменты посредством предоставления запрашиваемой информации или выполнения запрашиваемого действия. Речевые фрагменты интерпретируются в контексте нескольких предметных областей. Каждой интерпретации назначается количественный показатель релевантности на основе того, насколько хорошо интерпретация представляет то, что имеет в виду говорящий. Интерпретации, имеющие количественный показатель релевантности ниже порогового значения для своей ассоциированной предметной области, отбрасываются. Оставшаяся интерпретация выбирается на основе выбора самой релевантной предметной области для речевого фрагмента. Пользователю может указываться предоставлять информацию для разрешения неоднозначности, которая может использоваться для того, чтобы выбирать наилучшую предметную область. Сохранение предыдущих ассоциирований представления речевого фрагмента и выбора предметной области обеспечивает возможность измерения силы корреляции между произнесенными словами и фразами с релевантными предметными областями. Эта информация силы корреляции может обеспечивать возможность системе автоматически разрешать неоднозначность альтернативных интерпретаций без необходимости пользовательского ввода.
[009] Патент (США) № 10339916 B2, выданный 2 июля 2019 года компании Microsoft Technology Licensing, LLC и озаглавленный "Generation and Application of Universal Hypothesis Ranking Model" описывает формирование и применение универсальной модели ранжирования гипотез для того, чтобы ранжировать/повторно ранжировать диалоговые гипотезы. Ввод принимается через пользовательский интерфейс приложения для диалоговой обработки. Множество диалоговых гипотез формируются на основе обработки понимания ввода для принимаемого ввода. Множество диалоговых гипотез ранжируются с использованием универсальной модели ранжирования гипотез, которая является применимой ко множеству языков и локалей. Ранжирование множества диалоговых гипотез содержит использование универсальной модели ранжирования гипотез для того, чтобы анализировать независимые от языка признаки множества диалоговых гипотез для определения политики. Также описываются другие примеры, включающие в себя примеры, направленные на формирование универсальной модели ранжирования гипотез.
Сущность изобретения
[0010] Цель настоящей технологии заключается в том, чтобы улучшать по меньшей мере некоторые неудобства, присутствующие в предшествующем уровне техники.
[0011] В соответствии с широким аспектом настоящей технологии, предусмотрен компьютерно-реализованный способ для обработки пользовательского разговорного речевого фрагмента, причем способ осуществляется посредством электронного устройства, при этом способ содержит: прием, посредством электронного устройства от пользователя, индикатора пользовательского разговорного речевого фрагмента; формирование, посредством электронного устройства, гипотезы по текстовому представлению на основе пользовательского разговорного речевого фрагмента; обработку, посредством электронного устройства, с использованием первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, гипотезы по текстовому представлению для того, чтобы формировать первую гипотезу по сценарию и вторую гипотезу по сценарию, соответственно; причем первая обученная модель на основе сценариев и вторая обученная модель на основе сценариев обучаются с использованием по меньшей мере частично различающегося корпуса текстов; анализ, посредством электронного устройства, с использованием алгоритма машинного обучения (MLA), первой гипотезы по сценарию и второй гипотезы по сценарию для того, чтобы определять победный сценарий, имеющий более высокий количественный показатель доверия; на основе победного сценария, определение, посредством ассоциированной одной из первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, действия, которое должно выполняться посредством электронного устройства; выполнение, посредством электронного устройства, действия.
[0012] В некоторых неограничивающих вариантах осуществления способа, первая обученная модель на основе сценариев и вторые модели на основе сценариев представляют собой часть множества обученных моделей на основе сценариев, причем каждая из множества обученных моделей на основе сценариев обучается с использованием по меньшей мере частично различающегося корпуса текста.
[0013] В некоторых неограничивающих вариантах осуществления способа по меньшей мере частично отличающийся корпус текста выбран на основе намерения ассоциированной одной из множества обученных моделей на основе сценариев.
[0014] В некоторых неограничивающих вариантах осуществления способа, обработка гипотезы по текстовому представлению для того, чтобы формировать первую гипотезу по сценарию и вторую гипотезу по сценарию, выполняется без инициирования электронного устройства с возможностью выполнять действие.
[0015] В некоторых неограничивающих вариантах осуществления способа, обработка гипотезы по текстовому представлению для того, чтобы формировать первую гипотезу по сценарию и вторую гипотезу по сценарию, выполняется посредством отправки гипотезы по текстовому представлению в первую модель на основе сценариев обученной модели и вторую обученную модель на основе сценариев и приема первой гипотезы по сценарию и второй гипотезы по сценарию в ответ на это.
[0016] В некоторых неограничивающих вариантах осуществления способа, прием данных одной из первой гипотезы по сценарию и второй гипотезы по сценарию содержит прием одного из следующего: отклик на основе ответов; согласованный отклик; и отложенный отклик.
[0017] В некоторых неограничивающих вариантах осуществления способа, в ответ на ассоциирование победного сценария с откликом на основе ответов, выполнение действия содержит предоставление отклика на основе ответов пользователю.
[0018] В некоторых неограничивающих вариантах осуществления способа, предоставление отклика на основе ответов содержит предоставление по меньшей мере одного из аудио, представляющего отклик на основе ответов, и графического представления отклика на основе ответов.
[0019] В некоторых неограничивающих вариантах осуществления способа, в ответ на ассоциирование победного сценария с одним из согласованного отклика и отложенного отклика, определение действия содержит повторную отправку гипотезы по текстовому представлению в ассоциированную одну из первой обученной модели на основе сценариев и второй обученной модели на основе сценариев.
[0020] В некоторых неограничивающих вариантах осуществления способа, в ответ на ассоциирование победного сценария с одним из согласованного отклика и отложенного отклика, определение действия содержит отправку ассоциированной одной из первой гипотезы по сценарию и второй гипотезы по сценарию, которая представляет собой победный сценарий, в ассоциированную одну из первой обученной модели на основе сценариев и второй обученной модели на основе сценариев.
[0021] В некоторых неограничивающих вариантах осуществления способа, выполнение действия содержит инициирование приложения, выполняемого посредством электронного устройства.
[0022] В некоторых неограничивающих вариантах осуществления способа, дополнительно содержит предоставление для пользователя индикатора действия, которое должно выполняться посредством приложения.
[0023] В некоторых неограничивающих вариантах осуществления способа, приложение выполнено с возможностью выполнять побочную электронную услугу.
[0024] В некоторых неограничивающих вариантах осуществления способа, приложение выполнено с возможностью инициировать работу внешнего электронного устройства.
[0025] В некоторых неограничивающих вариантах осуществления способа, выполнение действия выполняется в ответ на предоставление, пользователем, подтверждения действия.
[0026] В некоторых неограничивающих вариантах осуществления способа, MLA представляет собой классификатор.
[0027] В некоторых неограничивающих вариантах осуществления способа, дополнительно содержит обучение MLA.
[0028] В некоторых неограничивающих вариантах осуществления способа, обучение MLA содержит: формирование обучающего набора, включающего в себя обучающий объект и метку; причем обучающий объект включает в себя сценарий обучения; причем метка включает в себя параметр пригодности для каждой из первой обученной модели на основе сценариев и второй модели на основе сценариев, причем параметр пригодности указывает пригодность соответствующей одной из первой обученной модели на основе сценариев и второй модели на основе сценариев для обработки сценария обучения.
[0029] В некоторых неограничивающих вариантах осуществления способа, способ дополнительно содержит прием индикатора относительно метки от человека-оценщика.
[0030] В некоторых неограничивающих вариантах осуществления способа, электронное устройство содержит интеллектуальный динамик.
[0031] В некоторых неограничивающих вариантах осуществления способа, пользовательский разговорный речевой фрагмент выражается на естественном языке.
[0032] В некоторых неограничивающих вариантах осуществления способа, формирование, посредством электронного устройства, гипотезы по текстовому представлению на основе пользовательского разговорного речевого фрагмента содержит выполнение алгоритма обработки естественного языка (NLP).
[0033] В некоторых неограничивающих вариантах осуществления способа, победный сценарий представляет собой множество победных сценариев, и при этом действие представляет собой множество действий.
[0034] В некоторых неограничивающих вариантах осуществления способа, выполнение действия содержит выполнение множества действий практически одновременно.
[0035] В некоторых неограничивающих вариантах осуществления способа, выполнение действия содержит выполнение множества действий друг за другом.
[0036] В некоторых неограничивающих вариантах осуществления способа, выполнение множества действий содержит инициирование работы одного или более внешних электронных устройств.
[0037] В некоторых неограничивающих вариантах осуществления способа, одно или более внешних электронных устройств представляют собой одно или более соединенных бытовых электронных устройств.
[0038] В соответствии с другим широким аспектом настоящей технологии, раскрывается система для обработки пользовательского разговорного речевого фрагмента, причем система содержит электронное устройство, причем электронное устройство содержит процессор, выполненный с возможностью: принимать индикатор пользовательского разговорного речевого фрагмента от пользователя; формировать гипотезу по текстовому представлению на основе пользовательского разговорного речевого фрагмента; обрабатывать, с использованием первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, гипотезу по текстовому представлению для того, чтобы формировать первую гипотезу по сценарию и вторую гипотезу по сценарию, соответственно; причем первая обученная модель на основе сценариев и вторая обученная модель на основе сценариев обучаются с использованием по меньшей мере частично различающегося корпуса текстов; анализировать, с использованием алгоритма машинного обучения (MLA), первую гипотезу по сценарию и вторую гипотезу по сценарию для того, чтобы определять победный сценарий, имеющий более высокий количественный показатель доверия; на основе победного сценария, определять, посредством ассоциированной одной из первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, действие, которое должно выполняться посредством электронного устройства; выполнять действие.
[0039] В контексте настоящего описания изобретения, "сервер" представляет собой компьютерную программу, которая выполняется на соответствующих аппаратных средствах и допускает прием запросов (например, из клиентских устройств) по сети и выполнение этих запросов либо инструктирование выполнения этих запросов. Аппаратные средства могут представлять собой один физический компьютер или одну физическую компьютерную систему, но ни одно из означенного не должно обязательно иметь место относительно настоящей технологии. В настоящем контексте, использование выражения "сервер" не имеет намерение означать то, что каждая задача (например, принимаемые инструкции или запросы) или любая конкретная задача должна приниматься, выполняться или инструктироваться для выполнения посредством идентичного сервера (т.е. идентичного программного обеспечения и/или аппаратных средств); оно имеет намерение означать то, что любое число программных элементов или аппаратных устройств может быть предусмотрено при приеме/отправке, выполнении или инструктировании для выполнения любой задачи или запроса либо результатов любой задачи или запроса; и все это программное обеспечение и аппаратные средства могут представлять собой один сервер либо несколько серверов, причем все из означенного включается в выражение "по меньшей мере один сервер".
[0040] В контексте настоящего описания изобретения, "клиентское устройство" представляет собой любые компьютерные аппаратные средства, которые допускают выполнение программного обеспечения, соответствующего рассматриваемой релевантной задаче. Таким образом, некоторые (неограничивающие) примеры клиентских устройств включают в себя персональные компьютеры (настольные компьютеры, переносные компьютеры, нетбуки и т.д.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что устройство, выступающее в качестве клиентского устройства в настоящем контексте, не исключается из выступания в качестве сервера для других клиентских устройств. Использование выражения "клиентское устройство" не исключает использование нескольких клиентских устройств при приеме/отправке, выполнении или инструктировании для выполнения любой задачи или запроса либо результатов любой задачи или запроса, или этапов любого способа, описанного в данном документе.
[0041] В контексте настоящего описания изобретения, "база данных" представляет собой любую структурированную совокупность данных, независимо от ее конкретной структуры, программного обеспечения управления базами данных или компьютерных аппаратных средств, на которых данные сохраняются, реализуются или становятся доступными иными способами для использования. База данных может постоянно размещаться в идентичных аппаратных средствах с процессом, который сохраняет или использует информацию, сохраненную в базе данных, либо она может постоянно размещаться в отдельных аппаратных средствах, таких как выделенный сервер или множество серверов.
[0042] В контексте настоящего описания изобретения, выражение "информация" включает в себя информацию вообще любого характера или вида, допускающую сохранение в базе данных. Таким образом, информация включает в себя, но не только, аудиовизуальные произведения (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные местоположения, числовые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы, списки слов и т.д.
[0043] В контексте настоящего описания изобретения, выражение "компонент" имеет намерение включать в себя программное обеспечение (соответствующее конкретному аппаратному контексту), которое является необходимым и достаточным для того, чтобы осуществлять конкретную упоминаемую функцию(и).
[0044] В контексте настоящего описания изобретения, выражение "компьютерно-используемый носитель хранения информации" имеет намерение включать в себя носители вообще любого характера и вида, в том числе RAM, ROM, диски (CD-ROM, DVD, гибкие диски, накопители на жестких дисках и т.д.), флэш-накопители, полупроводниковые накопители, накопители на ленте и т.д.
[0045] В контексте настоящего описания изобретения, слова "первый", "второй", "третий" и т.д. использованы в качестве прилагательных только для целей обеспечения различения существительных, которые они модифицируют, друг от друга, а не для целей описания конкретных взаимосвязей между этими существительными. Таким образом, например, следует понимать, что использование терминов "первый сервер " и "третий сервер" не имеет намерение подразумевать конкретный порядок, тип, хронологию, иерархию или ранжирование (например) относительно сервера, и их использование не имеет намерение (непосредственно) подразумевать то, что "второй сервер" должен обязательно существовать в любой данной ситуации. Дополнительно, как пояснено в данном документе в других контекстах, ссылка на "первый" элемент и "второй" элемент не исключает того, что два элемента представляют собой идентичный фактический элемент реального мира. Таким образом, например, в некоторых случаях, "первый" сервер и "второй" сервер могут представлять собой идентичное программное обеспечение и/или аппаратные средства, в других случаях они могут представлять собой различное программное обеспечение и/или аппаратные средства.
[0046] Реализации настоящей технологии имеют по меньшей мере одну из вышеуказанных целей и/или аспектов, но не обязательно имеют все из них. Следует понимать, что некоторые аспекты настоящей технологии, которые получены в результате попытки достигать вышеуказанной цели, могут не удовлетворять этой цели и/или могут удовлетворять другим целям, не изложенным конкретно в данном документе.
[0047] Дополнительные и/или альтернативные признаки, аспекты и преимущества реализаций настоящей технологии должны становиться очевидными из нижеприведенного описания, прилагаемых чертежей и прилагаемой формулы изобретения.
Краткое описание чертежей
[0048] Для лучшего понимания настоящей технологии, а также других ее аспектов и дополнительных признаков, следует обратиться к нижеприведенному описанию, которое должно использоваться вместе с прилагаемыми чертежами, на которых:
[0049] Фиг. 1 иллюстрирует принципиальную схему системы, реализованной в соответствии с неограничивающими вариантами осуществления настоящей технологии.
[0050] Фиг. 2 иллюстрирует примерный процесс для определения отклика на пользовательский разговорный речевой фрагмент.
[0051] Фиг. 3 иллюстрирует примерный процесс для формирования гипотезы по сценарию, выполняемый в качестве части процесса по фиг. 2.
[0052] Фиг. 4 приводит схематичную иллюстрацию процесса обучения алгоритма машинного обучения, выполняемого до процесса по фиг. 2.
[0053] Фиг. 5 иллюстрирует таблицу набора количественных показателей доверия, сформированных в качестве части процесса по фиг. 2.
[0054] Фиг. 6 иллюстрирует блок-схему последовательности операций способа для обработки пользовательского разговорного речевого фрагмента.
Подробное описание изобретения
[0055] Обращаясь к фиг. 1, увидим, что показывается принципиальная схема системы 100, причем система 100 является подходящей для реализации неограничивающих вариантов осуществления настоящей технологии. Следует четко понимать, что система 100 проиллюстрирована просто в качестве иллюстративной реализации настоящей технологии. Таким образом, ее описание, которое приводится ниже, имеет намерение представлять собой только описание иллюстративных примеров настоящей технологии. Это описание не имеет намерение задавать объем или излагать ограничения настоящей технологии. В некоторых случаях, ниже также может быть изложено то, что считается полезными примерами модификаций системы 100. Это осуществляется просто в качестве помощи в понимании и, кроме того, не должно не задавать объем или излагать ограничения настоящей технологии. Эти модификации не представляют собой полный список, и специалисты в данной области техники должны понимать, что вероятно, возможны другие модификации. Дополнительно, если это не осуществлено (т.е. если примеры модификаций не изложены), не следует интерпретировать это таким образом, что модификации невозможны, и/или таким образом, что то, что описывается, представляет собой единственный способ реализации этого элемента настоящей технологии. Специалисты в данной области техники должны понимать, что это с большой вероятностью не должно иметь место. Помимо этого, следует понимать, что система 100 может предоставлять в определенных случаях простые реализации настоящей технологии, и что, если это имеет место, они представлены таким способом для помощи в понимании. Специалисты в данной области техники должны понимать, что различные реализации настоящей технологии могут иметь большую сложность.
[0056] Примеры и условный язык, изложенный в данном документе, преимущественно имеют намерение помогать читателю в понимании принципов настоящей технологии, а не ограничивать ее объем такими конкретно изложенными примерами и условиями. Следует принимать во внимание, что специалисты в данной области техники могут разрабатывать различные компоновки, которые, хотя и не описаны или показаны явно в данном документе, тем не менее, осуществляют принципы настоящей технологии и включаются в пределы ее сущности и объема. Кроме того, в качестве помощи в понимании, нижеприведенное описание может описывать относительно упрощенные реализации настоящей технологии. Специалисты в данной области техники должны понимать, что различные реализации настоящей технологии могут иметь большую сложность.
[0057] Кроме того, все утверждения в данном документе, излагающие принципы, аспекты и реализации настоящей технологии, а также их конкретные примеры, имеют намерение охватывать их конструктивные и функциональные эквиваленты независимо от того, являются они известными в настоящее время или разрабатываются в будущем. Таким образом, например, специалисты в данной области техники должны признавать, что блок-схемы в данном документе представляют концептуальные виды иллюстративной схемы, осуществляющей принципы настоящей технологии. Аналогично, следует принимать во внимание, что все блок-схемы последовательности операций, блок-схемы, схемы переходов состояния, псевдокод и т.п. представляют различные процессы, которые могут представляться большей частью на компьютерно-читаемых носителях, и в силу этого выполняются посредством компьютера или процессора, независимо от того, показан или нет в явной форме такой компьютер или процессор.
[0058] Функции различных элементов, показанных на чертежах, включающих в себя все функциональные блоки, помеченные как "процессор", могут предоставляться с помощью специализированных аппаратных средств, а также аппаратных средств, допускающих выполнение программного обеспечения, в ассоциации с надлежащим программным обеспечением. При предоставлении посредством процессора, функции могут предоставляться посредством одного специализированного процессора, посредством одного совместно используемого процессора или посредством множества отдельных процессоров, некоторые из которых могут совместно использоваться. В некоторых неограничивающих вариантах осуществления настоящей технологии, процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), либо процессор, выделенный для конкретной цели, такой как графический процессор (GPU). Кроме того, явное использование термина "процессор" или "контроллер" не должно истолковываться как означающее исключительно аппаратные средства, допускающие выполнение программного обеспечения, и может неявно включать в себя, без ограничений, аппаратные средства процессора цифровых сигналов (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую пользователем вентильную матрицу (FPGA), постоянное запоминающее устройство (ROM) для сохранения программного обеспечения, оперативное запоминающее устройство (RAM) и энергонезависимое устройство хранения. Также могут быть включены другие аппаратные средства, традиционные и/или специализированные.
[0059] С учетом этих основных принципов, далее рассматриваются некоторые неограничивающие примеры, чтобы иллюстрировать различные реализации аспектов настоящей технологии.
[0060] Система 100 содержит электронное устройство 102. Электронное устройство 102 ассоциировано с пользователем 101 и, по сути, может иногда упоминаться как "клиентское устройство". Следует отметить, что тот факт, что электронное устройство 102 ассоциировано с пользователем 101, не означает предложения или подразумевания какого-либо режима работы, такого как потребность входить в учетную запись, потребность регистрироваться и т.п.
[0061] В контексте настоящего описания изобретения, если явно не указано иное, "электронное устройство" представляет собой любые компьютерные аппаратные средства, которые допускают выполнение программного обеспечения, соответствующего рассматриваемой релевантной задаче. Таким образом, некоторые (неограничивающие) примеры электронных устройств включают в себя персональные компьютеры (настольные компьютеры, переносные компьютеры, нетбуки и т.д.), смартфоны, планшетные компьютеры и интеллектуальные динамики (такие как, например, Yandex.Station™, предоставленные компанией Yandex LLC, зарегистрированной по адресу улица Льва Толстого, № 16, Москва, 119021, Россия). Следует отметить, что устройство, выступающее в качестве электронного устройства в настоящем контексте, не исключается из выступания в качестве сервера для других электронных устройств. Использование выражения "электронное устройство" не исключает использование нескольких клиентских устройств при приеме/отправке, выполнении или инструктировании для выполнения любой задачи или запроса либо результатов любой задачи или запроса, или этапов любого способа, описанного в данном документе.
[0062] Электронное устройство 102 содержит устройство 104 долговременного хранения данных. Устройство 104 долговременного хранения данных может охватывать один или более носителей хранения данных и, в общем, предоставляет место для того, чтобы сохранять компьютерно-исполняемые инструкции, выполняемые посредством процессора 106. В качестве примера, устройство 104 долговременного хранения данных может реализовываться как компьютерно-читаемый носитель хранения данных, включающий в себя постоянное запоминающее устройство (ROM), жесткие диски (HDD), полупроводниковые накопители (SSD) и карты флэш-памяти.
[0063] Электронное устройство 102 содержит аппаратные средства и/или программное обеспечение, и/или микропрограммное обеспечение (либо комбинацию вышеозначенного) для того, чтобы выполнять приложение 108 виртуального помощника. Вообще говоря, приложение 108 виртуального помощника допускает активацию громкой связи в ответ на одно или более "горячих слов" (также известных как "инициирующие слова") и может выполнять задачи или услуги в ответ на команду, принимаемую пользователем 101. Например, приложение 108 виртуального помощника может реализовываться как цифровой помощник "Алиса" (предоставленный компанией Yandex LLC, зарегистрированной по адресу улица Льва Толстого, № 16, Москва, 119021, Россия) на смартфоне либо другие коммерческие или собственные приложения виртуального помощника. В связи с этим, электронное устройство 102 может принимать команду через микрофон 110, реализованный в электронном устройстве 102. В некоторых неограничивающих вариантах осуществления настоящей технологии, микрофон 110 представляет собой автономное устройство, функционально соединенное с электронным устройством 102.
[0064] Вообще говоря, приложение 108 виртуального помощника содержит (или иным способом имеет доступ к) аналого-цифровой преобразователь (не показан), выполненный с возможностью преобразовывать команду, в форме аналогового сигнала, принимаемого посредством микрофона 110 от пользователя 101, в цифровой сигнал.
[0065] Электронное устройство 102 дополнительно содержит аппаратные средства и/или программное обеспечение, и/или микропрограммное обеспечение (либо комбинацию вышеозначенного) для того, чтобы выполнять одно или более приложений 112 предоставления услуг. Вообще говоря, одно или более приложений 112 предоставления услуг соответствуют электронным приложениям, доступным посредством электронного устройства 102. В некоторых неограничивающих вариантах осуществления настоящей технологии, одно или более приложений 112 предоставления услуг содержат по меньшей мере одно приложение предоставления услуг (без номера), которое управляется посредством идентичного объекта, который предоставляет вышеописанное приложение 108 виртуального помощника. Например, если приложение 108 виртуального помощника представляет собой цифрового помощника "Алиса", одно или более приложений 112 предоставления услуг могут включать в себя приложение веб-браузера Yandex.Browser™, новостное приложение Yandex.News™, рыночное приложение Yandex.News™ и т.п. Разумеется, одно или более приложений 112 предоставления услуг также могут включать в себя приложения предоставления услуг, которые не управляются посредством идентичного объекта, который предоставляет вышеуказанное приложение 108 виртуального помощника, и могут содержать, например, приложения для средств социального общения, такие как приложение для средств социального общения Vkontakte™, и приложение для потоковой передачи музыки, такое как приложение для потоковой передачи музыки Spotify™. В некоторых неограничивающих вариантах осуществления настоящей технологии, одно или более приложений 112 предоставления услуг могут включать в себя побочную электронную услугу, такую как приложение для диалогов (такое как Yandex.Dialogs™), приложение для заказа такси, приложение для заказа еды и т.п. В некоторых неограничивающих вариантах осуществления настоящей технологии, одно или более приложений 112 предоставления услуг могут быть ассоциированы с одним или более электронных устройств, связанных с электронным устройством 102 (описаны подробнее ниже).
[0066] В некоторых неограничивающих вариантах осуществления настоящей технологии, электронное устройство 102 реализуется как интеллектуальное устройство, такое как Yandex.Station™. При реализации в качестве интеллектуального устройства, предполагается, что клиентское устройство, такое как смартфон (не проиллюстрирован), ассоциированное с пользователем 101, синхронизируется с электронным устройством 102.
[0067] Электронное устройство 102 содержит интерфейс связи (не проиллюстрирован) для обеспечения возможности двусторонней связи с сетью 116 связи через линию 118 связи. В некоторых неограничивающих вариантах осуществления настоящей технологии, сеть 116 связи может реализовываться как Интернет. В других вариантах осуществления настоящей технологии, сеть 116 связи может реализовываться по-другому, к примеру, как любая глобальная сеть связи, локальная сеть связи, частная сеть связи и т.п.
[0068] То, как реализуется линия 118 связи, не ограничено конкретным образом и зависит от того, как реализуется электронное устройство 102. Просто в качестве примера, а не в качестве ограничения, в тех вариантах осуществления настоящей технологии, в которых электронное устройство 102 реализуется как устройство беспроводной связи (такое как смартфон), линия 118 связи может реализовываться как линия беспроводной связи (к примеру, но не только, как сетевая 3G-линия связи, сетевая 4G-линия связи, стандарт высококачественной беспроводной связи или WiFi®, для краткости, Bluetooth® и т.п.) или проводная (к примеру, как Ethernet-соединение).
[0069] Следует четко понимать, что реализации для электронного устройства 102, линии 118 связи и сети 116 связи предоставляются только в качестве иллюстрации. В связи с этим, специалисты в данной области техники должны легко принимать во внимание другие конкретные подробности реализации подробности реализации для электронного устройства 102, линии 118 связи и сети 116 связи. В связи с этим, никоим образом примеры, предоставленные выше, не предназначены для того, чтобы ограничивать объем настоящей технологии.
[0070] Система 100 дополнительно включает в себя сервер 120, соединенный с сетью 116 связи. Сервер 120 может реализовываться как компьютер-сервер. В примере варианта осуществления настоящей технологии, сервер 120 может реализовываться как сервер Dell™ PowerEdge™, работающий под управлением операционной системы Microsoft™ Windows Server™. Разумеется, сервер 120 может реализовываться в любых других подходящих аппаратных средствах и/или программном обеспечении, и/или микропрограммном обеспечении либо в комбинации вышеозначенного. В проиллюстрированном неограничивающем варианте осуществления настоящей технологии, сервер 120 представляет собой один сервер. В альтернативных неограничивающих вариантах осуществления настоящей технологии, функциональность сервера 120 может распределяться и может реализовываться через несколько серверов.
[0071] Сервер 120 содержит интерфейс связи (не проиллюстрирован), структурированный и выполненный с возможностью обмениваться данными с различными объектами (такими как электронное устройство 102 и другие устройства, потенциально соединенные с сетью 116 связи) через сеть 116 связи. Сервер 120 содержит серверное запоминающее устройство 122, которое содержит один или более носителей хранения данных и, в общем, предоставляет место для того, чтобы сохранять компьютерно-исполняемые программные инструкции, выполняемые посредством серверного процессора 124. В качестве примера, серверное запоминающее устройство 122 может реализовываться как материальный компьютерно-читаемый носитель хранения данных, включающий в себя постоянное запоминающее устройство (ROM) и/или оперативное запоминающее устройство (RAM). Серверное запоминающее устройство 122 также может включать в себя одно или более стационарных устройств хранения данных в форме, в качестве примера, жестких дисков (HDD), полупроводниковых накопителей (SSD) и карт флэш-памяти.
[0072] В некоторых неограничивающих вариантах осуществления настоящей технологии, сервер 120 может управляться посредством идентичного объекта, который предоставляет вышеописанное приложение 108 виртуального помощника. Например, если приложение 108 виртуального помощника представляет собой цифрового помощника "Алиса", сервер 120 также может управляться компанией Yandex LLC, зарегистрированной по адресу улица Льва Толстого, № 16, Москва, 119021, Россия. В альтернативных вариантах осуществления, сервер 120 может управляться посредством объекта, отличающегося от объекта, который предоставляет вышеуказанное приложение 108 виртуального помощника.
[0073] В некоторых неограничивающих вариантах осуществления настоящей технологии, сервер 120 выполнен с возможностью выполнять приложение 126 для автоматизированного распознавания речи ("ASR-приложение 126" для краткости). Ниже подробно описывается способ, которым реализуется ASR-приложение 126.
[0074] В некоторых неограничивающих вариантах осуществления настоящей технологии, система 100 дополнительно включает в себя второе электронное устройство 128, соединенное с сетью 116 связи. В некоторых неограничивающих вариантах осуществления настоящей технологии, второе электронное устройство 128 представляет собой соединенное бытовое устройство, такое как телевизионный приемник, светильник, стереосистема и т.п., выполненное с возможностью выполнять инструкцию, принимаемую посредством электронного устройства 102. В связи с этим, предполагается, что второе электронное устройство 128 поддерживать прямую связь с электронным устройством 102 без соединения с сетью 116 связи.
ASR-приложение 126
[0075] Обратившись к фиг. 2, увидим, что приведена схематичная иллюстрация ASR-приложения 126, реализованного в соответствии с неограничивающим вариантом осуществления настоящей технологии. ASR-приложение 126 выполняет (или иным образом имеет доступ к): стандартную процедуру 202 приема, стандартную процедуру 204 формирования гипотез и стандартную процедуру 206 ранжирования.
[0076] В контексте настоящего описания изобретения, термин "стандартная процедура" означает поднабор компьютерно-исполняемых программных инструкций ASR-приложения 126, который выполняется посредством серверного процессора 124, чтобы выполнять функции, поясненные ниже в ассоциации с различными стандартными процедурами (стандартной процедурой 202 приема, стандартной процедурой 204 формирования гипотез и стандартной процедурой 206 ранжирования). Для исключения сомнений, следует четко понимать, что стандартная процедура 202 приема, стандартная процедура 204 формирования гипотез и стандартная процедура 206 ранжирования проиллюстрированы схематично в данном документе в качестве отдельных объектов для простоты пояснения процессов, выполняемых посредством ASR-приложения 126. Предполагается, что часть или все из стандартной процедуры 202 приема, стандартной процедуры 204 формирования гипотез и стандартной процедуры 206 ранжирования могут реализовываться как одна или более комбинированных стандартных процедур.
[0077] Для простоты понимания настоящей технологии, ниже описывается функциональность каждой из стандартной процедуры 202 приема, стандартной процедуры 204 формирования гипотез, стандартной процедуры 206 ранжирования и стандартной процедуры 208 вывода, а также данных и/или информации, обработанной или сохраненной в них.
Стандартная процедура 202 приема
[0078] Стандартная процедура 202 приема выполнена с возможностью принимать пакет 210 данных из приложения 108 виртуального помощника. Например, пакет 210 данных содержит речевой фрагмент 212 пользователя 101, выражаемый на естественном языке.
[0079] Способ, которым который пакет 210 данных передается посредством приложения 108 виртуального помощника, не ограничен и, например, может выполняться в ответ на произнесение, пользователем 101, команды для приложения 108 виртуального помощника. Другими словами, приложение 108 виртуального помощника может находиться в режиме "всегда слушать" или может "пробуждаться" в ответ на предварительно определенный пользовательский разговорный речевой фрагмент. Речевой фрагмент 212 передается как цифровой сигнал, после преобразования из аналогового сигнала через аналого-цифровой преобразователь.
[0080] В некоторых неограничивающих вариантах осуществления настоящей технологии, стандартная процедура 202 приема выполнена с возможностью выполнять алгоритм 214 обработки естественного языка (NLP). То, как реализуется NLP-алгоритм 214, не ограничено. Например, NLP-алгоритм 214 может быть основан на латентно-семантическом анализе (LSA), вероятностном латентно-семантическом анализе (pLSA), Word2vec, глобальных векторах для представления в форме слов (GloVe) или латентном размещении Дирихле (LDA).
[0081] В ответ на прием пакета 210 данных, стандартная процедура 202 приема выполнена с возможностью выполнять NLP-алгоритм 214, чтобы формировать гипотезу 216 по текстовому представлению речевого фрагмента 212. Стандартная процедура 202 приема затем выполнена с возможностью передавать пакет 218 данных в стандартную процедуру 204 формирования гипотез. Пакет 218 данных содержит гипотезу 216 по текстовому представлению.
Стандартная процедура 204 формирования гипотез
[0082] В ответ на прием пакета 218 данных, стандартная процедура 204 формирования гипотез выполнена с возможностью выполнять следующие функции.
[0083] Во-первых, стандартная процедура 204 формирования гипотез выполнена с возможностью вводить гипотезу 216 по текстовому представлению во множество моделей 220 на основе сценариев, которые содержат по меньшей мере первую модель 222 на основе сценариев, вторую модель 224 на основе сценариев и третью модель 226 на основе сценариев. Разумеется, множество моделей 220 на основе сценариев могут включать в себя более трех моделей на основе сценариев или только две модели на основе сценариев.
[0084] В некоторых неограничивающих вариантах осуществления настоящей технологии, каждая из первой модели 222 на основе сценариев, второй модели 224 на основе сценариев и третьей модели 226 на основе сценариев выполнена с возможностью анализировать гипотезу 216 по текстовому представлению и заполнять одно или более полей конкретного сценария одним или более слов в гипотезе 216 по текстовому представлению. Более точно, стандартная процедура 204 формирования гипотез выполнена с возможностью идентифицировать любые связанные с действием слова конкретной темы или намерения в гипотезе 216 по текстовому представлению и формировать соответствующую гипотезу по сценарию (подробно описывается ниже).
[0085] Например, первая модель 222 на основе сценариев может быть ассоциирована с одним или более полей для ключевого слова, ассоциированных с командами транспортировки. В связи с этим, первая модель 222 на основе сценариев выполнена с возможностью идентифицировать и заполнять одно или более полей для ключевого слова одним или более слов в гипотезе 216 по текстовому представлению. Например, одно или более полей для ключевого слова, ассоциированных с командами транспортировки, могут включать в себя "в", "из", "вызов", и первая модель 222 на основе сценариев выполнены с возможностью идентифицировать одно или более слов в гипотезе 216 по текстовому представлению, которая семантически ассоциирована с одним или более полей для ключевого слова. То, как первая модель 222 на основе сценариев выполнена с возможностью идентифицировать и заполнять одно или более полей для ключевого слова, не ограничено. Например, первая модель 222 на основе сценариев обучается с использованием корпуса текста, ассоциированного с конкретным намерением, а именно, первого корпуса текста, содержащего связанные с транспортировкой ключевые слова для каждого из одного или более полей для ключевого слова.
[0086] В другом примере, вторая модель 224 на основе сценариев может быть ассоциирована с одним или более полей для ключевого слова, ассоциированных с связанными с бытовыми приборами командами. Например, при условии, что второе электронное устройство 128 (см. фиг. 1) представляет собой интеллектуальный светильник, который синхронизируется с электронным устройством 102, вторая модель 224 на основе сценариев ассоциирована с одним или более полей для ключевого слова, ассоциированных со связанными с интеллектуальным светильником командами. Одно или более полей для ключевого слова, ассоциированных со связанными с интеллектуальным светильником командами, могут включать в себя "действие" и "субъект", и вторая модель 224 на основе сценариев выполнена с возможностью идентифицировать одно или более слов в гипотезе 216 по текстовому представлению, которая семантически ассоциирована. То, как вторая модель 224 на основе сценариев выполнена с возможностью идентифицировать и заполнять одно или более полей для ключевого слова, не ограничено. Например, вторая модель 224 на основе сценариев обучается с использованием корпуса текста, ассоциированного с конкретным намерением, а именно, второго корпуса текста, содержащего связанные с интеллектуальным светильником ключевые слова для каждого из одного или более полей для ключевого слова.
[0087] Аналогично, третья модель 226 на основе сценариев может быть ассоциирована с одним или более полей для ключевого слова, ассоциированных со связанными музыкой командами. В связи с этим, третья модель 226 на основе сценариев выполнена с возможностью идентифицировать и заполнять одно или более полей для ключевого слова одним или более слов в гипотезе 216 по текстовому представлению. Например, одно или более полей для ключевого слова, ассоциированных со связанными с музыкой командами, могут включать в себя "действие" и "субъект", и третья модель 226 на основе сценариев выполнена с возможностью идентифицировать одно или более слов в гипотезе 216 по текстовому представлению, которая семантически ассоциирована с одним или более полей для ключевого слова. То, как третья модель 226 на основе сценариев выполнена с возможностью идентифицировать и заполнять одно или более полей для ключевого слова, не ограничено. Например, третья модель 226 на основе сценариев обучается с использованием корпуса текста, ассоциированного с конкретным намерением, а именно, третьего корпуса текста, содержащего связанные с музыкой ключевые слова для каждого из одного или более полей для ключевого слова.
[0088] Обращаясь к фиг. 3, увидим, что приведена схематичная иллюстрация процесса для того, чтобы формировать гипотезу по сценарию.
[0089] Допустим, например, то, что гипотеза 216 по текстовому представлению соответствует "Вызови такси в аэропорт и приглуши свет".
[0090] Гипотеза 216 по текстовому представлению передается в первую модель 222 на основе сценариев, вторую модель 224 на основе сценариев и третью модель 226 на основе сценариев.
[0091] В некоторых неограничивающих вариантах осуществления настоящей технологии, в ответ на прием гипотезы 216 по текстовому представлению, каждая из первой модели 222 на основе сценариев, второй модели 224 на основе сценариев и третьей модели 226 на основе сценариев выполнена с возможностью формировать соответствующую гипотезу по сценарию (подробнее поясняется ниже). В некоторых неограничивающих вариантах осуществления настоящей технологии, гипотеза по сценарию может соответствовать одному из следующего: (i) отклик на основе ответов; (ii) согласованный отклик; (iii) отложенный отклик; и (iv) нулевой отклик.
[0092] Например, отклик на основе ответов может соответствовать идентификации оповещения, которое должно осуществляться посредством электронного устройства 102, которое содержит отклик на вопрос, содержащийся в гипотезе 216 по текстовому представлению. Например, если гипотеза 216 по текстовому представлению включает в себя запрос "Какая сегодня погода" вместо "Вызови такси в аэропорт и приглуши свет", пример отклика на основе ответов может соответствовать идентификации, посредством электронного устройства 102, погоды без фактического инициирования электронного устройства 102 с возможностью оповещать ее.
[0093] С другой стороны, согласованный отклик может соответствовать выполнению действия, ассоциированного с гипотезой 216 по текстовому представлению. Действие может представлять собой воспроизведение песни, включение приложения, заказ такси, включение света, выключение телевизионного приемника и т.п. В некоторых вариантах осуществления настоящей технологии, выполнение действия дополнительно может включать в себя формирование оповещения посредством электронного устройства 102 в отношении того, что оно должно выполнять конкретное действие, перед выполнением действия. Следует отметить, что на этой стадии процесса, согласованный отклик включает в себя индикатор действия, которое должно выполняться, но без фактического инициирования электронного устройства 102 с возможностью выполнять действие (подробнее описывается ниже).
[0094] Отложенный отклик может формироваться, когда обработка гипотезы 216 по текстовому представлению не может завершаться без запуска побочного приложения. Например, если гипотеза 216 по текстовому представлению включает в себя "Как твои дела, Алиса™?" вместо "Вызови такси в аэропорт и приглуши свет", отложенный отклик может соответствовать запуску побочного приложения (такого как Yandex.Dialog™) и обработке гипотезы 216 по текстовому представлению.
[0095] В завершение, нулевой отклик может соответствовать идентификации того, что гипотеза 216 по текстовому представлению не может обрабатываться посредством данной модели на основе сценариев.
[0096] Теперь, в ответ на прием гипотезы 216 по текстовому представлению, первая модель 222 на основе сценариев выполнена с возможностью анализировать гипотезу 216 по текстовому представлению и заполнять одно или более полей для ключевого слова, ассоциированных с командами транспортировки. Допустим, что первая модель 222 на основе сценариев заполняет одно или более полей для ключевого слова следующим образом: "в - аэропорт", "вызови - такси". В некоторых неограничивающих вариантах осуществления настоящей технологии, первая модель 222 на основе сценариев может быть выполнена с возможностью заполнять одно или более полей для ключевого слова на основе периферийной информации (т.е. информации, не содержащаяся в гипотезе 216 по текстовому представлению, но которая ассоциирована с пользователем 101 или электронным устройством 102). Например, первая модель 222 на основе сценариев может быть выполнена с возможностью заполнять поле для ключевого слова "из" с текущим местоположением пользователя 101.
[0097] Первая модель 222 на основе сценариев затем выполнена с возможностью формировать первую гипотезу 302 по сценарию посредством анализа заполненных одного или более полей для ключевого слова. В некоторых неограничивающих вариантах осуществления настоящей технологии, первая гипотеза 302 по сценарию соответствует выполнению согласованного отклика, который соответствует оповещению посредством электронного устройства 102 того, что оно должно заказать такси из текущего местоположения в аэропорт, но без фактического инициирования электронного устройства 102 с возможностью заказывать такси.
[0098] В ответ на прием гипотезы 216 по текстовому представлению, вторая модель 224 на основе сценариев выполнена с возможностью анализировать гипотезу 216 по текстовому представлению и заполнять одно или более полей для ключевого слова, ассоциированных с командой управления интеллектуальным светильником. Допустим, что вторая модель 224 на основе сценариев заполняет одно или более полей для ключевого слова следующим образом: "действие - приглуши" и "субъект - свет".
[0099] Вторая модель 224 на основе сценариев затем выполнена с возможностью формировать вторую гипотезу 304 по сценарию посредством анализа заполненных одного или боле полей для ключевого слова. Для целей этой технологии допустим, что вторая гипотеза 304 по сценарию соответствует согласованному отклику, который соответствует оповещению посредством электронного устройства 102 того, что оно должно приглушить свет второго электронного устройства 128, но без фактического осуществления этого.
[00100] В ответ на прием гипотезы 216 по текстовому представлению, третья модель 226 на основе сценариев выполнена с возможностью идентифицировать слова в гипотезе 216 по текстовому представлению, которая ассоциирована со связанными с музыкой командами. Допустим, что третья модель 226 на основе сценариев вообще не идентифицирует слова, которые совпадают с ее полями сценария.
[00101] Третья модель 226 на основе сценариев затем выполнена с возможностью формировать третью гипотезу 306 по сценарию на основе отсутствия идентифицированных слов. В некоторых неограничивающих вариантах осуществления настоящей технологии, третья гипотеза 306 по сценарию представляет собой нулевой отклик.
Стандартная процедура 206 ранжирования
[00102] Возвращаясь к фиг. 2, увидим, что стандартная процедура 204 формирования гипотез выполнена с возможностью передавать пакет 228 данных в стандартную процедуру 206 ранжирования. Пакет 228 данных содержит индикатор первой гипотезы 302 по сценарию, второй гипотезы 304 по сценарию и третьей гипотезы 306 по сценарию.
[00103] В ответ на прием пакета 228 данных, стандартная процедура 206 ранжирования выполнена с возможностью выполнять алгоритм 230 машинного обучения (MLA).
[00104] В некоторых неограничивающих вариантах осуществления настоящей технологии, MLA 230 выполнен с возможностью назначать количественный показатель доверия каждой из первой гипотезы 302 по сценарию, второй гипотезы 304 по сценарию и третьей гипотезы 306 по сценарию. В некоторых неограничивающих вариантах осуществления настоящей технологии, количественный показатель доверия указывает правдоподобие того, что каждая из первой гипотезы 302 по сценарию, второй гипотезы 304 по сценарию и третьей гипотезы 306 по сценарию представляет собой корректный отклик на гипотезу 216 по текстовому представлению. Другими словами, MLA 230 выполнен с возможностью выбирать победный сценарий из первой гипотезы по сценарию 302, второй гипотезы 304 по сценарию и третьей гипотезы 306 по сценарию. В определенных неограничивающих вариантах осуществления настоящей технологии, MLA 230 выполнен с возможностью выбирать один победный сценарий из первой гипотезы по сценарию 302, второй гипотезы 304 по сценарию и третьей гипотезы 306 по сценарию. В определенных других неограничивающих вариантах осуществления настоящей технологии MLA 230 выполнен с возможностью выбирать набор победных сценариев из первой гипотезы по сценарию 302, второй гипотезы 304 по сценарию и третьей гипотезы 306 по сценарию. Набор победных сценариев может включать в себя два сценария или любое другое число, предварительно определенное посредством оператора MLA 230.
[00105] Обратившись к фиг. 4, увидим, что проиллюстрирована схема способа для обучения MLA 230.
[00106] Для лучшего понимания базового понятия настоящей технологии, следует понимать, что обучение MLA 230 может широко разделяться на первую фазу и вторую фазу. В первой фазе, формируются входные обучающие данные (поясняются ниже). Во второй фазе, MLA 230 обучается с использованием входных обучающих данных. Кроме того, хотя этапы обучения MLA 230 поясняются как выполняемые посредством стандартной процедуры 206 ранжирования, ограничений на это нет.
[00107] В первой фазе, одна или более обучающих гипотез (первая обучающая гипотеза 402, вторая обучающая гипотеза 404 и третья обучающая гипотеза 406) формируются, в ответ на обучающий речевой фрагмент 408. То, как формируются первая обучающая гипотеза 402, вторая обучающая гипотеза 404 и третья обучающая гипотеза 406, не ограничено, и они могут формироваться аналогично тому, что описано выше, посредством стандартной процедуры 204 формирования гипотез.
[00108] Например, если обучающий речевой фрагмент 408 соответствует "Воспроизведи музыку Мадонны", первая обучающая гипотеза 402 может соответствовать инструкциям для того, чтобы воспроизводить список воспроизведения Мадонны, вторая обучающая гипотеза 404 может соответствовать инструкциям для того, чтобы воспроизводить видео Мадонны, и третья обучающая гипотеза 406 может соответствовать инструкции для того, чтобы осуществлять веб-поиск Мадонны.
[00109] Разумеется, хотя проиллюстрированы только три обучающих гипотезы, ограничений на это нет. Предполагается, что большее или меньшее число обучающих гипотез формируется в ответ на обучающий речевой фрагмент 408.
[00110] Помимо этого, в некоторых неограничивающих вариантах осуществления настоящей технологии, стандартная процедура 206 ранжирования может принимать набор контекстных признаков 409, ассоциированных с обучающим электронным устройством (не показано), из которого принят обучающий речевой фрагмент 408. Только в качестве примера, набор контекстных признаков 409 может включать в себя контекстные признаки обучающего электронного устройства, такие как, например:
- тип приложения, работающего в данный момент и/или доступного в обучающем электронном устройстве;
- текущее состояние обучающего электронного устройства, к примеру, состояние одного или более приложений, работающих в данный момент (такое как уровень громкости и т.п.); и
- состояние любых вторичных электронных устройств, соединенных с обучающим электронным устройством.
[00111] Кроме того, каждой из обучающих гипотез назначается метка 410. Метка 410 указывает корректный отклик на обучающий речевой фрагмент 408 и может вручную вводиться администратором или оценщиком (который, например, может представлять собой краудсорсингового оценщика - «воркера»), контролирующего обучение MLA 230. В контексте неограничивающих вариантов осуществления настоящей технологии, корректный отклик предназначен для того, чтобы обозначать то, какое действие обучающее электронное устройство должно выполнять в ответ на обучающий речевой фрагмент. В этом примере, корректный ответ представляет собой то, какое из действий, выбранных из следующего, должно выполнять обучающее электронное устройство: воспроизводить список воспроизведения Мадонны, воспроизводить видео Мадонны и осуществлять веб-поиск Мадонны.
[00112] Например, при условии, что первая обучающая гипотеза 402 соответствует корректному отклику, первой обучающей гипотезе 402 назначается метка 410, имеющая значение метки "1", и всем оставшимся обучающим гипотезам назначается метка 410, имеющая значение метки "0". В некоторых неограничивающих вариантах осуществления настоящей технологии, оценщики назначают метку 410 на основе персонального восприятия корректного ответа, обусловленного посредством инструкций, предоставленных посредством оператора фазы обучения.
[00113] Разумеется, хотя в настоящем примере метка 410 реализуется как двоичная метка, ограничений на это нет. Предполагается, что метка 410 реализовываться как выраженное цифрами число в пределах диапазона (к примеру, 1-10), причем каждой из обучающих гипотез назначается значение в зависимости от того, насколько надлежащей является обучающая гипотеза в отношении обучающего речевого фрагмента.
[00114] Например, первой обучающей гипотезе 402 может назначаться метка 410, имеющая значение метки "1", поскольку она откликается корректно на обучающий речевой фрагмент 408. С другой стороны, второй обучающей гипотезе 404 (которая соответствует инструкциям для того, чтобы воспроизводить видео Мадонны) может назначаться метка 410, имеющая значение метки "0,5", поскольку она частично откликается на обучающий речевой фрагмент 408. В завершение, третьей обучающей гипотезе 406 (которая соответствует инструкциям для того, чтобы осуществлять веб-поиск Мадонны) может назначаться метка 410, имеющая значение метки "0", поскольку она не откликается на обучающий речевой фрагмент 408.
[00115] Обучающий речевой фрагмент 408, набор контекстных признаков 409, первая обучающая гипотеза 402, вторая обучающая гипотеза 404, третья обучающая гипотеза 406 и соответствующие метки вместе формируют входные обучающие данные 412.
[00116] Входные обучающие данные 412 передаются в MLA 230 для обучения. В некоторых неограничивающих вариантах осуществления настоящей технологии, MLA 230 реализуется как классификатор, реализующий алгоритм на основе дерева решений.
[00117] MLA 230 содержит обучающую логику для того, чтобы определять набор признаков, ассоциированных с входными обучающими данными 412 и/или обучающим электронным устройством. На основе набора признаков, ассоциированных с входными обучающими данными 412 и/или обучающим электронным устройством, MLA 230 выполнен с возможностью распознавать прогнозировать обучающий количественный показатель доверия для каждой из обучающих гипотез, который указывает соответствующее правдоподобие каждой обучающей гипотезы, соответствующей корректному отклику на обучающий речевой фрагмент 408.
[00118] Разумеется, хотя проиллюстрирован только один случай обучения MLA 230, это задается для простоты иллюстрации. Следует четко понимать, что обучение MLA 230 выполняется итеративно с использованием множества различных обучающих речевых фрагментов.
[00119] Возвращаясь к фиг 2, увидим, что возобновляется пояснение относительно того, как определяется количественный показатель доверия.
[00120] MLA 230 выполнен с возможностью назначать количественный показатель доверия каждой из первой гипотезы 302 по сценарию, второй гипотезы 304 по сценарию и третьей гипотезы 306 по сценарию на основе речевого фрагмента 212 (которые могут отдельно приниматься посредством одной из стандартной процедуры 202 приема или стандартной процедуры 204 формирования гипотез) и набора контекстных признаков (не показан), который может приниматься посредством электронного устройства 102 отдельно.
[00121] Кратко обратившись к фиг. 5, увидим, что предоставляется неограничивающий пример таблицы 502, сохраняющей набор количественных показателей 504 доверия, сформированных посредством MLA 230. Набор количественных показателей 504 доверия содержит множество количественных показателей доверия, ассоциированных с гипотезой по сценарию.
[00122] Например, MLA 230 формирует первый количественный показатель 506 доверия, который указывает то, что вероятность того, что первая гипотеза 302 по сценарию представляет собой корректный отклик на речевой фрагмент 212, составляет 90%. MLA 230 также формирует второй количественный показатель 508 доверия, который указывает то, что вероятность того, что вторая гипотеза 304 по сценарию представляет собой корректный отклик на речевой фрагмент 212, составляет 95%. MLA 230 также формирует третий количественный показатель 510 доверия, который указывает то, что вероятность того, что третья гипотеза 306 по сценарию представляет собой корректный отклик речевой фрагмент 212, составляет 10%. Хотя в проиллюстрированном примере, количественный показатель доверия реализуется как процентная доля, ограничений на это нет, и, например, может реализовываться в другом диапазоне, к примеру, от 1 до 10.
[00123] Разумеется, следует понимать, что значения, предоставленные в настоящем примере, предназначаются только для целей иллюстрации, и следует понимать, что значения не предназначены для того, чтобы представлять конкретную ситуацию и/или быть согласованными в пределах настоящего раскрытия сущности.
[00124] Теперь, после определения набора количественных показателей 504 доверия, стандартная процедура 206 ранжирования выполнена с возможностью выбирать одну или более победных гипотез, имеющих количественный показатель доверия выше предварительно определенного порогового значения. Например, стандартная процедура 206 ранжирования выполнена с возможностью выбирать одну или более гипотез, имеющих количественный показатель доверия выше 90. Разумеется, предполагается, что предварительно определенное пороговое значение может отличаться от 90.
[00125] В некоторых неограничивающих вариантах осуществления настоящей технологии, вместо выбора одной или более гипотез, имеющих количественный показатель доверия выше предварительно определенного порогового значения, стандартная процедура 206 ранжирования выполнена с возможностью определять число команд, включенных в гипотезу 216 по текстовому представлению. То, как стандартная процедура 206 ранжирования может быть выполнена с возможностью определять число команд, включенных в гипотезу 216 по текстовому представлению, известно в данной области техники и не описывается в данном документе. Достаточно сказать, что стандартная процедура 206 ранжирования может быть выполнена с возможностью анализировать присутствие глаголов в гипотезе 216 по текстовому представлению и определять число команд.
[00126] Например, стандартная процедура 206 ранжирования может определять то, что в гипотезе 216 по текстовому представлению, имеется две команды ("Вызови такси в аэропорт" и "Приглуши свет"). В связи с этим, стандартная процедура 206 ранжирования выполнена с возможностью выбирать две гипотезы с наибольшим количественным показателем доверия, а именно, первую гипотезу 302 по сценарию и вторую гипотезу 304 по сценарию.
[00127] После определения победных сценариев, стандартная процедура 206 ранжирования дополнительно выполнена с возможностью формировать набор инструкций, ассоциированных с первой гипотезой 302 по сценарию и второй гипотезой 304 по сценарию, которые должны передаваться в электронное устройство 102.
[00128] В некоторых неограничивающих вариантах осуществления настоящей технологии, стандартная процедура 206 ранжирования выполнена с возможностью передавать первую гипотезу 302 по сценарию в первую модель 222 на основе сценариев и вторую гипотезу 304 по сценарию во вторую модель 224 на основе сценариев (см. фиг. 3), каждая из которых выполнена с возможностью формировать набор инструкций. В некоторых неограничивающих вариантах осуществления настоящей технологии стандартная процедура 206 ранжирования выполнена с возможностью вместо этого передавать гипотезу 216 по текстовому представлению в первую модель 222 на основе сценариев и вторую модель 224 на основе сценариев.
[00129] Например, напомним, что первая гипотеза 302 по сценарию представляет собой согласованный отклик, первая модель 222 на основе сценариев выполнена с возможностью формировать первый набор инструкций, инструктирующих электронному устройству 102 (1) оповещать то, что такси заказано из текущего местоположения в аэропорт; и (2) инструктировать одному из одного или более приложений 112 предоставления услуг (см. фиг. 1) заказывать такси, соответственно. В некоторых неограничивающих вариантах осуществления настоящей технологии, первая модель 222 на основе сценариев может оповещать и затем требовать дополнительного подтверждения пользователем 101 до инструктирования одному или более приложений 112 предоставления услуг заказывать такси. То, как оповещение выполняется посредством электронного устройства 102, не ограничено. Например, первый набор инструкций может отображать на экране электронного устройства 102 или в звуковой форме оповещать пользователя 101 относительно того, что такси заказано. В некоторых неограничивающих вариантах осуществления настоящих вариантов осуществления, первый набор инструкций дополнительно включает в себя инструкции для того, чтобы инструктировать электронному устройству 102 предоставлять дополнительную информацию пользователю 101, такую как расчетное время прибытия такси, ориентировочная стоимость и т.п.
[00130] В другом примере, напомним, что вторая гипотеза 304 по сценарию также представляет собой согласованный отклик, вторая модель 224 на основе сценариев выполнена с возможностью формировать второй набор инструкций, инструктирующих электронному устройству 102 (i) оповещать то, что свет второго электронного устройства 128 приглушается; и (2) инструктировать приглушение света второго электронного устройства 128.
[00131] Как должно становиться очевидным из вышеприведенного описания, следует понимать, что первая гипотеза 302 по сценарию и вторая гипотеза 304 по сценарию инициируются только после определения того, что первая гипотеза 302 по сценарию и вторая гипотеза по сценарию представляют собой победные сценарии, посредством стандартной процедуры 206 ранжирования.
[00132] Альтернативно, если один из победного сценария включает в себя отложенный отклик, модель на основе сценариев, ассоциированная с победным сценарием, может быть выполнена с возможностью формировать третий набор инструкций, инструктирующих электронному устройству запускать побочное приложение и обрабатывать отклик на речевой фрагмент 212 (к примеру, запуск Yandex.Dialog™ и отклик на речевой фрагмент 212).
[00133] Альтернативно, если один из победного сценария включает в себя отклик на основе ответов, ассоциированная модель на основе сценариев может быть выполнена с возможностью формировать набор инструкций, инструктирующих электронному устройству 102 предоставлять ответ на речевой фрагмент 212. Например, если речевой фрагмент 212 соответствует "Какая сегодня погода", набор инструкций может инструктировать электронному устройству 102 оповещать относительно погоды и/или графически отображать погоду на электронном устройстве 102.
[00134] Стандартная процедура 206 ранжирования затем выполнена с возможностью передавать пакет 232 данных в приложение 108 виртуального помощника (см. фиг. 1). Пакет 232 данных содержит первый набор инструкций и второй набор инструкций.
[00135] В ответ на прием пакета 232 данных, приложение 108 виртуального помощника выполнено с возможностью выполнять первый набор инструкций и второй набор инструкций, включенные в пакет 232 данных.
[00136] В ответ на прием первого набора инструкций, приложение 108 виртуального помощника выполнено с возможностью осуществлять доступ к побочной услуге, к примеру, к транспортировочному приложению (такому как Uber™), установленному в электронном устройстве 102, и идентифицировать любую релевантную информацию, ассоциированную с запросом, к примеру, идентифицировать расчетное время прибытия такси, ориентировочную стоимость, время движения и т.п., и запрашивать подтверждение пользователем 101 перед вызовом такси.
[00137] В ответ на прием второго набора инструкций, приложение 108 виртуального помощника выполнено с возможностью осуществлять доступ к побочной услуге, к примеру, к приложению, установленному в электронном устройстве 102, которое ассоциировано со вторым электронным устройством 128, и передавать инструкцию во второе электронное устройство 128 для того, чтобы приглушить свет.
[00138] В некоторых неограничивающих вариантах осуществления настоящей технологии, приложение 108 виртуального помощника выполнено с возможностью выполнять первый набор инструкций и второй набор инструкций одновременно или друг за другом.
[00139] Хотя вышеприведенное пояснение ASR-приложения 126 приведено на основе выполнения посредством сервера 120, ограничений на это нет. В некоторых неограничивающих вариантах осуществления настоящей технологии, предполагается, что ASR-приложение 126 должно выполняться в электронном устройстве 102.
[00140] С учетом архитектуры и примеров, предоставленных выше, можно осуществлять компьютерно-реализованный способ для обработки пользовательского разговорного речевого фрагмента. Обратившись к фиг. 6, увидим, что предоставляется блок-схема последовательности операций способа 600, причем способ 600 осуществляется в соответствии с неограничивающими вариантами осуществления настоящей технологии. Способ 600 может осуществляться посредством сервера 120 или посредством электронного устройства 102.
[00141] Этап 602: прием, посредством электронного устройства от пользователя, индикатора пользовательского разговорного речевого фрагмента
[00142] Способ 600 начинается на этапе 602, на котором стандартная процедура 202 приема выполнена с возможностью принимать пакет 210 данных из приложения 108 виртуального помощника. Пакет 210 данных содержит речевой фрагмент 212 пользователя 101, выражаемый на естественном языке.
[00143] Этап 604: формирование, посредством электронного устройства, гипотезы по текстовому представлению на основе пользовательского разговорного речевого фрагмента
[00144] На этапе 604, стандартная процедура 202 приема выполнена с возможностью выполнять NLP-алгоритм 214, чтобы формировать гипотезу 216 по текстовому представлению речевого фрагмента 212. Стандартная процедура 202 приема затем выполнена с возможностью передавать пакет 218 данных в стандартную процедуру 204 формирования гипотез. Пакет 218 данных содержит гипотезу 216 по текстовому представлению.
[00145] Этап 606: обработка, посредством электронного устройства, с использованием первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, гипотезы по текстовому представлению для того, чтобы формировать первую гипотезу по сценарию и вторую гипотезу по сценарию, соответственно; причем первая обученная модель на основе сценариев и вторая обученная модель на основе сценариев обучаются с использованием по меньшей мере частично различающегося корпуса текстов
[00146] На этапе 606, стандартная процедура 204 формирования гипотез выполнена с возможностью вводить гипотезу 216 по текстовому представлению во множество моделей 220 на основе сценариев, которые содержат по меньшей мере первую модель 222 на основе сценариев, вторую модель 224 на основе сценариев и третью модель 226 на основе сценариев. Разумеется, множество моделей 220 на основе сценариев могут включать в себя более трех моделей на основе сценариев или только две модели на основе сценариев.
[00147] Первая модель 222 на основе сценариев выполнена с возможностью формировать первую гипотезу 302 по сценарию, вторая модель 224 на основе сценариев выполнена с возможностью формировать вторую гипотезу 304 по сценарию, и третья модель 226 на основе сценариев выполнена с возможностью формировать третью гипотезу 306 по сценарию.
[00148] Стандартная процедура 204 формирования гипотез выполнена с возможностью передавать пакет 228 данных в стандартную процедуру 206 ранжирования. Пакет 228 данных содержит первую гипотезу 302 по сценарию, вторую гипотезу 304 по сценарию и третью гипотезу 306 по сценарию.
[00149] Этап 608: анализ, посредством электронного устройства, с использованием алгоритма машинного обучения (MLA), первой гипотезы по сценарию и второй гипотезы по сценарию для того, чтобы определять победный сценарий, имеющий более высокий количественный показатель доверия
[00150] На этапе 608, MLA 230 выполнен с возможностью назначать количественный показатель доверия каждой из первой гипотезы 302 по сценарию, второй гипотезы 304 по сценарию и третьей гипотезы 306 по сценарию на основе речевого фрагмента 212 и набора контекстных признаков (не показан), который может приниматься посредством электронного устройства 102 отдельно.
[00151] Этап 610: на основе победного сценария, определение, посредством ассоциированной одной из первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, действия, которое должно выполняться посредством электронного устройства
[00152] На этапе 610, стандартная процедура 206 ранжирования выполнена с возможностью выбирать одну или более гипотез, имеющих количественный показатель доверия выше предварительно определенного порогового значения. Например, стандартная процедура 206 ранжирования выполнена с возможностью выбирать одну или более гипотез, имеющих количественный показатель доверия выше 90. Разумеется, предполагается, что предварительно определенное пороговое значение может отличаться от 90.
[00153] Стандартная процедура 206 ранжирования затем выполнена с возможностью передавать одну или более гипотез, имеющих количественный показатель доверия выше предварительно определенного порогового значения, и формировать соответствующий набор инструкций, ассоциированных с одной или более гипотез.
[00154] Этап 612: выполнение, посредством электронного устройства, действия
[00155] На этапе 612, стандартная процедура 206 ранжирования затем выполнена с возможностью передавать пакет 232 данных в приложение 108 виртуального помощника (см. фиг. 1). Допустим, что пакет 232 данных содержит один или более наборов инструкций.
[00156] В ответ на прием пакета 232 данных, приложение 108 виртуального помощника выполнено с возможностью выполнять один или более наборов инструкций, включенных в пакет 232 данных.
[00157] Способ 600 затем завершается или возвращается к этапу 602 и ожидает другого нового речевого фрагмента из электронного устройства 102.
[00158] Специалистам в данной области техники должно быть очевидным, что по меньшей мере некоторые варианты осуществления настоящей технологии имеют целью расширять диапазон технических решений для разрешения конкретной технической проблемы, с которой сталкивается традиционная ASR-технология, а именно, определение корректного отклика пользовательского разговорного речевого фрагмента.
[00159] Следует четко понимать, что не все технические эффекты, упомянутые в данном документе, должны использоваться в каждом варианте осуществления настоящей технологии. Например, варианты осуществления настоящей технологии могут реализовываться без применения пользователем некоторых из этих технических эффектов, тогда как другие варианты осуществления могут реализовываться с применением пользователем других технических эффектов либо вообще без них.
[00160] Модификации и улучшения вышеописанных реализаций настоящей технологии могут становиться очевидными для специалистов в данной области техники. Вышеприведенное описание должно быть примерным, а не ограничивающим. В силу этого, объем настоящей технологии имеет намерение быть ограниченным исключительно посредством объема прилагаемой формулы изобретения.
[00161] Хотя вышеописанные реализации описываются и показываются со ссылкой на конкретные этапы, выполняемые в конкретном порядке, следует понимать, что эти этапы могут комбинироваться, подразделяться или переупорядочиваться без отступления от идей настоящей технологии. Соответственно, порядок и группировка этапов не представляют собой ограничение настоящей технологии.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ И СИСТЕМА ДЛЯ ФОРМИРОВАНИЯ ТЕКСТОВОГО ПРЕДСТАВЛЕНИЯ ФРАГМЕНТА УСТНОЙ РЕЧИ ПОЛЬЗОВАТЕЛЯ | 2019 |
|
RU2731334C1 |
Способ и система для синтеза речи из текста | 2017 |
|
RU2692051C1 |
СПОСОБ И СЕРВЕР ДЛЯ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ ФОРМИРОВАНИЮ ТЕКСТОВОЙ ВЫХОДНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ | 2020 |
|
RU2798362C2 |
СПОСОБ И СИСТЕМА ГЕНЕРИРОВАНИЯ ПРИЗНАКА ДЛЯ РАНЖИРОВАНИЯ ДОКУМЕНТА | 2018 |
|
RU2733481C2 |
СПОСОБЫ И СИСТЕМЫ ДЛЯ АВТОМАТИЗИРОВАННОГО ОПРЕДЕЛЕНИЯ ПРИСУТСТВИЯ ОБЪЕКТОВ | 2019 |
|
RU2769921C2 |
СПОСОБ И СИСТЕМА ВЫБОРА ДЛЯ РАНЖИРОВАНИЯ ПОИСКОВЫХ РЕЗУЛЬТАТОВ С ПОМОЩЬЮ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ | 2018 |
|
RU2731658C2 |
СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ СОБЫТИЯ ПОСЕЩЕНИЯ МЕСТА ПОЛЬЗОВАТЕЛЕМ | 2019 |
|
RU2762779C2 |
Способ предоставления рекомендаций на платформе для онлайн-торговли | 2021 |
|
RU2824340C2 |
Способы и серверы для ранжирования цифровых документов в ответ на запрос | 2020 |
|
RU2775815C2 |
СПОСОБ И СИСТЕМА ПОСТРОЕНИЯ ПОИСКОВОГО ИНДЕКСА С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ | 2018 |
|
RU2720954C1 |
Изобретение относится к области вычислительной техники для обработки естественного языка. Технический результат заключается в повышении точности определения действия, которое необходимо выполнить электронному устройству в соответствии с пользовательским разговорным речевым фрагментом. Технический результат достигается за счет приема от пользователя индикатора пользовательского разговорного речевого фрагмента; формирования гипотезы по текстовому представлению на основе пользовательского разговорного речевого фрагмента; обработки, с использованием первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, гипотезы по текстовому представлению для того, чтобы формировать первую гипотезу по сценарию и вторую гипотезу по сценарию, соответственно; причем первая обученная модель на основе сценариев и вторая обученная модель на основе сценариев обучаются с использованием по меньшей мере частично различающегося корпуса текстов; анализа, с использованием алгоритма машинного обучения (MLA), первой гипотезы по сценарию и второй гипотезы по сценарию для того, чтобы определять победный сценарий, имеющий более высокий количественный показатель доверия; на основе победного сценария, определения, посредством ассоциированной одной из первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, действия, которое должно выполняться посредством электронного устройства; выполнения действия. 2 н. и 26 з.п. ф-лы, 6 ил.
1. Компьютерно-реализованный способ для обработки пользовательского разговорного речевого фрагмента, причем способ осуществляется посредством электронного устройства, при этом способ содержит этапы, на которых:
принимают, посредством электронного устройства от пользователя, индикатор пользовательского разговорного речевого фрагмента;
формируют, посредством электронного устройства, гипотезу по текстовому представлению на основе пользовательского разговорного речевого фрагмента;
обрабатывают, посредством электронного устройства, с использованием первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, гипотезу по текстовому представлению для того, чтобы формировать первую гипотезу по сценарию и вторую гипотезу по сценарию, соответственно;
причем первая обученная модель на основе сценариев и вторая обученная модель на основе сценариев обучаются с использованием по меньшей мере частично различающегося корпуса текстов;
анализируют, посредством электронного устройства, с использованием алгоритма машинного обучения (MLA), первую гипотезу по сценарию и вторую гипотезу по сценарию для того, чтобы определять победный сценарий, имеющий более высокий количественный показатель доверия;
на основе победного сценария определяют, посредством ассоциированной одной из первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, действие, которое должно выполняться посредством электронного устройства;
выполняют, посредством электронного устройства, действие.
2. Способ по п. 1, в котором первая обученная модель на основе сценариев и вторые модели на основе сценариев представляют собой часть множества обученных моделей на основе сценариев, причем каждая из множества обученных моделей на основе сценариев обучается с использованием по меньшей мере частично различающегося корпуса текста.
3. Способ по п. 2, в котором по меньшей мере частично отличающийся корпус текста выбран на основе намерения ассоциированной одной из множества обученных моделей на основе сценариев.
4. Способ по п. 1, в котором обработка гипотезы по текстовому представлению для того, чтобы формировать первую гипотезу по сценарию и вторую гипотезу по сценарию, выполняется без инициирования электронного устройства с возможностью выполнять действие.
5. Способ по п. 4, в котором обработка гипотезы по текстовому представлению для того, чтобы формировать первую гипотезу по сценарию и вторую гипотезу по сценарию, выполняется посредством отправки гипотезы по текстовому представлению в первую обученную модель на основе сценариев модели и вторую обученную модель на основе сценариев и приема первой гипотезы по сценарию и второй гипотезы по сценарию в ответ на это.
6. Способ по п. 5, в котором прием данных одной из первой гипотезы по сценарию и второй гипотезы по сценарию содержит этап, на котором принимают одно из следующего:
отклик на основе ответов;
согласованный отклик; и
отложенный отклик.
7. Способ по п. 6, в котором в ответ на ассоциирование победного сценария с откликом на основе ответов выполнение действия содержит этап, на котором предоставляют отклик на основе ответов пользователю.
8. Способ по п. 7, в котором предоставление отклика на основе ответов содержит этап, на котором предоставляют по меньшей мере одно из аудио, представляющего отклик на основе ответов, и графического представления отклика на основе ответов.
9. Способ по п. 6, в котором в ответ на ассоциирование победного сценария с одним из согласованного отклика и отложенного отклика определение действия содержит этап, на котором повторно отправляют гипотезу по текстовому представлению в ассоциированную одну из первой обученной модели на основе сценариев и второй обученной модели на основе сценариев.
10. Способ по п. 6, в котором в ответ на ассоциирование победного сценария с одним из согласованного отклика и отложенного отклика определение действия содержит этап, на котором отправляют ассоциированную одну из первой гипотезы по сценарию и второй гипотезы по сценарию, которая представляет собой победный сценарий, в ассоциированную одну из первой обученной модели на основе сценариев и второй обученной модели на основе сценариев.
11. Способ по п. 10, в котором выполнение действия содержит этап, на котором инициируют приложение, выполняемое посредством электронного устройства.
12. Способ по п. 11, дополнительно содержащий этап, на котором предоставляют для пользователя индикатор действия, которое должно выполняться посредством приложения.
13. Способ по п. 12, в котором приложение выполнено с возможностью выполнять побочную электронную услугу.
14. Способ по п. 13, в котором приложение выполнено с возможностью инициировать работу внешнего электронного устройства.
15. Способ по п. 14, в котором выполнение действия выполняется в ответ на предоставление пользователем подтверждения действия.
16. Способ по п. 1, в котором MLA представляет собой классификатор.
17. Способ по п. 1, дополнительно содержащий этап, на котором обучают MLA.
18. Способ по п. 16, в котором обучение MLA содержит этап, на котором:
формируют обучающий набор, включающий в себя обучающий объект и метку;
причем обучающий объект включает в себя сценарий обучения;
причем метка включает в себя параметр пригодности для каждой из первой обученной модели на основе сценариев и второй модели на основе сценариев, причем параметр пригодности указывает пригодность соответствующей одной из первой обученной модели на основе сценариев и второй модели на основе сценариев для обработки сценария обучения.
19. Способ по п. 17, при этом способ дополнительно содержит этап, на котором принимают индикатор относительно метки от человека-оценщика.
20. Способ по п. 1, в котором электронное устройство содержит интеллектуальный динамик.
21. Способ по п. 1, в котором пользовательский разговорный речевой фрагмент выражается на естественном языке.
22. Способ по п. 20, в котором формирование, посредством электронного устройства, гипотезы по текстовому представлению на основе пользовательского разговорного речевого фрагмента содержит этап, на котором выполняют алгоритм обработки естественного языка (NLP).
23. Способ по п. 1, в котором победный сценарий представляет собой множество победных сценариев, и при этом действие представляет собой множество действий.
24. Способ по п. 23, в котором выполнение действия содержит этап, на котором выполняют множество действий практически одновременно.
25. Способ по п. 23, в котором выполнение действия содержит этап, на котором выполняют множество действий друг за другом.
26. Способ по п. 23, в котором выполнение множества действий содержит этап, на котором инициируют работу одного или более внешних электронных устройств.
27. Способ по п. 26, в котором одно или более внешних электронных устройств представляют собой одно или более соединенных бытовых электронных устройств.
28. Система для обработки пользовательского разговорного речевого фрагмента, причем система содержит электронное устройство, причем электронное устройство содержит процессор, выполненный с возможностью:
принимать индикатор пользовательского разговорного речевого фрагмента от пользователя;
формировать гипотезу по текстовому представлению на основе пользовательского разговорного речевого фрагмента;
обрабатывать, с использованием первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, гипотезу по текстовому представлению для того, чтобы формировать первую гипотезу по сценарию и вторую гипотезу по сценарию, соответственно;
причем первая обученная модель на основе сценариев и вторая обученная модель на основе сценариев обучаются с использованием по меньшей мере частично различающегося корпуса текстов;
анализировать, с использованием алгоритма машинного обучения (MLA), первую гипотезу по сценарию и вторую гипотезу по сценарию для того, чтобы определять победный сценарий, имеющий более высокий количественный показатель доверия;
на основе победного сценария определять, посредством ассоциированной одной из первой обученной модели на основе сценариев и второй обученной модели на основе сценариев, действие, которое должно выполняться посредством электронного устройства;
выполнять действие.
Способ получения цианистых соединений | 1924 |
|
SU2018A1 |
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз | 1924 |
|
SU2014A1 |
Токарный резец | 1924 |
|
SU2016A1 |
Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами | 1924 |
|
SU2017A1 |
СПОСОБ ВВОДА ДАННЫХ В ЭЛЕКТРОННОЕ УСТРОЙСТВО, СПОСОБ ОБРАБОТКИ ГОЛОСОВОГО ЗАПРОСА, МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ (ВАРИАНТЫ), ЭЛЕКТРОННОЕ УСТРОЙСТВО, СЕРВЕР И СИСТЕМА | 2015 |
|
RU2646350C2 |
Авторы
Даты
2021-10-12—Публикация
2019-12-24—Подача