УРОВЕНЬ ТЕХНИКИ
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Устройства и способы, соответствующие примерным вариантам осуществления, относятся к устройству обработки изображений и соответствующему способу управления и к системе обработки изображений, которая обрабатывает сигнал изображения, например вещательный сигнал, подаваемый извне, для отображения изображения на основе обработанного сигнала изображения, а более конкретно к устройству обработки изображений и соответствующему способу управления и к системе обработки изображений, которая распознает голосовую команду пользователя для выполнения функции или операции.
ОПИСАНИЕ ПРЕДШЕСТВУЮЩЕГО УРОВНЯ ТЕХНИКИ
Устройство обработки изображений обрабатывает сигналы изображения и/или данные изображения, подаваемые извне, согласно различным операциям обработки изображения. Устройство обработки изображений может отображать изображение на своей панели визуального отображения на основе обработанного сигнала изображения, или выводить обработанный сигнал изображения в другое устройство визуального отображения, содержащее панель для отображения на ней изображения на основе обработанного сигнала изображения. Соответственно, если устройство обработки изображений может обрабатывать сигнал изображения, то оно может включать или не включать в себя панель для отображения изображения. Первый случай может быть реализован в виде телевизора, а второй случай может быть реализован в виде телевизионной приставки.
В устройство обработки изображений непрерывно добавляются функции для расширения его функций в соответствии с усовершенствованием технологии. При такой тенденции, для ввода требуемых команд пользователя в устройство обработки изображений, обеспечиваются различные конфигурации и способы для ввода команд пользователя, как необходимо для устройства обработки изображений. Например, в обычном устройстве обработки изображений, если пользователь нажимает на клавишу/кнопку с удаленного управляющего устройства, то для выполнения операции, требуемой пользователем, в устройство обработки изображений передается управляющий сигнал. В последние годы, однако, устройство обработки изображений обнаруживает речь или жест пользователя, анализирует обнаруженное содержимое, и выполняет соответствующую операцию, т.е. управление устройством обработки изображений осуществляется согласно намерению пользователя.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Соответственно, в одном или нескольких примерных вариантах осуществления обеспечивается электронное устройство, сервер и соответствующий способ управления, который минимизирует время для распознавания команды пользователя и выполнения операции.
Вышеизложенные и/или другие аспекты могут быть осуществлены посредством обеспечения устройства обработки изображений, включающего в себя: процессор изображений, который обрабатывает вещательный сигнал, переданный извне, для отображения изображения на основе обработанного вещательного сигнала, блок связи, который соединен с сервером для связи, блок голосового ввода, который принимает речь пользователя, голосовой процессор, который обрабатывает выполнение предварительно установленной соответствующей операции согласно голосовой команде, соответствующей этой речи, и контроллер, который обрабатывает голосовую команду, соответствующую этой речи, посредством одного из голосового процессора и сервера, если эта речь введена через блок голосового ввода, причем, если голосовая команда включает в себя ключевое слово, относящееся к позывному вещательного канала, то контроллер осуществляет управление одним из голосового процессора и сервера для выбора рекомендуемого позывного, соответствующего ключевому слову, согласно предопределенному условию выбора, и выполняет соответствующую операцию согласно голосовой команде в отношении вещательного канала по рекомендуемому позывному.
База данных из, по меньшей мере, одного кандидата на позывной, соответствующего ключевому слову, может храниться в устройстве обработки изображений и на сервере, и рекомендуемый позывной может быть выбран из множества кандидатов на позывной, найденных в этой базе данных согласно условию выбора.
Условие выбора может включать в себя выбор кандидата на позывной, в качестве рекомендуемого позывного, частота выбора которого больше или равна предварительно установленного ранжирования, среди множества кандидатов на позывной, на основе информации предыстории применения устройства обработки изображений.
Условие выбора может включать в себя выбор кандидата на позывной, в качестве рекомендуемого позывного, частота выбора которого больше или равна предварительно установленного ранжирования, в пределах множества других устройств обработки изображений, осуществляющих связь с сервером, среди множества кандидатов на позывной.
Рекомендуемый позывной может быть одним или несколькими позывными, выбранными из множества кандидатов на позывной, и контроллер может отображать интерфейс пользователя (UI), который обеспечивается для выбора одного из множества выбранных кандидатов на позывной, если выбрано множество кандидатов на позывной.
Если ввод выбора одного из кандидатов на позывной не выполняется за предварительно установленное время после отображения UI, то контроллер может выбрать один из рекомендуемых позывных согласно предварительно установленному условию выбора.
Блок связи может осуществлять связь с сервером для преобразования речи в текст (speech-to-text, STT), который преобразует речь в голосовую команду в виде текста, и после ввода речи в блок голосового ввода, контроллер может передавать голосовой сигнал этой речи на сервер STT, и может принимать голосовую команду, соответствующую этой речи, из сервера STT.
Если голосовая команда может являться коротким предложением, то для обработки этой голосовой команды контроллер может осуществлять управление голосовым процессором, и если голосовая команда является предложением разговорной речи, то для обработки этой голосовой команды контроллер может осуществлять управление сервером.
Устройство обработки изображений может также включать в себя дисплей, на котором отображается изображение на основе вещательного сигнала, обработанного процессором изображений.
Другой аспект настоящего примерного варианта осуществления может быть осуществлен посредством обеспечения способа управления устройства обработки изображений, которое осуществляет связь с сервером, включающего в себя: прием речи пользователя, и обработку голосовой команды, соответствующей этой речи, посредством одного из устройства обработки изображений и сервера, и выполнение предварительно установленной соответствующей операции согласно этой голосовой команде, причем выполнение предварительно установленной соответствующей операции согласно упомянутой голосовой команде включает в себя управление для выбора рекомендуемого позывного, соответствующего ключевому слову, одним из устройства обработки изображений и сервера согласно предварительно установленному условию выбора, если голосовая команда включает в себя ключевое слово, относящееся к позывному вещательного канала, и выполнение соответствующей операции согласно голосовой команде в отношении вещательного канала по рекомендуемому позывному.
База данных из, по меньшей мере, одного кандидата на позывной, соответствующего ключевому слову, может храниться в устройстве обработки изображений и на сервере, и рекомендуемый позывной может быть выбран из множества кандидатов на позывной, найденных в этой базе данных, согласно условию выбора.
Условие выбора может включать в себя выбор кандидата на позывной, в качестве рекомендуемого позывного, частота выбора которого больше или равна предварительно установленного ранжирования, среди множества кандидатов на позывной, на основе информации предыстории применения устройства обработки изображений.
Условие выбора может включать в себя выбор кандидата на позывной, в качестве рекомендуемого позывного, частота выбора которого больше или равна предварительно установленного ранжирования, в пределах множества других устройств обработки изображений, осуществляющих связь с сервером, среди множества кандидатов на позывной.
Рекомендуемый позывной может быть одним позывным или несколькими позывными, выбранными из множества кандидатов на позывной, и выполнение соответствующей операции может включать в себя отображение интерфейса пользователя (UI), который обеспечивается для выбора одного из множества выбранных кандидатов на позывной, если выбрано множество кандидатов на позывной.
Отображение UI может включать в себя выбор одного из рекомендуемых позывных согласно предварительно установленному условию выбора, если ввод выбора одного из кандидатов на позывной не выполняется за предварительно установленное время после отображения UI.
Устройство обработки изображений может осуществлять связь с сервером STT, который преобразует речь в голосовую команду в виде текста, и прием речи пользователя может включать в себя передачу голосового сигнала этой речи на сервер STT и прием голосовой команды, соответствующей этой речи, из сервера STT.
Выполнение предварительно установленной соответствующей операции согласно голосовой команде может включать в себя обработку этой голосовой команды посредством устройства обработки изображений, если эта голосовая команда является коротким предложением, и обработку этой голосовой команды посредством сервера, если эта голосовая команда является предложением разговорной речи.
Другой аспект настоящего примерного варианта осуществления может быть осуществлен посредством обеспечения системы обработки изображений, включающей в себя: устройство обработки изображений, которое обрабатывает вещательный сигнал, переданный извне, для отображения изображения на основе обработанного вещательного сигнала, сервер, который осуществляет связь с устройством обработки изображений, причем это устройство обработки изображений включает в себя блок голосового ввода, который принимает речь пользователя, голосовой процессор, который выполняет предварительно установленную соответствующую операцию согласно голосовой команде, соответствующей этой речи, контроллер, который осуществляет управление одним из голосового процессора и сервера для обработки голосовой команды, соответствующей этой речи, если эта речь введена, причем этот контроллер осуществляет управление одним из голосового процессора и сервера для выбора рекомендуемого позывного, соответствующего ключевому слову, согласно предварительно установленному условию выбора, если эта голосовая команда включает в себя ключевое слово, относящееся к позывному вещательного канала, и выполняет соответствующую операцию согласно этой голосовой команде в отношении вещательного канала по рекомендуемому позывному.
Система обработки изображений может также (включать в себя) сервер STT, который преобразует речь в голосовую команду в виде текста, причем, если речь введена в блок голосового ввода, то контроллер может передавать голосовой сигнал этой речи на сервер STT, и принимает голосовую команду, соответствующую этой речи, из сервера STT.
В одном примерном варианте осуществления существует устройство обработки изображений, включающее в себя: процессор изображений, который обрабатывает вещательный сигнал, принятый извне, для отображения изображения на основе обработанного вещательного сигнала, устройство связи, которое выполнено с возможностью осуществления связи с сервером, голосовой приемник, который принимает речь пользователя, голосовой процессор, который выполнен с возможностью обработки выполнения операции согласно голосовой команде, соответствующей речи пользователя, и контроллер, который обрабатывает голосовую команду, соответствующую этой речи, посредством одного из голосового процессора и сервера, если эта речь принята через голосовой приемник, причем, если голосовая команда включает в себя ключевое слово, относящееся к требуемому позывному вещательного канала, то контроллер осуществляет управление одним из голосового процессора и сервера для выбора позывного, соответствующего ключевому слову, согласно предопределенному условию выбора, в качестве рекомендуемого позывного, и выполняет операцию согласно голосовой команде в отношении вещательного канала по рекомендуемому позывному.
В еще одном примерном варианте осуществления, существует способ управления устройства обработки изображений, которое осуществляет связь с сервером, причем способ включает в себя: прием речи пользователя, и обработку голосовой команды, соответствующей речи пользователя, посредством одного из устройства обработки изображений и сервера, и выполнение операции согласно этой голосовой команде, причем выполнение операции согласно голосовой команде включает в себя: управление для выбора позывного, соответствующего ключевому слову, в качестве рекомендуемого позывного, одним из устройства обработки изображений и сервера согласно предварительно установленному условию выбора, если голосовая команда включает в себя ключевое слово, относящееся к позывному вещательного канала, и выполнение операции согласно голосовой команде в отношении вещательного канала по рекомендуемому позывному.
В еще одном примерном варианте осуществления существует система обработки изображений, включающая в себя: устройство обработки изображений, которое обрабатывает вещательный сигнал, принятый извне, для отображения изображения на основе обработанного вещательного сигнала, сервер, который осуществляет связь с устройством обработки изображений, причем устройство обработки изображений включает в себя голосовой приемник, который выполнен с возможностью приема речи пользователя, голосовой процессор, который выполняет предварительно установленную соответствующую операцию для голосовой команды, соответствующей речи пользователя, и контроллер, который осуществляет управление одним из голосового процессора и сервера для обработки голосовой команды, соответствующей речи пользователя, если речь пользователя принята, причем этот контроллер осуществляет управление одним из голосового процессора и сервера для выбора позывного, соответствующего ключевому слову, в качестве рекомендуемого позывного, согласно предварительно установленному условию выбора, если эта голосовая команда включает в себя ключевое слово, относящееся к позывному вещательного канала, и выполняет соответствующую операцию согласно этой голосовой команде в отношении вещательного канала по рекомендуемому позывному.
В одном примерном варианте осуществления существует способ распознавания голосовой команды, включающий в себя: прием голосовой команды пользователя через микрофон устройства отображения для переключения с отображаемого вещательного канала на другой вещательный канал, причем эта голосовая команда пользователя включает в себя идентификатор (ID) другого вещательного канала, оцифровку упомянутой голосовой команды пользователя и обработку оцифрованной голосовой команды пользователя, сравнение упомянутой обработанной голосовой команды пользователя с предварительно сохраненными цифровыми моделями ID множества вещательных каналов и определение одной из предварительно сохраненных цифровых моделей ID множества вещательных каналов как совпадающей, причем эта операция сравнения выполняется в, по меньшей мере, одном из устройства отображения или внешнего сервера, который является отделенным от устройства отображения, и переключение с отображаемого вещательного канала на вещательный канал, соответствующий определенной одной из предварительно сохраненных цифровых моделей ID множества вещательных каналов, являющейся совпадающей.
ID может быть одним из цифрового ID, буквенного ID и буквенно-цифрового ID.
Определение одной из предварительно сохраненных цифровых моделей ID множества вещательных каналов как являющейся совпадающей включает в себя определение множества предварительно сохраненных цифровых моделей ID множества вещательных каналов как являющегося совпавшим, причем упомянутый способ также включает в себя: отображение ID, соответствующих определенному множеству предварительно сохраненных цифровых моделей ID множества вещательных каналов, являющемуся совпавшим.
Способ распознавания голосовой команды также включает в себя: автоматический выбор одного из отображаемых ID, если не принят ввод пользователя для выбора одного из отображаемых ID, причем этот выбранный один из отображаемых ID ранее выбирался чаще других из отображаемых ID.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Вышеупомянутые и/или другие аспекты станут очевидными и более понятыми из следующего описания примерных вариантов осуществления во взаимосвязи с прилагаемыми чертежами, в которых:
Фиг. 1 - блок-схема устройства визуального отображения согласно первому примерному варианту осуществления.
На фиг. 2 изображен пример структуры базы данных, относящейся к ключевому слову и кандидатам на позывной.
Фиг. 3 - блок-схема структуры взаимодействия устройства визуального отображения и сервера на фиг. 1.
На фиг. 4 изображен пример процесса взаимодействия между устройством визуального отображения и сервером на фиг. 3.
На фиг. 5 и фиг. 6 изображен пример изображения интерфейса пользователя (UI), который обеспечивается для выбора одного из множества рекомендуемых позывных, на устройстве визуального отображения на фиг. 1.
На фиг. 7 изображает пример процесса взаимодействия между устройством визуального отображения и сервером согласно второму примерному варианту осуществления.
Фиг. 8 - блок-схема структуры взаимодействия устройства визуального отображения и сервера согласно третьему примерному варианту осуществления.
На фиг. 9 изображен процесс взаимодействия между устройством визуального отображения и сервером на фиг. 8.
Фиг. 10 - блок-схема, изображающая структуру передачи сигнала голосового процессора устройства визуального отображения согласно четвертому примерному варианту осуществления.
ПОДРОБНОЕ ОПИСАНИЕ ПРИМЕРНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
Ниже подробно описаны примерные варианты осуществления со ссылкой на прилагаемые чертежи для облегчения понимания лицу, обладающему обычными познаниями в данной области техники. Примерные варианты осуществления могут быть воплощены в различных формах и не ограничиваются примерными вариантами осуществления, изложенными в этом документе. Описания известных частей опущены для ясности, и используется сквозная нумерация ссылочных позиций.
Фиг. 1 является блок-схемой устройства 100 обработки изображений согласно первому примерному варианту осуществления.
Ниже примерные варианты осуществления описывают устройство 100 обработки изображений, которое само может отображать изображение, но идея настоящего изобретения может применяться к другим устройствам, которые сами не отображают изображение, а вместо этого выводят сигналы изображения и/или управляющие сигналы в другое устройство визуального отображения. Соответственно, идея настоящего изобретение не ограничивается нижеизложенными примерными вариантами осуществления. Несмотря на то, что в настоящем примерном варианте осуществления описано устройство 100 обработки изображений, которое реализовано в виде телевизора, в других примерных вариантах осуществления могут существовать другие реализации.
Как представлено на фиг. 1, устройство 100 обработки изображений или устройство 100 визуального отображения согласно настоящему примерному варианту осуществления принимает сигнал изображения из источника подачи изображения. Сигнал изображения, который может быть принят устройством 100 визуального отображения, не ограничен по типу или формату, например, устройство 100 визуального отображения может принимать вещательный сигнал, передаваемый передающим устройством вещательной станции, настраивать этот вещательный сигнал и отображать изображение вещания.
Устройство 100 визуального отображения включает в себя приемник 110 изображения, который принимает сигнал изображения из источника подачи изображения, процессор 120 изображений, который обрабатывает сигнал изображения, принятый приемником 110 изображения, согласно предварительно установленной операции обработки изображения, дисплей 130, на котором отображается изображение на основе сигнала изображения, обработанного процессором 120 изображений, блок 140 связи (например, устройство связи), который осуществляет связь с внешним устройством, например, сервером 10, блок 150 ввода пользователя, которым манипулирует пользователь, блок 160 голосового ввода, (например, голосовой приемник, микрофон и т.д.), который принимает голос или звук извне, голосовой процессор 170, который интерпретирует и обрабатывает голос или звук, введенный в блок 160 голосового ввода, блок 180 памяти (например, запоминающее устройство), в котором хранятся данные и/или информация, и контроллер 190, который управляет всеми операциями устройства 100 визуального отображения.
Приемник 110 изображения принимает сигналы изображения и/или данные изображения проводным или беспроводным способом, и передает эти сигналы изображения и/или данные изображения в процессор 120 изображений. Приемник 110 изображения может меняться в зависимости от стандарта принимаемого сигнала изображения и типа примерного варианта осуществления устройства 100 визуального отображения. Например, приемник 110 изображения может принимать радиочастотный (RF) сигнал или сигнал изображения согласно различным стандартам, например, композитный видеосигнал, компонентный видеосигнал, видео высокого качества (super video), SCART, мультимедийный интерфейс высокой четкости (HDMI), DisplayPort, унифицированный дисплейный интерфейс (UDI), беспроводный стандарт для HD или другой стандарт. Если сигнал изображения является вещательным сигналом, то приемник 110 изображения включает в себя устройство настройки для настройки на вещательный сигнал канала.
Процессор 120 изображений обрабатывает сигнал изображения, принятый приемником 110 изображения, согласно различным операциям обработки изображения. Процессор 120 изображений выводит обработанный сигнал изображения на дисплей 130, на котором отображается изображение на основе обработанного сигнала изображения. Например, если устройство настройки настраивается на вещательный сигнал конкретного канала в приемнике 110 изображения, то процессор 120 изображений извлекает изображение, голос и дополнительные данные из вещательного сигнала, соответствующего этому каналу, корректирует сигнал изображения до предварительно установленного разрешения и отображает изображение на дисплее 130.
Операция обработки изображения процессора 120 изображений может включать в себя, например, операцию декодирования, соответствующую формату изображения данных изображения, операцию обратного перемежения для преобразования данных изображения с перемежением в данные прогрессивного изображения, операцию масштабирования для корректировки данных изображения до предварительно установленного разрешения, операцию подавления шума для улучшения качества изображения, операцию улучшения деталей, преобразование частоты обновления кадров и т.д.
Процессор 120 изображений реализован как однокристальная система (SOC), в которой интегрируются некоторые или все вышеизложенные функции, или как плата обработки изображений, которая сформирована посредством монтажа отдельных элементов на печатной плате (PCB), для выполнения некоторых или всех вышеизложенных операций обработки изображения, и установлен в устройстве 100 визуального отображения.
На дисплее 130 отображается изображение на основе сигнала изображения, выведенного процессором 120 изображений. Дисплей 130 может быть реализован, но без ограничения, в виде различных панелей визуального отображения, включающих в себя, например, жидкокристаллические, плазменные, проекционные, светодиодные (LED), на органических светодиодах (OLED), с электронной эмиссией на основе поверхностной проводимости, на основе углеродных нанотрубок и нанокристаллические.
Дисплей 130 также может включать в себя дополнительные элементы в зависимости от его реализации. Например, дисплей 130 в виде ЖКД (LCD) может включать в себя ЖК-панель, блок фоновой подсветки для излучения света на ЖК-панель и плату для управления панелью для управления ЖК-панелью.
Блок 140 связи передает и принимает данные для осуществления связи между устройством 100 визуального отображения и сервером 10. В примерном варианте осуществления, связь может являться интерактивной связью. Блок 140 связи соединен с сервером 10 через проводную и/или беспроводную глобальную и/или локальную сеть или локальное соединение в соответствии с протоколом связи сервера 10.
Блок 150 ввода пользователя передает различные предварительно установленные команды управления или информацию в контроллер 190 согласно принятому вводу пользователя. Блок 150 ввода пользователя реализован в виде кнопки вывода меню или панели ввода, установленной на внешней части устройства 100 визуального отображения, или удаленного контроллера, который является отделенным от устройства 100 визуального отображения. Или же, блок 150 ввода пользователя может быть объединен с дисплеем 130. Если дисплей 130 является сенсорным экраном, то пользователь может коснуться меню ввода, отображенного на дисплее 130, для передачи предварительно установленной команды в контроллер 190.
Блок 160 голосового ввода реализован в виде микрофона и обнаруживает различные звуки, создаваемые во внешнем окружении устройства 100 визуального отображения. Звук, который обнаружен блоком 160 голосового ввода, включает в себя речь пользователя и другие звуки, которые создаются различными источниками, отличными от пользователя.
Голосовой процессор 170 обрабатывает голоса или звуки, введенные в блок 160 голосового ввода, исходя из различных предварительно установленных процессов, выполняемых устройством 100 визуального отображения. Под "голосом", который обрабатывается голосовым процессором 170, подразумевается голос, введенный в блок 160 голосового ввода. Сигнал изображения, который обрабатывается процессором 120 изображений, может включать в себя голосовые данные, которые обрабатываются процессором 120 изображений.
Если голос или звук вводятся в блок 160 голосового ввода, то голосовой процессор 170 определяет то, является ли введенный голос или звук результатом речи пользователя, или они были созданы другими факторами. При таком определении могут использоваться различные конфигурации, и оно не может быть задано, например, оно включает в себя способ определения того, подпадают ли введенный голос или звук под длину волны или полосу частот, соответствующую человеческому голосу, или способ определения того, подпадают ли введенный голос или звук под профиль голоса пользователя, который является сохраненным заранее, или совпадают с ним.
Если определено, что введена речь пользователя, то голосовой процессор 170 выполняет предварительно установленную соответствующую операцию для голосовой команды, соответствующей этой речи. В одном примерном варианте осуществления, голосовая команда является содержимым того, что сказал пользователь. Это будет подробно описано ниже.
В блоке 180 памяти сохраняются данные под управлением контроллера 190. Блок 180 памяти реализован как энергонезависимая память, например флэш-память или жесткий диск. К блоку 180 памяти обращается контроллер 190, процессор 120 изображений или голосовой процессор 170, и данные, сохраняемые в нем, могут считываться, записываться, модифицироваться, удаляться или обновляться контроллером 190, процессором 120 изображений или голосовым процессором 170.
После приема речи пользователя через блок 160 голосового ввода, контроллер 190 осуществляет управление голосовым процессором 170 для обработки этой введенной речи. Когда процессор 120 изображений обрабатывает сигнал изображения, принятый приемником 110 изображения, для отображения изображения вещания на дисплее 130, контроллер 190 меняет канал согласно содержимому речи пользователя, если эта речь пользователя принята, чтобы командовать сменить канал через блок 160 голосового ввода.
Голосовая команда, относящаяся к 'смене канала', может включать в себя произнесение номера канала вещательного канала, который требуется пользователю, или произнесение позывного требуемого вещательного канала. Номер канала и позывной являются выражениями, которые устанавливаются заранее для того, чтобы отличать каналы друг от друга. Номер канала выражается положительным числом, например, 6, 7 и 11.
Позывной является ID провайдера, который обеспечивает конкретный канал, и обычно является идентификационным именем вещательной станции, которая осуществляет вещание канала, для одного канала может существовать множество позывных, и если одна вещательная станция обеспечивает множество каналов, то соответствующие каналы имеют разные позывные для того, чтобы отличать их. Альтернативными формами ID являются цифровая, буквенная и буквенно-цифровая формы.
Примером первого случая является следующий: если позывным предопределенного первого канала является "KBS", то тогда такой позывной "Korean Broadcasting System" ("Корейская система вещания") может относиться к первому каналу, идентичному "KBS". Позывным предопределенного второго канала в одном географическом местоположении является "MBC", но позывным этого второго канала в другом географическом местоположении может являться "TNN". Соответственно, для конкретного канала может существовать множество позывных.
Примером второго случая является следующий: вещательная станция, позывным которой является "KBS", может обеспечивать вещательный сигнал в предопределенный третий канал и четвертый (канал). В этом случае, позывным третьего канала является "KBS-1", а позывным четвертого канала является "KBS-2", которые отличаются друг от друга. "KBS" может рассматриваться как представительный позывной вещательной станции, а "KBS-1" и "KBS-2" являются позывными более низкого уровня по отношению к "KBS". Соответственно, позывной "KBS" относится как к третьему каналу, так и к четвертому каналу.
Соответственно, если речь пользователя, которая введена через блок 160 голосового ввода, является голосовой командой, "воспроизвести KBS", то может быть не понятно то, к какому из третьего канала "KBS-1" и четвертого канала "KBS-2" это относится.
Согласно настоящему примерному варианту осуществления, контроллер 190 определяет то, включает ли в себя голосовая команда, соответствующая речи пользователя, ключевое слово, относящееся к позывному вещательного канала.
Если определяется, что голосовая команда включает в себя ключевое слово, относящееся к позывному, то контроллер 190 осуществляет управление голосовым процессором 170 для поиска позывного, соответствующего этому ключевому слову, в базе данных, содержащей множество позывных. База данных хранится в блоке 180 памяти, и найденный позывной называется кандидатом на позывной. Если найдено множество кандидатов на позывной, соответствующих ключевому слову, то контроллер 190 выбирает позывной как рекомендуемый позывной из этого множества кандидатов на позывной согласно предварительно установленным условиям выбора. В других примерных вариантах осуществления, позывной, выбранный контроллером, может являться наиболее совпадающим позывным, предполагаемым позывным или распознанным позывным.
В других случаях, контроллер 190 может передавать ключевое слово и голосовую команду на сервер 10, на котором хранится база данных. После этого, (сервер) 10, согласно принципу, который является аналогичным принципу, раскрытому выше, выбирает рекомендуемый позывной, анализирует соответствующую операцию в голосовой команде и передает управляющий сигнал в устройство 100 визуального отображения согласно выбору и результатам анализа.
Контроллер 190 выполняет соответствующую операцию в отношении вещательного сигнала по выбранному, рекомендуемому позывному, для голосовой команды.
Далее в этом документе, со ссылкой на фиг. 2 описаны конфигурация базы 200 данных и способ поиска в базе 200 данных кандидата 230 на позывной.
На фиг. 2 изображен пример базы 200 данных.
Как на ней показано, контроллер 190 определяет то, включает ли в себя голосовая команда "воспроизвести KBS", замененная на текст исходя из речи пользователя, ключевое слово, относящееся к позывному. Если в блоке 180 памяти хранится база 200 данных взаимосвязей, которая устанавливает соответствие ключевого слова и позывного, то контроллер 190 может осуществлять поиск предопределенного ключевого слова в базе 200 данных и определять то, относится ли это ключевое слово к позывному.
База 200 данных устанавливает соответствие множества ключевых слов 220 и множества позывных 230, и используется для поиска, по меньшей мере, одного кандидата на позывной среди множества позывных 230 на основе одного ключевого слова из множества ключевых слов 220. На чертеже изображена взаимосвязь элементов, относящихся только к двум представительным позывным, "KBS" и "FTV", из базы 200 данных.
Представительные позывные 210 действуют как связующее звено между множеством ключевых слов 220 и множеством позывных 230. Более конкретно, если введено предопределенное ключевое слово из множества ключевых слов 220, то в базе 200 данных осуществляется поиск представительного позывного, соответствующего этому предопределенному ключевому слову. Если найден соответствующий представительный позывной 210, то во второй раз осуществляется поиск позывного более низкого уровня или соответственного кандидата на позывной, соответствующего найденному, для представительного позывного 210.
В случае ключевого слова, группируются и/или распределяются по категориям для представительного позывного различные термины, включающие в себя синонимы, относящиеся к представительному позывному. Кандидаты на позывной включают в себя позывные, по меньшей мере, одного канала, относящегося к представительному позывному 210, и эти позывные группируются и/или распределяются по категориям для представительного позывного 210.
Например, если введено ключевое слово "канал рыбалки", то представительным позывным, относящимся к "каналу рыбалки", является "FTV", и кандидатом на позывной, который относится к представительному позывному "FTV" 20, является только один, "FTV". Соответственно, согласно результатам поиска в базе 200 данных, позывным канала, соответствующим ключевому слову "канал рыбалки" 220, является один "FTV".
Если введено ключевое слово "KBS", то представительным позывным, относящимся к "KBS", является "KBS", и кандидатами на позывной, относящимися к представительному позывному "KBS", являются четыре кандидата, т.е. "KBS-1", "KBS-2", "KBS - спорт" и "KBS - кино".
Вышеизложенным способом в базе 200 данных осуществляется поиск для получения, по меньшей мере, одного кандидата на позывной, относящегося к ключевому слову. Вышеизложенный способ является только примером реализации базы 200 данных, и способ реализации базы 200 данных может варьироваться, и не ограничивается вышеизложенным примером.
Фиг. 3 является блок-схемой, на которой представлена структура взаимодействия устройства 100 визуального отображения и серверов 20 и 30.
Как на ней представлено, устройство 100 визуального отображения включает в себя блок 140 связи, блок 160 голосового ввода, голосовой процессор 170 и контроллер 190. Элементы являются идентичными тем, которые раскрыты на фиг. 1. Блок 140 связи соединен с сервером 20 для преобразования речи в текст (STT), который преобразует речь пользователя в голосовую команду, и с сервером 30 для разговорной речи, который анализирует голосовую команду для определения операции, соответствующей этой голосовой команде.
Сервер 20 STT анализирует форму волны принятого голосового сигнала и формирует текст исходя из содержимого этого голосового сигнала. Сервер 20 STT преобразует голосовой сигнал речи пользователя, переданный устройством 200 визуального отображения, в голосовую команду.
Сервер 30 для разговорной речи включает в себя базу данных, которая устанавливает соответствие различных операций устройства 100 визуального отображения, соответствующих голосовой команде. Сервер 30 для разговорной речи анализирует голосовую команду, переданную устройством 100 визуального отображения, и передает в устройство 100 визуального отображения управляющий сигнал для выполнения операции, соответствующей голосовой команде согласно результатам анализа.
Если речь пользователя введена в блок 160 голосового ввода или принята в нем, то контроллер 190 передает голосовой сигнал этой речи на сервер 20 STT, и принимает голосовую команду из сервера 20 STT, соответствующую этой речи.
Контроллер 190 определяет то, является ли голосовая команда, переданная сервером 20 STT, коротким предложением или предложением разговорной речи. Если голосовая команда является коротким предложением, то контроллер 190 осуществляет управление голосовым процессором 170 для обработки этой голосовой команды. Если голосовая команда является предложением разговорной речи, то контроллер 190 осуществляет управление сервером 30 для разговорной речи для обработки этой голосовой команды. В примерном варианте осуществления, короткое предложение можно отличить от предложения разговорной речи на основе количества слов или нескольких фонем. В одном примерном варианте осуществления, короткое предложение содержит (N1) или меньшее количество слов, где N1 может быть равно одному из 1, 2, 3, 4, 5, 6, 7, 8, а предложение разговорной речи содержит большее количество, чем (N1) слов. В другом примерном варианте осуществления, короткое предложение содержит N2 или меньшее количество фонем, где N2 может быть равно одному из 1, 2, 3, 4, 5, 6, 7, 8, а предложение разговорной речи содержит большее количество, чем N фонем.
Это потому, что предложение разговорной речи является естественным языком, и механическое извлечение требуемой соответствующей операции из голосовой команды в виде предложения разговорной речи является относительно сложным. Например, если голосовая команда пользователя является коротким предложением "воспроизвести KBS", то голосовой процессор 170 может немедленно выполнить операцию с ключевым словом "KBS" позывного и ключевым словом "воспроизвести" операции.
Однако, если голосовая команда является предложением разговорной речи "сменить текущий канал на Korean Broadcasting System", содержимое которой является по существу идентичным содержимому вышеизложенного короткого предложения, то потребуется процесс извлечения ключевого слова "KBS" позывного, соответствующего "Korean Broadcasting System", и процесс извлечения ключевого слова "воспроизвести" операции, соответствующего "сменить на". Вследствие различных факторов, например загрузки системы или размера базы данных, обработка такого предложения разговорной речи голосовым процессором 170 может являться сложной.
На фиг. 4 изображен пример процесса взаимодействия между устройствами 100 визуального отображения и серверами 20 и 30 согласно настоящему примерному варианту осуществления.
Как на ней представлено, после приема ввода речи пользователя (600), устройство 100 визуального отображения передает голосовой сигнал этой речи на сервер 20 STT (610).
Сервер 20 STT преобразует голосовой сигнал в голосовую команду (620) и передает преобразованную голосовую команду в устройство 100 визуального отображения (630).
Устройство 100 визуального отображения анализирует голосовую команду, переданную сервером (20) STT, и извлекает ключевое слово, относящееся к позывному, из голосовой команды (640). Устройство 100 визуального отображения определяет то, является ли голосовая команда коротким предложением или предложением разговорной речи.
Если определяется, что голосовая команда является предложением разговорной речи, то устройство 100 визуального отображения передает голосовую команду и ключевое слово, относящееся к позывному, на сервер 30 для разговорной речи (650).
Сервер 30 для разговорной речи выполняет процесс анализа позывного с учетом голосовой команды и ключевого слова, относящегося к позывному, переданному устройством 100 визуального отображения (660). Процесс анализа позывного включает в себя процесс поиска кандидата на позывной, соответствующего ключевому слову, относящемуся к упомянутому позывному, процесс выбора позывного из найденных кандидатов на позывной в качестве рекомендуемого позывного и процесс определения операции устройства 100 визуального отображения, соответствующей рекомендуемому позывному, в пределах текста. Это подробно описывается ниже.
Если выбор рекомендуемого позывного и определение соответствующей операции голосовой команды завершены, то сервер 30 для разговорной речи передает управляющий сигнал в устройство 100 визуального отображения согласно этим результатам выбора и определения. Устройство 100 визуального отображения может выполнять соответствующую операцию в отношении рекомендуемого позывного согласно упомянутому управляющему сигналу.
Например, если в результате анализа оказалось, что рекомендуемым позывным является "KBS-1", и соответствующей операцией является смена канала, то сервер 30 для разговорной речи передает управляющий сигнал, с указанием этого содержимого, в устройство 100 визуального отображения, которое меняет канал на "KBS-1".
Если определяется то, что голосовая команда является коротким предложением, то, при операции 640, устройство 100 визуального отображения выполняет процесс анализа позывного в отношении принятой голосовой команды и ключевого слова, относящегося к этому позывному. Такой процесс выполняется согласно по существу идентичному принципу, как и в случае процесса, выполняемого сервером 30 для разговорной речи.
Далее в этом документе описывается процесс анализа позывного относительно ключевого слова, относящегося к этому позывному.
Сервер 30 для разговорной речи осуществляет поиск кандидата на позывной, соответствующего ключевому слову, относящемуся к этому позывному, и определяет то, существует ли множество кандидатов на позывной.
Определение того, включает ли в себя голосовая команда ключевое слово, относящееся к позывному, и поиск кандидата на позывной, соответствующего упомянутому ключевому слову, могут быть выполнены способом, идентичным тому, который раскрыт на фиг. 2. Соответственно, сервер 30 для разговорной речи осуществляет поиск слов, извлеченных из голосовой команды, в базе 200 данных (см. фиг. (2)), и определяет то, существует ли какое-либо соответствующее слово 220 (см. фиг. 2), и если это так, то может получить кандидата на позывной (см. фиг. 2) по представительному позывному (см. фиг. 2).
В процессе извлечения ключевого слова из голосовой команды, может выполняться коррекция или фильтрация ошибки в голосовой команде. Например, если существует голосовая команда "воспроизвести Orean Broadcasting System", то в базе данных может быть выбрано слово "Korean Broadcasting System", даже если слово "Orean Broadcasting System" не включено в базу данных, но определено то, что слово "Korean Broadcasting System" является похожим на слово "Orean Broadcasting System". Способ определения сходства слов может варьироваться и не ограничивает идею настоящего изобретение.
Если существует только один кандидат на позывной, то сервер 30 для разговорной речи выбирает кандидат на позывной в качестве рекомендуемого позывного.
Если существует множество кандидатов на позывной, то сервер 30 для разговорной речи выбирает рекомендуемый позывной согласно предварительно установленным условиям выбора.
Условия выбора для выбора рекомендуемого позывного из кандидатов на позывной могут быть заданы заранее. Например, сервер 30 для разговорной речи может выбрать множество позывных, частоты выбора которых, основанные на предыдущих данных, имеют предварительно установленный ранг или выше него, в качестве рекомендуемых позывных, или выбрать один позывной, частота выбора которого, основанная на предыдущих данных, является самой высокой, в качестве рекомендуемого позывного.
Если в качестве кандидатов на позывной существуют четыре позывных "KBS-1", "KBS-2", "KBS - спорт" и "KBS - кино", то контроллер 190, в устройстве 100 визуального отображения, определяет частоту выбора каналов, основанную на предыдущих данных, за предопределенный период на основе информации о предыстории применения. Например, если позывные упорядочены согласно уменьшению частоты выбора, основанной на предыдущих данных, то порядок может быть следующим: "KBS - спорт", "KBS - кино", "KBS-2" и "KBS-1", контроллер 190 может выбирать множество позывных в порядке частоты выбора, основанной на предыдущих данных, или выбирать один позывной.
Контроллер 190 может отображать интерфейс пользователя (UI), который используется для того, чтобы пользователь выбрал один из множества кандидатов на позывной.
На фиг. 5 и фиг. 6 изображен пример UI 310 и 320, которые обеспечиваются для выбора одного из множества рекомендуемых позывных.
Как представлено на фиг. 5, контроллер 190 выбирает "KBS - спорт" и "KBS - кино", которые выбирались наиболее часто на устройстве 100 визуального отображения, в качестве (рекомендуемых позывных) на основе информации о предыстории применения, и обеспечивает UI 310 для того, чтобы пользователь выбрал требуемый канал из (выбранных рекомендуемых позывных). Пользователь может выбрать один позывной и вещательный канал из "KBS - спорт" и "KBS - кино" посредством UI 310.
Как представлено на фиг. 6, контроллер 190 может обеспечить UI 320, который используется для выбора одного из всех кандидатов на позывной: "KBS - спорт", "KBS - кино", "KBS-2" и "KBS-1". В UI 320 контроллер 190 может отображать все найденные кандидаты на позывной, но может определять порядок отображения позывных согласно частоте выбора, основанной на предыдущих данных. Например, в UI 320 могут отображаться кандидаты на позывной в порядке, начиная с самой высокой частоты выбора, основанной на предыдущих данных.
Если выбор пользователя не сделан за предварительно установленное время, пока отображаются UI 310 и 320, то контроллер 190 может выбрать канал с самым высоким рангом, например, "KBS - спорт", который выбирался наиболее часто, из кандидатов на позывной.
Условия выбора для выбора рекомендуемого позывного из кандидатов на позывной могут отличаться от условий в вышеупомянутом примере. Сервер 10 (см. фиг. 1) является соединенным с различными другими устройствами визуального отображения, которые отличаются от устройства 100 визуального отображения. Сервер 10 может быть идентичным серверу 20 STT или серверу 30 для разговорной речи или отличаться от них. Сервер 20 STT и сервер 30 для разговорной речи были (описаны) как разные, но могут быть реализованы как идентичные серверы.
Другие устройства визуального отображения передают информацию о предыстории применения на сервер 10. Сервер 10 определяет частоту выбора "KBS-1", "KBS-2", "KBS - спорт" (и) "KBS - кино" в пределах кандидатов на позывной на основе упомянутой информации о предыстории применения, собранной из других устройств визуального отображения.
Контроллер 190 передает кандидаты на позывной, "KBS-1", "KBS-2", "KBS - спорт" и "KBS - кино", на сервер 10, и может запрашивать, чтобы сервер 10 выбрал рекомендуемого кандидата из кандидатов на позывной.
Сервер 10 определяет ранг выбора на основе информации о предыстории применения из других устройств визуального отображения, в пределах кандидатов на позывной. Если ранг выбора представлен в порядке: "KBS - кино", "KBS-2", "KBS - спорт" и "KBS-1", и количество (рекомендуемых кандидатов), запрашиваемых устройством 100 визуального отображения равно одному, то сервер 10 принимает решение о "KBS - кино", который выбирался наиболее часто, в качестве рекомендуемого кандидата, и уведомляет устройство 100 визуального отображения о вышеупомянутом. Контроллер 190 может отображать информацию, относящуюся к "KBS - кино", в виде изображения.
Если выбран только один рекомендуемый позывной, то контроллер 190 может автоматически отображать изображение вещательного канала по рекомендуемому позывному. Однако номер канала, соответствующий позывному, может являться не идентичным, в зависимости от географического местоположения.
Соответственно, контроллер 190 получает информацию о географическом местоположении, касающуюся географического местоположения, где расположено устройство 100 визуального отображения, и определяет номер канала позывного для этого географического местоположения. Способ определения географического местоположения устройства 100 визуального отображения может варьироваться, например, извлечение географического местоположения и/или ID страны, включенного в заголовок или метаданные вещательного сигнала, определение сервером 10 на основе MAC-адреса блока 140 связи или ввод информации о географическом местоположении пользователем заранее, в устройстве 100 визуального отображения.
Как описано выше, если голосовая команда, соответствующая речи пользователя, включает в себя ключевое слово, относящееся к позывному, то устройство 100 визуального отображения выбирает рекомендуемый позывной, соответствующий этому ключевому слову, и выполняет соответствующую операцию согласно голосовой команде в отношении вещательного канала по выбранному рекомендуемому позывному.
На фиг. 7 изображает пример процесса взаимодействия устройства 100 визуального отображения и серверов 20 и 30 согласно второму примерному варианту осуществления.
Как на ней представлено, после приема ввода речи пользователя (700), устройство 100 визуального отображения передает голосовой сигнал этой речи на сервер 20 STT (710).
Сервер 20 STT преобразует принятый голосовой сигнал в голосовую команду (720). Операции 700-720 являются идентичными операциям на фиг. 4.
Сервер 20 STT передает голосовую команду на сервер 30 для разговорной речи (730).
Сервер 30 для разговорной речи выполняет процесс анализа позывного, например поиск кандидатов на позывной и выбор рекомендуемого позывного (740). Подробное описание может быть аналогичным описанию вышеизложенного примерного варианта осуществления, и не приводится повторно. Однако, в отличие от случая на фиг. 4, процесс анализа позывного согласно настоящему примерному варианту осуществления выполняется сервером 30 для разговорной речи посредством извлечения позывного слова из голосовой команды.
Сервер 30 для разговорной речи передает рекомендуемый позывной и управляющий сигнал с указанием соответствующей операции в устройство 100 визуального отображения, которое выполняет операцию согласно этому управляющему сигналу (750).
В вышеизложенном примерном варианте осуществления, раскрыта конфигурация для преобразования, сервером 20 STT, речевого ввода пользователя в устройство 100 визуального отображения в голосовую команду, и обработки, устройством 100 визуального отображения, короткого предложения как голосовой команды, и обработки, сервером 30 для разговорной речи, предложения разговорной речи как голосовой команды.
Однако идея настоящего изобретения не ограничивается вышеизложенным, и конфигурация для преобразования речи в голосовую команду и конфигурация, касающаяся субъекта, который обрабатывает голосовую команду, в зависимости от того, является ли эта голосовая команда коротким предложением или предложением разговорной речи, могут отличаться от этих конфигураций в вышеизложенном примерном варианте осуществления.
Фиг. 8 является блок-схемой, изображающей структуру взаимодействия устройства 100a визуального отображения и сервера 40 согласно третьему примерному варианту осуществления. На фиг. 9 изображен пример процесса взаимодействия между устройством 100a визуального отображения и сервером 40 на фиг. 8.
Как представлено на фиг. 8, устройство 100a визуального отображения включает в себя блок 140a связи, блок 160a голосового ввода, голосовой процессор 170a и контроллер 190a.
Голосового процессор 170a включает в себя преобразователь 171a STT, который преобразует речь, переданную блоком 160a голосового ввода, в голосовую команду, и командный процессор 172a для короткого предложения, который обрабатывает голосовую команду, если эта голосовая команда является коротким предложением.
Если введена речь пользователя, то блок 160a голосового ввода передает голосовой сигнал введенной речи в преобразователь 171a STT. Преобразователь 171a STT анализирует голосовой сигнал, переданный блоком 160a голосового ввода, и преобразует этот голосовой сигнал в голосовую команду, включающую в себя содержимое этого голоса. Преобразователь (171a) STT передает преобразованную голосовую команду в контроллер 190a. Соответственно, преобразователь 171a STT выполняет функцию сервера 20 STT в первом примерном варианте осуществления.
Контроллер 190a определяет то, является ли голосовая команда коротким предложением или предложением разговорной речи. Если голосовая команда является коротким предложением, то контроллер 190a передает эту голосовую команду в командный процессор 172a для короткого предложения. Командный процессор 172a для короткого предложения анализирует голосовую команду посредством осуществления управления контроллером 190a, и выполняет соответствующую операцию согласно результатам анализа. При анализе и выполнении голосовой команды может применяться вышеизложенный примерный вариант осуществления, и подробное описание опущено.
Если голосовая команда является предложением разговорной речи, то контроллер 190a передает эту голосовую команду на сервер 40 для разговорной речи через блок 140a связи, а не в командный процессор 172a для короткого предложения. Сервер 20 для разговорной речи выполняет идентичную функцию, что и сервер 30 для разговорной речи согласно первому примерному варианту осуществления.
Устройство 100a визуального отображения выполняет операцию, соответствующую управляющему сигналу, передаваемому сервером (30) для разговорной речи.
Как представлено на фиг. 9, устройство 100a визуального отображения соединено с сервером 40 для разговорной речи для связи. Если введена речь пользователя (810), то устройство 100a визуального отображения определяет то, является ли голосовая команда, соответствующая этой речи, коротким предложением или предложением разговорной речи (820). Если определяется то, что голосовая команда является предложением разговорной речи, то устройство 100a визуального отображения передает голосовую команду на сервер 40 для разговорной речи (830).
После приема голосовой команды из устройства 100 визуального отображения (910), сервер 40 для разговорной речи извлекает ключевое слово, относящееся к позывному, из этой голосовой команды (920).
В других случаях, ключевое слово, относящееся к позывному, может быть извлечено устройством 100a визуального отображения, а не сервером 40 для разговорной речи. В этом случае, устройство 100a визуального отображения передает, на сервер 40 для разговорной речи, ключевое слово, относящееся к позывному, вместе с голосовой командой.
Сервер 40 для разговорной речи осуществляет поиск кандидата на позывной, соответствующего ключевому слову (930). Если найдено множество кандидатов на позывной, то сервер 40 для разговорной речи выбирает позывной из этого множества найденных кандидатов на позывной как рекомендуемый позывной, согласно условиям выбора, как описано выше (940). Сервер 40 для разговорной речи анализирует голосовую команду и определяет соответствующую операцию согласно этой голосовой команде.
Сервер 40 для разговорной речи передает, в устройство 100a визуального отображения, рекомендуемый позывной и управляющий сигнал с указанием соответствующей операции (950).
Устройство 100a визуального отображения выполняет соответствующую операцию в отношении вещательного сигнала по рекомендуемому позывному, согласно управляющему сигналу, переданному сервером 40 для разговорной речи (840).
Если определяется то, что голосовая команда является коротким предложением, при операции 820, то устройство 100 визуального отображения анализирует рекомендуемый позывной и соответствующую операцию.
Фиг. 10 является блок-схемой, изображающей структуру передачи сигнала голосового процессора 171b устройства 100b визуального отображения согласно четвертому примерному варианту осуществления.
Как на ней представлено, голосовой процессор 170b включает в себя преобразователь 171b STT, который преобразует речь пользователя, переданную блоком 160b голосового ввода, в голосовую команду, командный процессор 172b для короткого предложения, который обрабатывает голосовую команду, если эта голосовая команда, преобразованная преобразователем 171b STT, является коротким предложением, и командный процессор 173b для разговорной речи, который обрабатывает голосовую команду, преобразованную преобразователем 171b STT, если эта голосовая команда является предложением разговорной речи/обычным языком. Структура голосового процессора 170b не ограничивается вышеизложенным примером, и настоящий пример коротко раскрывает предметы, непосредственно относящиеся к настоящему примерному варианту осуществления.
Если введена речь пользователя, то блок 160b голосового ввода передает голосовой сигнал введенной речи в преобразователь 171b STT. Преобразователь 171b STT преобразует речь, переданную блоком 160b голосового ввода, в голосовую команду, включающую в себя содержимое этой этой речи. Преобразователь 171b STT передает преобразованную голосовую команду в контроллер 190b.
Контроллер 190b определяет то, является ли голосовая команда коротким предложением или предложением разговорной речи. Вышеизложенное определение может быть выполнено посредством различных алгоритмов.
Если голосовая команда является коротким предложением, то контроллер 190b передает эту голосовую команду в командный процессор 172b для короткого предложения. Если голосовая команда является предложением разговорной речи, то контроллер 190b передает эту голосовую команду в командный процессор 173b для разговорной речи.
Командный процессор I72b для короткого предложения выполняет по существу идентичную функцию, что и командный процессор 172b для короткого предложения на фиг. 8. Командный процессор 173b для разговорной речи выполняет функцию, выполняемую серверами 30 и 40 для разговорной речи согласно вышеизложенным вариантам осуществления.
Соответственно, в отличие от вышеизложенных примерных вариантов осуществления, устройство 100b визуального отображения согласно настоящему примерному варианту осуществления может преобразовывать голосовую команду из речи пользователя и анализировать операцию, соответствующую этой голосовой команде, вместо того, чтобы обмениваться данными и/или сигналами с внешними серверами 20-40.
Если устройство визуального отображения соединено с дополнительным сервером, который выполняет процесс анализа позывного, то командный процессор 172a для короткого предложения или командный процессор 173b для разговорной речи могут передавать ключевое слово и голосовую команду на сервер, который выполняет процесс анализа позывного.
Соответственно, в вышеизложенных примерных вариантах осуществления, процесс анализа позывного выполняют серверы 30 и 40 для разговорной речи или голосовые процессоры 170, 170a и 170b, но в других случаях процесс анализа позывного может быть выполнен дополнительным сервером.
Несмотря на то что представлены и описаны несколько примерных вариантов осуществления, специалистам в данной области техники очевидно, что в этих примерных вариантах осуществления могут быть сделаны изменения, не выходя за границы принципов и сущности изобретения, объем которого определен в прилагаемой формуле изобретения и ее эквивалентах. Кроме того, специалистам в данной области техники очевидно, что все упомянутые выше блоки могут быть реализованы аппаратно.
название | год | авторы | номер документа |
---|---|---|---|
УСТРОЙСТВО ОТОБРАЖЕНИЯ, УСТРОЙСТВО ЗАХВАТА РЕЧИ И СООТВЕТСТВУЮЩИЙ СПОСОБ РАСПОЗНАВАНИЯ РЕЧИ | 2013 |
|
RU2677396C2 |
УЧЕБНО-ДЕМОНСТРАЦИОННЫЙ МОДУЛЬ И СИСТЕМА ОБУЧЕНИЯ ГЛУХИХ, НЕМЫХ И ГЛУХОНЕМЫХ ЛЮДЕЙ РАЗГОВОРНОЙ РЕЧИ | 2019 |
|
RU2715792C1 |
ПОИСК ИЗОБРАЖЕНИЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ | 2015 |
|
RU2688271C2 |
СОЗДАНИЕ ЗАМЕТОК С ИСПОЛЬЗОВАНИЕМ ГОЛОСОВОГО ПОТОКА | 2011 |
|
RU2571608C2 |
СПОСОБ И УСТРОЙСТВО АВТОМАТИЧЕСКОГО ГЕНЕРИРОВАНИЯ СВОДКИ МНОЖЕСТВА ИЗОБРАЖЕНИЙ | 2007 |
|
RU2440606C2 |
СИСТЕМА ОБРАБОТКИ ВВОДА ДЛЯ УСТРОЙСТВА ОБРАБОТКИ ИНФОРМАЦИИ | 2007 |
|
RU2457532C2 |
СИСТЕМЫ И СПОСОБЫ ОБЛАЧНОЙ ОБРАБОТКИ И НАЛОЖЕНИЯ СОДЕРЖИМОГО НА ПОТОКОВЫЕ ВИДЕОКАДРЫ УДАЛЕННО ОБРАБАТЫВАЕМЫХ ПРИЛОЖЕНИЙ | 2013 |
|
RU2617914C2 |
УСТРОЙСТВО ОТОБРАЖЕНИЯ ИЗОБРАЖЕНИЯ, УДАЛЕННЫЙ КОНТРОЛЛЕР И СПОСОБ ДЛЯ УПРАВЛЕНИЯ ИМИ | 2012 |
|
RU2519599C2 |
АРХИТЕКТУРА РАСПОЗНАВАНИЯ ДЛЯ ГЕНЕРАЦИИ АЗИАТСКИХ ИЕРОГЛИФОВ | 2008 |
|
RU2477518C2 |
ГЕНЕРАЦИЯ РАЗМЕТКИ ИЗОБРАЖЕНИЙ ДОКУМЕНТОВ ДЛЯ ОБУЧАЮЩЕЙ ВЫБОРКИ | 2017 |
|
RU2668717C1 |
Изобретение относится к средствам обработки изображений. Технический результат заключается в уменьшении времени распознавания команды и выполнения операции. Устройство обработки изображений включает в себя процессор изображений, который обрабатывает вещательный сигнал, для отображения изображения на основе обработанного вещательного сигнала, блок связи, который соединен с сервером, блок голосового ввода, который принимает речь пользователя, голосовой процессор, который обрабатывает выполнение предварительно установленной соответствующей операции согласно голосовой команде, соответствующей этой речи, и контроллер, который обрабатывает голосовую команду, соответствующую этой речи, посредством одного из голосового процессора и сервера, если эта речь введена через блок голосового ввода. Если голосовая команда включает в себя ключевое слово, относящееся к позывному вещательного канала, то контроллер осуществляет управление одним из голосового процессора и сервера для выбора рекомендуемого позывного, соответствующего ключевому слову, согласно предопределенному условию выбора, и выполняет соответствующую операцию согласно голосовой команде в отношении вещательного канала по рекомендуемому позывному. 2 н. и 11 з.п. ф-лы, 10 ил.
1. Устройство обработки изображений, содержащее:
процессор изображений, сконфигурированный с возможностью обработки вещательного сигнала для отображения программы вещательного канала,
средство связи, сконфигурированное с возможностью осуществления связи с сервером,
голосовой приемник, сконфигурированный с возможностью приема речи от пользователя,
голосовой процессор, сконфигурированный с возможностью обработки выполнения операции, соответствующей упомянутой речи, и
контроллер, сконфигурированный с возможностью обработки упомянутой речи, которая должна быть обработана посредством одного из голосового процессора и сервера,
при этом, если упомянутая речь содержит ключевое слово, относящееся к требуемому позывному вещательного канала, то контроллер осуществляет управление для выбора представительного позывного, соответствующего упомянутому ключевому слову, из базы данных, которая хранит множество представительных позывных и множество групп позывных, каждая содержит по меньшей мере один позывной, относящийся к соответствующему представительному позывному, осуществляет управление для отображения списка, который содержит группу позывных, относящуюся к выбранному представительному позывному, так что один позывной выбирается из группы позывных в отображаемом списке, и выполняет операцию согласно упомянутой речи в отношении вещательного канала по выбранному позывному.
2. Устройство обработки изображений по п. 1, в котором контроллер выбирает по меньшей мере один позывной на основе частоты выбора позывного, которая больше или равна предварительно установленному рангу, из упомянутого множества позывных в упомянутой группе позывных, относящейся к выбранному представительному позывному.
3. Устройство обработки изображений по п. 1, в котором контроллер выбирает по меньшей мере один позывной на основе частоты выбора позывного, которая больше или равна предварительно установленному рангу, причем частота выбора происходит из множества других устройств обработки изображений, осуществляющих связь с сервером, из упомянутого множества позывных в упомянутой группе позывных, относящейся к выбранному представительному позывному.
4. Устройство обработки изображений по п. 1, в котором контроллер отображает интерфейс пользователя (UI), который отображает упомянутый список и предусматривает выбор упомянутого одного позывного.
5. Устройство обработки изображений по п. 4, в котором, если позывной не выбран пользователем за предварительно установленный период времени после отображения UI, то контроллер выбирает один позывной в упомянутом списке согласно предопределенному условию выбора.
6. Устройство обработки изображений по п. 1, в котором средство связи осуществляет связь с сервером преобразования речи в текст (STT), который преобразует речь в текстовые данные, и при этом, после ввода речи в голосовой приемник, контроллер передает голосовой сигнал этой речи на сервер STT, и принимает текстовые данные, соответствующие этой речи, из сервера STT.
7. Устройство обработки изображений по п. 6, в котором, если контроллер определяет, что речью является короткое предложение, то для обработки текстовых данных упомянутой речи контроллер осуществляет управление голосовым процессором, и если контроллер определяет, что речью является предложение разговорной речи, то контроллер передает на сервер текстовые данные упомянутой речи для их обработки сервером.
8. Устройство обработки изображений по п. 1, дополнительно содержащее дисплей, на котором отображается программа вещательного канала на основе вещательного сигнала, обработанного процессором изображений.
9. Способ управления устройством обработки изображений, содержащий:
осуществление связи с сервером,
прием речи от пользователя, и
обработку речи посредством одного из устройства обработки изображений и сервера, и выполнение операции согласно упомянутой речи,
при этом, в по меньшей мере одном из устройства обработки изображений и сервера хранится база данных, причем база данных хранит множество представительных позывных и множество групп позывных, включающих в себя по меньшей мере один позывной, относящийся к соответствующему представительному позывному, и
при этом упомянутые обработка и выполнение содержат:
если упомянутая речь содержит ключевое слово, относящееся к требуемому позывному вещательного канала, осуществление управления для выбора из базы данных представительного позывного, соответствующего ключевому слову,
отображение списка, который содержит группу позывных, относящуюся к выбранному представительному позывному, так что один позывной выбирается из группы позывных в отображаемом списке, и
выполнение операции согласно упомянутой речи в отношении вещательного канала по выбранному позывному.
10. Способ управления по п. 9, в котором упомянутое управление для выбора представительного позывного содержит:
выбор по меньшей мере одного позывного на основе частоты выбора позывного, которая больше или равна предварительно установленному рангу, из упомянутого множества позывных в упомянутой группе позывных, относящейся к выбранному представительному позывному.
11. Способ управления по п. 9, в котором упомянутое управление для выбора представительного позывного содержит:
выбор по меньшей мере одного позывного на основе частоты выбора позывного, которая больше или равна предварительно установленному рангу, причем частота выбора происходит из множества других устройств обработки изображений, осуществляющих связь с сервером, из упомянутого множества позывных в упомянутой группе позывных, относящейся к выбранному представительному позывному.
12. Способ управления по п. 9, в котором упомянутое отображение списка содержит отображение интерфейса пользователя (UI), который отображает упомянутый список для выбора упомянутого одного позывного.
13. Способ управления по п. 12, в котором упомянутое отображение UI содержит выбор одного позывного, отображаемого в списке, согласно предварительно установленному условию выбора, если позывной не выбран пользователем за предварительно установленное время после отображения UI.
US 20120162540 A1, 28.06.2012 | |||
US 2007118382 A1, 24.05.2007 | |||
JP 2005249829 A, 15.09.2005 | |||
US 6757718 B1, 29.06.2004. |
Авторы
Даты
2015-12-20—Публикация
2013-01-25—Подача