Показать метаданные Скрыть метаданные

(19)

(11)

2 677 878

(13)

(51)

МПК

H04M3/56(2006-01-01)

G10L15/26(2006-01-01)

(21) (22)

Заявка

2017129888, 2015-01-30

(24)

Дата начала отсчета патента

2015-01-30

(22)

дата подачи заявки

2015-01-30

(45)

опубликовано

2019-01-22

(72)

авторы

Ван СиюнЦзян ХунжуйЧжэн Вэйцзюнь

(73)

патентообладатели

Хуавэй Текнолоджиз Ко., Лтд.

(56)

Документы, цитированные в отчете о поиске

RU 2012136154 A, 20.03.2014US 7236580 B1, 26.06.2007US 2014050308 A1, 20.02.2014CN 101068271 A, 07.11.2007

СПОСОБ И УСТРОЙСТВО ДЛЯ ПРЕОБРАЗОВАНИЯ ГОЛОСА В ТЕКСТ В КОНФЕРЕНЦ-ВЫЗОВЕ Российский патент 2019 года по МПК H04M3/56 G10L15/26

Описание патента на изобретение RU2677878C1

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

[0001] Настоящее изобретение относится к области технологий связи, и в частности, к способу и устройству для преобразования речи в текст в конференц-вызове.

УРОВЕНЬ ТЕХНИКИ

[0002] С непрерывным развитием технологий связи, телефон является неотъемлемой частью повседневной жизни, и телефон имеет много функций. Так как совершение вызова является быстрым и удобным, многие важные бизнес-согласования, трудовые договоренности, переговоры и подобное выполняются посредством совершения вызова. Чтобы гарантировать надежность выполнения вышеуказанной работы посредством совершения вызова, после завершения голосового диалога должна быть получена запись вызова (т.е., текст вызова).

[0003] В настоящее время, основной способ получения текста вызова является таким, как следует ниже: сначала выполнение ручной записи, и затем прослушивание записи вручную и компилирование записи в текст, и точность текста вызова, полученного таким образом, является относительно высокой, но такой способ является затратным по времени и усилиям. В качестве альтернативы, в процессе вызова, выборка голосового потока вызова, и отправка голосового потока, полученного посредством выборки, в механизм распознавания речи. Механизм распознавания речи преобразовывает голосовую информацию в текстовую информацию и отправляет преобразованный текст в терминал, используемый пользователем. Процесс не требует ручного режима и сберегает усилия и время человека. Однако, так как частота выборки голосовой информации, полученная посредством использования домена с коммутацией каналов, составляет 8 кГц, эффект распознавания речи посредством механизма распознавания речи является слабым, и точность текста, преобразованного механизмом распознавания речи, является низкой.

[0004] В заключение, в настоящее время нет способа точного определения текста, преобразованного из голоса в конференц-вызове, сберегающим время и нетрудозатратным образом.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0005] Варианты осуществления настоящего изобретения предусматривают способ и устройство для преобразования речи в текст в конференц-вызове. Так можно получить текст, преобразованный из голоса в конференц-вызове, сберегающим время и нетрудозатратным образом.

[0006] Чтобы достигнуть вышеприведенной цели, в вариантах осуществления настоящего изобретения применяются нижеследующие технические решения:

[0007] Согласно первому аспекту, предусматривается способ преобразования речи в текст в конференц-вызове, при этом способ применяется к серверу и включает в себя:

прием запросов преобразования речи в текст, которые отправляются по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор;

выделение сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;

прием, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу;

преобразование голосового потока в текст; и

отправку текста в терминал в конференц-вызове.

[0008] Со ссылкой на первый аспект, в первом возможном способе реализации первого аспекта, выделение сеанса по меньшей мере двум терминалам включает в себя:

если база данных включает первый идентификатор или второй идентификатор в запрос преобразования речи в текст, отправленный первым терминалом, выделение первому терминалу сеанса, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, где первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных включает в себя по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и

если база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделение одного и того же нового сеанса второму терминалу и третьему терминалу.

[0009] Со ссылкой на первый аспект или первый возможный способ реализации первого аспекта, во втором возможном способе реализации первого аспекта, текст включает в себя идентификатор по меньшей мере одного терминала, или текст включает в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.

[0010] Со ссылкой на первый аспект или первый возможный способ реализации первого аспекта или второй возможный способ реализации первого аспекта, в третьем возможном способе реализации первого аспекта, после выделения сеанса по меньшей мере двум терминалам, способ дополнительно включает в себя:

если выделенный сеанс является новым сеансом, установление соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавление соответствия в базу данных; или

если выделенный сеанс является сеансом в базе данных, добавление в базу данных идентификатора, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не включенному в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.

[0011] Со ссылкой на любой один из первого аспекта, или с первого по третий возможные способы реализации первого аспекта, в четвертом возможном способе реализации первого аспекта, после приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, способ дополнительно включает в себя:

прием сообщения об окончании, отправленного пятым терминалом;

удаление идентификатора пятого терминала из базы данных; и

если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаление сеанса из базы данных.

[0012] Согласно второму аспекту, предусматривается устройство для преобразования речи в текст в конференц-вызове, где устройство включает в себя:

первый блок приема, выполненный с возможностью приема запросов преобразования речи в текст, которые отправлены по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор;

блок выделения, выполненный с возможностью выделения сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;

второй блок приема, выполненный с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу;

блок преобразования, выполненный с возможностью преобразования голосового потока в текст; и

блок отправки, выполненный с возможностью отправки текста в терминал в конференц-вызове.

[0013] Со ссылкой на второй аспект, в первом возможном способе реализации второго аспекта, блок выделения выполнен с возможностью:

если база данных включает первый идентификатор или второй идентификатор в запрос преобразования речи в текст, отправленный первым терминалом, выделения первому терминалу сеанса, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, где первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных включает в себя по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и

если база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.

[0014] Со ссылкой на второй аспект или первый возможный способ реализации второго аспекта, во втором возможном способе реализации второго аспекта, текст включает в себя идентификатор по меньшей мере одного терминала, или текст включает в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.

[0015] Со ссылкой на второй аспект или первый возможный способ реализации второго аспекта, или второй возможный способ реализации второго аспекта, в третьем возможном способе реализации второго аспекта, устройство дополнительно включает в себя:

блок добавления, выполненный с возможностью: если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавления соответствия в базу данных; где

блок добавления дополнительно выполнен с возможностью: если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не включенному в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.

[0016] Со ссылкой на любой один из второго аспекта, или с первого по третий возможные способы реализации второго аспекта, в четвертом возможном способе реализации второго аспекта, устройство дополнительно включает в себя:

третий блок приема, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом; и

блок удаления, выполненный с возможностью удаления идентификатора пятого терминала из базы данных; где

блок удаления дополнительно выполнен с возможностью: если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаления сеанса из базы данных.

[0017] Согласно третьему аспекту, предусматривается устройство для преобразования речи в текст в конференц-вызове, где устройство включает в себя:

первый приемник, выполненный с возможностью приема запросов преобразования речи в текст, которые отправлены по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор;

процессор, выполненный с возможностью выделения сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;

второй приемник, выполненный с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу; где

процессор дополнительно выполнен с возможностью преобразования голосового потока в текст; и

передатчик, выполненный с возможностью отправки текста в терминал в конференц-вызове.

[0018] Со ссылкой на третий аспект, в первом возможном способе реализации третьего аспекта, процессор дополнительно выполнен с возможностью:

если база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.

[0019] Со ссылкой на третий аспект или первый возможный способ реализации третьего аспекта, во втором возможном способе реализации третьего аспекта, текст включает в себя идентификатор по меньшей мере одного терминала, или текст включает в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.

[0020] Со ссылкой на третий аспект или первый возможный способ реализации третьего аспекта или второй возможный способ реализации третьего аспекта, в третьем возможном способе реализации третьего аспекта,

процессор дополнительно выполнен с возможностью: если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавления соответствия в базу данных; и

процессор дополнительно выполнен с возможностью: если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не включенному в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.

[0021] Со ссылкой на любой один из третьего аспекта, или с первого по третий возможные способы реализации третьего аспекта, в четвертом возможном способе реализации третьего аспекта, устройство дополнительно включает в себя:

третий приемник, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом; где

процессор дополнительно выполнен с возможностью удаления идентификатора пятого терминала из базы данных; и

процессор дополнительно выполнен с возможностью: если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаления сеанса из базы данных.

[0022] Согласно способу и устройству для преобразования речи в текст в конференц-вызове, которые предусмотрены в вариантах осуществления настоящего изобретения, принимаются запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; сеанс выделяется по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, принимается посредством использования домена с коммутацией пакетов, где конференц-вызов соответствует одному сеансу; голосовой поток преобразовывается в текст; и текст отправляется терминалу в конференц-вызове. Так как принятый голосовой поток является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0023] Чтобы более ясно описать технические решения в вариантах осуществления настоящего изобретения или в предшествующем уровне техники, далее кратко описаны прилагаемые чертежи, требуемые для описания вариантов осуществления или известного уровня техники. Очевидно, прилагаемые чертежи в нижеследующем описании показывают лишь некоторые варианты осуществления настоящего изобретения, и специалисты в данной области техники могут получить другие чертежи из этих прилагаемых чертежей без творческих усилий.

[0024] Фиг. 1 является схемой архитектуры сети для преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;

[0025] Фиг. 2 является принципиальной схемой последовательности операций способа преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;

[0026] Фиг. 3 является принципиальной схемой последовательности операций другого способа преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;

[0027] Фиг. 4A и Фиг. 4B являются принципиальными схемами последовательности операций еще одного способа преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;

[0028] Фиг. 5 является принципиальной структурной схемой устройства для преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;

[0029] Фиг. 6 является принципиальной структурной схемой другого устройства для преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;

[0030] Фиг. 7 является принципиальной структурной схемой еще одного устройства для преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения; и

[0031] Фиг. 8 является принципиальной структурной схемой еще одного устройства для преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения.

ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

[0032] В дальнейшем ясно и полностью описываются технические решения в вариантах осуществления настоящего изобретения со ссылкой на прилагаемые чертежи в вариантах осуществления настоящего изобретения. Очевидно, описанные варианты осуществления являются некоторыми, но не всеми, из вариантов осуществления настоящего изобретения. Все другие варианты осуществления, полученные средними специалистами в данной области техники на основе вариантов осуществления настоящего изобретения без творческих усилий, попадут в объем правовой охраны настоящего изобретения.

[0033] Фиг. 1 показывает схему архитектуры сети для преобразования речи в текст в конференц-вызове. Терминал 1 - терминал N устанавливают конференц-вызов, и каждый из терминала 1 - терминала N обеспечивает возможность функции преобразования речи в текст. В процесс вызова, терминал 1 - терминал N отправляют голосовой поток на сервер посредством использования домена с коммутацией пакетов, и сервер преобразовывает голосовой поток в текст, и сервер отправляет текст терминалу 1 - терминалу N.

Вариант осуществления 1

[0034] Вариант осуществления 1 настоящего изобретения предусматривает способ для преобразования речи в текст в конференц-вызове. Как показано на Фиг. 2, способ может включать в себя нижеследующие этапы.

[0035] S201. Сервер принимает запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами.

[0036] Запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор.

[0037] Опционально, сервером может быть сервер, предоставленный оператором, или сервер, предоставленный третьей стороной.

[0038] Запросы преобразования речи в текст могут быть автоматически отправлены терминалом на сервер во время конференц-вызова, когда активирован микрофон (Microphone, MIC для краткости), расположенный на терминале.

[0039] Опционально, MIC, расположенный на терминале, может быть активирован нижеследующими двумя способами:

[0040] Способ 1. При совершении вызова или ответе на вызов, пользователь вручную активирует MIC.

[0041] Способ 2. Пользователь задает в терминале, что когда пользователь совершает вызов или отвечает на вызов, MIC активируется по умолчанию.

[0042] Следует отметить, что в процессе практического применения, способ активирования MIC на терминале может быть задан согласно фактическому требованию, что не ограничивается в настоящем изобретении.

[0043] Следует отметить, что запрос преобразования речи в текст может быть в форме сигнализации, или может быть в форме сообщения. Форма запроса преобразования речи в текст не ограничивается в настоящем изобретении. Когда запрос преобразования речи в текст находится в форме сигнализации, он может быть существующей сигнализацией или может быть вновь заданной сигнализацией. Тип сигнализации запроса преобразования речи в текст также не ограничивается в настоящем изобретении.

[0044] Следует дополнительно отметить, что запрос преобразования речи в текст может дополнительно включать в себя другой контент, такой как имя пользователя и адрес электронной почты, которые принадлежат к терминалу. Контент может быть предварительно задан пользователем в терминале. В процессе практического применения, разный контент может быть добавлен в запрос преобразования речи в текст согласно фактическому требованию. Конкретный контент, включенный в запрос преобразования речи в текст, не ограничивается в настоящем изобретении.

[0045] Опционально, первый идентификатор и второй идентификатор могут быть идентификатором терминала.

[0046] Идентификатор терминала может уникально определять терминал.

[0047] Предпочтительно, идентификатором терминала является телефонный номер терминала.

[0048] В процессе конференц-вызова, терминалы, участвующие в конференц-вызове, включают в себя вызывающий терминал и вызываемый терминал. Вызывающий терминал является терминалом, используемым пользователем для активного совершения исходящего вызова, и вызываемый терминал является терминалом, используемым пользователем для пассивного ответа на вызов.

[0049] Конкретно, первый идентификатор может быть идентификатором вызывающего терминала, и соответственно, второй идентификатор может быть идентификатором вызываемого терминала; или первый идентификатор может быть идентификатором вызываемого терминала, и соответственно, второй идентификатор может быть идентификатором вызывающего терминала.

[0050] Например, предполагается, что терминал 1, чьим телефонным номером является 123, и терминал 2, чьим телефонным номером является 456, находятся в процессе вызова (предполагая, что терминал 1 является вызывающим терминалом, и терминал 2 является вызываемым терминалом), когда терминал 1 активирует функцию преобразования речи в текст, сервер принимает запрос преобразования речи в текст <123, 456> терминала 1; и когда терминал 2 активирует функцию преобразования речи в текст, сервер принимает запрос преобразования речи в текст <123, 456> терминала 2.

[0051] S202. Сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс.

[0052] Сеанс является процессом, в котором многочисленные стороны (в том числе две стороны) осуществляют телефонную связь. Когда конференц-вызов полностью установлен, и каждая сторона, участвующая в конференц-вызове, активирует функцию преобразования вызова в текст, сеанс выделяется терминалам, используемым всеми сторонами, участвующими в вызове.

[0053] Например, если конференц-вызов предусматривает десять участников, и все десять участников активируют функцию преобразования вызова в текст, сеанс выделяется терминалам, используемым десятью участниками.

[0054] То, что сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс, может включать в себя нижеследующие три случая:

[0055] Случай 1. Сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор и один и тот же второй идентификатор, выделяется один и тот же сеанс.

[0056] Например, сервер принимает запрос 1 преобразования речи в текст <123, 456> терминала A и принимает запрос 2 преобразования речи в текст <123, 456> терминала B. Так как первый идентификатор 123, включенный в запрос преобразования речи в текст терминала A, является таким же как первый идентификатор 123, включенный в запрос преобразования речи в текст терминала B, и второй идентификатор 456, включенный в запрос преобразования речи в текст терминала A, является таким же как второй идентификатор 456, включенный в запрос преобразования речи в текст терминала B, сервер выделяет один и тот же сеанс терминалу A и терминалу B, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор и один и тот же второй идентификатор, выделяется один и тот же сеанс.

[0057] Случай 2. Сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор, имеют один и тот же сеанс.

[0058] Например, сервер принимает запрос 1 преобразования речи в текст <100, 001>, который отправляется терминалом 1 на сервер, и принимает запрос 2 преобразования речи в текст <100, 002> терминала 2. Запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст имеют один и тот же первый идентификатор (100). Вследствие этого, один и тот же сеанс выделяется терминалу 1 и терминалу 2, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор, имеют один и тот же сеанс.

[0059] Случай 3. Сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же второй идентификатор, имеют один и тот же сеанс.

[0060] Например, сервер принимает запрос 1 преобразования речи в текст <001, 100>, который отправляется терминалом 1 на сервер, и принимает запрос 2 преобразования речи в текст <002, 100> терминала 2. Запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст имеют один и тот же второй идентификатор (100). Вследствие этого, один и тот же сеанс выделяется терминалу 1 и терминалу 2, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же второй идентификатор, имеют один и тот же сеанс.

[0061] S203. Сервер принимает, посредством использования домен с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове.

[0062] Один конференц-вызов соответствует одному сеансу.

[0063] Домен с коммутацией пакетов относится к линии связи для передачи сервиса данных. Частота выборки для голоса, передаваемого посредством использования домена с коммутацией пакетов, может быть больше, чем 8 кГц.

[0064] Частота выборки может также называться интервалом выборки, измеряемом в Герцах (Герц, Гц для краткости), т.е. количество выборок, извлекаемое из непрерывных сигналов в секунду.

[0065] Предпочтительно, частота выборки, которая отправляется терминалом, участвующим в сеансе, и которая принимается сервером посредством использования домена с коммутацией пакетов, составляет 16 килогерц (килогерц, кГц для краткости).

[0066] Следует отметить, что до приема сервером, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправляется терминалом, участвующим в сеансе, информационное соединение должно быть установлено между терминалом и сервером. Опционально, способ установления информационного соединения включает в себя, но не ограничено этим, соединение между сокетами посредством протокола управления передачей (Transmission Control Protocol, TCP для краткости), соединение посредством протокола передачи гипертекста (Hypertext Transfer Protocol, HTTP для краткости) и подобное. Посредством использования вышеуказанных способов информационного соединения, голосовой поток, отправленный терминалом на сервер, передается в домене с коммутацией пакетов.

[0067] S204. Сервер преобразовывает голосовой поток в текст.

[0068] Опционально, может быть, что механизм распознавания речи, развернутый на сервере, преобразовывает голосовой поток в текст вызова.

[0069] Предпочтительно, преобразование голосового потока в текст вызова может быть выполнено в реальном времени.

[0070] Следует отметить, что текст, преобразованный из голосового потока сервером, является текстом, преобразованным из голосового потока каждого участника в конференц-вызове, и контент, включенный в текст, сортируется согласно речевой последовательности каждого участника в конференц-вызове.

[0071] Например, конференц-вызов включает в себя трех участников, которые являются соответственно участником 1, участником 2 и участником 3. Предполагается, что в конференц-вызове, участник 1 говорит: "Как ты думаешь, какое место относительно удобно для дискуссии?", затем участник 2 говорит: "Я думаю, относительно удобным местом является первая переговорная комната", и тогда участник 3 говорит: "Я думаю, штаб-квартира компании является относительно подходящим местом". Тогда текст, который преобразовывается сервером из голосового потока конференц-вызова является таким, как следует ниже:

"Как ты думаешь, какое место относительно удобно для дискуссии;

Я думаю, первая переговорная комната является относительно подходящим местом; и

Я думаю, штаб-квартира компании является относительно подходящим местом".

[0072] S205. Сервер отправляет текст терминалу в конференц-вызове.

[0073] Например, предполагается, что участники в конференц-вызове включают в себя терминал 1, терминал 2 и терминал 3. Сервер принимает голосовые потоки терминала 1, терминала 2 и терминала 3, преобразовывает принятые голосовые потоки трех терминалов в текст, и отправляет текст терминалу 1, терминалу 2 и терминалу 3.

[0074] Опционально, сервер может различить разные сеансы посредством выделения уникального идентификатора сеанса каждому сеансу, и когда сервер выделяет сеанс по меньшей мере двум терминалам, может отправить идентификатор сеанса, выделенный сеансу, в терминал сеанса.

[0075] Соответственно, в голосовом потоке, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове и принят сервером посредством использования домена с коммутацией пакетов, может также включать в себя идентификатор сеанса, так чтобы сервер различал сеансы.

[0076] Согласно способу преобразования голоса в текст в конференц-вызове, предусмотренном в этом варианте осуществления настоящего изобретения, сервер принимает запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; принимает, посредством использования домена с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу; преобразовывает голосовой поток в текст; и отправляет текст терминалу в конференц-вызове. Так как голосовой поток, принятый сервером, является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.

Вариант осуществления 2

[0077] Вариант осуществления 2 настоящего изобретения предусматривает способ для преобразования речи в текст в конференц-вызове. Как показано на Фиг. 3, способ может включать в себя нижеследующие этапы:

[0078] S301. Сервер принимает запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами.

[0079] Запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор.

[0080] Следует отметить, что S301 является таким же как S201, и подробности здесь не описываются.

[0081] S302. Сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс.

[0082] Конкретно, то, что сервер выделяет сеанс по меньшей мере двум терминалам, включает в себя нижеследующие два случая:

[0083] Случай 1. Когда база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, один и тот же новый сеанс выделяется второму терминалу и третьему терминалу.

[0084] База данных включает в себя по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу.

[0085] Опционально, база данных может храниться в форме таблицы. Таблица 1 показывает тип базы данных.

Таблица 1

Сеанс Идентификатор терминала Сеанс 1 Терминал 1 и терминал 2 Сеанс 2 Терминал 3, терминал 4 и терминал 5 Сеанс 3 Терминал 8, терминал 9, терминал 10 и терминал 11 … …

[0086] Следует отметить, что таблица 1 показывает форму и контент базы данных лишь в форме таблицы, и не задает конкретного ограничения на форму и контент базы данных. Конечно, база данных может также храниться в другой форме, и может включать в себя другой контент, что не ограничивается в настоящем изобретении.

[0087] Пример 1: Терминал 1, чьим телефонным номером является 111, и терминал 2, чьим телефонным номером является 222, устанавливают вызов, и оба, терминал 1 и терминал 2, активируют функцию преобразования вызова в текст. Сервер принимает запрос 1 преобразования речи в текст <111, 222> терминала 1 и запрос 2 преобразования речи в текст <111, 222> терминала 2.

[0088] Предполагается, что база данных не включает первый идентификатор (111) и второй идентификатор (222) в запросы преобразования речи в текст, которые отправляются терминалом 1 и терминалом 2. Так как первый идентификатор (111) в запросе 1 преобразования речи в текст является таким же как первый идентификатор (111) в запросе 2 преобразования речи в текст, и второй идентификатор (222) в запросе 1 преобразования речи в текст является таким же как второй идентификатор (222) в запросе 2 преобразования речи в текст, один и тот же новый сеанс 4 выделяется терминалу 1 и терминалу 2.

[0089] Случай 2. База данных включает первый идентификатор или второй идентификатор в запрос преобразования речи в текст, отправленный первым терминалом; и

сеанс, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, выделяется первому терминалу.

[0090] Первым терминалом является любой терминал по меньшей мере из двух терминалов.

[0091] Пример 2: на основе примера 1 в случае 1, во время вызова между терминалом 1 и терминалом 2, терминал 1 совершает вызов на терминал 3, чьим телефонным номером является 333, так чтобы терминал 3 участвовал в конференц-вызове между терминалом 1 и терминалом 2. Предполагается, что и терминал 1, и терминал 3 активируют функцию преобразования вызова в текст. Сервер принимает запрос 3 преобразования речи в текст <111, 333> терминала 1 и запрос 4 преобразования речи в текст <111, 333> терминала 3.

[0092] Так как база данных включает первый идентификатор (111) в запрос 3 преобразования речи в текст и запрос 4 преобразования речи в текст, и сеанс, соответствующий первому идентификатору (111), является сеансом 4, сеанс 4, который находится в базе данных и соответствует первому идентификатору (111), выделяется терминалу 1 и терминалу 3.

[0093] Следует отметить, что в конференц-вызове, предполагается, что конференц-вызов устанавливается таким образом, при котором общий терминал совершает вызов нескольких участников, или конференц-вызов устанавливается таким образом, при котором несколько участников совершают вызов на общий терминал. После установления вызова с несколькими участниками, общий терминал по умолчанию отправляет запрос преобразования речи в текст на сервер. В дополнение, в процессе конференц-вызова, общий терминал может отправить раз запрос преобразования речи в текст на сервер, только при установлении вызова с участниками в первый раз, и сервер также должен только раз выделить сеанс общему терминалу.

[0094] Например, после установления терминалом 1 (чьим идентификатором является 111) конференц-вызова с общим терминалом (чьим идентификатором является 100), терминал 1 отправляет запрос 1 преобразования речи в текст <111, 000> на сервер, общий терминал отправляет запрос 2 преобразования речи в текст <111, 000> на сервер, и сервер выделяет сеанс 1 терминалу 1 и общему терминалу. В конференц-вызове, терминал 2 (чьим идентификатором является 111) присоединяется к конференц-вызову посредством совершения вызова на общий терминал (чьим идентификатором является 100). Затем терминал 2 отправляет запрос 1 преобразования речи в текст <222, 100> на сервер, и общий терминал больше не отправляет на сервер запрос преобразования речи в текст. В этом случае, сервер выделяет сеанс 1 только терминалу 2, и больше не выделяет сеанс общему терминалу.

[0095] Дополнительно следует отметить, что запрос преобразования речи в текст может дополнительно включать в себя бит флага переговоров. Бит флага переговоров используется для указания, что участниками этого вызова являются две стороны или несколько сторон (более, чем две стороны). Если первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и бит флага переговоров указывает, что участниками этого вызова являются две стороны, серверу не требуется определять, при выделении сеанса второму терминалу и третьему терминалу, включает ли база данных первый идентификатор или второй идентификатор в запросы преобразования речи в текст, отправленные вторым терминалом и третьим терминалом, и может непосредственно выделить новый сеанс второму терминалу и третьему терминалу.

[0096] Опционально, может быть, что при совершении вызова, пользователь вручную выбирает контент, указанный битом флага переговоров; или может быть, что пользователь задает тип телефонного номера, при котором участниками являются несколько сторон (более, чем две стороны), и когда пользователь набирает телефонный номер, контент бита флага переговоров выбирается по умолчанию, для указания, что участниками являются несколько сторон (более, чем две стороны).

[0097] Например, предполагается, что телефонный номер 100 является общим номером телефона для переговоров, и пользователь задает тип телефонного номера, при котором участниками являются несколько сторон (более, чем две стороны). При наборе телефонного номера, пользователю не нужно вручную выбирать контент, указанный битом флага переговоров, и бит флага переговоров, включенный в запрос преобразования речи в текст, автоматически указывает, что участниками являются несколько сторон (более, чем две стороны).

[0098] S303. Сервер обновляет базу данных согласно выделенному сеансу.

[0099] Конкретно, процесс, в котором сервер обновляет базу данных согласно выделенному сеансу, может включать в себя нижеследующие два случая:

[0100] Случай 1. Выделенный сеанс является новым сеансом, и сервер устанавливает соответствие между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавляет соответствие в базу данных.

[0101] Случай 2. Выделенный сеанс является сеансом в базе данных, и идентификатор терминала, который не включен в базу данных, и который есть среди идентификаторов по меньшей мере двух терминалов, добавляется в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.

[0102] Например, предполагается, что сеанс, выделенный сервером терминалу 12 и терминалу 13, является новым сеансом 4. Затем сервер устанавливает соответствие между сеансом 4 и идентификаторами терминала 12 и терминала 13, и добавляет соответствие в базу данных. Если форма первоначальной базы данных показана в таблице 1, после добавления соответствия в базу данных, база данных показана в таблице 2.

Таблица 2

Сеанс Идентификатор терминала Сеанс 1 Терминал 1 и терминал 2 Сеанс 2 Терминал 3, терминал 4 и терминал 5 Сеанс 3 Терминал 8, терминал 9, терминал 10 и терминал 11 Сеанс 4 Терминал 12 и терминал 13 … …

[0103] Дополнительно, предполагается, что сеанс, выделенный сервером терминалу 12 и терминалу 14, является сеансом 4 в базе данных. Так как база данных включает в себя идентификатор терминала 12, но не включает в себя идентификатор терминала 14, сервер добавляет в базу данных идентификатор терминала (терминала 14), не включенный в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу. База данных, в которую добавляется идентификатор терминала 14, показана в таблице 3.

Таблица 3

[0104] S304. Сервер принимает, посредством использования домен с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове.

[0105] Конференц-вызов соответствует одному сеансу.

[0106] Следует отметить, что S304 является таким же как S203, и подробности здесь не описываются.

[0107] Дополнительно следует отметить, что прежде чем по меньшей мере один терминал в конференц-вызове отправляет на сервер голосовой поток, чья частота выборки больше, чем 8 кГц, посредством использования домена с коммутацией пакетов, дополнительно должно быть установлено информационное соединение между терминалом и сервером.

[0108] Опционально, установление информационного соединения между терминалом и сервером, обычно реализуется таким образом, при котором терминал инициирует запрос информационного соединения. Запрос информационного соединения, инициированный терминалом, может быть объединен с запросом преобразования речи в текст на этапе S301, чтобы быть единым запросом. К тому же, информационное соединение устанавливается между терминалом и сервером. Способ установления информационного соединения включает в себя, но не ограничен этим, соединение между сокетами посредством протокола управления передачей TCP, HTTP-соединение и подобное. Посредством использования вышеуказанного информационного соединения, голосовой поток, принятый сервером, может быть передан в домене с коммутацией пакетов.

[0109] Конечно, запрос информационного соединения и запрос преобразования речи в текст могут также быть двумя независимыми запросами, что не ограничивается в настоящем изобретении.

[0110] Дополнительно следует отметить, что этапы S303 и S304 могут выполняться последовательно, или могут выполняться параллельно, что не ограничивается в настоящем изобретении.

[0111] S305. Сервер преобразовывает голосовой поток в текст.

[0112] Опционально, текст может включать в себя идентификатор по меньшей мере одного терминала; или текст может включать в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.

[0113] Например, пользователь A задает имя пользователя терминала как "Xiao Ming" в терминале, чьим телефонным номером является 111 (идентификатором терминала является 111), и пользователь B задает имя пользователя терминала как "Xiao Hong" в терминале, чьим телефонным номером является 222 (идентификатором терминала является 222). На этапе S301, запрос преобразования речи в текст, отправленный терминалом на сервер, включает в себя имя пользователя терминала. Во время вызова между пользователем A и пользователем B, пользователь A говорит: "Где мы подпишем контракт", и пользователь B говорит: "Мы подпишем контракт в вашей компании". Тогда во время этого вызова, текст, преобразованный из голосового потока сервером, является таким как следует ниже:

"Xiao Ming (111): Где мы подпишем контракт; и

Xiao Hong (222): Мы подпишем контракт в вашей компании".

[0114] S306. Сервер отправляет текст терминалу в конференц-вызове.

[0115] Опционально, сервер может отправить текст терминалу в конференц-вызове в реальном времени, или может отправить текст согласно предварительно заданному периоду, или может отправить текст после приема сообщения об окончании, отправленного терминалом в конференц-вызове.

[0116] Конкретно, момент, в который сервер отправляет текст терминалу в конференц-вызове, может включать в себя, но не ограничен этим, нижеследующие четыре случая:

[0117] Случай 1. Сервер отправляет, согласно предварительно заданному периоду, текст в данном периоде терминалу в конференц-вызове.

[0118] Следует отметить, что в процессе практического применения, предварительно заданный период может быть задан согласно фактическому требованию, что не ограничивается в настоящем изобретении.

[0119] Например, предполагается, что терминалами в конференц-вызове являются терминал 1 и терминал 2, и предварительно заданный период составляет одну минуту. Затем, так как терминал 1 и терминал 2 начинают вызов, каждую одну минуту сервер отправляет терминалу 1 и терминалу 2 текст вызова между двумя сторонами за одну минуту.

[0120] Случай 2. После приема сообщений об окончании, отправленных всеми терминалами в конференц-вызове, сервер отправляет текст всем терминалам в конференц-вызове.

[0121] Сообщение об окончании является сообщением, указывающим, что вызов завершается.

[0122] Опционально, сообщение об окончании может быть запросом отключения от линии.

[0123] Например, предполагается, что терминалами в конференц-вызове являются терминал 3, терминал 4 и терминал 5. Предполагается, что три терминала начинают вызов в одно и то же время, терминал 3 сначала отправляет сообщение об окончании на сервер, и терминал 4 и терминал 5 затем отправляют сообщения об окончании на сервер. После отправки на сервер сообщений об окончании всеми тремя терминалами (после отправки терминалом 4 и терминалом 5 на сервер сообщений об окончании), сервер отправляет текст этого конференц-вызова каждому терминалу из трех терминалов.

[0124] Случай 3. После приема сообщений об окончании, отправленных всеми терминалами в конференц-вызове, сервер отправляет текст процесса, в котором каждый терминал участвует с каждым терминалом в конференц-вызове.

[0125] Например, предполагается, что терминалами в конференц-вызове являются терминал 6, терминал 7 и терминал 8. Предполагается, что три терминала начинают вызов в одно и то же время. Затем после трехминутного вызова, терминал 6 отправляет сообщение об окончании на сервер, и после трехминутного вызова, терминал 7 и терминал 8 отправляют сообщения об окончании на сервер.

[0126] После приема сообщений об окончании, отправленных терминалом 6, терминалом 7 и терминалом 8, сервер отправляет терминалу 6 текст трехминутного вызова, который осуществляется между терминалом 6, терминалом 7 и терминалом 8, и в котором участвует терминал 6; отправляет терминалу 7 текст трехминутного вызова, который осуществляется между терминалом 6, терминалом 7 и терминалом 8, и в котором участвует терминал 7; и отправляет терминалу 8 текст трехминутного вызова, который осуществляется между терминалом 6, терминалом 7 и терминалом 8, в котором участвует терминал 8.

[0127] Случай 4. После приема сообщения об окончании, отправленного первым терминалом в конференц-вызове, сервер отправляет, только первому терминалу, текст процесса, в котором участвует терминал.

[0128] Например, предполагается, что терминалами в конференц-вызове являются терминал 9, терминал 10 и терминал 11. Предполагается, что три терминала начинают вызов в одно и то же время. Затем после трехминутного вызова, терминал 9 отправляет сообщение об окончании на сервер, и после трехминутного вызова, терминал 10 и терминал 11 отправляют сообщения об окончании на сервер.

[0129] После приема сообщения об окончании, отправленного терминалом 9, сервер отправляет терминалу 9 текст трехминутного вызова, который осуществляется между терминалом 9, терминалом 10 и терминалом 11, и в котором участвует терминал 9.

[0130] После приема сообщения об окончании, отправленного терминалом 10, сервер отправляет терминалу 10 текст пятиминутного вызова, который осуществляется между терминалом 9, терминалом 10 и терминалом 11, и в котором участвует терминал 10.

[0131] После приема сообщения об окончании, отправленного терминалом 11, сервер отправляет терминалу 11 текст пятиминутного вызова, который осуществляется между терминалом 9, терминалом 10 и терминалом 11, и в котором участвует терминал 11.

[0132] Кроме того, в случае 4, после отправки первому терминалу текста вызова в процессе, в котором участвует терминал, способ может дополнительно включать в себя:

отправку, всем терминалам, которые есть в базе данных и соответствуют сеансу, который соответствует первому терминалу, текста, который принадлежит к вызову каждого терминала в процессе, в котором участвует первый терминал.

[0133] Например, предполагается, что терминалами в конференц-вызове являются терминал 12 и терминал 13. Когда сервер принимает сообщение об окончании, отправленное терминалом 12, сервер отправляет, терминалу 12 и терминалу 13, текст вызова между терминалом 12 и терминалом 13 в процессе, в котором участвует терминал 12.

[0134] Следует отметить, что вышеуказанные четыре случая описывают момент, в который сервер отправляет текст терминалу в конференц-вызове, только в виде примера, но не накладывают ограничения на момент, в который сервер отправляет текст терминалу в конференц-вызове. В процессе практического применения, момент, в который сервер отправляет текст терминалу в конференц-вызове, может быть задан согласно фактическому требованию, что не ограничивается в настоящем изобретении.

[0135] S307. Сервер принимает сообщение об окончании, отправленное пятым терминалом.

[0136] S308. Сервер удаляет идентификатор пятого терминала из базы данных.

[0137] Например, предполагается, что в базе данных, терминалами, соответствующими сеансу 1, являются терминал 1, терминал 2 и терминал 3. Сервер принимает сообщение об окончании (прекращение вызова), отправленное терминалом 1, и затем сервер удаляет идентификатор терминала 1 из базы данных.

[0138] S309. Если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, сервер удаляет сеанс из базы данных.

[0139] Например, предполагается, что идентификатор терминала, соответствующий сеансу 1, является пустым в базе данных. Тогда сервер удаляет сеанс 1 из базы данных.

[0140] Согласно способу преобразования голоса в текст в конференц-вызове, предусмотренном в этом варианте осуществления настоящего изобретения, сервер принимает запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; принимает, посредством использования домена с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу; преобразовывает голосовой поток в текст; и отправляет текст терминалу в конференц-вызове. Так как голосовой поток, принятый сервером, является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.

Вариант осуществления 3

[0141] Вариант осуществления 3 настоящего изобретения предусматривает способ для преобразования речи в текст в конференц-вызове.

[0142] Предполагается, что Zhang San использует терминал A для совершения вызова Li Si, который использует терминал B; телефонным номером терминала A является 123, и телефонным номером терминала B является 456; и именем пользователя терминала A, которое задано посредством Zhang San в терминале A, является Zhang San, и именем пользователя терминала B, которое задано посредством Li Si в терминале B, является Li Si.

[0143] Процесс взаимодействия между сервером, терминалом A и терминалом B используется в качестве примера для описания способа на Фиг. 3. Как показано на Фиг. 4A и Фиг. 4B, способ может включать в себя нижеследующие этапы.

[0144] S401. Терминал A отправляет запрос 1 преобразования речи в текст на сервер.

[0145] Например, после того, как терминал A совершает вызов на терминал B, Zhang San активирует MIC и выбирает бит флага переговоров для указания, что этот вызов является вызовом, в котором участниками являются более, чем две стороны. Затем терминал A отправляет запрос 1 преобразования речи в текст <123, Zhang San, 456, TRUE> на сервер, указывающий, что Zhang San (терминал, чьим телефонным номером является 123) совершает вызов на терминал, чьим телефонным номером является 456, где участниками вызова являются более, чем две стороны.

[0146] S402. Терминал B отправляет запрос 2 преобразования речи в текст на сервер.

[0147] Например, Li Si отвечает на вызов, совершенный Zhang San, и активирует MIC. Затем терминал B отправляет запрос 2 преобразования речи в текст <123, 456, Li Si> на сервер, указывающий, что терминал, чьим телефонным номером является 123, совершает вызов на терминал, чьим телефонным номером является 456.

[0148] S403. Сервер определяет, что первые идентификаторы, включенные в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, являются одинаковыми, и вторые идентификаторы, включенные в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, являются одинаковыми, и дополнительно определяет, являются ли участниками, указанными битом флага переговоров, включенным в запрос 1 преобразования речи в текст, более, чем две стороны.

[0149] Если участниками, указанными битом флага переговоров, включенным в запрос 1 преобразования речи в текст, являются не более, чем две стороны, выполняется этап S404.

[0150] Если участниками, указанными битом флага переговоров, включенным в запрос 1 преобразования речи в текст, являются более, чем две стороны, выполняется этап S405.

[0151] S404. Сервер выделяет новый сеанс терминалу A и терминалу B.

[0152] Например, сервер выделяет новый сеанс 1 терминалу A и терминалу B.

[0153] S405. Сервер определяет, включает ли база данных первый идентификатор или второй идентификатор в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст.

[0154] Если база данных не включают первый идентификатор или второй идентификатор в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, выполняется этап S406.

[0155] Если база данных включает первый идентификатор или второй идентификатор в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, выполняется этап S408.

[0156] S406. Сервер выделяет новый сеанс терминалу A и терминалу B.

[0157] Следует отметить, что после этапов S404 и S406, должен быть выполнен этап S407.

[0158] S407. Сервер устанавливает соответствие между выделенным сеансом и идентификатором терминала A и идентификатором терминала B и добавляет соответствие в базу данных.

[0159] Например, предполагается, что на этапе S404 или S406, сеанс, выделенный терминалу A и терминалу B, является сеансом 1. Затем устанавливается соответствие между сеансом 1 и идентификатором (123) терминала A и идентификатором (456) терминала B, и соответствие добавляется в базу данных.

[0160] S408. Сервер выделяет терминалу A и терминалу B сеанс, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросах преобразования речи в текст, отправленных терминалом A и терминалом В.

[0161] Например, сервер определяет, что база данных включает второй идентификатор 456 (идентификатор терминала B) в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, и в базе данных, сеанс соответствующий второму идентификатору 456, является сеансом 2. Затем сеанс 2 выделяется терминалу A и терминалу B.

[0162] S409. Сервер добавляет в базу данных идентификатор терминала, который принадлежит к идентификатору терминала A и идентификатору терминала B, но не включен в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.

[0163] Например, сервер определяет, что база данных включает второй идентификатор 456 (идентификатор терминала B) в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, но не включает первый идентификатор 123 (идентификатор терминала A), и в базе данных, сеанс, соответствующий второму идентификатору 456, является сеансом 2. Затем сервер добавляет идентификатор терминала A в базу данных, так чтобы добавленный идентификатор соответствовал сеансу 2.

[0164] S410. Терминал A отправляет голосовой поток, чья частота выборки больше, чем 8 кГц, на сервер посредством использования домена с коммутацией пакетов.

[0165] Например, терминал A отправляет голосовой поток, чья частота выборки больше, чем 8 кГц, на сервер посредством использования домена с коммутацией пакетов: "Где мы проведем наши переговоры".

[0166] S411. Терминал B отправляет голосовой поток, чья частота выборки больше, чем 8 кГц, на сервер посредством использования домена с коммутацией пакетов.

[0167] Например, терминал B отправляет голосовой поток, чья частота выборки больше, чем 8 кГц, на сервер посредством использования домена с коммутацией пакетов: "В первой переговорной комнате в штаб-квартире компании".

[0168] S412. Сервер преобразовывает голосовые потоки, отправленные терминалом A и терминалом B, в текст.

[0169] Например, на основе примеров на этапах S410 и S411, сервер преобразовывает голосовой поток, отправленный терминалом A, в текст, который является таким, как следует ниже:

Zhang San (123): Где мы проведем наши переговоры; и

Li Si (456): В первой переговорной комнате в штаб-квартире компании.

[0170] S413. Терминал A отправляет сообщение об окончании на сервер.

[0171] Например, после прекращения вызова, терминал A отправляет сообщение об окончании "Закончено" на сервер.

[0172] S414. Сервер отправляет текст терминалу A.

[0173] Например, на основе примера на этапе S412, сервер отправляет текст терминалу A, который является таким, как следует ниже:

Zhang San (123): Где мы проведем наши переговоры; и

Li Si (456): В первой переговорной комнате в штаб-квартире компании.

[0174] S415. Сервер удаляет идентификатор терминала A из базы данных.

[0175] S416. Терминал B отправляет сообщение об окончании на сервер.

[0176] Например, после прекращения вызова, терминал B отправляет сообщение об окончании "Закончено" на сервер.

[0177] S417. Сервер отправляет текст терминалу B.

[0178] Например, на основе примера на этапе S412, сервер отправляет текст терминалу B, который является таким, как следует ниже:

Zhang San (123): Где мы проведем наши переговоры; и

Li Si (456): В первой переговорной комнате в штаб-квартире компании.

[0179] S418. Сервер удаляет идентификатор терминала B из базы данных.

[0180] S419. Сервер определяет, что идентификатор терминала, соответствующий сеансу, является пустым в базе данных, и затем удаляет сеанс из базы данных.

[0181] Например, сервер определяет, что идентификатор терминала, соответствующий сеансу 3, является пустым, и затем сервер удаляет сеанс 3 из базы данных.

[0182] Согласно способу преобразования голоса в текст в конференц-вызове, предусмотренном в этом варианте осуществления настоящего изобретения, сервер принимает запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; принимает, посредством использования домена с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу; преобразовывает голосовой поток в текст; и отправляет текст терминалу в конференц-вызове. Так как голосовой поток, принятый сервером, является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.

Вариант осуществления 4

[0183] Вариант осуществления 4 настоящего изобретения предусматривает устройство 50 для преобразования речи в текст в конференц-вызове. Устройство 50 является частью или всем сервером в вышеприведенных вариантах осуществления. Как показано на Фиг. 5, устройство 50 для преобразования речи в текст в конференц-вызове может включать в себя:

первый блок 501 приема, выполненный с возможностью приема запросов преобразования речи в текст, отправленных по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор;

блок выделения 502, выполненный с возможностью выделения сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;

второй блок 503 приема, выполненный с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу;

блок 504 преобразования, выполненный с возможностью преобразования голосового потока в текст; и

блок 505 отправки, выполненный с возможностью отправки текста терминалу в конференц-вызове.

[0184] К тому же, блок 502 выделения может быть конкретно выполнен с возможностью:

если база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.

[0185] Опционально, текст может включать в себя идентификатор по меньшей мере одного терминала, или текст может включать в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.

[0186] К тому же, как показано на Фиг. 6, устройство 50 для преобразования речи в текст в конференц-вызове может дополнительно включать в себя:

блок 506 добавления, выполненный с возможностью: если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавления соответствия в базу данных; где

блок 506 добавления может дополнительно быть выполнен с возможностью: если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора терминала, который принадлежит к идентификаторам по меньшей мере двух терминалов и не включен в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.

[0187] К тому же, как показано на Фиг. 6, устройство 50 для преобразования речи в текст в конференц-вызове может дополнительно включать в себя:

третий блок 507 приема, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом; и

блок 508 удаления, выполненный с возможностью удаления идентификатора пятого терминала из базы данных, где

блок 508 удаления может дополнительно быть выполнен с возможностью: если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаления сеанса из базы данных.

[0188] Согласно устройству 50 для преобразования речи в текст в конференц-вызове, предусмотренному в этом варианте осуществления настоящего изобретения, принимаются запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; сеанс выделяется по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, принимается посредством использования домена с коммутацией пакетов, где конференц-вызов соответствует одному сеансу; голосовой поток преобразовывается в текст; и текст отправляется терминалу в конференц-вызове. Так как принятый голосовой поток является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.

Вариант осуществления 5

[0189] Вариант осуществления 5 настоящего изобретения предусматривает устройство 50 для преобразования речи в текст в конференц-вызове. Устройство 50 является частью или всем сервером в вышеприведенных вариантах осуществления. Как показано на Фиг. 7, устройство 50 для преобразования речи в текст в конференц-вызове может включать в себя:

по меньшей мере один процессор 701; по меньшей мере одну шину 702 связи, выполненную с возможностью реализации соединения и взаимной связи между устройством; первый приемник 703, второй приемник 704 и передатчик 705.

[0190] Шиной 702 связи может быть шина со стандартной промышленной архитектурой (Industry Standard Architecture, ISA для краткости), шина межсоединения периферийных компонентов (Peripheral Component Interconnect, PCI для краткости), шина с расширенной стандартной промышленной архитектурой (Extended Industry Standard Architecture, EISA для краткости) или подобное. Шина может подразделяться на адресную шину, шину данных, шину управления и подобное. Для удобства указания, шина представляется посредством использования лишь одной толстой линии на Фиг. 7; однако, это не указывает, что есть только одна шина или только один тип шин.

[0191] Процессором 701 может быть центральный процессор (Central Processing Unit, CPU для краткости), или специализированная интегральная схема application-specific Integrated Circuit, ASIC для краткости), или одна или более интегральных схем, выполненных с возможностью реализации этого варианта осуществления настоящего изобретения.

[0192] Первый приемник 703 выполнен с возможностью приема запросов преобразования речи в текст, отправленных по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор.

[0193] Процессор 701 выполнен с возможностью выделения сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс.

[0194] Второй приемник 704 выполнен с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу.

[0195] Процессор 701 может дополнительно быть выполнен с возможностью преобразования голосового потока в текст.

[0196] Передатчик 705 выполнен с возможностью отправки текста терминалу в конференц-вызове.

[0197] К тому же, процессор 701 может быть дополнительно конкретно выполнен с возможностью:

если база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.

[0198] Опционально, текст может включать в себя идентификатор по меньшей мере одного терминала, или текст может включать в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.

[0199] К тому же, процессор 701 может быть дополнительно выполнен с возможностью:

если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавления соответствия в базу данных; или

если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора терминала, который принадлежит к идентификаторам по меньшей мере двух терминалов, и который не включен в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.

[0200] К тому же, как показано на Фиг. 8, устройство 50 для преобразования речи в текст в конференц-вызове может дополнительно включать в себя:

третий приемник 706, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом.

[0201] К тому же, процессор 701 может быть дополнительно выполнен с возможностью удаления идентификатора пятого терминала из базы данных.

[0202] Процессор 701 может быть дополнительно выполнен с возможностью: если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаления сеанса из базы данных.

[0203] Согласно устройству 50 для преобразования речи в текст в конференц-вызове, предусмотренному в этом варианте осуществления настоящего изобретения, принимаются запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; сеанс выделяется по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, принимается посредством использования домена с коммутацией пакетов, где конференц-вызов соответствует одному сеансу; голосовой поток преобразовывается в текст; и текст отправляется терминалу в конференц-вызове. Так как принятый голосовой поток является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.

[0204] Специалистам в данной области техники может быть легко понятно, что, в целях удобства и краткого описания, для подробного рабочего процесса вышеуказанной системы, устройства и блока, может быть сделана ссылка на соответствующий процесс в вышеуказанных вариантах осуществления способа, и в настоящем документе подробности снова не описываются.

[0205] В нескольких вариантах осуществления, представленных в этой заявке, следует понимать, что раскрытая система, устройство и способ могут быть реализованы другими способами. Например, вариант осуществления описанного устройства является лишь примерным. Например, деление блоков является лишь делением логической функции и может быть другим делением в действительной реализации. Например, множество блоков или компонентов могут быть объединены или интегрированы в другую систему, или некоторые признаки могут быть проигнорированы или не выполнены. В дополнение, отображенные или рассмотренные взаимные связи или прямые связи или коммуникационные соединения могут быть реализованы посредством некоторых интерфейсов. Непрямые связи или коммуникационные соединения между устройствами или блоками могут быть реализованы в электронной или других формах.

[0206] Блоки, описанные как отдельные части, могут или не могут быть физически разделены, и части, отображенные как блоки, могут или не могут быть физическими блоками, могут быть размещены в одном положении, или могут быть распределены по множеству сетевых блоков. Некоторые или все блоки могут быть выбраны согласно действительным потребностям для достижения целей решений вариантов осуществления.

[0207] В дополнение, функциональные блоки в вариантах осуществления настоящего изобретения могут быть интегрированы в один блок обработки, или каждый из блоков может физически существовать самостоятельно, или два или более блоков интегрированы в один блок. Интегральный блок может быть реализован в виде аппаратных средств или может быть реализован в виде аппаратных средств в дополнение к программному функциональному блоку.

[0208] Когда вышеуказанный интегральный блок реализован в виде программного функционального блока, интегральный блок может храниться на компьютерно-читаемом носителе информации. Программный функциональный блок хранится на носителе информации, и включает в себя несколько команд для подачи команды компьютерному устройству (которым может быть персональный компьютер, сервер или сетевое устройство) выполнить некоторые из этапов способов, описанных в вариантах осуществления настоящего изобретения. Вышеуказанный носитель информации включает в себя: любой носитель, который может хранить программный код, такой как USB flash-накопитель, съемный жесткий диск, постоянная память (Read-Only Memory, ROM), оперативная память (Random Access Memory, RAM), магнитный диск или оптический диск.

[0209] Наконец, следует отметить, что вышеуказанные варианты осуществления предназначены лишь для описания технических решений настоящего изобретения, но не для ограничения настоящего изобретения. Хотя настоящее изобретение описано подробно со ссылкой на вышеприведенные варианты осуществления, средние специалисты в данной области техники должны понимать, что все равно можно сносить изменения в технические решения, описанные в вышеприведенных вариантах осуществления, осуществлять эквивалентные замены для некоторых их технических признаков, без отступления от объема технических решений вариантов осуществления настоящего изобретения.

Иллюстрации к изобретению RU 2 677 878 C1

Реферат патента 2019 года СПОСОБ И УСТРОЙСТВО ДЛЯ ПРЕОБРАЗОВАНИЯ ГОЛОСА В ТЕКСТ В КОНФЕРЕНЦ-ВЫЗОВЕ

Изобретения относится к области преобразования речи в текст и области технологий связи, а именно к преобразованию речи в текст в конференц-вызове. Техническим результатом является сокращение времени и повышение точности получения текста, преобразованного из голоса в конференц-вызове. Для этого осуществляют прием запросов преобразования речи в текст, отправленных по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор, и выделение сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс. При этом производят прием, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу; преобразование голосового потока в текст; и отправку текста терминалу в конференц-вызове. 4 н. и 12 з.п. ф-лы, 8 ил., 3 табл.

Формула изобретения RU 2 677 878 C1

1. Способ преобразования речи в текст в конференц-вызове, применяемый на сервере, при этом способ содержит этапы, на которых:

принимают запросы преобразования речи в текст, которые отправляются по меньшей мере двумя терминалами, при этом запросы преобразования речи в текст содержат первый идентификатор и второй идентификатор;

выделяют сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;

принимают, посредством использования домена с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, при этом конференц-вызов соответствует одному сеансу;

преобразовывают голосовой поток в текст; и

отправляют текст в терминал в конференц-вызове.

2. Способ по п. 1, при этом выделение сеанса по меньшей мере двум терминалам содержит этап, на котором:

если база данных содержит первый идентификатор или второй идентификатор в запросе преобразования речи в текст, отправленном первым терминалом, выделяют первому терминалу сеанс, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, при этом первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных содержит по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и

если база данных не содержит первый идентификатор и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделяют один и тот же новый сеанс второму терминалу и третьему терминалу.

3. Способ по п. 1 или 2, при этом после выделения сеанса по меньшей мере двум терминалам, способ дополнительно содержит этапы, на которых:

если выделенный сеанс является новым сеансом, устанавливают соответствие между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавляют соответствие в базу данных; или

если выделенный сеанс является сеансом в базе данных, добавляют в базу данных идентификатор, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не содержащемуся в базе данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.

4. Способ по п. 1 или 2, при этом после приема, посредством использования домена с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, способ дополнительно содержит этапы, на которых:

принимают сообщение об окончании, отправленное пятым терминалом;

удаляют идентификатор пятого терминала из базы данных; и

если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаляют сеанс из базы данных.

5. Способ по п. 1 или 2, при этом текст содержит идентификатор по меньшей мере одного терминала, или текст содержит идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.

6. Устройство для преобразования речи в текст в конференц-вызове, при этом устройство содержит:

первый блок приема, выполненный с возможностью приема запросов преобразования речи в текст, которые отправлены по меньшей мере двумя терминалами, при этом запросы преобразования речи в текст содержат первый идентификатор и второй идентификатор;

второй блок приема, выполненный с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, при этом конференц-вызов соответствует одному сеансу;

блок преобразования, выполненный с возможностью преобразования голосового потока в текст; и

блок отправки, выполненный с возможностью отправки текста в терминал в конференц-вызове.

7. Устройство по п. 6, при этом блок выделения выполнен с возможностью:

если база данных содержит первый идентификатор или второй идентификатор в запросе преобразования речи в текст, отправленном первым терминалом, выделения первому терминалу сеанса, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, при этом первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных содержит по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и

если база данных не содержит первый идентификатор и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.

8. Устройство по п. 6 или 7, при этом устройство дополнительно содержит:

блок добавления дополнительно выполнен с возможностью: если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не содержащемуся в базе данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.

9. Устройство по п. 6 или 7, при этом устройство дополнительно содержит:

блок удаления, выполненный с возможностью удаления идентификатора пятого терминала из базы данных; при этом

10. Устройство по п. 6 или 7, при этом текст содержит идентификатор по меньшей мере одного терминала, или текст содержит идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.

11. Устройство для преобразования речи в текст в конференц-вызове, при этом устройство содержит:

первый приемник, выполненный с возможностью приема запросов преобразования речи в текст, которые отправлены по меньшей мере двумя терминалами, при этом запросы преобразования речи в текст содержат первый идентификатор и второй идентификатор;

второй приемник, выполненный с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, при этом конференц-вызов соответствует одному сеансу;

процессор дополнительно выполнен с возможностью преобразования голосового потока в текст; и

передатчик, выполненный с возможностью отправки текста в терминал в конференц-вызове.

12. Устройство по п. 11, при этом процессор дополнительно выполнен с возможностью:

если база данных не содержит первый идентификатор и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.

13. Устройство по п. 11 или 12, при этом процессор дополнительно выполнен с возможностью:

если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов и добавления соответствия в базу данных; и

если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не содержащемуся в базе данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.

14. Устройство по п. 11 или 12, при этом устройство дополнительно содержит:

третий приемник, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом; и

процессор дополнительно выполнен с возможностью удаления идентификатора пятого терминала из базы данных; при этом

15. Устройство по п. 11 или 12, при этом текст содержит идентификатор по меньшей мере одного терминала, или текст содержит идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.

16. Компьютерно-читаемый носитель информации, имеющий записанную на нем программу; при этом программа предписывает компьютеру выполнять способ по п. 1 или 2.

Документы, цитированные в отчете о поиске Патент 2019 года RU2677878C1

Многоступенчатая активно-реактивная турбина	1924	Ф. Лезель	SU2013A1
RU 2012136154 A, 20.03.2014
US 7236580 B1, 26.06.2007
US 2014050308 A1, 20.02.2014
CN 101068271 A, 07.11.2007
Способ обработки целлюлозных материалов, с целью тонкого измельчения или переведения в коллоидальный раствор	1923	Петров Г.С.	SU2005A1
Топчак-трактор для канатной вспашки	1923	Берман С.Л.	SU2002A1

RU 2 677 878 C1

Авторы

Ван Сиюн

Цзян Хунжуй

Чжэн Вэйцзюнь

Даты

2019-01-22—Публикация

2015-01-30—Подача

название	год	авторы	номер документа
ЗАКОННЫЙ ПЕРЕХВАТ В СЕТИ МУЛЬТИМЕДИЙНОЙ ПОДСИСТЕМЫ НА ОСНОВЕ IP-ПРОТОКОЛА	2011	Имбимбо Амедео Амато Джузеппе Мордаччи Алессандро	RU2552907C2
ШЛЮЗ СЕТЕВОГО ОБОБЩЕНИЯ И СООТВЕТСТВУЮЩИЙ СПОСОБ ОБОБЩЕНИЯ ОКОНЕЧНОЙ ТОЧКИ	2012	Демильё Амори Жан Робер Нелиссен Жорди Пьер Виктор Серж	RU2528616C1
РАСШИРЕНИЕ ПРОТОКОЛА ИНИЦИИРОВАНИЯ СЕАНСОВ (SIP) ДЛЯ СЕТЕЙ ЦИФРОВОЙ МОБИЛЬНОЙ РАДИОСВЯЗИ (DMR) С СОГЛАСОВАНИЕМ ФУНКЦИЙ ЧАСТНОЙ МОБИЛЬНОЙ РАДИОСВЯЗИ (PMR)	2014	Лучано Даниеле Оливьери Клаудия Пиццорно Марко	RU2625820C1
РЕЧЕВАЯ СВЯЗЬ В ПАКЕТНОМ РЕЖИМЕ	2002	Леппенен Юсси Раяхальме Ярно Тейрюля Ханну Вимпари Маркку Бонтемпи Ричард	RU2295841C2
УСТРОЙСТВО ДЛЯ ПРОВЕДЕНИЯ МАССОВЫХ РАЗВЛЕЧЕНИЙ	2002	Гаврилов С.А. Тимощенко Д.П. Попов С.А.	RU2205053C1
ТЕХНОЛОГИИ УПРАВЛЕНИЯ ДВУХКАНАЛЬНЫМИ БЕСПРОВОДНЫМИ УСТРОЙСТВАМИ	2008	Левин Дэнни	RU2483440C2
СПОСОБ ОБРАЩЕНИЯ ЗА РАЗРЕШЕНИЕМ НА МЕДИАПЕРЕДАЧУ И СПОСОБ И УСТРОЙСТВО ДЛЯ ОТМЕНЫ РАЗРЕШЕНИЯ НА МЕДИАПЕРЕДАЧУ	2016	Гэ, Цуйли Амогх, Нирантх	RU2711023C1
ПЕРЕКЛЮЧЕНИЕ НЕСУЩИХ ДЛЯ ПРИСОЕДИНЕНИЯ К СЕАНСУ МНОГОАДРЕСНОЙ ПЕРЕДАЧИ В СЕТИ БЕСПРОВОДНОЙ СВЯЗИ	2009	Сонг Бонгйонг	RU2456769C2
ПЕРЕДАЧА ОБСЛУЖИВАНИЯ МЕЖДУ SIP-СЕТЬЮ И СИСТЕМОЙ СОТОВОЙ СВЯЗИ	2005	Зрейг Самер Эручимовитч Баруч	RU2380840C2
СПОСОБ И УЗЕЛ УСЛУГ ДОСТУПА К ВИДЕОЧАСТИ РЕЧЕВОГО И ВИДЕО ВЫЗОВА И СПОСОБ ДОБАВЛЕНИЯ ВИДЕОЧАСТИ К РЕЧЕВОМУ ВЫЗОВУ	2009	Силвейн Дени	RU2532729C2

СПОСОБ И УСТРОЙСТВО ДЛЯ ПРЕОБРАЗОВАНИЯ ГОЛОСА В ТЕКСТ В КОНФЕРЕНЦ-ВЫЗОВЕ Российский патент 2019 года по МПК H04M3/56 G10L15/26

Описание патента на изобретение RU2677878C1

Похожие патенты RU2677878C1

Иллюстрации к изобретению RU 2 677 878 C1

Реферат патента 2019 года СПОСОБ И УСТРОЙСТВО ДЛЯ ПРЕОБРАЗОВАНИЯ ГОЛОСА В ТЕКСТ В КОНФЕРЕНЦ-ВЫЗОВЕ

Формула изобретения RU 2 677 878 C1

Документы, цитированные в отчете о поиске Патент 2019 года RU2677878C1

RU 2 677 878 C1