СПОСОБ КОМПИЛЯЦИОННОГО ФОНЕМНОГО СИНТЕЗА РУССКОЙ РЕЧИ И УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ Российский патент 2007 года по МПК G10L13/08 

Описание патента на изобретение RU2298234C2

Изобретение относится к речевой информатике и приборостроению для синтеза речевых сообщений по тексту в системах акустического общения человека с автоматами.

Известен способ синтеза речи по тексту путем компиляции фрагментов заранее записанных сигналов гласных и открытых слогов типа согласный-гласный (СГ-слоги) и формирования фрагментов из последующих гласных только в сочетаниях согласных из СГ-слогов и для конечных согласных из нейтральных СГ-слогов, а также за счет уменьшения громкости краев фрагментов, соединяемых при воспроизведении [1].

Недостатком этого способа является то, что при формировании сочетания фонем вида согласная-гласная-согласная (СГС) между гласной и согласной нет естественного перехода, что снижает качество синтезированной речи.

Из известных наиболее близким по сущности является способ компиляционного синтеза речи, основанный на стыковке фрагментов фонограмм заранее записанных дифонов (80-120 мс) и протяжных гласных звуков, которые вводят на 20-40 мс перед предударными дифонами и на 40-60 мс перед ударными [2].

Недостатком способа является наличие двух разрывов при вставке стационарных гласных между дифонами в сочетаниях фонем вида согласная-гласная-согласная (СГС), а также гласная при этом формируется соединением 3-х различных звуковых единиц, что ведет к ухудшению качества речи и снижению скорости синтеза.

Известно устройство, описанное в [2], которое осуществляет ввод текста с дополнительными знаками ударений в тестовый процессор, соединенный с постоянными раздельными запоминающими устройствами, где хранят заранее записанные дифоны и протяжно произнесенные отдельные гласные звуки соответственно. Считываемые фонограммы поблочно через буферное запоминающее устройство соответственно выбранным длительностям преобразуют цифроаналоговым преобразователем и воспроизводят электроакустическим агрегатом.

Недостаток устройства заключается в том, что оно не позволяет уменьшить число соединений и количество звуковых единиц при формировании гласной для сочетания фонем вида согласная-гласная-согласная (СГС).

Цель изобретения - повышение естественности и разборчивости речи и скорости синтеза по тексту за счет совершенствования структуры элементов компиляции и использования способов соединения их с учетом фонетических особенностей русского языка.

Это достигается тем, что в способе компиляционного фонемного синтеза речи производят образование фрагмента компиляции для согласных разделенных гласной типа согласная-гласная-согласная (СГС) за счет объединения на участке гласной открытых СГ-слогов и закрытых ГС-слогов в сочетаниях фонем вида согласная-гласная-согласная-согласная (...СГСС...) и согласная-гласная-согласная конечная (СГСконечная) в слове. Улучшение же качества соединения в сочетаниях СГС достигается тем, что слог выступает как фонетическая единица в правилах русского слогоделения и сохранение естественных переходов в открытых СГ- и закрытых ГС-слогах наиболее предпочтительно в соединениях гласных между согласными, а использование этих переходов одновременно обеспечивает улучшение качества синтезируемой речи [3, 4, 5]. В этом случае объединение реализуется фазированным сложением конечного участка СГ-слога и начального участка, дополнительно сформированного ГС-слога с укороченным интервалом гласной до длительности участка наложения (δt=40-60 мс). При этом выполняются изменения уровня огибающей от 1 до 0 и от 1 до 0 соответственно для этих элементов компиляции на данном участке при сохранении длительности гласной в слове. Например, слово убранство после фонетического анализа состоит из идентификаторов элементов компиляции (акустических данных), разделенных между собой чертой: УБ-РА-АН-С-Т-ВО, где

УБ - закрытый ГС-слог;

С, Т, - отдельные согласные;

РА, ВО - открытые СГ-слоги;

АН - ГС-слог для формирования фрагмента компиляции СГС.

Объединение элементов компиляции для идентификаторов РА и АН выполняется вариантом микширования (фиг.1), для остальных - непосредственным соединением. В этом примере изменения уровня огибающей от 1 до 0 и от 1 до 0 на участке соединения элементов компиляции выполнены по линейному закону.

Фрагменты звуковых сигналов ра и ан подвергнуты предварительному изменению уровня огибающей по закону от 1 до 0 и от 0 до 1 на участках t0-t1 и t0-t2 и подлежат микшированию на этом участке (δt) общей гласной а. Формирование фонетических единиц производится по значениям их приоритетов: СГ-слоги (1 уровень, высший), признак формирования фрагмента компиляции типа СГС (2 уровень), основные ГС-слоги (3 уровень), отдельные гласные и согласные (4 уровень). Анализ последовательности до 4-х фонем обеспечивает возможность формирования всех типов фонетических единиц.

Сущность изобретения пояснены на фиг.1, где схематически представлены порядок формирования фрагмента компиляции СГС и устройство на фиг.2, реализующее предлагаемый способ компиляционного фонемного синтеза русской речи.

Устройство содержит блоки: 1 - текстовый процессор; 2 - база акустических данных; 3 - блок формирования согласная-гласная-согласная (СГС); 4 - блок формирования звукового сигнала; 5 - блок воспроизведения. Текстовый процессор (1) выполняет функции: нормализация текста; фонетическая транскрипция по разбивке слова на фонетические единицы по принципу приоритетов; идентификация звуковых единиц; селекция фонемосочетаний вида согласная-гласная-согласная-согласная (...СГСС...) и согласная-гласная-согласная (...СГСконечная); организация управления параметрами элементов компиляции и слоговым ударением. Акустическая база данных (2) содержит используемые звуковые единицы естественной речи русского языка, выполненные для слогов в ударном и безударном вариантах. Номера внутри блока (2) обозначают структуру вызываемых звуковых единиц по их типам: отдельные гласные и согласные (2.1); открытые СГ-слоги (2.2); закрытые ГС-слоги (2.3). Блок формирования СГС (3) предназначен для формирования звуковой единицы типа согласная-гласная-согласная (СГС) за счет объединения СГ-слога и ГС-слога. Блок формирования звукового сигнала (4) выполняет операции формирования элементов компиляции с изменением акустических единиц по заданным управляющим параметрам и реализации их соединения. Блок воспроизведения (5) воспроизводит синтезированную речь.

Предлагаемый способ реализуется следующим образом. Информация после текстового процессора (1), освобожденная от цифр и знаков пунктуации, представляет последовательность идентификаторов звуковых единиц, поступающую вместе с признаком ударения на вход акустической базы данных (2). Одновременно с этим текстовый процессор (1) в результате селекции последовательности типов фонем вида ...СГСС... и ...СГСконечная вырабатывает признак на формирование фрагмента компиляции СГС, который поступает на блок формирования СГС (3), в котором производится генерирование фрагмента компиляции типа СГС при наличии признака формирования фрагмента СГС. Информация управления параметрами элементов компиляции с текстового процессора (1), звуковые единицы акустической базы данных (2) и элементы компиляции типа СГС блока формирования СГС (3) подаются на блок формирования звукового сигнала (4), где производится полная сборка звукового сигнала, который поступает на блок воспроизведения (5).

Источники информации

1. Авторское свидетельство СССР №1531133, кл. G 10 L 5/02, 23.12.89.

2. Авторское свидетельство СССР №1599888, кл. G 10 L 5/02, 15.10.90.

3. В.Н.Сорокин. Синтез речи. - М.: Наука. Гл. ред. Физ-мат. лит., 1992 г.

4. Искусственный интеллект: в 3 кн. к.1 Системы общения и экспертные системы: справочник под ред. Э.В.Попова. М.: Радио и связь, 1990. - 484 с.

5. Современный русский язык. Фонетика. Лексика. Фразеология. Морфология (имена). Конспект лекций. Назаренко Е., г.Ростов-на-Дону, изд-во «Феникс», 2003 г.

Похожие патенты RU2298234C2

название год авторы номер документа
СПОСОБ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ТЕКСТА 2007
  • Гусев Михаил Николаевич
  • Егорова Ольга Борисовна
  • Смирнов Валентин Александрович
RU2386178C2
КОМПЬЮТЕРНОЕ УСТРОЙСТВО ДЛЯ ЧТЕНИЯ ПЛОСКОПЕЧАТНОГО ТЕКСТА 1996
  • Золотов С.А.
  • Калинин Н.Н.
  • Балахонцев А.Н.
RU2113726C1
СПОСОБ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ТЕКСТА И КОМПЬЮТЕРНОЕ УСТРОЙСТВО ДЛЯ РЕАЛИЗАЦИИ ЭТОГО СПОСОБА 2011
  • Бредихин Александр Юрьевич
  • Сергейчев Николай Евгеньевич
RU2460154C1
УСТРОЙСТВО СИНТЕЗА РЕЧИ 2014
  • Мещеряков Роман Валерьевич
RU2606312C2
СПОСОБ СИНТЕЗА РЕЧИ 2009
  • Хитров Михаил Васильевич
RU2421827C2
Способ компиляционного синтеза речи 1988
  • Григорян Альберт Айрапетович
  • Канаян Карен Оникович
SU1599888A1
Способ синтеза речи 1987
  • Орлов Игорь Алексеевич
SU1531133A1
Способ слоговой компиляции речи 1982
  • Вайншток Аркадий Пинхосович
  • Книппер Александр Владимирович
  • Орлов Игорь Алексеевич
  • Потапов Владимир Георгиевич
SU1075300A1
Способ компиляционного синтеза речи и устройство для его осуществления 1988
  • Лобанов Борис Мефодьевич
SU1683063A1
СПОСОБ ОБУЧЕНИЯ ДЕТЕЙ НАЧАЛАМ ГРАМОТЫ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2009
  • Коток Виктор Алексеевич
RU2404455C1

Иллюстрации к изобретению RU 2 298 234 C2

Реферат патента 2007 года СПОСОБ КОМПИЛЯЦИОННОГО ФОНЕМНОГО СИНТЕЗА РУССКОЙ РЕЧИ И УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ

Изобретение относится к речевой информатике и приборостроению для синтеза речевых сообщений по тексту в системах акустического общения человека с автоматам. Состав элементов компиляции акустической базы данных согласная-гласная (СГ-слоги) и гласная-согласная (ГС-слоги), отдельные гласные и согласные. Способы их соединения: непосредственное соединение либо микширование для фонемосочетаний вида согласная-гласная-согласная-согласная (...СГСС...) и согласная-гласная-согласная конечная (...СГСконечная). Устройство для компиляционного фонемного синтеза русской речи, содержащее текстовый процессор, соединенный с акустической базой данных и блоком формирования звукового сигнала, который соединен с блоком воспроизведения, блока формирования СГС, вход которого соединен с соответствующими выходами акустической базы данных и текстового процессора, а выход соединен с входом блока формирования звукового сигнала. Технический результат - повышение естественности речи и скорости синтеза по тексту за счет совершенствования структуры элементов компиляции и использования способа соединения их с учетом фонетических особенностей русского языка. 2 н.п. ф-лы, 2 ил.

Формула изобретения RU 2 298 234 C2

1. Способ компиляционного фонемного синтеза русской речи путем стыковки фрагментов фонограмм заранее записанных дифонов (80-120 мс) и протяжных гласных звуков, которые вводят на 20-40 мс перед предударными дифонами и на 40-60 мс перед ударными, отличающийся тем, что сначала производят запись в акустическую базу данных звуковых единиц естественной речи типа согласная-согласная (СГ-слоги), гласная-согласная (ГС-слоги) и отдельные гласные и согласные, затем при фонетической транскрипции текста осуществляют приоритетное разбиение слова с выделением фрагмента типа согласная-гласная-согласная СГС, а затем при синтезе генерируют элементы компиляции типа согласный-гласный-согласный (СГС) для сочетаний фонем вида согласный-гласный-согласный-согласный (...СГСС...) и согласный-гласный-согласный (...СГСконечная) процедурой соединения СГ- и ГС-слогов способом фазированного сложения их на конечном интервале общей гласной равном 40-60 мс с изменением огибающей на этих интервалах при сохранении длительности гласной в слове, а также формируют элементы компиляции по сигналам служебной информации с последующим их соединением.2. Устройство для компиляционного фонемного синтеза русской речи, содержащее текстовый процессор, соединенный с акустической базой данных и блоком формирования звукового сигнала, который соединен с блоком воспроизведения, отличающееся тем, что введен блок формирования СГС, вход которого соединен с соответствующими выходами акустической базы данных и текстового процессора, а выход соединен с входом блока формирования звукового сигнала.

Документы, цитированные в отчете о поиске Патент 2007 года RU2298234C2

Способ компиляционного синтеза речи 1988
  • Григорян Альберт Айрапетович
  • Канаян Карен Оникович
SU1599888A1
Способ синтеза речи 1987
  • Орлов Игорь Алексеевич
SU1531133A1
Способ компиляционного синтеза речи и устройство для его осуществления 1988
  • Лобанов Борис Мефодьевич
SU1683063A1
US 5452380 A, 19.09.1995.

RU 2 298 234 C2

Авторы

Алперин Евгений Данилович

Кнох Владимир Яковлевич

Даты

2007-04-27Публикация

2005-07-21Подача