НаукаТехнологии

Озвучивать текст SpeechKit Yandex API v3: Synthesizer (gRPC)

Набор методов синтеза голоса.

ВызовОписание
UtteranceSynthesisСинтезирование текста в речь.

UtteranceSynthesis

Синтезирование текста в речь.

rpc UtteranceSynthesis (UtteranceSynthesisRequest) returns (stream UtteranceSynthesisResponse)

UtteranceSynthesisRequest

ПолеОписание
modelstring
Имя модели. Определяет базовую функциональность синтеза. На данный момент должно быть пусто. Не используйте его..
Utteranceoneof: text or text_template
Текст для синтеза, одна из разметок синтеза текста.
  textstring
Raw text (e.g. «Hello, Alice»).
  text_templateTextTemplate
Text template instance, e.g. {"Hello, {username}" with username="Alice"}.
hints[]Hints
Опционально настройки синтеза речи.
output_audio_specAudioFormatOptions
Опционально. По умолчанию: 22050 Гц, линейный 16-битный PCM с прямым порядком байтов со знаком, с заголовком WAV.
loudness_normalization_typeenum LoudnessNormalizationType
Указывает тип нормализации громкости. Необязательный. По умолчанию: LUFS.

  • MAX_PEAK: тип нормализации, при котором усиление изменяется для приведения максимального значения выборки PCM или пика аналогового сигнала к заданному уровню.
  • LUFS: Тип нормализации, основанный на рекомендации EBU R 128.
unsafe_modebool
Опционально. Автоматически разделяйте длинный текст на несколько высказываний и выставляйте соответствующие счета. Возможно некоторое ухудшение качества обслуживания.

TextTemplate

ПолеОписание
text_templatestring
Template text.
Sample:The {animal} goes to the {place}.
variables[]TextVariable
Defining variables in template text.
Sample: {animal: cat, place: forest}

TextVariable

ПолеОписание
variable_namestring
The name of the variable.
variable_valuestring
The text of the variable.

Hints

ПолеОписание
Hintoneof: voiceaudio_templatespeedvolumerolepitch_shift or duration
The hint for TTS engine to specify synthesised audio characteristics.
  voicestring
Name of speaker to use.
  audio_templateAudioTemplate
Template for synthesizing.
  speeddouble
Hint to change speed.
  volumedouble
Hint to regulate normalization level.

  • For MAX_PEAK loudness_normalization_type: volume changes in a range (0;1], default value is 0.7.
  • For LUFS loudness_normalization_type: volume changes in a range [-145;0), default value is -19.
  rolestring
Hint to specify pronunciation character for the speaker.
  pitch_shiftdouble
Hint to increase (or decrease) speaker’s pitch, measured in Hz. Valid values are in range [-1000;1000], default value is 0.
  durationDurationHint
Hint to limit both minimum and maximum audio duration.

AudioTemplate

ПолеОписание
audioAudioContent
Audio file.
text_templateTextTemplate
Template and description of its variables.
variables[]AudioVariable
Describing variables in audio.

AudioContent

ПолеDescription
AudioSourceoneof: content
The audio source to read the data from.
  contentbytes
Bytes with audio data.
audio_specAudioFormatOptions
Description of the audio format.

AudioVariable

ПолеОписание
variable_namestring
The name of the variable.
variable_start_msint64
Start time of the variable in milliseconds.
variable_length_msint64
Length of the variable in milliseconds.

DurationHint

ПолеОписание
policyenum DurationHintPolicy
Type of duration constraint.

  • EXACT_DURATION: Limit audio duration to exact value.
  • MIN_DURATION: Limit the minimum audio duration.
  • MAX_DURATION: Limit the maximum audio duration.
duration_msint64
Constraint on audio duration in milliseconds.

AudioFormatOptions

ПолеОписание
AudioFormatoneof: raw_audio or container_audio
  raw_audioRawAudio
The audio format specified in request parameters.
  container_audioContainerAudio
The audio format specified inside the container metadata.

RawAudio

ПолеОписание
audio_encodingenum AudioEncoding
Encoding type.

  • LINEAR16_PCM: Audio bit depth 16-bit signed little-endian (Linear PCM).
sample_rate_hertzint64
Sampling frequency of the signal.

ContainerAudio

ПолеОписание
container_audio_typeenum ContainerAudioType

  • WAV: Audio bit depth 16-bit signed little-endian (Linear PCM).
  • OGG_OPUS: Data is encoded using the OPUS audio codec and compressed using the OGG container format.
  • MP3: Data is encoded using MPEG-1/2 Layer III and compressed using the MP3 container format.

UtteranceSynthesisResponse

ПолеОписание
audio_chunkAudioChunk
Part of synthesized audio.
text_chunkTextChunk
Part of synthesized text.
start_msint64
Start time of the audio chunk in milliseconds.
length_msint64
Length of the audio chunk in milliseconds.

AudioChunk

ПолеОписание
databytes
Sequence of bytes of the synthesized audio in format specified in output_audio_spec.

TextChunk

ПолеОписание
textstring
Synthesized text.

 

What's your reaction?

Excited
0
Happy
0
In Love
0
Not Sure
0
Silly
0

You may also like

More in:Наука

Leave a reply