OpenAI 音频操作#
使用此操作在 OpenAI 中生成音频,或转录或翻译录音。请参阅 OpenAI 了解有关 OpenAI 节点本身的更多信息。
Generate Audio 生成音频#
使用此操作从文本提示创建音频。
输入这些参数:
- Credential to connect with 连接凭据:创建或选择现有的 OpenAI 凭据。
- Resource 资源:选择 Audio 音频。
- Operation 操作:选择 Generate Audio 生成音频。
- Model 模型:选择您想要用于生成音频的模型。请参阅 TTS | OpenAI 了解更多信息。
- TTS-1:使用此项优化速度。
- TTS-1-HD:使用此项优化质量。
- Text Input 文本输入:输入要为其生成音频的文本。最大长度为 4096 个字符。
- Voice 语音:选择生成音频时使用的语音。在 文本到语音指南 | OpenAI 中听语音预览。
Options 选项#
- Response Format 响应格式:选择音频响应的格式。可选择 MP3(默认)、OPUS、AAC、FLAC、WAV 和 PCM。
- Audio Speed 音频速度:输入生成音频的速度,值从
0.25
到4.0
。默认为1
。 - Put Output in Field 将输出放在字段中:默认为
data
。输入要放置二进制文件数据的输出字段的名称。
请参阅 创建语音 | OpenAI 文档了解更多信息。
Transcribe a Recording 转录录音#
使用此操作将音频转录为文本。OpenAI API 将音频文件大小限制为 25 MB。OpenAI 默认使用 whisper-1
模型。
输入这些参数:
- Credential to connect with 连接凭据:创建或选择现有的 OpenAI 凭据。
- Resource 资源:选择 Audio 音频。
- Operation 操作:选择 Transcribe a Recording 转录录音。
- Input Data Field Name 输入数据字段名称:默认为
data
。输入包含以下格式之一的音频文件的二进制属性名称:.flac
、.mp3
、.mp4
、.mpeg
、.mpga
、.m4a
、.ogg
、.wav
或.webm
。
Options 选项#
- Language of the Audio File 音频文件的语言:在 ISO-639-1 中输入输入音频的语言。使用此选项提高准确性和延迟。
- Output Randomness (Temperature) 输出随机性(温度):默认为
1.0
。调整响应的随机性。范围在0.0
(确定性)和1.0
(最大随机性)之间。我们建议更改此项或 Output Randomness (Top P) 输出随机性(Top P),但不要同时更改两者。从中等温度(约 0.7)开始,并根据观察到的输出进行调整。如果响应过于重复或僵化,请增加温度。如果它们过于混乱或偏离轨道,请降低温度。
请参阅 创建转录 | OpenAI 文档了解更多信息。
Translate a Recording 翻译录音#
使用此操作将音频翻译为英语。OpenAI API 将音频文件大小限制为 25 MB。OpenAI 默认使用 whisper-1
模型。
输入这些参数:
- Credential to connect with 连接凭据:创建或选择现有的 OpenAI 凭据。
- Resource 资源:选择 Audio 音频。
- Operation 操作:选择 Translate a Recording 翻译录音。
- Input Data Field Name 输入数据字段名称:默认为
data
。输入包含以下格式之一的音频文件的二进制属性名称:.flac
、.mp3
、.mp4
、.mpeg
、.mpga
、.m4a
、.ogg
、.wav
或.webm
。
Options 选项#
- Output Randomness (Temperature) 输出随机性(温度):默认为
1.0
。调整响应的随机性。范围在0.0
(确定性)和1.0
(最大随机性)之间。我们建议更改此项或 Output Randomness (Top P) 输出随机性(Top P),但不要同时更改两者。从中等温度(约 0.7)开始,并根据观察到的输出进行调整。如果响应过于重复或僵化,请增加温度。如果它们过于混乱或偏离轨道,请降低温度。
请参阅 创建转录 | OpenAI 文档了解更多信息。
常见问题#
有关常见错误或问题和建议的解决步骤,请参阅 常见问题。