Whisper 是 OpenAI 发布的自动语音识别(ASR)系统,具备接近人类水平的识别精度,支持多语种转写及英译功能。该模型基于 68 万小时的多语言监督数据训练,表现出对口音、噪音和技术术语的出色鲁棒性。\n\nWhisper 采用端到端 Transformer 架构,通过将音频片段转为 log-Mel 频谱图输入模型,实现语言识别、时间戳提取、语言检测及多语种转写。其零样本性能在多项基准上均显著优于同类开源系统,是开发语音界面和多语言语音产品的理想基础。
以下是与 Whisper by OpenAI 功能相似的工具,供你拓展选择或参考使用。