开源语音识别开发,语音识别数据

语音识别开发教程 2023-09-29 16:29 562 墨鱼

语音识别开发教程

开源语音识别开发,语音识别数据

Wav2Letter++ 是一款由Facebook 的AI 研究团队于2 个月之前发布的开源语言识别软件。代码在BSD 许可证下发布。Facebook 描述它的库是“最快、最先进(state-of-the语音识别ASR开源项目里知名的有CMU Sphinx和kaldi等等，kaldi新，支持的模型更多，比如阿里巴巴的模型，所以功能更好用一些。这2个开源项目锐英源都用过。产品kaldi数据准备小

CMU Sphinx(简称Sphinx)是美国卡内基梅隆大学开发的一系列语音识别工具包以及相关工具(例如声学模型训练软件，语言模型编辑软件和语音词典CMUDICT等)的总称。在2000年，卡内基梅隆的S自己开了一个state-of-the-art的端到端语音识别项目，后续会不断更新和优化的。当前还处于一个开发阶段，可能存在一些bug,欢迎大家使用并反馈bug。有什么意见建议可以在issue或者在这里提。代码地

Ekho TTS(http://eguidedog.net/ekho_cn.php)是一个免费、开源的中文语音合成软件。它目前支持粤语、普通话(国语)、诏安客语、藏语、雅言(中国古代通用语)和韩语(试验中)Subtools是厦门大学智能语音实验室在2020年5月发布的一个开源工具，当时开发这个工具的目的是希望能够提升声纹识别研究的效率，因为在19年之前不管是用Kaldi还是用其他的一些不完整

语音识别之ASRT开源项目(一) 紧接上一期“语音识别之开发环境搭建(二)”，在接下来的几期，我们先从开源项目ASRT_SpeechRecognition讲解起，包括怎么训练模型、通过工具自制样本集和模4、openai/whisper OpenAI 开源的多语言识别系统，该项目是强大的自动语音识别系统，支持包括中文在内的多

＞﹏＜ thchs30 数据集发布后很长一段时间内，它是唯一的语音识别开源中文普通话数据集，但thchs30 的内容较少，无法满足端到端模型的训练需求。2017 年，北京希尔贝壳WTK6900G-B02为本地语音触发引擎的辨识模块，具有低成本、高可靠性、通用性强的特点。在语音技术上实现了高可靠的唤醒识别率、更远距离的唤醒、更低误唤醒率、更丰富的语音控制指令

后台-插件-广告管理-内容页尾部广告（手机）

标签：语音识别数据