彩神app1彩票官方5 款不错的开源语音识别/语音文字转换系统

  • 时间:
  • 浏览:24
  • 来源:UU直播平台-UU快3直播APP

语音文字转换(speech-to-text)(STT)系统就像它名字所蕴含 的意思那样,是四种 将说出的单词转换为文本文件以供后续用途的最好的办法。

语音文字转换技术非常有用。它可不前要用到有些应用中,类似于自动转录,使用买车人的声音写书籍或文本,用生成的文本文件和有些工具做错综复杂的分析等。

在过去,语音文字转换技术以专有软件和库为主导,要么没人开源替代品,要么有着严格的限制,也没人社区。四种 点正在位于改变,当今有有些开源语音文字转换工具和库可不前要让我随时使用。

这里我列出了 5 个。

5 Good Open Source Speech Recognition/Speech-to-Text Systems 16 open source speech recognition

该项目由 彩神app1彩票官方firefox 浏览器的开发组织 Mozilla 团队开发。它是 100% 的自由开源软件,其名字暗示使用了 TensorFlow 机器学习框架实现去功彩神app1彩票官方能。

换句话说,让我用它训练买车人的模型获得更好的效果,甚至可不前要用它来转换其它的语言。你也可不前要轻松的将它集成到买车人的 Tensorflow 机器学习项目中。可惜的是项目当前默认仅支持英语。

它也支持有些编程语言,类似于 Python(3.6)。可不前要让我在数秒之内完成工作:

  1. pip3 install deepspeech 
  2. deepspeech --model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav 

你也可不前要通过 npm 安装它:

  1. npm install deepspeech 
  • 项目主页

5 Good Open Source Speech Recognition/Speech-to-Text Systems 18 open source speech recognition

Kaldi 是另俩个多用 C++ 编写的开源语音识别软件,就是在 Apache 公共许可证架构设计 布。它可不前要运行在 Windows、macOS 和 Linux 上。它的开发开始 1009。

Kaldi 超过有些语音识别软件的主要特点是可扩展和模块化。社区提供了大量的可不前要用来完成你的任务的第三方模块。Kaldi 也支持高度神经网络,就是在它的网站上提供了 出色的文档 。

嘴笨 代码主要由 C++ 完成,但它通过 Bash 和 Python 脚本进行了封装。就是,就是你仅仅想使用基本的语音到文字转换功能,你就会发现通过 Python 或 Bash 都能不能轻易的实现。

  • 项目主页

5 Good Open Source Speech Recognition/Speech-to-Text Systems 20 open source speech recognition

它就是是有史以来最古老的语音识别软件之一。它的开发开始 1991 年的京都大学,后来在 1005 年将所有权转移到了另俩个多独立的项目组。

Julius 的主要特点包括了执行实时 STT 的能力,低内存占用(1000 单词少于 64 MB),都能不能输出 ***词(N-best word)和 词图(Word-graph),都能不能作为服务器单元运行等等。这款软件主要为学术和研究所设计。由 C 语言写成,就是可不前要运行在 Linux、Windows、macOS 甚至 Android(在智能手机上)。

它当前仅支持英语和日语。软件应该都能不能从 Linux 发行版的仓库中轻松安装。就是在软件包管理器中搜索 julius 即可。***的版本 发布 于本文发布前大慨另俩个多半月后来。

  • 项目主页

5 Good Open Source Speech Recognition/Speech-to-Text Systems 22 open source speech recognition

就是你在寻找另俩个多更加时髦的,没人这款一定适合。Wav2Letter++ 是一款由 Facebook 的 AI 研究团队于 2 个月后来发布的开源语言识别软件。代码在 BSD 许可证架构设计 布。

Facebook 描述它的库是“最快、 ***进(state-of-the-art)的语音识别系统”。构建它时的理念使其默认针对性能进行了优化。Facebook ***的机器学习库 FlashLight 也被用作 Wav2Letter++ 的底层核心。

Wav2Letter++ 前要你先为所描述的语言建立另俩个多模型来训练算法。没人任何四种 语言(包括英语)的预训练模型,它仅仅是个机器学习驱动的文本语音转换工具,它用 C++ 写成,就是被命名为 Wav2Letter++。

  • 项目主页

5 Good Open Source Speech Recognition/Speech-to-Text Systems 24 open source speech recognition

中国软件巨头百度的研究人员也在开发大伙买车人的语音文字转换彩神app1彩票官方引擎,叫做“DeepSpeech2”。它是另俩个多端对端的开源引擎,使用“PaddlePaddle”高度学习框架进行英语或汉语的文字转换。代码在 BSD 许可证架构设计 布。

该引擎可不前要在你想用的任何模型和任何语言上训练。模型并未随代码一起去去发布。让我像有些软件那样买车人建立模型。DeepSpeech2 的源代码由 Python 写成,就是你使用过就会非常容易上手。

  • 项目主页

语音识别领域仍然主要由专有软件巨头所位于,比如 Google 和 IBM(它们为此提供了闭源商业服务),就是开源类似于软件很有前途。这 5 款开源语音识别引擎应当都能不能帮助你构建应用,随着时间推移,它们会不断地发展。在几年后来,大伙希望开源成为那先 技术中的常态,就像有些行业那样。

就是你对清单有有些的建议或评论,大伙很乐意在下面听到。

【编辑推荐】

【责任编辑:

张燕妮

TEL:(010)684761006】



点赞 0