基于 FunASR 和 Qwen2 构建的音视频转结构化笔记系统 能够快速提取音视频的内容,并且调用大模型进行整理,成为一份结构化的markdown笔记,方便快速阅读
ChatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本.
这是一款基于AI的开源文本转语音工具Bark,它是由Suno开源的生成式文字转语音模型。Bark生成的每句话都自带感情,还会叹气、大笑、咳嗽等,支持中文等13种语言,并且对配置的要求也很低,即使在没有显卡的电脑上也可以通过CPU运行,网页上就能免费试玩。
一个带web界面的声音克隆工具,使用你的音色或任意声音来录制音频
一款免费文字转语音工具/文本转语音工具,提供语音合成服务,支持多种语言,包括英语、法语、德语、西班牙语、阿拉伯语、中文、日语、韩语等,以及多种语音风格,目前覆盖160+种声音选择,适用于自媒体、有声书、教育等多场景。特色包括二次元语音、OpenAI技术支持、移动端优化、音频翻译及背景音乐合成,完全免费无限制使用