最近通义实验室搞了个叫 CosyVoice 的玩意儿,说实话,它把“说话”这件事给彻底重构了。以前咱们对着手机打字,总觉得隔着一层玻璃,现在只要录个十几秒自己的声音,或者甚至不用录音直接描述音色,它就能瞬间复刻出和你一模一样的声线,延迟低到几乎感觉不到卡顿。这不仅仅是个语音转文字的工具,更像是一个懂你脾气的私人助理。最绝的是它对口语的包容度,你说话时那些“嗯、啊、那个”的废话,它能自动过滤得干干净净;哪怕你说到一半突然改口说“不对,改成那样”,它也能像老练的编辑一样,把最终稿子修得严丝合缝,完全看不出你刚才还在纠结。这种能力在写邮件或者做会议记录时简直降维打击,你只需要用方言跟它聊两句上海话或粤语,甚至随口报几个数字公式,它立马就能整理成条理清晰的列表、表格,甚至直接生成带问候语和签名的完整邮件。以前我们总担心口述不够正式,现在这种“零样本”的克隆技术加上强大的指令理解,让创作门槛降到了尘埃里。我觉得这不仅仅是效率的提升,更是一种思维方式的解放,它把人类最自然的表达习惯保留了下来,却用算法赋予了其完美的秩序感,让那些原本散乱的思绪瞬间变得逻辑严密,真正实现了让说话再次成为最自然的写作方式,这种人机协作的默契感,才是科技该有的温度。
功能特色
1、支持单击和长按两种交互模式,让说话成为最自然的输入方式
2、识别口语中的自我修正,并自动应用到最终成稿,不留改口痕迹
3、整理成编号列表、表格或大纲,条理清晰,可直接发送
4、指令输入,一键成稿支持邮件、会议、笔记等多种指令
CosyVoice使用指南
1、自动过滤「嗯、啊、那个」
实时高质量语音转文本,CosyVoice 在转写过程中自动识别并去除口语化的填充词与重复词,让你的每一句话都干净利落。
2、散乱的口述,自动排成清单
说出一堆事情,CosyVoice 自动识别其中的项目结构,整理成编号列表、表格或大纲,条理清晰,可直接发送。
3、说错了?「不对,改成…」就行
CosyVoice 能识别口语中的自我修正——「不对不对」「改成」「我意思是」——并自动应用到最终稿件,不留改口痕迹。
4、说一句指令,得到一封完整邮件
写邮件、写会议邀请、写 vlog 脚本——告诉 CosyVoice 你想要什么格式,它直接给你完成稿,称谓、问候、签名一应俱全。
5、数字、公式、单位,都帮你写对
口播中的「三点五八亿」「百分之十二点六」自动还原为「3.58 亿」「12.6%」,还能识别公式表达并补齐符号,金融、科研、媒体场景都能直接用。
6、上海话、粤语、川话,都能听懂
无缝识别上海话、粤语、四川话等多种方言,并能将其转写为标准普通话,跨地区团队、田野调研、客户访谈都不再被口音卡住。
更新日志
v1.1.0版本
1、支持多语言-(日韩英繁体中文)
2、历史记录支持编辑修改
3、支持二维码加入内测群
4、支持标点符号过滤设置



































共有 0条评论