捕捉脑洞的灵感搭子
——闪念贝壳、
接收语音固然让人暴躁,输出语音却比打字来得迅速。也就是说,捕捉一闪而过的脑洞,语音是一种时间成本较低的方式。
但这里存在一个问题,语音记录的信息粗糙、不直观、不方便检索,说完之后,我们还要再进行整理。
app「闪念贝壳」(目前只有 iOS 版),考虑到了存在已久的痛点。
设计特别,开屏致敬了《星球大战》的千年隼号
你不用担心停顿、口语化或者逻辑混乱,直接开口说你的想法,AI 可以帮你自动整理内容,并添加标签,方便管理和查找。
生成文字之后,你还能通过预置的提示词,将内容一键改写成代办事项、小红书文案等各种风格,或者再和 AI 聊聊,完善你的想法。
我口述了编辑的工作日常,要求整理成待办事项,说话的时候是想到哪就说到哪,但 AI 能够按时间线整理。
当我以更随意的状态,输出一些小说、电影的评价,对比了录音可以发现,AI 帮我省去了一些「哎」「嗯」之类的语气词,无意义的「然后」也会被消除,说错的一个词重新说一遍之后,会保留下来正确的版本。
AI 干完了整理的活,然后我们就可以和它再聊聊,读后感最适合和什么都懂一点的 AI 交流。
不过,AI 转录后的文案可能出现错误,可以让 AI 重新整理,或者点击页面之后人工微调。
基础功能也没被忽略,闪念贝壳同时保留录音和文字,并可以导出录音,我们纠错也就更加方便。
有些遗憾的是,免费用户体验的「点数」有限,且录音无法超过 1 分钟,付费(19 元每月、149 元每年、198 元终身),才能不限制录音时间,继续使用 AI 功能。
海外的语音笔记应用 ,和闪念贝壳的定位和功能比较像:保留录音、添加标签、人工改正转录错误、AI 改写文风、与 AI 交流想法,但界面设计更加极简。
「独家富人大象馆」,实为「杜莎夫人蜡像馆」
国内可用,app 语言为英文,支持在设置里将我们的输入和转写语言改成简体中文。
同样, 需要订阅(68 元每月或者 328 元终身),才能实现 1 分钟以上的录音,用上 GPT-4o、 Opus 等更好的大模型。
用一句话吩咐的生活秘书
——Miley
脑洞、工作事项之外,我们的生活里还存在更日常、更轻量、一句话就能说完的场景,这时候可以试试 Miley AI,一款主打「记录+智能体」的个人记忆 AI,目前只有 iOS 版。
它很适合用来在不方便打字的路上随手一记,吃了什么,花了多少钱,有什么突然的灵感,或者接下来要做某件事情,让人类 NPC 的一天井井有条。
最有意思的地方在于,Miley 可以根据你输入的内容,智能分析各种类型的事项。
你提到开心的事情,AI 可以识别出你的情绪,并用对应的表情标记。你说午餐花了多少钱,AI 会帮你记账。你怕错过点外卖的时间,AI 可以设置横幅提醒。
甚至你想设立一个每日运动的小目标,也可以通过授权苹果健康数据,监督每天有没有完成。比如,告诉 AI 每天都要散步 2000 步,周末 实现 17800 步,这一项便可以打上勾。
水灵灵地随口一说,我们就有了记账本、运动打卡、提醒事项……
AI 的好处便在这里,碎片化的内容,整理起来不像以前那么花时间了,甚至像我这样不喜欢做计划的懒人也愿意试试,如此日积月累,形成微型日记,内心还会产生成就感。
不过对于免费用户来说,语音识别和智能体分析额度有限,尤其智能体分析,很容易触顶,这时候就需要「钞能力」,每月 28 元或者每年 188 元订阅。
「选题会」这个词,AI 识别有错有对
更影响使用体验的是,语音识别的准确性不够高,虽然支持修改,但会影响我们使用的初衷——AI 应该省事,而非多事。
改变输出习惯的创作工具
——墨问便签
说到创作,我们的脑海中会浮现这样的场景:正襟危坐在电脑前,在键盘上敲敲打打,眼睛快粘在屏幕上……
更随意、更生活化的语音,是否能被用于更长篇幅的创作?如果你想知道自己能不能出口成章,墨问便签是个不错的开始。
墨问便签是一款微信小程序,它的 AI 语音功能,单条最长支持录制 10 分钟,目前免费。
长按底部「+」号召唤出语音功能
其中一个设计很有意思,墨问便签支持实时输出,你边说边能看到转录的文字,而不是只能看到录音时间。
但这个功能也可能是打扰我们输出的干扰项,虽然会不断地自我修正,但转录文字的准确性还有待提高。
输出完毕,按下停止键,AI 会对文字润色一番,包括分段、修改错别字、去掉因为嘴瓢重复的词等等,但 AI 也不能修改所有的错误,之后我们还可以进行手动修改。
最终,我们就整理好了一条保留语音的笔记,可以仅自己可见,也可以公开。
墨问便签将自己定位为「创作者工具」,打开小程序,先显现出来的是它的 :记录即创作。
平时看着电脑屏幕发呆还不觉得有什么,但对着手机讲满 10 分钟,还是挺有挑战性的,不仅口干舌燥,还有搜索枯肠、无话可说的无力感。
提供轻量化体验的小程序,或许真能让思考成为一种习惯。
重度语音处理的效率助手
——飞书妙记、讯飞听见、通义听悟
以上的语音场景,大多数不是硬性需求,可以抱着玩的心态上手体验。
平时工作遇到必须要用语音的时候,飞书妙记是我的首选。无他,习惯了,「先进团队,先用飞书」,企业账号真香。
几十分钟甚至几个小时的线下发布会、采访,我都是掏出手机,用飞书 app 里的「飞书妙记」录音,然后在飞书网页端处理音频,导出带有时间戳的文字记录。
这样一来,哪里的文字记录可能有问题,就可以精准定位到音频的对应位置,自己边听边修正。
飞书妙记也支持上传本地的音视频文件,如果网不好,可以用手机自带的录音工具记录,再交给飞书妙记处理。越基础的需求,越解决得好,使用体验就越丝滑。
飞书之前,我常用的是讯飞听见,飞书有的导入音频、区分说话人、倍速播放、搜索关键词等功能,它也有。
不过,讯飞听见虽然录音免费,但核心服务收费:将音频转成文字导出,需要购买录音转写包(连续包月 18 元)或者畅享包(连续包月 79 元)。
讯飞听见现在还有 AI 的加成,支持章节速览和问一问。我让聊天机器人「小谛」总结关于「冥想」的 40 分钟采访,重点抓得挺有条理,对于写文章有些帮助。但 AI 功能也并非免费,包含在录音转写包和畅享包里。
如果说飞书妙记用于线下、基于手机,那么通义听悟就补全了线上的场景。
通义听悟有网页、浏览器插件、微信小程序,更加「即用即走」,每天登录自动领取 10 小时的转写时长,基本相当于免费使用。
通义听悟也支持本地音视频的转文字,可以区分发言人、提供翻译,但我用得更多的,是实时语音转文字的功能。
在网页端,将标签页分享给通义听悟,我们开会、看视频、追发布会,就能拥有一个实时记录、提供字幕的搭子。
如果涉及外语,通义听悟还支持实时双语字幕,先选择音视频语言,再选择翻译语言,然后开启实时记录即可。
上为通义听悟,下为基于 CC 字幕的双语翻译
但通义听悟的翻译速度有延迟,翻译结果也会根据原文的变化而变动,这很正常,英语句子较长、定语较多,一句话说完才能知道意思,哪怕有字幕,有时候仍然一头雾水。
通义听悟实时调整翻译结果
所以在我的实际体验中,对于实时字幕,通义听悟在中文发布会的表现比英文发布会要好,像雷军这样略微不标准的普通话,很适合交给通义听悟处理。
结束共享之后,通义听悟可以提供转写原文,并智能总结内容和提取重点,很适合作为写稿材料。
讯飞听见有「小谛」,通义听悟也有「小悟」,你可以基于文字记录,向它提出相关的问题,点击回答中的时间戳,还可以定位到原文内容。
但还是会出现语音识别的老问题:说不对名字。Kimi 变成了「km」,秘塔变成了「蜜塔」,靠用户自己分辨和修正。
语音转文字,等待 AI 重做一遍
语音转文字,某种程度上是一项刚需。
聊天消息的转写,采访、会议、发布会的跟进,脑洞、生活碎片的记录,我们都可以用到它。
本质上,这些更强调 AI 存在感的新兴语音转文字产品,其实都在主打更智能、深入的内容处理,包括文字转写润色、按标签和类型整理内容、通过对话的方式查找和拓展内容等。
与此同时,仍有很多不尽如人意的地方。
独立开发者们在语音转文字的赛道竞争,前景如何也并不明朗。
锤子手机 2017 年推出的闪念胶囊,是很多人心中的「白月光」。
长按 Home 键,或者耳机线控的中间按键,就能开始语音输入,记录你一闪而过的想法,文字和录音都会保存下来,你还能再编辑文本。
记录下的「胶囊」,可以拖拽到便签、插入微信输入框、变成待办事项……
这样基于系统的功能,唤起和使用步骤更少,也更符合我们的直觉,不把记录搞复杂化,才能真正地提高效率。
所以,虽然现在产品井喷,未来可能还是由操作系统厂商一锤定音,出现 Apple 这样的、系统级的收编和降维打击。
之前看到一句调侃,国内的主流操作系统不是 iOS 也不是 ,而是微信。
这话有些道理,像我一位做播客的同事,习惯在路上记录灵感,试过很多语音转文字的工具,最终大道至简,给文件传输助手发语音,再转文字。
高端的食材,往往只需要最简单的烹饪方式。想法本身的奔涌最为可贵,有些时候,不需要什么辅助的 AI 功能,我们只是想要快速把事情记录下来,能够一键完成终极目标的、最习以为常的方式,往往才是效率最高的手段。
张成晨
利若秋霜,辟除凶殃。 工作邮箱:
邮箱8
323AI导航网发布