从一段录音到一篇文章,我把整套工作流开源了

Henry Xue · 2026.03.22

最近把我的”语音转文章”Skill 打磨到了一个阶段,今天正式分享出来。 我已经把它推送到 GitHub 上,你可以下载后放到 Claude 的 Skills 里使用,甚至直接当作一个 prompt(提示词)来试。操作很简单:拿手机录一段语音,用任何工具转成文字,然后丢进去——它会帮你把一段口水话变成一篇结构完整的文章。 我推荐的方案是用 Claude 来调用这个 Skill,效果最好。

这个 Skill 能做什么

这个 Skill 不是一次成型的,我经过了很多轮打磨和优化。它现在能做这些事:

  • 把口语化的内容变得更通俗易懂
  • 英文术语后面自动加中文备注
  • 生成一个吸引人的标题(标题部分其实有一整套专门的方法论)
  • 调整文章结构,让逻辑更严谨
  • 最重要的是:保持原文的意思不变,内容不会被篡改

除此之外,它还会生成微信公众号、X(推特)、小红书三个平台的版本,并为每个版本提供 Midjourney 格式的配图提示词。 整套流程把一件挺复杂的事情,用一个 Skill 就搞定了。而且这个 Skill 本身也是我把需求提给 Claude,由它来编写的——总体效果我挺满意。

顺手做了一个本地工具

昨天还顺便用 Claude Code 做了一个小程序:语音转文字、视频转文字、视频压缩、视频转 MP3。这样我就能更方便地把视频素材和录音素材变成文稿,再交给 AI 做进一步总结。 这个工具的特点是本地运行。除了第一次转文字需要下载 Whisper 模型,之后所有操作都在本地完成。不用把六七八个 G 的视频上传到云端,省时省力,效果也更好。

以上说的 skills 还有这个本地工具,我都已经放在了我的个人网页上。

你可以通过以下方式获取:

  1. 通过这个网址登录查看,https://findhappyman.com/

  2. 在文章的左下角点击“阅读原文”进行跳转

Claude Code 的编程体验

之前一直在用 Claude 做编程项目,现在发现它做各种事情都很好用——可能也就是生成图片不太行,其他表现都让我满意。 Claude Code 在终端(terminal)或者 Windows 的 PowerShell 里,是 Claude 生态中最强力的存在。很多桌面端能做的事,都可以通过终端方式实现。它能调用电脑上的各种资源,现在还支持手机远程连接——你在手机上发指令,电脑上的 Claude Code 就能执行。 这意味着你不需要坐在电脑前也能处理工作和编程。但反过来想,以前离开电脑还能享受片刻宁静,现在走到哪里都能干活,休息时间可能就没了。 这是个需要自己平衡的事。你不可能把所有时间都花在生产力最高的地方。有时候出去走一走,什么都不想——或者说不要刻意去想——也是很好的方式。之后我也会分享一些关于冥想方面的个人探索。 再加上 Skill 和 MCP 的扩展能力,Claude 的可玩性变得非常强。

李自然的 vibe coding 实践

这里推荐一下李自然最新的视频。他是我关注很久的一个博主,昨天分享了他怎么用 vibe coding(氛围编程)做了两个个人产品:一个是每天自动爬取各类新闻源、生成 AI 领域第一手资讯的网站;另一个是追踪 AI 论文,把关注度高、评价好的论文进展及时发布出来的网站。 他把整个流程都自动化了——后期几乎不需要人工维护,AI 加上脚本和应用架构,提供的是一项稳定的服务,只需偶尔看看日志是否正常。 他提到一个很有启发的观点:用 vibe coding 做一个炫酷的 demo(演示)很容易,但要把它变成一个真正可用的产品,距离是巨大的。 比如新闻去重的问题——今天一家媒体报了一条热点,明天另一家跟进报道,内容大同小异。你不能让昨天和今天的总结是一样的东西,那用户不就白看了?但你又要判断它到底是后续跟进,还是重复报道,这里面有很多需要思考的细节。 再比如 AI 论文的质量判定——如果直接让 AI 判断一篇论文好不好,准确性存疑。他的做法是等几天,让论文自然地获得关注度、评论、引用,用这些指标来做排名。 他在整个系统里还用了不同的 AI 角色,比如编辑、审稿等,通过不同的提示词来指导它们各司其职。非常有启发,收获很多。

新麦克风:DJI Mic 3

最后聊聊录音设备。今天录音又没有录到(苹果耳机的麦克风问题),查了一下发现确实如此——苹果耳机主要是用来听的,打电话时会默认用耳机麦克风,但录音时可能会切到手机自带麦克风,就会出问题。 于是果断去买了一个好点的录音设备。对比了 DJI Mic 2 和 Mic 3,最终选了 Mic 3——毕竟是去年发售的新品,功能和设计都不错。 我觉得一个好的录音设备最好能自带存储,不依赖手机;同时收音清晰;多人场景下可以多路输入合成一个音源;还能用于直播、录视频等。这些能力不仅支撑我现在做的事情,也为将来拓展内容创作打下基础。 周末的文章总是主题散一些,算是聊聊平时的见闻和感悟,也是对自己的一次梳理。期待你在下方留言,分享你的想法。 周末愉快,我们下次见。

← 返回文章列表