小宇宙 → 文稿

累计听了 700 多小时小宇宙，每次想"那段话哪里说过"，都得重新拉一遍音频。所以做了这个。

它做的事

贴一条小宇宙单集链接，后端去拉页面拿到 <meta property="og:audio"> 里的音频直链，丢给阿里云 DashScope 的 Paraformer-v2 做异步识别。前端每 5 秒轮询一次任务状态，完成后展示中文文字稿。

不做说话人分离、不加时间戳、不做润色——只出纯文本。够检索、够回看。

试过几家。Whisper 在中文播客（口音 + 中英夹杂）上掉点严重；Paraformer-v2 是国内说话人场景训出来的，中文识别更稳。单价约 ¥0.36 / 小时音频——比我自己抄写的时间值钱多了。

本地能跑，没公开部署。挂上去得设 access token，否则陌生人会刷我阿里账单。需要稳定的小宇宙文稿，来信。