累计听了 700 多小时小宇宙,每次想"那段话哪里说过",都得重新拉一遍音频。所以做了这个。

它做的事

贴一条小宇宙单集链接,后端去拉页面拿到 <meta property="og:audio"> 里的音频直链,丢给阿里云 DashScope 的 Paraformer-v2 做异步识别。前端每 5 秒轮询一次任务状态,完成后展示中文文字稿。

不做说话人分离、不加时间戳、不做润色——只出纯文本。够检索、够回看。

为什么挑这个 ASR

试过几家。Whisper 在中文播客(口音 + 中英夹杂)上掉点严重;Paraformer-v2 是国内说话人场景训出来的,中文识别更稳。单价约 ¥0.36 / 小时音频——比我自己抄写的时间值钱多了。

状态

本地能跑,没公开部署。挂上去得设 access token,否则陌生人会刷我阿里账单。需要稳定的小宇宙文稿,来信。