上周写4.24的时候我说"可能过几天4.25就到了"。没想到它不仅来了,还带来了这几个月最大的一次TTS升级——不是"支持语音",是"让AI有声音、有人设、能演角色"。

一、TTS语音系统:六家新引擎,加一个"人设"

之前的OpenClaw只能用OpenAI的TTS。4.25一口气接入六家新引擎:

Azure Speech

SSML标记,Ogg/Opus音质

MP3/WAV,国产语音

ElevenLabs v3

ElevenLabs

最新一代,拟真度天花板

Inworld AI

Local CLI TTS

不需要API,命令行本地合成

但硬件堆料不是重点。重点是 TTS人设系统(persona) 。

4.25里你可以给每个Agent单独配声音——文案助手用冷静的新闻播报腔,陪聊助手用温柔的女声,橘猫助手来个活泼点的。以前一个会话只有一种声音,现在 不同角色说不同的话、用不同的声音 。

再加上 /tts latest(朗读最新消息)、/tts chat on(自动语音回复开关),从"AI能说话"到"AI是个说话的人"——这个跨度,比单纯的语音质量提升更有意义。

二、插件冷启动:终于不用盯着屏幕等了

用过OpenClaw的同学都知道,重启Gateway的时候要等一会儿——它每次都要扫描所有插件目录。

4.25把插件系统改成了 冷注册表模式 :启动时不再遍历目录,从持久化索引直接读取。官方数字:

插件加载速度提升 82-90%

openclaw doctor 耗时减少 74%

还新增了 openclaw plugins registry 命令,想看当前装了哪些插件、索引对不对、要不要 --refresh 修复——一个命令搞定。

三、可观测性基建:Prometheus + OpenTelemetry全链路

模型调用耗时、Token用量、工具循环次数、exec进程——全部可追踪

支持 Prometheus 抓取端点(受保护的网关路由)

OTLP 信号级端点覆盖(traces/metrics/logs 可分别配置后端)

严格隐私保护——不导出 prompt 文本、session ID、命令内容

对个人用户来说可能感受不明显,但对企业部署和自动化运维来说,这是一个质变—— AI工作流的每一步都可以被量化、被观测、被优化 。

四、浏览器操作:无头模式 + 深度诊断

openclaw browser start --headless:一行命令启动隐藏浏览器

openclaw browser doctor --deep:深度探测浏览器状态,定位连接问题

iframe感知的CDP快照:页面内的内嵌框架不再"不可见"

CDP就绪超时可调:树莓派等慢设备不再因为启动慢而报错

五、Control UI做成"应用"了

浏览器页面支持 PWA安装 ——把 Control UI 装成桌面应用,图标独立、窗口独立。

加上 Web Push 通知 ,后台消息可以像手机通知一样弹出来。

这版的平台修复覆盖很全:

Windows :pnpm路径空格、定时任务停止挂起

macOS :LaunchAgent Token旋转不重复、Homebrew降级容错

Linux :fnm Node管理支持、systemd迁移重试

Docker :非root用户npm前缀修复

还加了磁盘空间不足预警——安装前先检查剩余空间,避免写到一半崩了。

Seedance 2.0 视频生成 :支持参考图像/视频/音频作为输入,生成新视频。这是视频生成接入的标志。

子会话 fork 模式 :sessions_spawn 可以带上当前对话上下文,子Agent不再从零开始。

Android Talk Mode :手机端也能用语音模式了,有麦克风前台服务保证不被系统杀掉。

Codex MCP hook 中继 :Codex app-server 的原生 MCP 能力可以通过 OpenClaw hook 系统桥接。

4.25 不是一个"亮点版本",它是一个 基础能力补课版本 :

语音从"能用"补到"角色级"

插件从"每次扫描"补到"秒开"

运维从"看日志"补到"全链路可观测"

浏览器从"能用"补到"无头+深度诊断"

平台从"主要平台正常"补到"Windows/macOS/Linux/Docker全覆盖"

而且按照现在的节奏,4.26 估计已经不远了。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。