上周写4.24的时候我说"可能过几天4.25就到了"。没想到它不仅来了,还带来了这几个月最大的一次TTS升级——不是"支持语音",是"让AI有声音、有人设、能演角色"。
一、TTS语音系统:六家新引擎,加一个"人设"
之前的OpenClaw只能用OpenAI的TTS。4.25一口气接入六家新引擎:
Azure Speech
SSML标记,Ogg/Opus音质
MP3/WAV,国产语音
ElevenLabs v3
ElevenLabs
最新一代,拟真度天花板
Inworld AI
Local CLI TTS
不需要API,命令行本地合成
但硬件堆料不是重点。重点是 TTS人设系统(persona) 。
4.25里你可以给每个Agent单独配声音——文案助手用冷静的新闻播报腔,陪聊助手用温柔的女声,橘猫助手来个活泼点的。以前一个会话只有一种声音,现在 不同角色说不同的话、用不同的声音 。
再加上 /tts latest(朗读最新消息)、/tts chat on(自动语音回复开关),从"AI能说话"到"AI是个说话的人"——这个跨度,比单纯的语音质量提升更有意义。
二、插件冷启动:终于不用盯着屏幕等了
用过OpenClaw的同学都知道,重启Gateway的时候要等一会儿——它每次都要扫描所有插件目录。
4.25把插件系统改成了 冷注册表模式 :启动时不再遍历目录,从持久化索引直接读取。官方数字:
插件加载速度提升 82-90%
openclaw doctor 耗时减少 74%
还新增了 openclaw plugins registry 命令,想看当前装了哪些插件、索引对不对、要不要 --refresh 修复——一个命令搞定。
三、可观测性基建:Prometheus + OpenTelemetry全链路
模型调用耗时、Token用量、工具循环次数、exec进程——全部可追踪
支持 Prometheus 抓取端点(受保护的网关路由)
OTLP 信号级端点覆盖(traces/metrics/logs 可分别配置后端)
严格隐私保护——不导出 prompt 文本、session ID、命令内容
对个人用户来说可能感受不明显,但对企业部署和自动化运维来说,这是一个质变—— AI工作流的每一步都可以被量化、被观测、被优化 。
四、浏览器操作:无头模式 + 深度诊断
openclaw browser start --headless:一行命令启动隐藏浏览器
openclaw browser doctor --deep:深度探测浏览器状态,定位连接问题
iframe感知的CDP快照:页面内的内嵌框架不再"不可见"
CDP就绪超时可调:树莓派等慢设备不再因为启动慢而报错
五、Control UI做成"应用"了
浏览器页面支持 PWA安装 ——把 Control UI 装成桌面应用,图标独立、窗口独立。
加上 Web Push 通知 ,后台消息可以像手机通知一样弹出来。
这版的平台修复覆盖很全:
Windows :pnpm路径空格、定时任务停止挂起
macOS :LaunchAgent Token旋转不重复、Homebrew降级容错
Linux :fnm Node管理支持、systemd迁移重试
Docker :非root用户npm前缀修复
还加了磁盘空间不足预警——安装前先检查剩余空间,避免写到一半崩了。
Seedance 2.0 视频生成 :支持参考图像/视频/音频作为输入,生成新视频。这是视频生成接入的标志。
子会话 fork 模式 :sessions_spawn 可以带上当前对话上下文,子Agent不再从零开始。
Android Talk Mode :手机端也能用语音模式了,有麦克风前台服务保证不被系统杀掉。
Codex MCP hook 中继 :Codex app-server 的原生 MCP 能力可以通过 OpenClaw hook 系统桥接。
4.25 不是一个"亮点版本",它是一个 基础能力补课版本 :
语音从"能用"补到"角色级"
插件从"每次扫描"补到"秒开"
运维从"看日志"补到"全链路可观测"
浏览器从"能用"补到"无头+深度诊断"
平台从"主要平台正常"补到"Windows/macOS/Linux/Docker全覆盖"
而且按照现在的节奏,4.26 估计已经不远了。
全部评论