All notable changes to this project will be documented in this file.
The format is based on Keep a Changelog, and this project adheres to Semantic Versioning.
- 适配器
- 再次修复豆包适配器无法点击选择模型的问题
- 修复豆包超时时间跟随配置文件
- 浏览器
- 回滚互斥锁机制,不再使用互斥锁,这是一个错误的修复
- 适配器
- 尝试修复同实例多窗口时出现点击超时的问题
- 修复 Gemini 文本适配器不选择模型的问题
- 修正 Gemini 文本适配器的模型 ID
- 适配器
- 为图片生成结果下载单独提供重试机制以及相关设置
- WebUI
- 增加批量操作实例设置代理或者删除
- 适配器
- 修复豆包适配器无法点击选择模型的问题
- 浏览器
- 扩展拟人点击策略并增强坐标安全性
- 适配器
- 修复 Gemini 适配器可能会点不到发送按钮的问题
- 豆包
- 增加豆包 Pro 模型的支持
- 适配器
- 修复豆包文本被截断的问题
- 自定义
- 增加自定义生成等待超时时间
- 适配器
- 修复 ChatGPT 文本适配器响应被截断的问题
- 适配器
- 更新 LMArena 模型列表
- 适配器
- 修复 Gemini 无法点击创建图片按钮的问题
- 适配器
- 修复 DeepSeek 文本生成适配器因接口格式更新导致无法获取生成结果
- 修复 豆包 适配器图片上传逻辑更改导致上传进度验证失败的问题
- 适配器
- 修复 Gemini 图片生成适配器因前端更新导致无法点击 Create images 按钮的问题
- 修复 Gemini 图片生成适配器因前端更新导致无法点击上传图片按钮的问题
- 更新 LMArena 模型列表
- WebUI
- 增加日志等级的设置
- 代理
- 修复无需鉴权的 Socks5 代理无法使用的问题
- 鼠标轨迹
- 增加三种鼠标轨迹选择(使用项目维护的、使用 Camoufox 内置、不适用拟人轨迹)
- Token 留空问题
- 修复 WebUI 留空Token后无法重启的问题(允许 Token 留空)
- 鼠标轨迹
- 增快鼠标移动速度
- 热门模型ID
- 竞技场删除了 gemini-3-pro-image-preview-2k,因此项目同步删除
- 超时优化
- 等待生成结果的超时时间不再一刀切,根据上游 SEE 动态重置超时计时器
- LMA 超时问题
- 修复 LMArena 因模型选择界面更新导致的点击超时
- Flow 图片上传
- 修复 Google Flow 因历史上传的图片过多导致上传按钮被顶到不可见区域造成点击超时
- 提示词输入
- 长提示词粘贴之前模拟输入时将回车当换行符使用导致误触发送提示词
- 操作流程
- 操作完成后不再模拟移开鼠标的步骤,加快响应速度减少故障概率
- 崩溃重启
- 非登录模式下浏览器崩溃或者被关闭时不导致项目退出而是重启
- CSS注入
- 增加 CSS 注入,支持禁用动画,禁用模糊滤镜,降低字体渲染精度
- 超时优化
- 增长 Google Flow 适配器的控件等待超时时间,防止在低配设备上因操作过慢而超时
- 优化速度
- 删除或减少过于保守的控件等待时间
- 增加计数功能
- 支持在 WebUI 记录与查看成功次数
- FireFox 参数
- 增加 FireFox 站点隔离机制开关
- 提示词违规提示
- 提示词违规时提示内容被阻止
- 修复图片上传
- 修复 LMArena 因模型选择与图片上传的顺序错误导致的图片上传失败
- 新增适配器
- 支持豆包图片生成与文本生成适配器
- 未捕获的超时错误
- 修复因未捕获的超时错误导致的程序崩溃
- 模型选择
- 修复 LMArena 模型选择的问题并同步模型列表
- 适配器描述
- 为每个适配器添加描述,可以在 WebUI 中的适配器设置页面点击查看每个适配器的描述和使用方法。
- 适配器模型管理
- 为每个适配器添加模型列表管理,支持黑名单和白名单,可用于禁用网站出现问题的模型
- 调试适配器
- 多种检测网站聚合,IP 纯净度查询等,并初步测试自动过盾
- Gemini:修复因懒加载导致的等待图片超时问题
- 浏览器指纹
- 增加 WebGL 和 Canvas 噪点的持久化,防止频繁变化
- 清洗插件列表,防止出现 FireFox 中有 Chrome 内置的 PDF 阅读器插件
- 清洗 UA 标识,防止出现未来浏览器版本,导致某些网站报错403 (如:aistudio)
- 关闭动画
- 通过 about:config 中的设置禁用背景高斯模糊 CSS 和减少动画,节省资源占用
- 新增适配器
- 支持 Google Flow 图片生成适配器
- Gemini Business:修复因懒加载导致的等待图片超时问题
- 新增适配器
- 支持 ChatGPT 文本生成适配器
- 支持 zAI 文本生成适配器
- 支持 DeepSeek 文本生成适配器
- 支持 Sora 视频生成适配器
- 适配器实现更改
- zAI 图片生成适配器不再使用拦截请求修改响应体的方式,改为UI选择模型列表,并且Nano Banana Pro 支持选择1K、2K、4K
- 配置文件
- 自动复制初始化配置文件,并放进
data/config.yaml,Docker友好化 - 优化 Dockerfile
- 初始化脚本不再依赖配置文件,支持交互式和参数传入式配置代理
- 优化 WebUI 文案和日志排列
- 自动复制初始化配置文件,并放进
- 删除测试脚本
- 现在有 WebUI 测试了,已经无需 test 脚本了
- 新增适配器
- 支持 Gemini 网页版文本生成
- 支持 ChatGPT 图片生成
- 支持视频生成
- 支持在 Gemini 网页版和 Gemini Enterprise Business 图片生成适配器中生成视频
- 优化图片下载方式
- 让文件下载步骤直接继承浏览器上下文减少特征
- 新增适配器
- 支持 ZenMux
- 清理历史遗留
- 清除历史遗留的多余的逻辑
- WebUI
- 完善 WebUI 功能,添加接口测试和日志查看器,优化部分布局
- 日志记录
- 会在 data/temp 文件夹下记录日志(最大5MB轮转)
- 初始化失败逻辑
- 程序初始化失败后不会直接推出,以便利用 WebUI 修改错误的配置
- LMArena 图片适配器
- 支持通过配置直接返回图片URL (但其他不支持该选项的适配器仍然会返回 Base64)
-
WebUI
- 为项目添加了网页版管理工具,便于修改配置文件(可能会有问题,可随时反馈)
-
增加看门狗
- 增加看门狗机制(Supervisor),保证程序失败重载和利于利用 WebUI 完整重启程序
- 同时将 Linux 上的虚拟显示器和 VNC 服务器启动程序也迁移至看门狗机制
- 支持文本模型
- 添加专门的文本模型适配器(目前仅支持 LMArena 和 Gemini Busineess)
- 支持网络搜索模型,例如 gemini-3-pro-grounding、grok-4-1-fast-search
- 图片调度
- 若有适配器同时支持同一个模型,但是图片策略不同,将会优先将带图片的请求分发给支持图片的适配器
- 为自动通过验证码做准备
- 新增测试适配器 turnstile_test ,为将来需要自动过 CloudFlare 验证码做准备
- 项目名称更新
- 因支持的功能越来越多,决定为项目改名为 WebAI2API
- 故障转移系统
- 实现了基于 Pool 的自动故障转移:当某个 Worker 执行任务失败(如 API 超时、页面崩溃、被限流)时,系统会自动寻找下一个支持该模型的 Worker 进行重试。
- Merge 模式增强:Merge Worker 内部也会在不同的适配器之间进行故障转移。
- 多窗口多账号支持
- 架构升级,支持同时管理多个浏览器实例和多个标签页。
- 实现了浏览器实例间的数据(Cookies/Storage)完全隔离。
- Cookies 管理
- 新增
/v1/cookies接口,支持获取指定 browser instance 的 Cookies。
- 新增
- 配置系统重构
- 配置文件结构大幅调整,采用更清晰的
backend.pool结构配置 Worker。
- 配置文件结构大幅调整,采用更清晰的
- 浏览器伪装增强
- 集成 GEOIP 数据库,实现基于 IP 的自动时区伪装。
- 初始化脚本 (init.js)
- 支持
npm run init -- -custom自定义初始化。 - 自动下载 GeoLite2 sum数据库。
- 支持
- 服务器自检
- 启动时自动检查依赖完整性和环境补丁。
- Merge 模式监控
- 闲时自动跳转到指定网站以维持会话活跃(保活)。
- 代码重构
- 服务器代码模块化 (
src/server/). - 目录结构重新整理。
- 服务器代码模块化 (
- 新适配器支持
- 初步支持 Gemini 网页版 (
gemini.js).
- 初步支持 Gemini 网页版 (
- 流式接口优化
- 移除了全局开关,改为由请求体参数
stream: true动态控制。 - 保活机制:流式模式下支持无限排队,并通过 SSE 心跳包防止连接超时。
- 拒绝策略:非流式请求在队列满时立即拒绝,避免无限等待。
- 移除了全局开关,改为由请求体参数
- 后端聚合
- 实现了根据模型 ID 自动路由到对应适配器的逻辑。
- Mac 兼容性
- 修复了 MacOS 初始化步骤缺失导致的启动失败。
- Docker 支持
- 发布 Docker 镜像
- Cookie 导出
- 利用自动续登机制获取最新 Cookie,供外部工具使用。
- 自动续登修复:改为全局监听,修复了部分场景下不触发的问题。
- 杂项修复:VNC 端口冲突、启动参数优化、zAI 错误反馈优化。
- 新适配器支持
- 支持 zAI (zai.is),含自动 Discord 登录处理。
- Gemini Business:修复监听器重复触发问题。
- Mac 输入法:修复拟人输入无法全选的问题。
- 核心迁移
- 从 Puppeteer 迁移至 Playwright + Camoufox。
- 旧版代码归档至
puppeteer-edition分支。
- 新适配器支持
- 支持 Nano Banana Free。
- 功能特性
- 内置 XVFB/VNC 支持命令。
- 支持 Gemini Business 过期自动续登。