通过 OpenAI 的 Computer Use 能力,让 GPT-5.4 大模型控制浏览器完成你指定的任务。模型会“看到”屏幕截图,并返回点击、输入、滚动等操作,由本程序在 Playwright 浏览器中执行。
基于 OpenAI Responses API 的 computer 工具:
- 截图 → 截取当前浏览器页面
- 发送 → 将任务描述 + 截图发给 GPT-5.4
- 解析 → 模型返回操作(click、type、scroll 等)
- 执行 → 在 Playwright 中执行这些操作
- 循环 → 重复 1–4 直到任务完成
- Python 3.10+
- OpenAI API Key(需支持 GPT-5.4 和 computer 工具)
cd "openai computer"
pip install -r requirements.txt
playwright install chromium设置环境变量 OPENAI_API_KEY:
# Windows PowerShell
$env:OPENAI_API_KEY = "sk-your-api-key"或创建 .env 文件(需配合 python-dotenv 使用)。
# 使用默认任务(在百度搜索 OpenAI)
python computer_control.py
# 自定义任务
python computer_control.py 打开百度,搜索"人工智能",告诉我第一条结果| 操作 | 说明 |
|---|---|
click |
点击 |
double_click |
双击 |
move |
移动鼠标 |
drag |
拖拽 |
type |
输入文字 |
keypress |
按键(含组合键) |
scroll |
滚动 |
wait |
等待 |
- 仅在隔离的浏览器中运行,不直接操作你的桌面
- 建议不要用于登录、支付等敏感操作
- 参考 Computer Use 安全指南