GPT-5.4 控制电脑示例

通过 OpenAI 的 Computer Use 能力，让 GPT-5.4 大模型控制浏览器完成你指定的任务。模型会“看到”屏幕截图，并返回点击、输入、滚动等操作，由本程序在 Playwright 浏览器中执行。

原理

基于 OpenAI Responses API 的 computer 工具：

截图 → 截取当前浏览器页面
发送 → 将任务描述 + 截图发给 GPT-5.4
解析 → 模型返回操作（click、type、scroll 等）
执行 → 在 Playwright 中执行这些操作
循环 → 重复 1–4 直到任务完成

环境要求

Python 3.10+
OpenAI API Key（需支持 GPT-5.4 和 computer 工具）

安装

cd "openai computer"
pip install -r requirements.txt
playwright install chromium

配置

设置环境变量 OPENAI_API_KEY：

# Windows PowerShell
$env:OPENAI_API_KEY = "sk-your-api-key"

或创建 .env 文件（需配合 python-dotenv 使用）。

运行

# 使用默认任务（在百度搜索 OpenAI）
python computer_control.py

# 自定义任务
python computer_control.py 打开百度，搜索"人工智能"，告诉我第一条结果

支持的操作

操作	说明
`click`	点击
`double_click`	双击
`move`	移动鼠标
`drag`	拖拽
`type`	输入文字
`keypress`	按键（含组合键）
`scroll`	滚动
`wait`	等待

安全说明

仅在隔离的浏览器中运行，不直接操作你的桌面
建议不要用于登录、支付等敏感操作
参考 Computer Use 安全指南

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.env.example		.env.example
.gitignore		.gitignore
README.md		README.md
computer_control.py		computer_control.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GPT-5.4 控制电脑示例

原理

环境要求

安装

配置

运行

支持的操作

安全说明

参考文档

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

GPT-5.4 控制电脑示例

原理

环境要求

安装

配置

运行

支持的操作

安全说明

参考文档

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages