Skip to content

haomehaode/openai-computer

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 

Repository files navigation

GPT-5.4 控制电脑示例

通过 OpenAI 的 Computer Use 能力,让 GPT-5.4 大模型控制浏览器完成你指定的任务。模型会“看到”屏幕截图,并返回点击、输入、滚动等操作,由本程序在 Playwright 浏览器中执行。

原理

基于 OpenAI Responses APIcomputer 工具:

  1. 截图 → 截取当前浏览器页面
  2. 发送 → 将任务描述 + 截图发给 GPT-5.4
  3. 解析 → 模型返回操作(click、type、scroll 等)
  4. 执行 → 在 Playwright 中执行这些操作
  5. 循环 → 重复 1–4 直到任务完成

环境要求

  • Python 3.10+
  • OpenAI API Key(需支持 GPT-5.4 和 computer 工具)

安装

cd "openai computer"
pip install -r requirements.txt
playwright install chromium

配置

设置环境变量 OPENAI_API_KEY

# Windows PowerShell
$env:OPENAI_API_KEY = "sk-your-api-key"

或创建 .env 文件(需配合 python-dotenv 使用)。

运行

# 使用默认任务(在百度搜索 OpenAI)
python computer_control.py

# 自定义任务
python computer_control.py 打开百度,搜索"人工智能",告诉我第一条结果

支持的操作

操作 说明
click 点击
double_click 双击
move 移动鼠标
drag 拖拽
type 输入文字
keypress 按键(含组合键)
scroll 滚动
wait 等待

安全说明

  • 仅在隔离的浏览器中运行,不直接操作你的桌面
  • 建议不要用于登录、支付等敏感操作
  • 参考 Computer Use 安全指南

参考文档

About

openai computer use demo

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages