当前位置：首页 > news >正文

手把手教你用Gemini 2.5 Computer Use模型打造个人AI助理：自动填表、比价、抢票全攻略

news 2026/6/25 20:34:34

用Gemini 2.5 Computer Use模型构建智能自动化助手的实战指南

1. 为什么你需要一个基于Gemini 2.5的AI助手？

每天重复填写相同的表格、在不同电商平台手动比价、盯着屏幕等待抢票按钮变亮——这些机械操作正在吞噬你的宝贵时间。Gemini 2.5 Computer Use模型的出现，让构建一个真正理解界面、能像人类一样操作电脑的私人助手成为可能。

与传统自动化工具不同，Gemini 2.5不需要你编写复杂的XPath或CSS选择器。它通过视觉理解屏幕内容，自主决定下一步操作。想象一下，你只需要告诉它"帮我找到最便宜的iPhone 15并下单"，剩下的比价、加购、结算流程全部自动完成。

核心优势对比：

特性	传统自动化工具	Gemini 2.5方案
开发门槛	需要DOM结构知识	自然语言描述任务
适应性	页面改版即失效	自动适应UI变化
功能范围	固定流程执行	动态决策能力
安全机制	需自行实现	内置多层防护

2. 环境搭建与基础配置

2.1 准备工作

首先确保你的开发环境满足以下要求：

Python 3.10或更高版本
支持GPU的机器（推荐NVIDIA RTX 3060以上）
Google Cloud账号（用于访问Gemini API）

安装必要的Python包：

pip install google-generativeai playwright

2.2 API密钥获取

访问Google AI Studio控制台
创建新项目并启用Gemini API
在"API密钥"部分生成新的访问凭证

将密钥保存在环境变量中：

import os os.environ['GOOGLE_API_KEY'] = '你的实际API密钥'

2.3 初始化模型客户端

from google import generativeai as genai # 配置客户端 genai.configure(api_key=os.environ['GOOGLE_API_KEY']) # 指定Computer Use专用模型 model = genai.GenerativeModel('gemini-2.5-computer-use-preview')

3. 核心功能实现详解

3.1 自动填表系统

以常见的求职申请表为例，我们可以构建一个智能填表助手：

def auto_fill_form(page, form_data): # 截取当前屏幕 screenshot = page.screenshot(type='png') # 构建提示词 prompt = f"""请帮我填写这份申请表，信息如下： - 姓名：{form_data['name']} - 邮箱：{form_data['email']} - 工作经验：{form_data['experience']} 特别注意： 1. 遇到必填字段才填写 2. 日期选择器使用日历控件选择 3. 提交前等待我确认""" # 调用模型 response = model.generate_content( contents=[prompt, screenshot], tools=[genai.Tool(computer_use=True)] ) # 执行返回的操作指令 execute_actions(response, page)

关键技巧：

在提示词中明确填写规则和边界条件
对敏感信息字段添加require_confirmation安全标记
使用wait_5_seconds确保动态加载完成

3.2 智能比价引擎

这个功能会自动在多个电商平台搜索指定商品，并整理出最优选择：

def price_comparison(product_name, max_pages=3): results = [] sites = ['amazon', 'jd', 'taobao'] with sync_playwright() as p: browser = p.chromium.launch(headless=False) for site in sites: page = browser.new_page() page.goto(f'https://www.{site}.com') # 构建搜索指令 prompt = f"""在{site}搜索{product_name}，然后： 1. 按价格从低到高排序 2. 过滤掉非自营商品 3. 记录前{max_pages}页的： - 商品名称 - 价格 - 好评率 4. 结果保存为JSON""" response = model.generate_content( contents=[prompt, page.screenshot()], tools=[genai.Tool(computer_use=True)] ) results.append(parse_results(response)) return analyze_comparison(results)

优化建议：

添加价格波动监控，设置降价提醒
实现历史价格趋势图表生成
对异常低价商品添加风险提示

4. 高级功能与安全实践

4.1 抢票系统实现

def ticket_grabbing(event_url, target_date, user_info): while True: page.goto(event_url) prompt = f"""执行以下抢票流程： 1. 查找日期为{target_date}的场次 2. 选择最接近晚上7点的时段 3. 使用以下信息填写： - 姓名：{user_info['name']} - 身份证：{user_info['id']} 4. 在提交订单前等待我的最终确认""" response = model.generate_content( contents=[prompt, page.screenshot()], safety_settings={ 'HARM_CATEGORY_FINANCIAL': 'BLOCK_ONLY_HIGH' } ) if check_success(page): break

安全机制：

设置金融操作的安全等级为BLOCK_ONLY_HIGH
实现双重确认流程：
- 自动识别验证码并暂停
- 支付环节强制人工干预
操作间隔随机化模拟人工行为

4.2 自定义函数扩展

通过添加自定义操作增强模型能力：

custom_functions = [ { 'name': 'extract_table_data', 'description': '从网页表格中提取结构化数据', 'parameters': { 'x': '表格左上角x坐标', 'y': '表格左上角y坐标' } }, { 'name': 'ocr_verify_code', 'description': '识别验证码图片', 'parameters': { 'img_xpath': '验证码图片的XPath' } } ] response = model.generate_content( contents=[prompt, screenshot], tools=[genai.Tool( computer_use=True, function_declarations=custom_functions )] )

5. 性能优化与调试技巧

5.1 提升响应速度

缓存策略：对静态页面元素建立操作缓存

element_cache = {} def get_cached_action(element_signature): if element_signature in element_cache: return element_cache[element_signature] return None

并行处理：利用多标签页同时执行独立任务

from concurrent.futures import ThreadPoolExecutor with ThreadPoolExecutor(max_workers=3) as executor: futures = [executor.submit(check_site, url) for url in site_list] results = [f.result() for f in futures]

5.2 常见问题排查

问题现象：模型无法正确识别按钮解决方案：

在提示词中添加界面元素的视觉特征描述
"蓝色椭圆形的提交按钮，位于表单底部"
调整屏幕分辨率至推荐的1440x900
添加手动修正机制：

def fallback_click(element_desc): position = manual_locate(element_desc) page.mouse.click(position['x'], position['y'])

问题现象：动态加载导致操作中断解决方案：

实现智能等待检测：

def wait_for_loading(page, timeout=30): start = time.time() while time.time() - start < timeout: if page.evaluate('document.readyState') == 'complete': return True time.sleep(0.5) return False

在关键步骤添加重试机制

6. 实际应用案例展示

6.1 自动化日报系统

某开发人员使用Gemini 2.5构建的日报自动填写工具：

从Git提交记录提取工作内容
自动登录公司OA系统
智能归纳项目进展
生成格式规范的日报
提交前人工复核

效果对比：

指标	手动操作	Gemini方案
耗时	15分钟	2分钟
错误率	5%	0.2%
覆盖度	基础条目	智能扩展

6.2 跨平台数据迁移工具

将旧版CMS内容迁移到新系统的自动化流程：

登录旧系统后台
按分类遍历内容列表
提取正文、图片等元素
登录新系统后台
按新格式重新发布
验证发布结果

关键技术点：

使用drag_and_drop处理图片上传
通过key_combination实现快捷键操作
添加rollback函数应对失败场景

7. 扩展思路与未来方向

虽然我们已经实现了很多实用功能，但Gemini 2.5 Computer Use的潜力远不止于此。你可以尝试：

智能邮件处理：自动分类收件箱，生成摘要回复
会议纪要生成：录制会议后自动提取行动项
个人知识管理：自动整理浏览器书签和阅读笔记
智能家居控制：通过网页界面管理IoT设备

一个特别有前景的方向是创建可教学的AI助手。通过记录用户操作并生成可复用的工作流脚本，助手能够不断学习新的自动化任务：

def record_workflow(demo_actions): # 记录演示操作序列 workflow = [] for action in demo_actions: screenshot = action['page'].screenshot() workflow.append({ 'context': screenshot, 'action': action['description'] }) # 生成可重放的脚本 prompt = """分析以下操作序列，生成通用工作流： 1. 识别各步骤的决策逻辑 2. 提取可参数化的变量 3. 添加必要的安全检查""" response = model.generate_content( contents=[prompt, workflow], tools=[genai.Tool(computer_use=True)] ) return compile_script(response.text)

这种自我进化的能力让AI助手可以跟随你的工作习惯不断成长，最终成为真正理解你需求的数字伙伴。

查看全文

http://www.jsqmd.com/news/592960/