🧪 Beta公测版本提示:教程主体已完成,正在优化细节,欢迎大家提Issue反馈问题或建议。
Skip to content

第 3 章 基础使用:第一个小时

学完本章,你将熟悉 GA 的界面、解锁视觉与文件搜索等扩展能力,并掌握多轮对话技巧。

🎯 学习目标

  1. 熟悉 GA 的交互界面,能自如地与 GA 对话
  2. 解锁 OCR、视觉、飞书 CLI、Everything CLI 四大扩展能力
  3. 掌握多轮对话与上下文管理的最佳实践

🔴 注意事项(请务必阅读)

  1. 不要轻易让 GA 修改自己的源代码。 本章的配置过程中,GA 可能会申请修改自身代码。如果确实需要修改,请先让 GA 备份原文件,再进行改动。
  2. 任务完成后,务必提醒 GA 更新记忆。 特别是 L1 层索引——如果 L1 没有更新,新窗口中 GA 将不知道自己已经拥有这些能力。

3.1 界面介绍

双击 launch.pyw 启动 GA 后,我们会看到一个简洁的对话界面:

界面主要由以下几个区域组成:

❶ 模型选择区

左上角下拉菜单,用于切换当前使用的大语言模型(LLM)。如果我们在 mykey.py 中配置了多个模型,可以在这里自由切换。

❷ 轮次计数器

显示当前任务已经进行了多少轮对话。每一轮代表 GA 的一次"思考→工具调用→获得结果"的循环。

💡 关于轮次的更多细节

每一轮都可以展开查看详细过程。如果 GA 在一轮中调用了多个工具,我们可以展开查看每个工具的输入和输出。

❸ 对话显示区

GA 的回复和工具调用结果都会显示在这里。多轮任务会自动折叠成可展开的摘要,避免历史信息过长。

❹ 输入框

在这里输入指令或问题,用自然语言描述即可。支持多行输入(Shift+Enter 换行),按 Enter 发送。

❺ 发送按钮

点击输入框右侧的上箭头按钮,或直接按 Enter 键发送消息。

⚠️ 小提示:如果 GA 正在执行任务,会看到光标闪烁(▌),表示正在生成回复。如果离开超过 30 分钟且开启了"自主行动",GA 会自动执行预设的自动化任务。


3.2 视觉能力

GA 由大语言模型驱动,本身不具备视觉能力。但通过配置 OCR 和视觉扩展,我们可以让 GA "看见"屏幕和图片。

3.2.1 OCR 能力

OCR(光学字符识别)能让 GA 阅读图片上的文字。配置非常简单,只需一句话:

用 rapidocr 配置你的 ocr 能力并存入记忆

配置完成后,GA 就能阅读任何图片上的文字了:

帮我看看 F:\data\to_be_ocred.png 这张图片写了什么

更实用的是,配置了 OCR 之后,GA 可以了解我们的屏幕内容:

总结我当前屏幕上的内容

3.2.2 视觉能力(Vision)

OCR 只能识别文字。如果需要 GA 理解界面布局、识别图标和窗口,我们还需要解锁完整的视觉能力。

⚠️ 前置条件:视觉能力依赖 API 的多模态(image)接口。不同 API 提供商对多模态的支持情况不同,需要先确认你当前使用的 API 是否具备这一能力。向 GA 发送:

读取 mykey 中当前使用的 API 配置,写代码探测该 API 是否支持 image(多模态)接口

GA 会根据 mykey.py 中的 API 配置,自动编写探测代码并返回结果。

如果当前 API 支持多模态,直接跳到下一步。

如果当前 API 不支持多模态,也不用担心——GA 内置的 memory/vision_sop.md 中记录了如何通过 ModelScope 免费使用视觉大模型(如 Qwen3-VL)。

⚠️ 前置条件:先在浏览器中登录 ModelScope,注册账号并获取访问令牌(右上角头像 → 访问控制 → 访问令牌,复制 ms- 开头的 token)。

准备好令牌后,向 GA 发送:

读取 memory/vision_sop.md 中 ModelScope 免费后端的集成流程,按照步骤帮我配置

GA 会引导你完成以下操作:

  1. 在 ModelScope 注册并获取免费的访问令牌(ms- 开头)
  2. 将令牌写入 mykey.py
  3. 自动集成 ModelScope 的免费视觉 API 作为后端

💡 ModelScope 提供免费的 API Inference 服务,无需本地显卡,开箱即用。

确认 API 支持多模态后(无论是原有 API 还是刚配置的 ModelScope),向 GA 发送:

根据 memory/vision_sop.py,利用刚才探测成功的 API 重写视觉调用代码,保证能实现相同的功能。重写完成后进行测试,测试通过后按照改写内容更新 memory/vision_sop.md,最后将视觉能力写入 L1 记忆

GA 会依次完成以下步骤:

  1. 读取现有的 vision_sop.py,用你的 API 重写视觉调用代码
  2. 自动测试重写后的代码,确保功能正常
  3. 测试通过后,同步更新 vision_sop.md 文档
  4. 将视觉能力写入 L1 索引,确保后续会话都能记住这项能力

⚠️ GA 在此过程中可能会请求修改自身代码的授权。由于我们确实希望它获得视觉能力,回复授权即可。GA 给出的授权选项是它自己生成的,并非固定程序,我们可以复制选项发送,也可以用自然语言表达意图。

配置完成后,测试一下:

请看看我的屏幕上有哪些应用、窗口和重要组件

现在 GA 已经拥有完整的视觉能力,可以理解屏幕上的窗口和内容了。


3.3 飞书 CLI

通过飞书 CLI(lark-cli),GA 不仅能收发飞书消息,还能直接操作日历、云文档、多维表格、邮箱、任务、审批等 22 个飞书功能模块——相当于给 GA 装了一个飞书全能遥控器。

💡 飞书 CLI 和 第 5 章 介绍的飞书 Bot 是两件事:Bot 让你在飞书聊天窗口给 GA 发消息;CLI 让 GA 主动操作你的飞书数据(日历、文档、邮件等)。两者可以同时使用。

💡 飞书 CLI 能做什么
  • 日历操作(查看日程、创建会议、查询忙闲)
  • 文档操作(创建/读取/更新云文档、搜索文档)
  • 多维表格(创建表格、增删改查记录、数据分析)
  • 电子表格(读写 Excel、导出数据)
  • 任务管理(创建任务、分配成员、设置提醒)
  • 邮箱操作(发送邮件、搜索邮件、管理草稿)
  • 会议纪要(查询会议记录、获取 AI 总结)
  • 审批流程(查询审批、同意/拒绝审批)
  • OKR 管理、知识库管理、考勤打卡查询等

安装飞书 CLI

向 GA 发送:

安装并配置飞书 CLI(lark-cli),使其可以通过 code_run 调用

GA 会自动完成安装:

安装完成后,还需要配置 App 凭证和用户授权,GA 会一步步引导你完成。

配置 App 凭证与用户授权(点击展开完整流程)

配置 App 凭证

GA 会要求提供飞书应用的 App ID 和 App Secret(获取方式见 第 5 章 飞书接入指引)。

如果你已经在 mykey.py 中配置过飞书凭证,可以直接告诉 GA:直接读取我在 mykey.py 中配置的 App ID 和 App Secret

否则按 GA 提示,选择安全输入方式:

提供 App ID + 手动输入 App Secret

向 GA 发送你的 App ID(请替换为你的实际值):

app_id: 'cli_xxxxxx' 品牌:feishu

GA 会打开一个命令行窗口,将你的 App Secret 粘贴进去并回车:

看到 OK 后,告诉 GA:已输入 Secret 并回车

授权用户登录

App 凭证只能操作应用级功能。要让 GA 访问你的个人数据(日历、邮件、任务等),还需要完成用户授权:

弹出浏览器授权页面,我来给你授权

浏览器会弹出飞书授权页面,确认授权即可:

授权完成后回到 GA,回复:已授权

效果验证

配置完成,试一下:

帮我看看明天的飞书日程

日程查看、文档整理、任务创建等操作都可以直接用自然语言告诉 GA,无需手动输入 CLI 命令。


3.4 Everything CLI(Windows 文件搜索)

Everything CLI 是 Windows 平台的极速文件搜索工具,能在毫秒级时间内搜索整个硬盘。配置后,GA 可以快速定位任何文件,无需遍历目录。

为什么需要它?

当我们让 GA 读取一个文件时,如果不提供完整路径,GA 可能无法定位。Everything CLI 为 GA 提供毫秒级全盘搜索能力,彻底解决这个问题。

💡 没有 Everything 时的表现

安装配置

向 GA 发送:

安装并配置 Everything 命令行工具进 PATH

⚠️ 安装过程中,系统可能弹出管理员权限请求窗口(有时藏在任务栏后台),请注意查看并授权。

💡 安装过程截图

安装完成后,GA 会确认配置成功:

💡 安装后的建议
  • 如果电脑管家提示 Everything 想要开机自启,请允许(不会明显拖慢启动)
  • 建议重启电脑以确保 Everything 服务生效
  • 可以让 GA 把这个习惯写入记忆:「写入 L1,任何大规模文件查询直接使用 es」

效果验证

再次让 GA 查找文件,这次指定使用 es 搜索:

请读取 to_be_ocred.png 里面的文字,使用 es 全盘搜索这个文件

GA 仅用 1 轮就定位到了文件路径,效率显著提升。


什么是"最佳实践"

走到这里,你已经为 GA 解锁了视觉、飞书 CLI、Everything CLI 三项扩展能力。但这只是 GA 能力的冰山一角——我们不可能替你穷举所有场景,因为一千个人眼里有一千个哈姆雷特,每个人的任务、偏好和工作流都不一样。

所谓最佳实践,不是一套固定的操作手册,而是一个使用习惯:

  1. 把需求告诉 GA——用你自己的话描述,不需要措辞精确
  2. 执行过程中敢于打断——发现方向不对就喊停,给出你的思路和判断
  3. 成功后让 GA 沉淀记忆——好的经验只需教一次,GA 会永久记住

保持这个习惯,你的 GA 就会越用越懂你,越用越强。所以,现在就打开电脑试起来——你的实践,就是最佳实践。


3.5 多轮对话与上下文

GA 不是一次性工具,而是可以连续对话的助手。它会记住之前说过的话,理解上下文。

3.5.1 / 命令(快捷指令)

在对话框中,我们可以直接输入以 / 开头的快捷指令来控制 GA 的行为,无需用自然语言描述。以下是目前支持的全部 / 命令:

命令作用说明
/help显示帮助列出所有可用的 / 命令
/status查看状态显示 GA 当前是否正在运行,以及正在使用哪个 LLM
/stop停止当前任务立即中断正在执行的任务,GA 会停止所有工具调用
/new清空当前上下文开始一个全新的对话,清除所有历史记录
/restore恢复上次对话直接从日志文件恢复最近一次的对话历史(聊天平台使用)
/resume恢复历史对话(可选择)GA 浏览最近几次对话的结尾摘要,让你选择恢复哪一次(GUI 桌面窗口使用)
/llm [n]查看或切换模型不带参数:列出所有已配置的模型;带编号:切换到指定模型
💡 各平台对 / 命令的支持情况

/restore/resume 都能恢复历史对话,但入口不同:

  • /restore聊天平台前端(飞书、钉钉、QQ、Telegram、企业微信)中实现,直接从日志文件加载上次的对话记录
  • /resumeGUI 桌面窗口中实现,GA 会列出最近几次对话的摘要让你选择,然后以选中的对话为基础继续聊天
前端支持的命令
GUI 桌面窗口/resume/llm(部分命令有对应按钮,如停止按钮 = /stop
飞书、钉钉、QQ、Telegram、企业微信/help/status/stop/new/restore/llm
微信/stop/llm

使用示例

  1. 切换模型:如果当前模型响应太慢,可以快速切换

    /llm          ← 列出所有可用模型
    /llm 2        ← 切换到 2 号模型
  2. 恢复历史对话:重启 GA 后想继续之前的任务

    /resume       ← (GUI 桌面窗口)列出最近几次对话摘要,选择后恢复
    /restore      ← (聊天平台)直接恢复最近一次的对话历史
  3. 紧急停止:GA 执行了不符合预期的操作

    /stop         ← 立即中断,GA 停止当前所有操作

⚠️ 注意/restore 恢复的是最近一次的对话历史(保存在 temp/model_responses/ 下的日志文件中)。恢复后 GA 只是获得了之前的上下文,我们需要输入新的问题来继续工作。

3.5.2 什么时候需要开新会话?

情况说明
切换完全不同的任务从数据分析切换到浏览器操作 → 建议 /new 或重启
对话太长导致"忘事"上下文窗口满了,GA 开始遗忘早期内容 →/new 开新会话
想要重新开始之前尝试失败想换思路 →/new 清空后重来

💡 开新会话方法:输入 /new 即可清空上下文,无需重启 GA。当然,关闭窗口重新启动也可以。

3.5.3 上下文管理技巧

  1. 明确指代:说"帮我处理刚才那个 Excel 文件"比"帮我处理一下"好得多
  2. 分步确认:复杂任务分成多步,每步确认后再继续
  3. 利用记忆:常用偏好可以让 GA 记住——"以后处理销售数据时,都用这个格式",GA 会写入记忆系统,下次自动应用
  4. 善用 /restore:意外关闭 GA 后,用 /restore 恢复上下文,无缝继续

3.6 常见问题

Q1: GA 说"文件不存在",但文件明明在?

可能原因:GA 错误识别了目录,或当前工作目录与我们的认知不一致。

解决方法

  1. 使用绝对路径(包含盘符的完整路径)
  2. 右键文件 →「复制为路径」→ 粘贴到输入框
  3. 先告诉 GA 文件位置,再让它操作
Q2: 代码运行结果不对?

解决方法:直接告诉 GA「结果不对,我预期的是 XXX」。GA 会自己 debug 并修复。

示例

  • 👧:帮我统计每个月的销售额
  • 🤖:[返回结果]
  • 👧:不对,应该是按自然月统计,不是按 30 天
  • 🤖:[重新计算,返回正确结果]
Q3: 对话太长,GA 开始"忘事"?

解决方法

  1. 让 GA 把关键信息写入工作记忆:「请将 xxx 写入 working_checkpoint」
  2. 让 GA 把重要偏好写入长期记忆:「记住这个设置,以后都用」
  3. 开新会话后让 GA 读取历史:「我们上次聊了什么?」
Q4: GA 安装依赖失败?

解决方法

  1. 检查网络连接,确保可以访问外网
  2. 如果有代理,确保代理设置正确
  3. 尝试手动安装:pip install 包名
  4. 告诉 GA:「继续安装剩余的依赖」
Q5: 浏览器控制不生效?

解决方法

  1. 重新执行:「执行 web setup sop 解锁 web 工具」
  2. 检查浏览器扩展管理页面,确认插件已启用
  3. 确保浏览器是最新版本
Q6: GA 响应很慢?

解决方法

  1. 切换到更快的模型(如果配置了多个)
  2. 把复杂任务拆分成多个简单任务
  3. 检查网络连接质量
Q7: 如何让 GA 记住我的偏好?

明确告诉 GA「记住这个设置」或「以后都这样做」,GA 会把偏好写入记忆系统,下次自动应用。

示例

  • 👧:以后分析数据时,都用柱状图,不要用折线图
  • 🤖:好的,我会记住这个偏好

📂 相关文件速查
内容路径
GA 启动入口launch.pyw
API 密钥配置mykey.py
GA 记忆存储目录memory/

📝 小结

  • 界面简洁:GA 是自然语言交互助手,输入框打字即可使用
  • 扩展能力:OCR → 视觉 → 飞书 CLI → Everything CLI,每个都是一句话配置,永久提升 GA 表现
  • / 命令/stop /new /restore /resume /llm 等快捷指令,高效控制 GA
  • 对话技巧:明确指代、分步确认、善用记忆,让 GA 越用越懂你

上一章:第 2 章 浏览器能力解锁 | 下一章:第 4 章 记忆与 Skill 系统