Augment SZYJIYI MCP BYOK（发布预告） V 1.0.0

admin · 发表于 2026-2-26 11:40:19

Augment SZYJIYI MCP BYOK（发布预告插件功能说明） V 1.0.0

特别鸣谢

Augment‑BYOK开源项目！项目以极具前瞻性的创新思路与领先架构，为技术探索提供了宝贵方向。本插件基于该项目深度定制与优化，在此向其卓越的原创精神与开源贡献致以崇高敬意，感谢以开放姿态推动技术创新与生态共建！

一、核心能力
1.1 自带 API Key（BYOK）
核心价值：打破 Augment 官方服务限制，让用户可使用自有大模型 API 密钥，自主掌控模型调用权限与成本。

支持 4 种主流 LLM 提供商：OpenAI / Anthropic / Gemini / OpenAI Responses API
解释：插件原生兼容 4 家全球主流大模型服务商，用户只需填入对应平台的 API Key，即可在 Augment 中直接调用对应平台的模型，无需额外适配开发。

接管 13 个 LLM 端点：
解释：可覆盖 Augment 中聊天对话、代码补全、内容编辑、消息提交、对话标题生成等 13 个核心大模型调用场景，其余非核心场景仍保留官方原生行为，兼顾定制化能力与原生使用体验。

一键切换 BYOK / 官方模式：
解释：无需修改复杂配置，一键即可在自定义 API Key 模式与 Augment 官方服务模式之间切换；切换过程中所有配置均会完整保留，随时可回滚，无配置丢失风险。
多 Provider 并存，Model Picker 自由切换
解释：可同时配置多家服务商的 API Key 与对应模型，无需反复修改配置，直接通过 Augment 原生的模型选择器即可快速切换不同平台的模型，灵活适配不同场景的使用需求。

1.2 可视化配置面板
核心价值：零代码门槛，通过可视化界面完成全量配置，大幅降低插件使用与调试成本。
BYOK: Open Config Panel 一键唤起
解释：在 Augment 的命令面板中输入对应指令，即可一键打开插件专属的可视化配置界面，无需手动修改 JSON 配置文件，操作门槛极低。

Provider 全生命周期管理：
解释：在配置面板中可直观完成大模型服务商的新增、删除、编辑操作，同时支持自定义请求头（headers）和默认请求参数（requestDefaults），满足企业级私有化部署、特殊网络鉴权等定制化需求。

配置导入 / 导出（支持脱敏导出）：
解释：支持将完整的插件配置一键导出为文件，也可通过配置文件快速批量导入配置；同时提供脱敏导出功能，导出时会自动隐藏 API Key 等敏感信息，可安全地分享配置模板给其他用户。

保存即生效，无需重启：
解释：所有配置修改完成后，点击保存即可立即生效，无需重启 VS Code 或 Augment 插件，大幅提升配置调试的效率。

1.3 常用参数快捷调整：
核心价值：突破 Augment 官方默认参数限制，按需定制核心能力边界，适配复杂开发场景。编辑工具最大行数调整（默认 150 → 最高可调至 550）
解释：可自定义 Augment 代码编辑工具单次可处理的最大代码行数，突破官方 150 行的限制，最高可调整至 550 行，完美适配长代码文件的批量编辑需求。

Agent 最大迭代次数调整（默认 200 → 可调至 500+）：
解释：支持调整 AI Agent 执行任务时的最大循环迭代次数，从官方默认的 200 次最高可扩展至 500 次以上，满足复杂长链路自动化开发任务的执行需求。
用户 / 工作区 Guidelines 长度限制自定义
解释：可自定义用户全局、单工作区的开发规范指引（Guidelines）的字符长度上限，突破官方默认限制，可写入更详细的项目规范、定制化开发要求。

编辑工具模糊匹配开关：
解释：可一键开启 / 关闭代码编辑工具的模糊匹配能力，开启后可降低 AI 因空格、缩进、换行等格式差异导致的编辑匹配失败问题，大幅提升代码编辑的成功率。

Grep 搜索工具开关：
解释：可自主控制是否启用 Augment 的 Grep 代码搜索工具，按需开启 / 关闭，避免不必要的资源占用，适配不同的开发场景。

编辑 / 保存工具指令提醒开关：
解释：可一键开启 / 关闭编辑、文件保存工具的指令提醒功能，按需控制 AI 的提示词输出，减少冗余信息，提升对话与执行效率。

二、智能上下文管理
2.1 History Summary（滚动摘要）：
核心价值：自动管理对话上下文，避免模型窗口超限，同时降低 Token 消耗，保证长对话的流畅性。
自动检测对话体积，触发上下文压缩
解释：插件会自动监测当前对话的 Token 占用量，当接近模型上下文窗口上限时，自动触发历史对话摘要压缩，从根源上避免因 Token 超限导致的对话中断、模型报错问题。
支持 auto /ratio/chars 三种触发策略
解释：提供三种灵活的压缩触发规则，用户可按需选择：auto 自动模式（按模型窗口阈值自动判断）、ratio 比例模式（按窗口占用比例触发）、chars 字符数模式（按固定字符数阈值触发）。

双模型解耦配置：
解释：支持将对话使用的主模型，与生成历史摘要的模型分开独立配置；可选用低成本、高响应速度的模型专门做摘要压缩，在保证对话效果的同时，大幅降低 Token 消耗成本。
内置主流模型窗口预设。
解释：内置 Claude 4.6 / GPT 5.x/ Gemini 3 / Kimi K2 等市面主流大模型的上下文窗口参数预设，无需用户手动查询填写，选中对应模型即可自动适配窗口阈值，降低配置门槛。

Rolling Cache 滚动缓存机制：
解释：采用滚动缓存设计，已完成摘要的历史对话内容不会重复生成摘要，大幅减少不必要的 Token 消耗与接口请求，提升对话响应速度。

一键推荐参数 + 一键清理缓存：
解释：提供一键生成最优配置参数的功能，新手用户无需手动调试即可获得最佳效果；同时支持一键清空所有摘要缓存，重置对话上下文状态，操作便捷。

摘要失败自动兜底：
解释：若历史摘要生成过程中出现接口报错、模型异常等问题，插件会自动触发兜底策略，不会中断当前对话流程，保证使用体验的连贯性。

2.2 工作区上下文自动注入：
核心价值：让 AI 自动感知项目信息，无需手动粘贴项目规范，新对话也能快速适配项目需求。自动读取规范文件注入 System Prompt
解释：插件会自动扫描项目工作区中.augment/guidelines/目录下的所有 Markdown 文件，将其中的项目规范、开发要求、业务背景等内容，自动注入到系统提示词中。

新对话自动继承项目背景：
解释：即使开启全新的对话窗口，插件也会自动将对应工作区的项目背景、规范要求注入到对话中，AI 无需重复询问项目信息，即可快速适配当前项目的开发要求。
扫描范围与上限可配置
解释：支持自定义需要扫描的目录路径，以及单次注入内容的最大字符数上限，可灵活控制注入的内容范围，避免占用过多的模型上下文窗口。

2.3 本地 Memories（跨会话记忆）：
核心价值：实现跨对话的 AI 记忆能力，同时数据完全本地化，不依赖官方服务，隐私可控。

本地存储，不依赖官方后端：
解释：AI Agent 的跨会话记忆数据，全部存储在用户本地 VS Code 的全局状态中，不会上传到 Augment 官方服务器，数据完全由用户掌控，同时无需依赖官方后端服务即可实现跨对话记忆能力。
一键清除记忆：
解释：提供一键清空所有本地记忆的功能，可随时重置 AI 的记忆状态，保护用户隐私，完美适配不同项目的切换需求。

三、端点级 Prompt 定制
按端点追加 System Prompt：
核心价值：针对不同使用场景做精细化的提示词定制，实现场景化的 AI 能力管控，不干扰原生功能。分端点独立配置 System Prompt
解释：可针对聊天对话、代码编辑、消息提交等不同的大模型调用端点（场景），分别配置专属的系统提示词，实现不同场景的定制化指令管控，无需全局统一配置。

BYOK 链路隔离，不干扰官方行为：
解释：所有自定义的系统提示词，仅在 BYOK 自定义 API Key 模式下生效；切换回官方模式后，完全保留 Augment 原生的提示词逻辑，不会对官方功能产生任何干扰。

内置推荐模板，一键填充：
解释：配置面板内置了不同场景的优质系统提示词模板，用户可一键填充使用，无需从零编写，大幅降低定制门槛，新手也能快速上手。

四、Provider 兼容与稳定性
4.1 智能兼容：
核心价值：深度适配各大模型平台的原生能力，保证全量功能可用，同时兼容 OpenAI 规范的第三方模型。

OpenAI Compatible 全能力兼容：
解释：完美兼容所有符合 OpenAI 接口规范的大模型服务（包括私有化部署、开源模型接口等），完整支持流式响应、非流式请求、工具调用、并行工具调用、思维链内容透传等全量能力，适配绝大多数第三方大模型平台。

OpenAI Responses API 原生适配：
解释：原生适配 OpenAI Responses API，完整支持 SSE 流式输出、函数调用、推理总结等核心能力，可完整复用该 API 的全部高级特性。

Anthropic 深度适配：
解释：深度适配 Anthropic Claude 系列模型，完整支持思维块、工具调用、图片理解等多模态能力，同时针对接口 422 报错场景做了自动重试优化，大幅降低调用失败率。

Gemini 全能力映射：
解释：原生适配 Google Gemini 系列模型，完整支持函数调用、流式文本增量输出、结束原因全量字段映射，保证 Gemini 模型在 Augment 中的使用体验与原生能力完全对齐。

4.2 稳定性保障：
核心价值：全链路异常兜底，尽最大可能保证对话与任务不中断，避免界面卡死、任务失败等问题。

流式安全网机制：
解释：针对大模型流式响应过程中可能出现的网络异常、接口报错等问题，设置了专属的异常捕获机制；异常发生时会自动转换为用户可读的错误提示，不会导致 Augment 界面卡死、无响应。

Token 超限自动缩小重试：
解释：当请求因 Token 数量超出模型限制而失败时，插件会自动压缩上下文内容，缩小 Token 占用量后自动重试，无需用户手动删减对话内容，保证任务不中断。

工具 Schema 严格化校验：
解释：针对工具调用的接口规范做了严格化校验与补全，尤其是 OpenAI Responses API 会自动补齐必填的字段规范，避免因 Schema 不规范导致的工具调用失败。

请求失败自动降级策略：
解释：当大模型请求出现连续失败时，插件会自动执行三级降级策略：先关闭工具调用能力重试，仍失败则切换为最简请求模式重试，尽最大可能保证对话可正常进行，避免单次报错就完全中断。

BYOK 失败自动回落官方链路：
解释：当自定义 BYOK 链路出现无法恢复的异常时，插件会自动切换回 Augment 官方服务链路，保证用户的工作流程不会完全中断，兼顾定制化能力与基础可用性。

4.3 安全防护：
核心价值：全链路敏感信息防护，杜绝数据泄露风险，保证插件运行的安全性。

日志自动脱敏：
解释：插件运行过程中产生的所有日志，会自动对 API Key、用户 Token 等敏感信息进行脱敏处理，敏感信息不会明文出现在日志中，杜绝信息泄露风险。

配置防原型污染：
解释：针对配置文件做了原型污染防护，避免恶意配置或异常数据导致的安全漏洞，保证插件运行的安全性。

Webview 最小权限原则：
解释：插件的可视化配置面板 Webview 采用最小权限原则，仅加载本地资源，禁止加载外部远程资源，杜绝远程恶意代码执行风险。

构建期 autoAuth guard：
解释：在插件构建阶段就设置了自动鉴权防护机制，彻底避免插件意外触发 Augment 官方的自动认证流程，保证 BYOK 模式与官方模式的完全隔离，不会出现权限泄露。

五、工具增强（Patch 上游优化）：
核心价值：修复 Augment 原生工具的已知问题，扩展工具能力边界，提升工具执行的成功率与稳定性。

str_replace 模糊匹配增强：
解释：对 Augment 的字符串替换编辑工具做了增强，新增模糊匹配能力，可忽略空格、缩进、换行等格式差异，精准匹配目标代码，大幅降低 AI 编辑代码时的匹配失败率。

save-file 最大行数提升（150 → 500）：
解释：将文件保存工具单次可处理的最大代码行数，从官方默认的 150 行提升至 500 行，支持大文件的批量生成与保存，适配长代码文件的开发需求。

消息超时延长（100s → 600s）：
解释：将单条消息请求的超时时间，从官方默认的 100 秒延长至 600 秒，给大模型留出充足的时间处理复杂长任务，避免因超时报错导致任务中断。

OpenFile 行号范围修正：
解释：修复了 Augment 打开文件工具中，行号参数为负数时会导致插件崩溃的问题，提升了工具运行的稳定性，避免异常参数导致的程序崩溃。

Ripgrep 路径自动查找：
解释：优化了 Ripgrep 代码搜索工具的路径查找逻辑，会自动搜索工具安装路径，当找不到工具时会自动使用系统 PATH 环境变量中的程序兜底，避免因路径配置问题导致的搜索功能失效。

工具卡片历史回放兜底：
解释：修复了 Augment 重启后，历史对话中的工具卡片内容显示空白的问题，重启后仍可正常查看历史工具调用的完整内容，保证对话历史的完整性。

MCP 工具渲染修复：
解释：修复了 MCP（模型上下文协议）工具的卡片渲染异常问题，可正确显示 MCP 工具的调用信息与返回结果，保证 MCP 生态工具的正常使用。

Sub-agent 超时延长（300s → 900s）：
解释：将子 Agent 执行任务的超时时间，从官方默认的 300 秒延长至 900 秒，适配子 Agent 处理复杂、长耗时任务的需求，避免因超时导致子任务执行失败。

Sub-agent / Orchestrator 模式启用：
解释：解锁并启用了 Augment 的子 Agent 与编排器模式，可实现多 Agent 协同工作，主 Agent 统筹任务、子 Agent 分工执行细分任务，大幅提升复杂任务的处理能力。

Augment SZYJIYI MCP BYOK（发布预告） V 1.0.0

浏览过的版块

关于我们

服务支持

522255060@qq.com