Google-Gemini模型

📋 简介

Google Gemini模型 是谷歌（Google）推出的大语言模型家族，也是目前与 OpenAI GPT 系列、Anthropic Claude 并列的全球顶级通用 AI 代表作。

它并非通过拼接不同模型组件构建，而是从头开始进行多模态训练，因此具备极强的逻辑推理、复杂任务处理及编程能力。

你需要先知道的 3 件事

模型名（model） ：例如 gemini-2.5-flash、gemini-2.5-pro
接口地址（Base URL） ：通常是 https://api.aicy.pro
鉴权方式：使用 Authorization: Bearer <YOUR_API_KEY>

提示：如果你使用第三方客户端（如 CherryStudio），它可能会让你填写 “Gemini API 地址”，一般填写 https://api.aicy.pro（即 Base URL）。

模型怎么选？

模型	核心定位	典型场景（推荐）
`gemini-2.5-flash`	速度 / 成本优先	高并发对话、摘要/抽取/分类、批处理、工具调用型 workflow
`gemini-2.5-pro`	质量 / 推理 / 编码优先	复杂推理、代码生成与审查、数学/逻辑题、长文档分析
`gemini-3-flash-preview`	新一代 Flash	日常偏复杂任务、agent 工作流、需要一定推理但更看重响应速度
`gemini-3-pro-preview`	新一代 Pro	最难的推理与编码、复杂多模态分析、关键链路 agent

选择建议：

不确定用哪个：先用 gemini-2.5-flash或gemini-3-flash-preview，质量不够再切到gemini-2.5-pro或gemini-3-pro-preview
3-pro模型：能力更激进，但稳定性与输出一致性可能波动更大。

计费与用量（Token）

Gemini 模型按 Token 计费（不同模型单价不同）。一次请求通常会产生两类 Token：

输入（prompt）Token：你的提示词、系统指令、上下文历史等。
输出（completion）Token：模型生成的内容。

Token 是模型处理文本的基本单位，也是计费单位。粗略理解：

英文：1 个 Token 往往对应多个字符（取决于单词与上下文）。
中文：通常 1 个汉字接近 1 个 Token（也会受上下文影响）。

更准确的用量请以接口返回为准：不同网关/SDK 可能返回 usage 或 usageMetadata 等字段（字段名不重要，数值最重要）。

常用参数（generationConfig）

不同客户端对参数字段的命名可能略有差异，但通常都能找到类似含义的配置项：

参数	作用	建议起步值
`temperature`	随机性，越大越发散	代码/严谨问答：0.2～0.5；创意写作：0.7～1.0
`topP`	采样范围，越小越保守	0.8～0.95
`maxOutputTokens`	限制输出长度	按场景设置，避免无上限输出

并发、排队与超时（重要）

爱次元 API 不限制用户并发量，我们会尽力保证你所有请求的服务质量。

当服务器高峰期承受高流量时，可能出现 “已连接但尚未开始推理” 的排队情况：

非流式请求：可能会持续返回空行（keep-alive）。
流式请求：可能会持续返回 keep-alive 数据（例如 SSE 的注释/空事件，或分块传输的空片段）。

如果 10 分钟后请求仍未开始推理，服务器将关闭连接。

建议（面向上线/大并发用户）：

客户端 HTTP 超时建议设置为 > 10 分钟（或使用更合理的重试与降级策略）。
对 429/5xx 做指数退避重试（并设置最大重试次数）。
控制单次请求上下文长度，避免把无关历史长期带入。

常见问题（FAQ）

1）提示 “model not found”，怎么办？

常见原因：

model 填写错误（大小写、拼写、前后空格）。
模型列表更新，你使用的模型暂时不可用。

处理方式：

先调用 GET https://api.aicy.pro/v1beta/models，从返回中复制模型 name / id（以实际字段为准）。
确认你的 Key 属于 Gemini 令牌组。

2）返回 401/403（未授权），怎么办？

请检查：

Authorization 请求头是否存在，是否为 Bearer YOUR_API_KEY 格式。
API Key 是否复制完整，是否误带空格或换行。
是否把 Key 暴露在前端或日志里（泄露后可能触发风控）。

3）响应很慢，甚至看起来“卡住”了？

优先按顺序排查：

是否处于排队期（见“并发、排队与超时”）。
是否选择了更大的模型（例如从 flash 换成 pro）。
上下文是否过长（历史对话太多、粘贴了大段代码/日志）。

4）感觉回答质量不稳定，如何自查？

更可靠的自查方式：

用同一套固定测试集（3～5 个问题 + 固定参数）在不同时间重复测试。
对比不同模型：gemini-2.5-flash vs gemini-2.5-pro，确认是否为“模型差异”而非“系统波动”。
如果你有网关/代理层或中间件，确认没有改写 model、截断上下文、或注入额外提示词。

Google-Gemini模型 ​

你需要先知道的 3 件事 ​

模型怎么选？ ​

计费与用量（Token） ​

常用参数（generationConfig） ​

并发、排队与超时（重要） ​

常见问题（FAQ） ​

1）提示 “model not found”，怎么办？ ​

2）返回 401/403（未授权），怎么办？ ​

3）响应很慢，甚至看起来“卡住”了？ ​

4）感觉回答质量不稳定，如何自查？ ​