主题
Google-Gemini模型
📋 简介
Google Gemini模型 是谷歌(Google)推出的大语言模型家族,也是目前与 OpenAI GPT 系列、Anthropic Claude 并列的全球顶级通用 AI 代表作。
它并非通过拼接不同模型组件构建,而是从头开始进行多模态训练,因此具备极强的逻辑推理、复杂任务处理及编程能力。
你需要先知道的 3 件事
- 模型名(model) :例如
gemini-2.5-flash、gemini-2.5-pro - 接口地址(Base URL) :通常是
https://api.aicy.pro - 鉴权方式:使用
Authorization: Bearer <YOUR_API_KEY>
提示:如果你使用第三方客户端(如 CherryStudio),它可能会让你填写 “Gemini API 地址”,一般填写
https://api.aicy.pro(即 Base URL)。
模型怎么选?
| 模型 | 核心定位 | 典型场景(推荐) |
|---|---|---|
gemini-2.5-flash | 速度 / 成本优先 | 高并发对话、摘要/抽取/分类、批处理、工具调用型 workflow |
gemini-2.5-pro | 质量 / 推理 / 编码优先 | 复杂推理、代码生成与审查、数学/逻辑题、长文档分析 |
gemini-3-flash-preview | 新一代 Flash | 日常偏复杂任务、agent 工作流、需要一定推理但更看重响应速度 |
gemini-3-pro-preview | 新一代 Pro | 最难的推理与编码、复杂多模态分析、关键链路 agent |
选择建议:
- 不确定用哪个:先用
gemini-2.5-flash或gemini-3-flash-preview,质量不够再切到gemini-2.5-pro或gemini-3-pro-preview -
3-pro模型:能力更激进,但稳定性与输出一致性可能波动更大。
计费与用量(Token)
Gemini 模型按 Token 计费(不同模型单价不同)。一次请求通常会产生两类 Token:
- 输入(prompt)Token:你的提示词、系统指令、上下文历史等。
- 输出(completion)Token:模型生成的内容。
Token 是模型处理文本的基本单位,也是计费单位。粗略理解:
- 英文:1 个 Token 往往对应多个字符(取决于单词与上下文)。
- 中文:通常 1 个汉字接近 1 个 Token(也会受上下文影响)。
更准确的用量请以接口返回为准:不同网关/SDK 可能返回 usage 或 usageMetadata 等字段(字段名不重要,数值最重要)。
常用参数(generationConfig)
不同客户端对参数字段的命名可能略有差异,但通常都能找到类似含义的配置项:
| 参数 | 作用 | 建议起步值 |
|---|---|---|
temperature | 随机性,越大越发散 | 代码/严谨问答:0.2~0.5;创意写作:0.7~1.0 |
topP | 采样范围,越小越保守 | 0.8~0.95 |
maxOutputTokens | 限制输出长度 | 按场景设置,避免无上限输出 |
并发、排队与超时(重要)
爱次元 API 不限制用户并发量,我们会尽力保证你所有请求的服务质量。
当服务器高峰期承受高流量时,可能出现 “已连接但尚未开始推理” 的排队情况:
- 非流式请求:可能会持续返回空行(keep-alive)。
- 流式请求:可能会持续返回 keep-alive 数据(例如 SSE 的注释/空事件,或分块传输的空片段)。
如果 10 分钟后请求仍未开始推理,服务器将关闭连接。
建议(面向上线/大并发用户):
- 客户端 HTTP 超时建议设置为 > 10 分钟(或使用更合理的重试与降级策略)。
- 对 429/5xx 做指数退避重试(并设置最大重试次数)。
- 控制单次请求上下文长度,避免把无关历史长期带入。
常见问题(FAQ)
1)提示 “model not found”,怎么办?
常见原因:
-
model填写错误(大小写、拼写、前后空格)。 - 模型列表更新,你使用的模型暂时不可用。
处理方式:
- 先调用
GET https://api.aicy.pro/v1beta/models,从返回中复制模型name /id(以实际字段为准)。 - 确认你的 Key 属于 Gemini 令牌组。
2)返回 401/403(未授权),怎么办?
请检查:
-
Authorization 请求头是否存在,是否为Bearer YOUR_API_KEY格式。 -
API Key是否复制完整,是否误带空格或换行。 - 是否把 Key 暴露在前端或日志里(泄露后可能触发风控)。
3)响应很慢,甚至看起来“卡住”了?
优先按顺序排查:
- 是否处于排队期(见“并发、排队与超时”)。
- 是否选择了更大的模型(例如从 flash 换成 pro)。
- 上下文是否过长(历史对话太多、粘贴了大段代码/日志)。
4)感觉回答质量不稳定,如何自查?
更可靠的自查方式:
- 用同一套固定测试集(3~5 个问题 + 固定参数)在不同时间重复测试。
- 对比不同模型:
gemini-2.5-flash vsgemini-2.5-pro,确认是否为“模型差异”而非“系统波动”。 - 如果你有网关/代理层或中间件,确认没有改写
model、截断上下文、或注入额外提示词。
