跳转到内容

Google-Gemini模型

📋 简介

Google Gemini模型 是谷歌(Google)推出的大语言模型家族,也是目前与 OpenAI GPT 系列、Anthropic Claude 并列的全球顶级通用 AI 代表作。

它并非通过拼接不同模型组件构建,而是从头开始进行多模态训练,因此具备极强的逻辑推理、复杂任务处理及编程能力。

你需要先知道的 3 件事

  1. 模型名(model) :例如 gemini-2.5-flash​、gemini-2.5-pro
  2. 接口地址(Base URL) :通常是 https://api.aicy.pro
  3. 鉴权方式:使用 Authorization: Bearer <YOUR_API_KEY>

提示:如果你使用第三方客户端(如 CherryStudio),它可能会让你填写 “Gemini API 地址”,一般填写 https://api.aicy.pro(即 Base URL)。

模型怎么选?

模型核心定位典型场景(推荐)
gemini-2.5-flash速度 / 成本优先高并发对话、摘要/抽取/分类、批处理、工具调用型 workflow
gemini-2.5-pro质量 / 推理 / 编码优先复杂推理、代码生成与审查、数学/逻辑题、长文档分析
gemini-3-flash-preview新一代 Flash日常偏复杂任务、agent 工作流、需要一定推理但更看重响应速度
gemini-3-pro-preview新一代 Pro最难的推理与编码、复杂多模态分析、关键链路 agent

选择建议:

  • 不确定用哪个:先用 gemini-2.5-flash​或gemini-3-flash-preview​,质量不够再切到gemini-2.5-pro​或gemini-3-pro-preview
  • 3-pro​模型:能力更激进,但稳定性与输出一致性可能波动更大。

计费与用量(Token)

Gemini 模型按 Token 计费(不同模型单价不同)。一次请求通常会产生两类 Token:

  • 输入(prompt)Token:你的提示词、系统指令、上下文历史等。
  • 输出(completion)Token:模型生成的内容。

Token 是模型处理文本的基本单位,也是计费单位。粗略理解:

  • 英文:1 个 Token 往往对应多个字符(取决于单词与上下文)。
  • 中文:通常 1 个汉字接近 1 个 Token(也会受上下文影响)。

更准确的用量请以接口返回为准:不同网关/SDK 可能返回 usage​ 或 usageMetadata 等字段(字段名不重要,数值最重要)。

常用参数(generationConfig)

不同客户端对参数字段的命名可能略有差异,但通常都能找到类似含义的配置项:

参数作用建议起步值
temperature随机性,越大越发散代码/严谨问答:0.2~0.5;创意写作:0.7~1.0
topP采样范围,越小越保守0.8~0.95
maxOutputTokens限制输出长度按场景设置,避免无上限输出

并发、排队与超时(重要)

爱次元 API 不限制用户并发量,我们会尽力保证你所有请求的服务质量。

当服务器高峰期承受高流量时,可能出现 “已连接但尚未开始推理” 的排队情况:

  • 非流式请求:可能会持续返回空行(keep-alive)。
  • 流式请求:可能会持续返回 keep-alive 数据(例如 SSE 的注释/空事件,或分块传输的空片段)。

如果 10 分钟后请求仍未开始推理,服务器将关闭连接。

建议(面向上线/大并发用户):

  • 客户端 HTTP 超时建议设置为 > 10 分钟(或使用更合理的重试与降级策略)。
  • 对 429/5xx 做指数退避重试(并设置最大重试次数)。
  • 控制单次请求上下文长度,避免把无关历史长期带入。

常见问题(FAQ)

1)提示 “model not found”,怎么办?

常见原因:

  • model 填写错误(大小写、拼写、前后空格)。
  • 模型列表更新,你使用的模型暂时不可用。

处理方式:

  1. 先调用 GET https://api.aicy.pro/v1beta/models​,从返回中复制模型 name​ / id(以实际字段为准)。
  2. 确认你的 Key 属于 Gemini 令牌组

2)返回 401/403(未授权),怎么办?

请检查:

  • Authorization​ 请求头是否存在,是否为 Bearer YOUR_API_KEY 格式。
  • API Key 是否复制完整,是否误带空格或换行。
  • 是否把 Key 暴露在前端或日志里(泄露后可能触发风控)。

3)响应很慢,甚至看起来“卡住”了?

优先按顺序排查:

  1. 是否处于排队期(见“并发、排队与超时”)。
  2. 是否选择了更大的模型(例如从 flash 换成 pro)。
  3. 上下文是否过长(历史对话太多、粘贴了大段代码/日志)。

4)感觉回答质量不稳定,如何自查?

更可靠的自查方式:

  1. 用同一套固定测试集(3~5 个问题 + 固定参数)在不同时间重复测试。
  2. 对比不同模型:gemini-2.5-flash​ vs gemini-2.5-pro,确认是否为“模型差异”而非“系统波动”。
  3. 如果你有网关/代理层或中间件,确认没有改写 model、截断上下文、或注入额外提示词。

爱次元 让 AI 编程更简单