<[object Object] name="keywords" content="gemini, gemini 2.5, gemini 2.5模型, gemini模型, gemini模型介绍, gemini 2.5 Flash, gemini 2.5 Flash模型, gemini 2.5 Pro">
Skip to content

Gemini 2.5模型介绍

Gemini 2.5共有五个细分版本,分别是:Gemini 2.5 Flash 预览版 05-20Gemini 2.5 Flash 原生音频Gemini 2.5 Flash 预览版 TTSGemini 2.5 Pro 预览版Gemini 2.5 Pro 预览版 TTS

按照大类分,共两个版本:Gemini 2.5 FlashGemini 2.5 Pro

Gemini 2.5 Flash

性价比最高的模型,提供全面的功能。

  • 输入音频、图片、视频和文本,并获取文本回复
  • 模型会根据需要进行思考;或者,您可以配置思考预算
  • 最适合需要思考的低延迟、高数据量任务

Gemini 2.5 Pro

谷歌最强大的思考型模型,具有最高的回答准确性和最先进的性能。

  • 输入音频、图片、视频和文本,获取文本回复
  • 解决棘手问题、分析大型数据库等
  • 最适合处理复杂的编码、推理和多模态理解

模型细分

Gemini 2.5 Flash 预览版 05-20

性价比最高的模型,提供全面的功能。 Gemini 2.5 Flash 是实验性 / 预览版模型,因此其速率限制更为严格。

模型:

gemini-2.5-flash-preview-05-20

支持的数据类型:
  • 输入:文本、图片、视频、音频
  • 输出:文本
优化目标:

自适应思维,成本效益高

Token数限制:
  • 输入限制:1,048,576
  • 输出限制:65,536
功能:
功能是否支持
音频生成×
缓存
代码执行
函数调用
图片生成×
搜索着陆页
结构化输出
思考
调音×
最新更新

2025 年 5 月

知识截点

2025 年 1 月

Gemini 2.5 Flash 原生音频

原生音频对话模型(有思考和无思考)。这些模型可提供交互式和非结构化对话式体验,并提供样式和控制提示。

模型:

gemini-2.5-flash-preview-native-audio-dialog 和 gemini-2.5-flash-exp-native-audio-thinking-dialog

支持的数据类型:
  • 输入:文本、视频、音频
  • 输出:文本、音频
优化目标:

无论是否思考,都能获得高质量、自然流畅的对话式音频输出

Token数限制:
  • 输入限制:128,000
  • 输出限制:8,000
功能:
功能是否支持
音频生成
缓存×
代码执行×
函数调用
图片生成×
搜索着陆页
结构化输出×
思考
调音×
最新更新

2025 年 5 月

知识截点

2025 年 1 月

Gemini 2.5 Flash 预览版 TTS

性价比最高的语音合成模型,可为播客生成、有声读物、客户服务等结构化工作流提供高度控制和透明度。 Gemini 2.5 Flash 是实验性/预览版模型,因此其速率限制更为严格。

TTS:Text-to-Speech,即文本转语音

模型:

gemini-2.5-flash-preview-tts

支持的数据类型:
  • 输入:文本
  • 输出:音频
优化目标:

低延迟、可控的单声道和多声道文字转语音音频生成

Token数限制:
  • 输入限制:8,000
  • 输出限制:16,000
功能:
功能是否支持
音频生成
缓存×
代码执行×
函数调用×
Live API×
搜索×
结构化输出×
思考
调音×
最新更新

2025 年 5 月

Gemini 2.5 Pro 预览版

最先进的思考型模型,能够推理编码、数学和 STEM 领域的复杂问题,还能使用长上下文分析大型数据集、代码库和文档。 由于 Gemini 2.5 Pro 是一款预览版模型,因此其速率限制更为严格。

模型:

gemini-2.5-pro-preview-05-06

支持的数据类型:
  • 输入:文本、图片、视频、音频
  • 输出:文本
优化目标:

增强型思考和推理、多模态理解、高级编码等

Token数限制:
  • 输入限制:1,048,576
  • 输出限制:65,536
功能:
功能是否支持
音频生成×
缓存
代码执行
函数调用
图片生成×
搜索着陆页
结构化输出
思考
调音×
Live API×
最新更新

2025 年 5 月

知识截点

2025 年 1 月

Gemini 2.5 Pro 预览版 TTS

最强大的文本转语音模型,可为播客生成、有声读物、客户服务等结构化工作流提供高度控制和透明度。 Gemini 2.5 Pro 是实验性/预览版模型,因此其速率限制更为严格。

模型:

gemini-2.5-pro-preview-tts

支持的数据类型:
  • 输入:文本
  • 输出:音频
优化目标:

低延迟、可控的单声道和多声道文字转语音音频生成

Token数限制:
  • 输入限制:8,000
  • 输出限制:16,000
功能:
功能是否支持
音频生成
缓存×
代码执行×
函数调用×
图片生成×
搜索着陆页×
结构化输出×
思考×
调音×
Live API×
最新更新

2025 年 5 月

Gemini中文文档