Gemini 2.5模型介绍
Gemini 2.5共有五个细分版本,分别是:Gemini 2.5 Flash 预览版 05-20
、Gemini 2.5 Flash 原生音频
、Gemini 2.5 Flash 预览版 TTS
、Gemini 2.5 Pro 预览版
和Gemini 2.5 Pro 预览版 TTS
。
按照大类分,共两个版本:Gemini 2.5 Flash
和 Gemini 2.5 Pro
。
Gemini 2.5 Flash
性价比最高的模型,提供全面的功能。
- 输入音频、图片、视频和文本,并获取文本回复
- 模型会根据需要进行思考;或者,您可以配置思考预算
- 最适合需要思考的低延迟、高数据量任务
Gemini 2.5 Pro
谷歌最强大的思考型模型,具有最高的回答准确性和最先进的性能。
- 输入音频、图片、视频和文本,获取文本回复
- 解决棘手问题、分析大型数据库等
- 最适合处理复杂的编码、推理和多模态理解
模型细分
Gemini 2.5 Flash 预览版 05-20
性价比最高的模型,提供全面的功能。 Gemini 2.5 Flash 是实验性 / 预览版模型,因此其速率限制更为严格。
模型:
gemini-2.5-flash-preview-05-20
支持的数据类型:
- 输入:文本、图片、视频、音频
- 输出:文本
优化目标:
自适应思维,成本效益高
Token数限制:
- 输入限制:1,048,576
- 输出限制:65,536
功能:
功能 | 是否支持 |
---|---|
音频生成 | × |
缓存 | √ |
代码执行 | √ |
函数调用 | √ |
图片生成 | × |
搜索着陆页 | √ |
结构化输出 | √ |
思考 | √ |
调音 | × |
最新更新
2025 年 5 月
知识截点
2025 年 1 月
Gemini 2.5 Flash 原生音频
原生音频对话模型(有思考和无思考)。这些模型可提供交互式和非结构化对话式体验,并提供样式和控制提示。
模型:
gemini-2.5-flash-preview-native-audio-dialog 和 gemini-2.5-flash-exp-native-audio-thinking-dialog
支持的数据类型:
- 输入:文本、视频、音频
- 输出:文本、音频
优化目标:
无论是否思考,都能获得高质量、自然流畅的对话式音频输出
Token数限制:
- 输入限制:128,000
- 输出限制:8,000
功能:
功能 | 是否支持 |
---|---|
音频生成 | √ |
缓存 | × |
代码执行 | × |
函数调用 | √ |
图片生成 | × |
搜索着陆页 | √ |
结构化输出 | × |
思考 | √ |
调音 | × |
最新更新
2025 年 5 月
知识截点
2025 年 1 月
Gemini 2.5 Flash 预览版 TTS
性价比最高的语音合成模型,可为播客生成、有声读物、客户服务等结构化工作流提供高度控制和透明度。 Gemini 2.5 Flash 是实验性/预览版模型,因此其速率限制更为严格。
TTS:Text-to-Speech,即文本转语音
模型:
gemini-2.5-flash-preview-tts
支持的数据类型:
- 输入:文本
- 输出:音频
优化目标:
低延迟、可控的单声道和多声道文字转语音音频生成
Token数限制:
- 输入限制:8,000
- 输出限制:16,000
功能:
功能 | 是否支持 |
---|---|
音频生成 | √ |
缓存 | × |
代码执行 | × |
函数调用 | × |
Live API | × |
搜索 | × |
结构化输出 | × |
思考 | √ |
调音 | × |
最新更新
2025 年 5 月
Gemini 2.5 Pro 预览版
最先进的思考型模型,能够推理编码、数学和 STEM 领域的复杂问题,还能使用长上下文分析大型数据集、代码库和文档。 由于 Gemini 2.5 Pro 是一款预览版模型,因此其速率限制更为严格。
模型:
gemini-2.5-pro-preview-05-06
支持的数据类型:
- 输入:文本、图片、视频、音频
- 输出:文本
优化目标:
增强型思考和推理、多模态理解、高级编码等
Token数限制:
- 输入限制:1,048,576
- 输出限制:65,536
功能:
功能 | 是否支持 |
---|---|
音频生成 | × |
缓存 | √ |
代码执行 | √ |
函数调用 | √ |
图片生成 | × |
搜索着陆页 | √ |
结构化输出 | √ |
思考 | √ |
调音 | × |
Live API | × |
最新更新
2025 年 5 月
知识截点
2025 年 1 月
Gemini 2.5 Pro 预览版 TTS
最强大的文本转语音模型,可为播客生成、有声读物、客户服务等结构化工作流提供高度控制和透明度。 Gemini 2.5 Pro 是实验性/预览版模型,因此其速率限制更为严格。
模型:
gemini-2.5-pro-preview-tts
支持的数据类型:
- 输入:文本
- 输出:音频
优化目标:
低延迟、可控的单声道和多声道文字转语音音频生成
Token数限制:
- 输入限制:8,000
- 输出限制:16,000
功能:
功能 | 是否支持 |
---|---|
音频生成 | √ |
缓存 | × |
代码执行 | × |
函数调用 | × |
图片生成 | × |
搜索着陆页 | × |
结构化输出 | × |
思考 | × |
调音 | × |
Live API | × |
最新更新
2025 年 5 月