Gemini 1.5模型介绍
Gemini 1.5共有三个版本,分别是:Gemini 1.5 Flash、Gemini 1.5 Flash-8B和Gemini 1.5 Pro。
Gemini 1.5 Flash
最平衡的多模态模型,适用于大多数任务,并且性能出色。快速且多才多艺的多模态模型,每个问题的图片数量上限3600,视频时长上限 1 小时,音频时长上限大约 9.5 小时。
- 输入音频、图片、视频和文本,获取文本回复
- 生成代码、提取数据、编辑文本等
- 最适合平衡性能和费用的任务
Gemini 1.5 Flash-8B
最快、最具成本效益的多模态模型,适用于高频率任务,性能出色。小型模型,每个问题的图片数量上限3600,视频时长上限 1 小时,音频时长上限大约 9.5 小时。
- 输入音频、图片、视频和文本,获取文本回复
- 生成代码、提取数据、编辑文本等
- 最适合低智能、高频率任务
Gemini 1.5 Pro
最佳的多模态模型,具有适用于各种推理任务的功能。中型多模态模型,可以一次处理大量数据,包括 2 小时的视频、19 小时的音频、6 万行代码的代码库或 2,000 页的文本。
- 输入音频、图片、视频和文本,获取文本回复
- 生成代码、提取数据、编辑文本等
- 适用于需要提升广告效果时
文本嵌入
文本嵌入用于衡量字符串的相关性,在许多 AI 应用中都得到了广泛的应用。
模型 | 输入 | 输出 | 优化目标 | 免费 |
---|---|---|---|---|
Gemini 1.5 Flash(gemini-1.5-flash) | 音频、图片、视频和文本(1,048,576) | 文本(8192) | 在各种任务中提供快速、多样化的性能 | 15 RPM、100 万个 TPM、1,500 RPD |
Gemini 1.5 Flash-8B(gemini-1.5-flash-8b) | 音频、图片、视频和文本(1,048,576) | 文本(8192) | 量大且智能程度较低的任务 | 15 RPM、100 万个 TPM、1,500 RPD |
Gemini 1.5 Pro(gemini-1.5-pro) | 音频、图片、视频和文本(2,097,152) | 文本(8192) | 需要更多智能的复杂推理任务 | 2 RPM、32,000 TPM、50 RPD |
文本嵌入(text-embedding-004) | 文本(2048) | 文本嵌入(768维度) | 衡量文本字符串的相关性 | 1,500 RPM |
说明
Gemini 模型,一个Token相当于大约 4 个字符。100 个词元大约相当于 60-80 个英语单词。
- RPM:每分钟的请求数
- TPM:每分钟的令牌数
- RPD:每天的请求数
- TPD:每天的Token数