谷歌Gemini Pro 1.5重大更新:音频理解、单次处理任何格式数据、更强大的函数调用

Gemini是谷歌发布的一系列大语言模型。最早是2023年12月发布1.0版本,在2023年2月中旬,劈柴哥亲自宣布Gemini Pro升级到1.5版本。Gemini 1.5 Pro是一个全新的MoE模型(Mixture of Experts,混合专家),在各项评测结果中都接近Gemini Ultra 1.0的水平。而在今天,Gemini Pro 1.5再次迎来重大更新,包括音频理解几乎没有限制的输入格式(一次支持不同模态数据输入,如图片、文档、视频等)以及更强大的函数调用和JSON模式等。本文将介绍这次更新,并做一些简单的实际测试。

  • Gemini 1.5 Pro简介

  • Gemini 1.5 Pro的音频理解

  • Gemini 1.5 Pro可以理解任意文件

  • Gemini 1.5 Pro如今可以更好地支持Function Calling和JSON模式

Gemini 1.5 Pro简介

Google发布的Gemini系列模型包含3个不同规模版本

其中,Gemini Pro版本在2月中旬更新到了1.5的版本,各项能力有了大幅提升,接近此前发布的Gemini 1.0 Ultra。但这个改进最吸引人的是长达1000万tokens的上下文:关于Gemini 1.5 Pro发布时的介绍参考DataLearnerAI早先的文章:重磅!谷歌宣布发布Gemini 1.5 Pro,距离Gemini发布仅仅一个半月!最高支持1000万上下文长度,GSM8K评测全球第一

文章地址:https://www.datalearner.com/blog/1051708013012877

只是这个超长上下文此前很少试用。而在Gemini 1.5 Pro发布2个月后的今天,Google再次大幅更新了面向开发者的Gemini 1.5 Pro版本的功能,分别是音频理解、无限制使用文件、更强大的函数调用。

Gemini 1.5 Pro的音频理解

Gemini系列模型一直是多模态大模型。在此前,大家已经发现Google的Gemini模型在图像理解方面非常优秀(也有人质疑官方提供的u哦模特理解能力调用了Google Cloud的接口),关于这部分的信息可以参考DataLearnerAI此前测试的Gemini 1.0 Pro的多模态能力:Google Gemini Pro多模态接口开放!DataLearnerAI第一时间测试Gemini Pro多模态能力,比想象惊喜!

文章地址:https://www.datalearner.com/blog/1051702485879997

而此次更新后,是Gemini Pro模型首次支持音频理解能力。根据官方的描述,Gemini 1.5 Pro最多可以一次处理9.5小时的音频,更重要的是它不仅仅理解你所说的话,还理解音频背后的语调和情感。在某些情况下,它甚至能理解一些声音,如狗叫和雨落。

9.5小时以及情绪理解是真的很厉害。DataLearnerAI也第一时间测试了一个1分57秒的音频,是美剧西部世界中,西部世界创始人罗伯特·福特与机器人阿诺·韦伯一段对话,Gemini 1.5 Pro分析之后这段音频包含了3540个tokens,几乎是非常快速地就返回了这段对话的内容以及分析结果

Gemini 1.5 Pro可以理解任意文件

这其实不算是一个完全的本次更新的内容。但是,配上前面的音频文件之后,现在的Gemini 1.5 Pro可以理解文本文件、视频、音频,甚至是可以上传文件夹!

而这个功能最强的但是你可以一次上传多个不同类型的文件进行处理。DataLearnerAI做了如下测试,上传Qwen1.5-32B的word文档,再上传了此前Jamba模型的评测结果图片。然后让Gemini-1.5 Pro把双方的模型评测结果用一个表格总结,结果非常不错。Gemini 1.5 Pro不仅准确理解了我的意图,也非常准确的提取了数据。

Gemini 1.5 Pro如今可以更好地支持Function Calling和JSON模式

官方说,Gemini 1.5 Pro本次更新后可以更好地使用函数调用和系统指令。可以理解几千种行为并能规划下一步做什么。

这部分就是为AI Agent准备的了。按照谷歌的说法,Gemini 1.5 Pro应该是为任务规划以及函数调用做了特别的优化,因此可以识别使用几千种常见的actions。并可以更好地以JSON的形式返回结果。

下图是测试JSON返回: