谷歌最近宣布推出了一款名为Gemini(双子座)的原生多模态大模型,被描述为“最大、最强、最通用”。据报道,该模型在一系列智能测试中表现出色,超过了人工智能研究公司OpenAI的GPT-4模型和人类专家。
Google DeepMind产品副总裁Eli Collins表示,Gemini是迄今为止功能最强大的大模型。这一消息一经发布,立即引起了科技界的震动。对此,数字经济应用实践专家骆仁童博士表示,谷歌Gemini的出色表现,充分展示了谷歌在大型语言模型研发方面的领先地位,也标志着谷歌在人工智能领域再次引领行业潮流,这一创新性产品将进一步推动人工智能领域的发展,并为各行各业带来又一轮革命性的改变。
多年前,谷歌曾经凭借AlphaGo的成功在全球掀起了一波人工智能浪潮。然而,在去年OpenAI的ChatGPT引发的新一轮人工智能浪潮中,谷歌面临着巨大的竞争压力。因此,谷歌迫切需要一款具有现象级影响力的人工智能产品来证明自己在该领域的实力。
据了解,Gemini大模型有三个版本:Gemini Ultra、Gemini Pro和Gemini Nano。Gemini Ultra是谷歌最大、最强的模型,适用于处理高度复杂的任务,被视为GPT-4的竞争对手。Gemini Pro是一个可扩展至各种任务的Gemini模型。而Gemini Nano则适用于智能手机,有两种型号:1.8B和3.25B。
根据官方发布的数据,Gemini Ultra的能力非常强大,在各种常规测试中都超越了GPT-4。特别是在被广泛应用于大型语言模型研发的32个学术基准测试集中,Gemini Ultra在30个测试集上的性能超过了当前最先进的结果。
此外,Gemini Ultra还首次在MMLU(大规模多任务语言理解)上取得了高达90.0%的得分率,超过了人类专家的水平。MMLU数据集涵盖了数学、物理、历史、法律、医学和伦理等57个科目,用于测试大模型的知识储备和解决问题能力。据称,在同样的测试中,GPT-4得分为87%,LLAMA-2得分为68%,Anthropic的Claude 2得分为78.5%。在其他9项常见基准测试中,Gemini在8项中击败了所有模型。
Gemini 作为 谷歌推出的首个多模态 大模型,它除了基本的文本、图片识别, 还 具备归纳、理解和操作不同类型的信息的能力。 这意味着Gemini可以处理文本、代码、音频、图像和视频等多种类型的数据。
Gemini的特殊之处在于它是从根上就是一个多模态模型,通过大量的多模态数据训练,使得它能够同步理解多种类型的信息。 这种复杂的多模态推理能力有助于理解复杂的书面和视觉信息,从而在海量的数据中发掘难以辨别的知识内容,并回答与复杂主题相关的问题。特别是在解释数学和物理等复杂科目中的推理时,Gemini表现出色。
以解题为例,Gemini的多模态推理能力使得AI能够读懂字迹凌乱的手写内容,正确理解问题的表述,并将问题和解决方案都转换为数字排版。此外,Gemini还能够识别出人类在解决问题时出错的具体推理步骤,并逐步给出问题的正确解决方案。
除了在解题方面的能力,Gemini还具备从大量文件中提取数据集和观点的能力。这使得它在科学、金融等多个领域能够以数字化速度实现新的突破。
Gemini的背后是由谷歌自研的云芯片TPUs v4和v5e在经过AI优化过的基础设施上进行大规模训练。官方演示视频显示,Gemini不仅能够快速识别演示者画的画、放的视频和做的魔术小把戏,并且能够流畅地回答问题,展现出熟练的语气助词运用。
Gemini Pro将在谷歌的在线聊天机器人Bard中实装上线。谷歌计划将Gemini引入Pixel系列最新的智能手机Pixel 8 Pro上,支持录音应用中的“总结”功能,并在谷歌键盘输入法Gboard中推出“智能回复”功能。
据外媒报道,Gemini Nano将在设备上“本地运行”,并且该模型为移动设备特别优化,因此安卓开发人员可以轻松构建支持离线工作或使用保留在设备上的个人信息的AI应用程序和功能。《》。
这一进展有助于解决技术领域的一大经济问题,即利用移动手机的算力来运行生成式AI,而不是通过由大型科技公司运营的云端服务器,从而降低运营这类系统的成本。对于那些希望将私人数据限制在设备上的人来说,这也提供了一层保障。
Gemini Ultra将在明年年初的Bard Advanced中才能体验到。未来几个月,Gemini将应用于Google更多的产品和服务,如Search、Ads、Chrome和Duet AI。据透露,Google已经开始在Search中试验Gemini,它能够为用户提供更快的搜索生成体验(SGE),用户在美国的英语搜索延迟降低了40%,同时在质量方面也有所提高。
对于Gemini可能产生的幻觉和事实错误以及被用于不道德用途的风险,Google方面表示已经采取了相应的措施。Gemini在开发的各个阶段都会考虑潜在的风险,并进行测试和降低这些风险。安全评估包括偏见和毒性评估,并应用了Google Research的对抗性测试技术来检测关键的安全问题。此外,团队还构建了专门的安全分类器来识别、标记和筛选涉及暴力或负面刻板印象等方面的内容。
短期内,Gemini的发布将进一步激发市场对多模态模型的期待,对产业而言,多模态将带动算力需求的提升;而在中长期来看,预计多模态模型的升级将丰富相关产品的使用场景,叠加硬件升级、算法优化带来的成本优化,2C产品的进展值得期待。数字经济应用实践专家骆仁童博士表示看好本轮生成式AI浪潮对科技产业的长周期影响和改变,尤其是算力、算法、数据、应用等环节的领先厂商,在这轮竞争中会有更大的发展。
值得注意的是,Gemini的发布距离ChatGPT Turbo版本发布还不到一个月。而微软也刚刚宣布了旗下AI助手Copilot重大升级,将接入OpenAI的最新模型GPT-4 Turbo。《》。
多年来,Facebook母公司Meta也一直是AI领域的积极参与者。今年7月,Meta宣布旗下作为GPT4竞争对手的大模型Llama 2正式开源,任何人都可以免费下载、修改并添加到自己的产品中。
一直被认为在AI竞赛中落后的电商巨头亚马逊也开始加速。在上一周的2023 re:Invent全球大会上,亚马逊云科技(AWS)推出了名为“Amazon Q”的生成式AI助手,可以“轻松聊天、生成内容和采取行动”。Amazon Q将专注于工作场所,而不是面向消费者。
目前,谷歌Gemini在“跑分”方面表现出色,但更重要的是各大模型在实际应用中的比拼。随着谷歌Gemini模型的发布,人工智能进入了多模态时代。业内人士普遍认为,多模态是生成式AI下一步的重点方向,百花齐放的应用场景有待继续探索。
商道童言(Innovationcases)欢迎点赞和分享哦!~~
免费电子书: | | | |
数字经济应用实践专家 骆仁童主讲课程
智慧应用 |《.......
数字应用 | ..
人工智能 | .
数字化转型 |.
金融类课程 | . .
思维与技能 |》..
宏观与趋势 |...