你是否感觉,最近 AI 领域的新进展不够让人兴奋?当 OpenAI 还在“12 Days of AI”活动中缓慢释出更新时,Google DeepMind 已经悄然发布了 Gemini 2.0。这不仅仅是技术上的升级,更预示着 AI 发展方向的转变。Gemini 2.0 的发布,意味着 AI 将从信息处理走向自主行动,一个全新的智能体时代正在加速到来,直接引爆行业热点。
去年,Gemini 1.0 的出现,展示了多模态 AI 的强大潜力,能够理解文本、视频、图像、音频和代码等多种信息。而现在,Gemini 2.0 以更强大的姿态到来。它不仅继承了多模态的优势,更重要的是,它将 AI 带入了智能体时代。这意味着,AI 将更像人类,具备理解、推理、规划和执行能力,成为真正的智能伙伴,而非简单的工具。
Gemini 2.0 不仅是 Gemini 1.0 的简单升级,而是一次全面的技术跃迁。Gemini 2.0 Flash 作为首个发布的版本,其核心特点是低延迟和高性能。更重要的是,它原生支持图像和音频的输入与输出,这意味着 AI 不再局限于文字,可以更好地与人类进行交流。此外,Gemini 2.0 Flash 还具备强大的工具调用能力,能够调用 Google 搜索、代码执行等多种工具,自主完成任务。
Gemini 2.0 Flash 的强大,源于其核心技术的突破。相比于 Gemini 1.5 Pro,Gemini 2.0 Flash 在关键基准测试中表现更优,速度提升了一倍。它不仅支持多种模态的输入和输出,还支持可控的文本到语音多语种音频,这为智能体时代的应用奠定了坚实的基础。目前,开发者可以通过 Google AI Studio 和 Vertex AI 的 Gemini API 来体验 Gemini 2.0 Flash 的强大。
Gemini 2.0 的真正意义,在于它驱动的智能体原型,这些原型展示了 AI 在不同场景下的应用潜力。其中,Project Astra、Project Mariner 和 Jules 这三大原型最受关注。
Project Astra 是一个通用 AI 助手,它不仅能理解你的语言,还能看懂周围的世界。它能记住你和它的对话,利用 Google 搜索、Lens 和地图等工具,帮你解决生活中的各种问题。
Project Mariner 是一个浏览器智能体,它能理解浏览器屏幕上的内容,并自动完成网页任务,如填写表单、预定机票等。
Jules 则是一个 AI 编程助手,它能理解代码,并帮助开发者解决问题、规划任务、自动生成代码。
这些智能体原型正在接受测试,它们预示着 AI 将深入到我们生活的方方面面,为我们提供更智能的服务。
Project Astra 的核心亮点在于它强大的“感知”能力。它可以通过手机摄像头看到周围的世界,理解你的语言,并做出相应的反应。它支持多种语言和口音,还能记住你和它的对话,提供个性化的服务。
Project Astra 能够调用 Google Search、Lens 和 Maps 等工具,为你提供更全面的帮助。例如,你可以用它识别眼前的物体,查找相关信息;或者直接用语音导航到目的地。
未来,Project Astra 有望集成到 Google 的更多产品中,例如 Gemini 应用和眼镜等。这使得 AI 能够真正融入你的生活,成为你不可或缺的智能伙伴。
Project Mariner 的核心能力在于它能够理解浏览器屏幕上的内容,包括像素和网页元素。通过 Chrome 扩展程序,它能够自动完成网页任务。
Project Mariner 可以帮你预定机票、填写表单、网上购物等。在 WebVoyager 基准测试中,Project Mariner 取得了 83.5% 的领先成绩,这表明它在实际的网页任务中具有很高的准确性和可靠性。
尽管目前它在速度和准确性方面仍有提升空间,但 Project Mariner 已经展现了未来智能体在浏览器中的应用潜力。
Jules 的核心价值在于它能理解代码,并根据开发者的指令,完成代码任务。
Jules 可以直接集成到 GitHub 工作流程中,帮助程序员解决代码问题、制定开发计划、自动生成代码,大幅提高开发效率。
Jules 的出现,预示着未来 AI 将在软件开发领域发挥更重要的作用,帮助开发者更高效地编写代码。
除了上述应用场景,Gemini 2.0 还在游戏领域展现出巨大的潜力。基于 Gemini 2.0 开发的游戏智能体,能够理解游戏内容并提供建议,成为玩家的智能伙伴。
此外,Google DeepMind 还在探索 AI 智能体在物理世界的应用潜力,利用 Gemini 2.0 的空间推理能力,开发能够帮助人类完成物理任务的智能体。
Gemini 2.0 的发布,标志着 AI 发展的一个重要里程碑。它不仅带来了技术上的突破,更重要的是,它将 AI 推向了智能体时代。我们正在迎来一个 AI 与人类协同发展的新未来,AI 将不再只是工具,而将成为我们生活中不可或缺的伙伴。
AI 智能体将深入到我们生活的方方面面。未来,AI 的发展值得期待!
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。