谷歌 Gemini 2.0 全面发布：迄今为止最强大的 AI

諟菈洣蘇 · 发表于 2025-2-10 21:07:09

undefined
转自：InFOQ 作者｜冬梅、核子可乐
昨日夜里，谷歌正式向公众发布了 Gemini 2.0，这一迄今为止谷歌“功能最强大”的人工智能模型套件，标志着 Gemini 系列模型进入了新的发展阶段。
1 谷歌 Gemini 2.0 向所有人开放
早在去年 12 月，谷歌便已发布了 Gemini 2.0 Flash 的实验版本，开启了代理型 AI 的创新时代。Gemini 2.0 Flash 作为谷歌专为开发者打造的高效模型，以其低延迟和高性能而著称。今年早些时候，谷歌在 Google AI Studio 中对 2.0 Flash Thinking Experimental 进行了更新，通过结合 Flash 模型的速度优势与复杂问题的推理能力，进一步提升了其性能表现。
上周，谷歌已面向桌面及移动设备端的 Gemini 应用用户推送了 2.0 Flash 更新版本，旨在帮助更广泛的用户群体以全新的方式利用 Gemini 进行创作、互动与协作。
现在，谷歌通过 Google AI Studio 和 Vertex AI 中的 Gemini API，正式向公众发布全面升级的 Gemini 2.0 Flash。开发者可以立即使用 2.0 Flash 模型构建各种生产级应用。
与此同时，谷歌还发布了 Gemini 2.0 Pro 的实验版本。这款模型是谷歌目前为止编码性能最强，且最擅长处理复杂指令的大型模型。Gemini 2.0 Pro 不仅可以在 Google AI Studio 和 Vertex AI 中使用，还将面向 Gemini Advanced 用户在 Gemini 应用中开放。
此外，谷歌还在 Google AI Studio 和 Vertex AI 中公开预览了 Gemini 2.0 Flash-Lite，这款模型是目前 Gemini 系列中最具成本效益的选择。
最后，Gemini 2.0 Flash Thinking Experimental 也已被添加至桌面和移动设备端 Gemini 应用的模型下拉菜单中，方便用户随时体验。
值得一提的是，以上所有发布的模型均支持多模态输入和文本输出，未来数月内发布的通用版本还将支持更多模态，为用户带来更丰富的功能体验。
2.0 Flash：面向全体用户的功能升级
Flash 系列模型在 I/O 2024 大会上首次亮相，并迅速以其强大的性能和全面的功能赢得了开发者的青睐。Gemini 2.0 Flash 提供了包括原生工具使用、百万 tokens 上下文窗口以及多模态输入在内的强大功能。目前，该模型已支持文本输出，图像和音频输出功能也即将推出，Multimodal Live API 计划在未来几个月内全面上线。
Gemini 2.0 Flash 现已正式在谷歌 AI 产品中面向更广泛的用户开放，并在关键基准测试中实现了性能提升。图像生成和文生语音等功能也将很快与用户见面。
用户可以通过 Gemini 应用，或 Google AI Studio 以及 Vertex AI 中的 Gemini API，立即体验 Gemini 2.0 的强大功能。
2.0 Pro Experimental：谷歌编码性能巅峰之作
在 Gemini 2.0 早期实验版本（如 Gemini-Exp-1206）的测试过程中，谷歌收到了大量来自开发者的积极反馈，尤其是在编码场景中的卓越表现和最佳应用案例。
为了积极响应用户反馈，谷歌推出了 Gemini 2.0 Pro 的实验版本。相较于此前发布的各类模型，Gemini 2.0 Pro Experimental 在编码性能和复杂提示词处理能力上均达到了新的高度，并能更深入地理解和推理世界知识。该模型配备了谷歌目前最大的 200 万 token 上下文窗口，使其能够全面分析和理解海量信息，并能灵活调用谷歌搜索和代码执行等多种工具。
Gemini 2.0 Pro 现已以实验模型的形式，向 Google AI Studio 和 Vertex AI 中的开发者，以及 Gemini Advanced 用户开放。用户可以通过桌面及移动设备端的模型下拉菜单立即体验其强大性能。
2.0 Flash-Lite：兼具性能与成本效益的新选择
谷歌表示，1.5 Flash 模型在价格和运行速度方面获得了用户的积极评价。在此基础上，谷歌持续致力于在保持成本和速度优势的同时，不断提升模型质量。此次发布的 2.0 Flash-Lite 正是这样一款全新模型，它在保持 1.5 Flash 速度和成本优势的同时，模型质量实现了显著提升。在大多数基准测试中，Gemini 2.0 Flash-Lite 的性能均超越了 1.5 Flash。【图片】

谷歌 Gemini 2.0 全面发布：迄今为止最强大的 AI-1.jpg

啈冨↘給誰ㄋ · 发表于 2025-2-10 21:07:40

与 2.0 Flash 一样，2.0 Flash-Lite 版本也拥有 100 万 token 的上下文窗口，并支持多模态输入。例如，它可以一次性为约 4 万张照片生成单行标题，且在 Google AI Studio 付费套餐中的成本不到 1 美元，展现了极高的性价比。
Gemini 2.0 Flash-Lite 现已在 Google AI Studio 和 Vertex AI 中提供公开预览版。
**(第一部分完)**
---
**第二部分：Gemini 2.0 用户反馈与未来展望：AI 能力无限接近人类水平 (第二部分)**
**Gemini 2.0 用户反馈与未来展望：AI 能力无限接近人类水平**
*转自：InFOQ 作者｜冬梅、核子可乐*
在第一部分中，我们详细介绍了谷歌发布的 Gemini 2.0 模型套件，包括 2.0 Flash, 2.0 Pro Experimental, 和 2.0 Flash-Lite 三款模型的技术亮点和功能特性。接下来，我们将关注用户对 Gemini 2.0 的积极反馈，并展望大模型未来的发展趋势。
**2 用户积极反馈**
谷歌首席科学家、AI 领域领军人物 Jeff Dean 对 Gemini 2.0 Pro 的编程能力给予了高度评价。他在社交平台 X 上发文，表达了对 Gemini 2.0 Pro 编程能力的惊喜之情。他分享道，Gemini 2.0 Pro 仅通过一个相对简单的提示，便在 AI Studio 中展现了卓越的编码能力，能够编写出完整的代码，包括正确的 m数据结构和搜索算法，从而解决 Boggle 填字游戏难题。Jeff Dean 盛赞其“第一次就正确地完成了数据结构”，并用 “令人震惊” (Discombobulating!) 来形容他的感受。
Gemini 2.0 的全面发布引发了广泛的行业关注和用户期待。InfoQ 旗下极客时间专栏作者林健（键盘）在 Gemini 2.0 Flash 上线后第一时间接入 API 进行了试用。他在 X 平台发文表示，Gemini 2.0 Flash 在长文本处理、成本控制和吞吐量等方面，均优于 DeepSeek V3 和 GPT 4o-mini 等同类模型。
尤其是在与 DeepSeek V3 的对比中，Gemini 2.0 Flash 的优势更加明显。初步后台数据显示，在不计缓存 token 的情况下，Gemini 2.0 Flash 的成本比 DeepSeek V3 低 6 倍，输出速度快 60 倍，上下文长度更是提升了 16 倍，并且原生支持所有模态，展现出强大的竞争力。
另有 X 用户将 o3-mini-high、Gemini 2.0 Flash 和 Gemini 2.0 Pro 进行了多项基准测试，对三款模型的性能进行了全面比较。
综合性能测试结果显示，Gemini 全家桶中的 2.0 Pro 模型在所有类别中均名列前茅，展现出卓越的综合性能。2.0 Flash 模型也表现出色，位列第三。而 2.0 Flash Lite 则凭借更低的成本，成功跻身性能榜单前十，体现了其出色的性价比优势。
**3 大模型未来展望：无限接近人类水平**
无论是从部署和使用成本，还是从性能提升的角度来看，大模型未来的发展方向都非常明确：持续提升 AI 能力，使其无限接近人类水平。这看似科幻，但实际上已成为行业发展的必然趋势。
谷歌在 12 月份的官方博客中指出，过去一年，谷歌持续加大对代理模型的研发投入，旨在提升 AI 对周围世界的理解能力、多步骤思考能力以及在用户指导下自主执行任务的能力。谷歌强调，Gemini 2.0 在“多模态性（如原生图像和音频输出）和原生工具使用”方面取得了显著进展，Gemini 模型系列将推动“新型人工智能代理的构建，使我们更接近通用助手的美好愿景”。
亚马逊支持的人工智能初创公司 Anthropic，以及前 OpenAI 研究主管创立的 OpenAI，同样在 AI Agent 领域积极探索。Anthropic 在 10 月份宣布，其 AI Agent 已经能够像人类一样使用计算机完成复杂任务。Anthropic 的 AI 技术可以理解屏幕内容、选择按钮、输入文本、浏览网页，并通过各类软件和实时互联网执行任务。
Anthropic 首席科学官贾里德·卡普兰 (Jared Kaplan) 在接受 CNBC 采访时表示，Anthropic 的 AI 工具“基本上可以像我们一样使用计算机”，并能完成“数十甚至数百步”的复杂任务。

风吹麦哩个浪 · 发表于 2025-2-10 21:07:58

OpenAI 近期也发布了名为 Operator 的类似功能，该功能可以自动执行诸如旅行计划、表格填写、餐厅预订和杂货订购等任务。OpenAI 将 Operator 描述为“可以连接互联网，并为您执行任务的 Agent”。
本周早些时候，OpenAI 还推出了 Deep Research 功能，该功能允许 AI Agent 撰写复杂的研究报告，并深入分析用户选定的问题和主题。值得关注的是，谷歌早在去年 12 月就已推出了同名的 “Deep Research” 工具，作为“研究助手，帮助用户探索复杂主题并撰写报告”。
CNBC 在去年 12 月的报道中指出，谷歌计划在 2025 年初推出多项人工智能创新功能。
谷歌 CEO Sundar Pichai 在当时的战略会议上强调：“从历史经验来看，我们不一定总是要做第一个，但我们必须要拥有强大的执行力，并真正做到同类产品中的最佳。我认为，这就是 2025 年的关键所在。”
**(第二部分完)**

梨落。 · 发表于 2025-2-13 05:59:20

沙发不是你想抢，想抢就能抢！

[聊技术] 谷歌 Gemini 2.0 全面发布：迄今为止最强大的 AI