Google推出全新人工智能模型Gemini 2.0 用途更为广泛

邮箱网 0条评论 2221次浏览 2024年12月12日星期四 09:59

Google的下一个主要人工智能模型已经到来，以对抗来自 OpenAI 的新产品的夹击。本周三，Google 发布了 Gemini 2.0 Flash，该公司称其除文本外，还能原生生成图像和音频。 2.0 Flash 还可以调用第三方应用程序和服务，使其能够接入 Google 搜索、执行代码等。

2.0 Flash 的实验版本将从今天开始通过 Gemini API 和 Google 的人工智能开发者平台AI Studio 和Vertex AI 提供。不过，音频和图像生成功能仅面向"早期访问合作伙伴"推出，并将于 1 月份全面推出。

Google表示，在未来几个月内，它将为Android Studio、Chrome DevTools、Firebase， Gemini Code Assist等产品带来各种版本的 2.0 Flash。

第一代 Flash（1.5 Flash）只能生成文本，并不是为要求特别高的工作负载而设计的。 Google 表示，这种新模式更具通用性，部分原因在于它可以调用搜索等工具并与外部 API 进行交互。

产品主管图尔西-多希（Tulsee Doshi）在周二的发布会上说："我们知道，Flash 在速度和性能之间取得了平衡，因此深受开发人员的欢迎。有了 2.0 版 Flash，它的速度一如既往，而且功能更加强大。"

Google声称，根据自己的测试，2.0 Flash 在某些基准测试中的速度是该公司 Gemini 1.5 Pro 模型的两倍，而且在编程和图像分析等方面有了"显著"改进。事实上，该公司表示，2.0 Flash 凭借其卓越的数学能力和"事实性"，取代 1.5 Pro 成为 Gemini 的旗舰模型。

如前所述，2.0 Flash 可以生成并修改文本和图像。该模型还能采集照片和视频以及录音，以回答相关问题（例如"他说了什么？）

音频生成是 2.0 Flash 的另一项主要功能，多希将其描述为"可操纵"和"可定制"。例如，该模型可以使用针对不同口音和语言"优化"的八种声音之一来叙述文本。

她补充说："你可以让它说得慢一点，也可以让它说得快一点，甚至可以让它说像海盗一样的话。"

目前Google没有提供 2.0 Flash 的图像或音频样本。至少在撰写本文时，我们无法得知其质量与其他模型的输出相比如何。

Google 表示将使用其SynthID技术对 2.0 Flash 生成的所有音频和图像进行水印处理。在支持 SynthID 的软件和平台上（即选定的 Google 产品），模型的输出将被标记为合成。

这是为了消除对滥用的担忧。事实上，深度伪造是一种日益严重的威胁。根据身份验证服务公司Sumsub的数据，从2023年到2024年，全球检测到的深度伪造增加了4倍。

2.0 Flash 的正式版本将于 1 月份发布。但与此同时，Google将发布一个应用程序接口（API）--多模态实时应用程序接口（Multimodal Live API），以帮助开发人员创建具有实时音频和视频流功能的应用程序。

Google表示，通过使用多模态实时 API，开发人员可以创建实时、多模态的应用程序，并通过摄像头或屏幕输入音频和视频。该 API 支持集成各种工具来完成任务，并且可以处理"自然对话模式"，例如中断，这与 OpenAI 的 Realtime API 大体一致。

多模态实时 API 已于今天上午全面推出。

Google推出全新人工智能模型Gemini 2.0 用途更为广泛

热门文章

推荐阅读