OpenAI：俩二；Google：四个王

AIGC动态1年前 (2024)发布 admin

3,004 0 0

文章摘要

【关键词】 Google、Gemini模型、AI助理、智能搜索、技术进步

Google在其I/O开发者大会上展示了一系列AI技术的进步，特别是其Gemini模型的更新。这些更新包括了Gemini 1.5 Flash的推出，这是一个轻量级模型，旨在提供更快的速度和更高的效率，以覆盖更多用户。Gemini 1.5 Flash擅长于总结、聊天、凝练图像和视频，以及从长文档和表格中提取信息。

这个模型是通过“知识蒸馏”技术从更大的Gemini 1.5 Pro模型中获得的，这种技术允许小模型学习大模型的重要知识和技能。

Gemini 1.5 Pro现在已经完全开放，覆盖150个国家，35种语言。 它支持高达100万tokens的理解，这意味着它可以帮助用户总结长达1500页的文档或100封邮件。到年底，这个数字预计将增加到200万。此外，Gemini 1.5 Pro将能够处理一小时时长的视频或30000行代码库，成为一种“数据分析师”，帮助用户从上传的表格中发现洞察，并构建自定义的可视化和图表。

Google还宣布了全面接入Gemini的“谷歌办公全家桶”，将陆续上线包括“智能问答”、“智能邮件回复”和“表格图像化总结”等新功能。这些进步在推理上的体现是改进了模型对特定用例响应的控制，允许用户通过设置系统指令来掌控模型行为。

此外，Google还介绍了一个名为“Gems”的概念，这是一种自定义化的Gemini，用户可以创建以满足个人需求的AI助理。这些AI助理可以是瑜伽教练、营养学家或微积分导师等。

DeepMind的CEO Demis Hassabis在大会上首次亮相，预示了Google智能助理的重要更新。这个新的AI助理被称为Project Astra，它将更加个人化和用户友好。Google还计划增强助理的语音交互能力，允许用户自然地与AI对话，甚至可以打断AI的讲话。Gemini Live功能将上线移动端，允许AI实时观察用户的周围环境。

Google搜索也将经历重大变革，推出名为AI Overviews的功能，这将简化用户的提问过程，并提供更强大的多步推理能力。这将使得用户在搜索时得到的是高度格式化的解释、简洁实用的行动指引和直接引导后续行为的链接。

最后，Google强调了对AI责任的重视，介绍了一款名为SynthID的工具，它可以识别AI生成的图片、声音、文字和视频。Google正在与高校和研究机构合作，以应对AI生成内容在科研领域的滥用问题。