Google’s Gemini to power Apple’s AI features like Siri

2026/1/12 行业动态 TechCrunch AI

在 2024 年 5 月 14 日的 Google I/O 大会上，Google 通过一段演示视频向公众展示了其最新的 Gemini 1.5 Pro 模型。该模型在多模态理解、代码生成、实时翻译以及对话式 AI 等方面实现了显著的性能提升。Google 表示，Gemini 1.5 Pro 将通过 Gemini API 向开发者开放，帮助他们在自己的产品中集成更强大的 AI 能力。 Gemini 1.5 Pro 在多模态任务上表现尤为突出。它能够同时处理文本、图像和音频输入，并在复杂的视觉问答、图像描述以及跨模态检索等任务中取得领先成绩。Google 还展示了模型在实时翻译方面的能力，能够在多语言之间进行自然流畅的转换，支持的语言数量超过 100 种。在代码生成方面，Gemini 1.5 Pro 能够理解自然语言描述并生成高质量的代码片段，支持多种编程语言，包括 Python、JavaScript、Java 等。Google 演示了模型在解决实际编程问题时的高效性，能够帮助开发者快速原型化并提升开发效率。 Google 还强调了 Gemini 1.5 Pro 在对话式 AI 场景中的优势。模型能够保持上下文连贯性，提供更具深度和细节的回答，并在长对话中保持一致的语气和风格。该模型的安全性和可控性也得到了提升，能够更好地过滤不当内容并遵守行业规范。 Google 表示，Gemini API 将在近期向开发者开放，提供灵活的计费模式和丰富的文档支持，帮助企业和个人快速集成 Gemini 1.5 Pro 的能力。与此同时，Google 也在持续优化模型的能效和推理速度，以降低部署成本并提升用户体验。此次发布标志着 Google 在生成式 AI 领域的又一次突破，进一步巩固了其在多模态 AI 技术方面的领先地位。随着 Gemini 1.5 Pro 的广泛应用，预计将在教育、医疗、金融、创意内容创作等多个行业产生深远影响。