您现在的位置是：首页 > 理财资讯

理财资讯

谷歌视觉语言模型可让机器人更自主世界消息

2023-03-09 21:08:09 fx358财富网

(资料图片)近日，谷歌发布了其最新的语言模型PaLM-E，该模型具有5620亿的参数量（ChatGPT为1750亿参数），是谷歌历史上参数量最大的模型。PaLM-E是迄今为止已知的最大视觉语言模型，它

谷歌视觉语言模型可让机器人更自主世界消息
(资料图片)

近日，谷歌发布了其最新的语言模型PaLM-E，该模型具有5620亿的参数量（ChatGPT为1750亿参数），是谷歌历史上参数量最大的模型。PaLM-E是迄今为止已知的最大视觉语言模型，它不仅可以理解图像，还能理解、生成语言，执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力（模型有不可预测的表现）。

据研究团队表示，语言模型越大，在视觉语言和机器人任务训练时就越能保持其语言能力，PaLM-E的5620亿参数量刚好让它保留住了几乎所有语言能力。同时，PaLM-E的正迁移能力也得到了研究团队的验证，同时在多个任务领域训练的PaLM-E，单任务能力相比"专精AI"显着提高。

除了人机交互方面有着重大进展，研究团队还发现了PaLM-E有着诸如多模态思维链推理和多图像推理等新兴能力，在OK-VQA视觉问答基准测试上达成了新的SOTA（最佳水平AI）。

此外，PaLM-E还具有对话任务方面的能力。团队将其与已有的对话AI进行了比较，结果显示，PaLM-E 的对话能力相对较强，不仅在生成自然流畅的回复方面表现出色，还可以进行常识性推理和逻辑性推理，具备更好的智能交互能力。

谷歌研究员表示，PaLM-E的发布意味着谷歌正迈向一种更加综合和全面的AI。未来，这种能够同时处理多种任务的通才AI将在工业自动化、智能家居、医疗辅助等领域发挥越来越重要的作用。综合