Project Astra是谷歌于2024年5月15日在谷歌I/O大会上推出的一款通用AI智能体(AI Agent)。

本页面主要目录有关于Project Astra的:发展历程、功能和服务、关键技术、相关合集等介绍

英文名

Project Astra

开发者

谷歌

所属公司

谷歌

简介

Project Astra不仅支持实时对话,还能通过视频聊天的方式与用户进行交互。当用户手持手机,将摄像头对准办公室的不同角落,并通过语言与系统进行交互时,Project Astra能够迅速识别各种物体、甚至代码,并与用户进行实时的语音交流。Project Astra之所以能实现以上功能,是因采用“Agent”技术。Agent能够连续编码视频帧,将视频和语音输入整合到事件时间线中,并通过缓存这些信息以实现高效回忆,从而加速信息处理过程。

截至2024年5月15日,Project Astra处于原型阶段。

发展历程

2024年5月15日,谷歌年度开发者I/O 大会2024在美国加利福尼亚州山景城总部海岸线圆形剧场召开。在大会现场,谷歌Deepmind的CEO杰米斯·哈萨比斯讲解和展示了Project Astra的原型运作视频。截至2024年5月15日,Project Astra处于原型阶段。


Project Astra

功能和服务

Project Astra和OpenAI发布的GPT-4o类似,Project Astra不仅支持实时对话,还能通过视频聊天的方式与用户进行交互。Project Astra的操作界面类似于一款取景器应用程序。当用户手持手机,将摄像头对准办公室的不同角落,并通过语言与系统进行交互时,Project Astra能够迅速识别各种物体、甚至代码,并与用户进行实时的语音交流。


Project Astra

关键技术

Project Astra之所以能够实现与用户进行实时语音交流等功能,是因为其采用“Agent”技术。Agent能够连续编码视频帧,将视频和语音输入整合到事件时间线中,并通过缓存这些信息以实现高效回忆,从而加速信息处理过程。

注释

GPT-4o是OpenAI为聊天机器人ChatGPT发布的一款多模态大模型,于2024年5月14日发布。GPT-4o模型可以使ChatGPT能够处理50种不同的语言。并可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出。