“距AGI(通用人工智能)的问世不会太遥远,不过过程中肯定会出现许多误判。预计在未来五年时间里,AI能够在大多数人类目前从事的工作上表现得比人类更好。”在ChatGPT发布前一个月,OpenAI联合创始人、ChatGPT项目的主要负责人John Schulman在强化学习播客《TalkRL》上说道。
AGI似乎并不遥远,但对于如何通向AGI,目前研究者都还在探索。就在近日,一个新的研究成果发布——用视觉数据来增强语言处理能力。它的表现令人惊喜,展示出了强大的涌现能力(模型有不可预测的表现)。
(相关资料图)
北京时间3月7日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。
“PaLM-E是迄今为止已知的最大VLM(视觉语言模型)。我们观察到诸如多模态思维链推理(允许模型分析包括语言和视觉信息的一系列输入),只接受单图像提示训练的多图像推理(使用多个图像作为输入来做出推理或预测)等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess说。
论文的第一作者、谷歌AI研究员Danny Driess的推文。
在这个意义上,随着时间推移,深度学习模型变得越来越复杂,PaLM-E似乎延续了“产生惊喜”的这个趋势。
PaLM-E(Pathways Language Model with Embodied )是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合。它被称为“PaLM-E”是因为它基于谷歌现有的 “PaLM”大语言模型 (类似于ChatGPT背后的技术)。谷歌通过添加感官信息和机器人控制,使PaLM“具身化(embodiment,与身体联系紧密的状态)”。由于它基于语言模型,PaLM-E会进行连续观察,例如图像信息或传感器数据,并将它们编码为一系列与语言标记大小相同的向量。这允许模型以与处理语言相同的方式“理解”感官信息。PaLM-E还借鉴了谷歌之前在ViT-22B视觉Transformer模型上的工作,ViT-22B已经接受过各种视觉任务的训练,例如图像分类、对象检测、语义分割和图像字幕。
谷歌并不是唯一一个致力于使用神经网络进行机器人控制的研究小组。这项特殊的工作类似于微软最近的“ChatGPT for Robotics”论文,该论文尝试以类似的方式将视觉数据和大型语言模型结合起来进行机器人控制。
作为一种多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。
根据谷歌的说法,当给出一个高级命令时,比如“把抽屉里的薯片拿给我”,PaLM-E可以为一个有手臂的移动机器人平台(由谷歌机器人开发)生成一个行动计划并执行自己的行动。
PaLM-E通过分析来自机器人相机的数据来实现这一点,而无需对场景进行预处理。这消除了人类预处理或注释数据的需要,并允许更自主的机器人控制。它还具有弹性,可以对环境做出反应。例如,PaLM-E模型可以引导机器人从厨房取薯片袋,而且,通过将PaLM-E集成到控制回路中,它可以抵抗任务期间可能发生的中断。在一个视频示例中,研究人员从机器人手中抓取薯片并移动它们,但机器人找到薯片并再次抓取它们。
在另一个示例中,相同的PaLM-E模型通过具有复杂序列的任务自主控制机器人,这些任务以前需要人工指导。谷歌的研究论文解释了PaLM-E如何将指令转化为行动:
我们展示了PaLM-E在具有挑战性和多样化的移动操作任务上的性能。机器人需要根据人类的指令规划一系列导航和操纵动作。例如,给出指令“我把饮料弄洒了,你能给我拿点东西来清理吗”,机器人需要规划一个包含“1. 找到海绵,2. 捡起海绵,3. 拿来,4.放下海绵”的序列给用户。受这些任务的启发,我们开发了3个用例来测试PaLM-E的具身推理能力:可供性预测、故障检测和长期规划。
研究人员写道,PaLM-E也是一种“有效的视觉语言模型”。例如,它可以识别图像中的篮球明星科比·布莱恩特,并可以生成关于他的文本信息,比如他赢得了多少次冠军。在另一个例子中,PaLM-E看到一个交通标志并解释与之相关的规则。
除了机器人技术,谷歌研究人员还观察到一些有趣的效果,这些效果显然来自PaLM-E的核心——大型语言模型。PaLM-E表现出了“正迁移”能力,即它可以将从一项任务中学到的知识和技能迁移到另一项任务中,从而与单任务机器人模型相比具有“显着更高的性能”。
此外,他们还观察到模型规模的趋势:语言模型越大,在视觉语言和机器人任务训练时就越能保持其语言能力——从数量上讲,562B PaLM-E模型几乎保留了其所有的语言能力。
谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用,例如家庭自动化或工业机器人。他们希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。
“多模态”已成为一个流行语,我们可能会越来越多地听到这个词。因为很多公司正在研发看起来能够像人类一样执行一般任务的通用人工智能。
(文章来源:澎湃新闻)
关键词:
5620亿参数!谷歌发布史上最大“通才”AI模型 可让机器人更自主 【5620亿参数!谷歌发布史上最大“通才”AI模型可让机器人更自主】北京时间3月7日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉...
快资讯丨东风股份:实控人之一大宗交易减持公司1%股份 南方财经3月8日电,东风股份公告,公司实控人之一黄晓鹏3月2日至3月6日通过大宗交易方式,累计减持公司股份1842 95万股,占公司股份总数的1%。
洁雅股份:接受西南证券等机构调研 洁雅股份(SZ301108,收盘价:37 1元)发布公告称,2023年3月7日14:00-16:00,洁雅股份接受西南证券等机构调研,公司董事长、总经理蔡英传,副总
摩根大通中国区首席运营官熊碧华:淡化性别观念 不给自己设限 巾帼不让须眉,柔肩亦担重任。随着经济的发展、社会的进步,“她力量”正日益壮大,资本市场亦涌现出了一批优秀的女性行业领导者。她们...
宁德时代:正全面推进钠离子、无钴电池、全固态等电池技术布局 动态焦点 【宁德时代:正全面推进钠离子、无钴电池、全固态等电池技术布局】宁德时代(300750)在互动平台表示,公司一直引领国际前沿的研究,目前正全面
全球热文:专访全国人大代表、启迪药业董事长焦祺森:日韩汉方制剂“后来居上”,... 作为我国传统医学瑰宝,近几年国家力推中医药传承创新发展。近期,国家更是先后出台了《中药注册管理专门规定》《中医药振兴发展重大工...
5620亿参数!谷歌发布史上最大“通才”AI模型 可让机器人更自主 【5620亿参数!谷歌发布史上最大“通才”AI模型可让机器人更自主】北京时间3月7日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉...
华润置地佛山顺德润府4座获准销售 备案总价在304-468万元之间|环球今热点 据佛山市住房和城乡建设局信息,位于佛山顺德大良的华润置地顺德润府4座获得商品房销售许可证,新增住宅房源164套,备案均价2 38-3 25万 ㎡。
飞虎队_焦点资讯 1、香港警务处警察机动部队特别任务连(SpecialDutiesUnit,简称为SDU),绰号“飞虎队”,是隶属于香
番茄红素行业市场调研与投资潜力研究报告2023 作为功能性食品原料,番茄红素具有抗氧化、护眼、降胆固醇等功能,随着保健品、食品、化妆品等产业发展,番茄红素市场需求将不断释放,...
3000亿A股巨头放大招!海康机器创业板IPO已获受理|世界观天下 【3000亿A股巨头放大招!海康机器创业板IPO已获受理】根据深交所信息显示,杭州海康机器人股份有限公司(简称“海康机器”)创业板IPO已获...
世界看点:3月8日涨停板复盘:世嘉科技晋级3板 【3月8日涨停板复盘】次新黄金概念股四川黄金4板;6G概念股世嘉科技晋级3板;数字经济概念新炬网络3板;大基建概念新城市2板。
环球即时看!国机汽车:公司作为国内唯一一家多品牌进口汽车贸易商 在汽车贸易服... 每经AI快讯,有投资者在投资者互动平台提问:两会期间国资委号召进行国企改革,和全球一流企业对标。公司中汽工程是不是应该对标德国的...
全国人大代表、好想你董事长石聚彬:促进食品企业高质量发展,助力乡村产业振兴 伴随我国人民生活水平不断提高,对饮食要求已经从吃得饱,到吃得好,再到吃得健康实现转变,对食品企业也提出了更高的研发生产要求。正...
全球球精选!长飞光纤:2022年年度净利润11.7亿元 同比增加65.2% 长飞光纤(SH601869,收盘价:36 96元)3月8日晚间发布2022年年度业绩快报,营业收入138 3亿元,同比增加45 03%;归属于上市公司股东的净利润11
快资讯丨东风股份:实控人之一大宗交易减持公司1%股份 南方财经3月8日电,东风股份公告,公司实控人之一黄晓鹏3月2日至3月6日通过大宗交易方式,累计减持公司股份1842 95万股,占公司股份总数的1%。
全球看热讯:亚盛集团:拟与张掖甘州区政府在张掖国家玉米种子产业园项目建设等方... 亚盛集团3月8日公告,为共同加快推进甘肃省张掖市甘州区玉米制种产业高质量发展,公司与张掖市甘州区人民政府(以下简称“甘州区政府”)...
2023年药膳行业发展前景分析 2023年药膳行业市场调研分析 随着“健康中国”理念上升为国家战略,一系列扶持、促进健康产业发展的政策紧密出台,在国家政策暖风的催化下,大量投资正加速涌入大健...
今头条!2023年中国焦化行业发展前景预测 目前,我国焦化行业已形成集“研发设计、装备制造、建设施工、生产管理、检化验手段”等功能完备,拥有先进工艺技术和现代装备的炼焦工...
胶囊旅馆行业市场多大?胶囊旅馆发展前景现状分析 胶囊旅馆发展前景如何?未来发展投资方向是什么?在胶囊旅馆风靡世界的时候,国内也是掀起了一股潮流,经常成为了游客们的打卡胜地!随着绿...
播报:旅居养老省际合作已形成基本模式 2023旅居养老市场现状及前景分析 旅居养老省际合作已形成基本模式从2019年起至今,广东的旅居养老“朋友圈”已发展到“十四省同行”,其中包括山西、辽宁、吉林、黑龙江...
房产利好政策将有效带动家居市场回暖 2023家居产业现状及未来趋势分析_世界快看点 近段时间,受地产市场预期回暖情绪升温带动,作为房地产链路后端消费产业的家居行业也迎来销售情况改善,有券商表示,家居行业销售受房...
妇女节放假半天 不放有加班费吗?专家解读! 【妇女节放假半天不放有加班费吗?专家解读!】《全国年节及纪念日放假办法》明确了部分公民放假的节日及纪念日,其中就包括:妇女节(3月8日)
6小时2350万元!TVB“老戏骨”带货能力惊人 股价4天翻了近2倍 直播6小时,带货超过2350万元。3月7日晚间,TVB在淘宝平台开启直播带货首秀,根据TVB官方微博发布的数据,全场直播累计观看人数超320万,累计
天天快看点丨“金三月”悄然来临,3月华南钢价或迎阶段性反弹 我的钢铁网讯:回顾2月份,华南地区建筑钢材价格涨跌互现。在结束了节后市场的季节性上扬后,价格逐渐回归理性。从下游工地的恢复情况来...
5620亿参数!谷歌发布史上最大“通才”AI模型 可让机器人更自主 【5620亿参数!谷歌发布史上最大“...
快资讯丨东风股份:实控人之一大宗交易减持公司1%股份 南方财经3月8日电,东风股份公告,...
洁雅股份:接受西南证券等机构调研 洁雅股份(SZ301108,收盘价:37 1...
摩根大通中国区首席运营官熊碧华:淡化性别观念 不给自己设限 巾帼不让须眉,柔肩亦担重任。随着...
怎样保存大米一年不坏?真空大米放了3—4年还能吃么? 怎样保存大米一年不坏?1、用锅煮花...
最新消息:河北省40幅摄影作品参加第三十四届华北摄影艺术展览 近日,第三十四届中国华北摄影艺术...
获奖名单公布!第十三届中国艺术节在河北雄安新区落下帷幕 9月15日晚,第十三届中国艺术节在...
2022北京时装周9月15日至22日将在线上线下举办多场活动 一年一度的北京时装盛典即将拉开帷...