2013年,美国机器人公司波士顿动力公司推出了新机器人Atlas。这款在Darpa机器人挑战赛上亮相的6英尺2英寸高的类人机器人可以在不平坦的地面上行走,从箱子上跳下来,甚至爬楼梯。它就像小说中常描绘的场景:一个设计成像我们一样操作的机器人,能够承担各种日常任务。那时候似乎意味着某种新事物的黎明。机器人将完成我们所有乏味和艰苦的工作,还将担任养老护理员。

自那以后,我们在人工智能(AI)方面看到了巨大的进步,从计算机视觉到机器学习。最近的大型语言模型和生成式AI系统的浪潮为人机交互开辟了新的机会。但在研究实验室外,物理机器人仍主要局限于工厂和仓库,执行非常具体的任务,通常在安全笼内。家用机器人则仅限于吸尘器和割草机——并不是真正的“罗西机器人”。“机器人本体自从1950年代以来并没有实质性的发展,”

英国单位的研究开发机构Advanced Research and Invention Agency(ARIA)机器人项目主任Jenny Read说。“我并不是说完全没有进步,但当你看看计算和软件领域发生的事情,会发现机器人领域的进展是非常少的。”布里斯托尔大学的机器人与人工智能教授Nathan Lepora表示,开发机器人需要更多资源。

一个有才华的人只需一台电脑就能写出算法,但构建一个机器人需要物理设备。“这过程要慢得多,也要难得多,”他说。“这就是为什么机器人领域落后于AI领域的根本原因。”研究实验室和公司希望缩小这一差距,目前正在开发一系列新型类人机器人,有些已经开始投放市场。今年四月,波士顿动力公司淘汰了其原来的液压Atlas型号,推出了一款新型电动版本,计划在未来几年商业化,并将在现代工厂进行测试。

位于俄勒冈州的Agility Robotics声称其Digit机器人是第一个真正获得工作的类人机器人,在一个物流设施中搬运箱子。埃隆·马斯克坚称特斯拉的类人机器人Optimus或Tesla Bot将从明年开始在其汽车工厂工作。但我们距离看到机器人在受控环境之外运作仍有很长的路要走。Read表示,人工智能的进步只能在现有硬件的基础上实现有限的成就——对于许多任务来说,机器人的物理能力是关键。

生成式AI系统可以写诗或制作图像,但它们无法完成我们最想自动化的肮脏和危险的工作。对于那些工作,你需要的不仅仅是一个盒子里的大脑。一个有用的机器人设计通常从手开始。“许多机器人用例真的依赖于能够精确且熟练地处理物体而不损坏它,”Read说。人类在这方面表现出色。我们可以本能地在举起哑铃和处理鸡蛋壳之间切换,或从切胡萝卜到搅拌酱汁。我们还有出色的触觉感应,体现了我们阅读盲文的能力。

相比之下,机器人在这方面表现得很挣扎。Read的ARIA项目,拥有5700万英镑的资金,专注于解决这个问题。机器人灵活性的一大挑战是规模问题,伦敦Shadow Robot公司的总监Rich Walker说。在该公司位于Camden的办公室,露出Shadow灵巧手。尺寸与男子手掌相同,拥有四根手指和一个拇指,关节像人的指关节。

但虽然手指看起来很精巧,手部连接的机器人臂比人类前臂宽得多,里面塞满了电子元件、电缆、致动器和操作手部所需的一切。“这是一个包装问题,”Walker说。人类规模的手的一个优点是它的形状适合处理人类工具。Walker举了一个实验室滴管的例子,他用可塑胶质粘合剂Sugru改装,使其更符合人体工程学。你可以将滴管工具直接连接到机器人手上,但那样它只能使用滴管,不能使用,比如剪刀或螺丝刀。

但完全像人类的手并不是每项任务的最佳设计。Shadow Robot公司最新的手DEX-EE看起来相当陌生。它有三个手指,更像拇指而不是手指,比人类的明显更大,覆盖着触觉传感器。该公司与谷歌DeepMind合作设计了这一手,后者希望一个机器人手能够通过反复尝试学习如何抓取物体——这种方法称为强化学习。但这带来了挑战:机器人手通常设计成不碰撞物体,如果碰撞则容易损坏。

DeepMind的研究工程师Murilo Martins说,当他用原来的灵巧手进行实验时,“每半小时就会断裂一根肌腱”。DEX-EE优先考虑了坚固性:一段视频显示,三个手指在被锤子敲击时还能愉快地开闭。其更大的尺寸容纳了较大的滑轮,减少了线性肌腱的压力,意味着它可以可靠运行至少300小时。即便如此,DeepMind的研究科学家Maria Bauza说,使用机器人的时间仍然宝贵。

上周,DeepMind发布了一项新的训练方法,称为DemoStart。这种方法采用同样的试错方法,但其起点是使用模拟机器人手,而不是实际手。在训练模拟手执行任务如拧紧螺母和螺栓后,研究人员将这种学到的行为转移到实际的DEX-EE手上。“这些手已经经历了成千上万的实验,”Bauza说。“只不过我们没有让它们从零开始。”这减少了运行实验的时间和成本,使得训练能够适应不同任务的机器人变得更加容易。

然而,这些技能并不总是能完美转移;尽管DeepMind的模拟机器人手能在插头插入插座的任务中取得99.6%的成功率,实际手仅能成功64%的时间。这一工作展示了AI和机器人本体的发展是如何“携手并进”的。只有通过物理交互,机器人才能真正了解其环境。

毕竟,Read指出,像ChatGPT这些文本生成器的大型语言模型是通过互联网共享的大量人类语言语料库训练出来的,“但我从哪里获取有关摘草莓或做三明治的感觉的数据呢?”正如DeepMind机器人团队所写:“一个大型语言模型可以告诉你如何拧紧螺栓或系紧鞋带,但即使它被装在机器人中,也无法自己执行这些任务。”Martins进一步指出。

他认为机器人技术对于实现广泛的、等同于人类的人工智能(AGI)至关重要。他的理由是,AI只有拥有物理形态,才能真正理解我们的世界。“对我来说,没有实体形态的AGI是不存在的,就像没有我们自身的身体就没有人类智慧一样,”他说。手虽然重要,但只是一个身体部位。虽然Shadow Robot及其他公司关注手指,越来越多的公司和实验室正在开发完整的类人机器人。类人机器人的吸引力可能部分源自心理因素。

“这是我们都在期待的机器人——像C3PO那样,”Walker说。但使用人类形态作为灵感也有其逻辑。“我们设计了所有以人为中心的环境,”Agility Robotics的联合创始人兼首席机器人官Jonathan Hurst说。“所以拥有一个大致人形的机器人是一种非常好的方式来行走、操作和与人共存。”然而,类人机器人可能并不是每项工作的最佳设计。

轮式机器人可以去任何轮椅能到达的地方,而在更复杂的地形上,四条腿可能比两条腿更好。波士顿动力公司的类狗机器人Spot可以在崎岖不平的地面或楼梯上飞奔,即使摔倒也能自行站立——这是双腿机器人难以做到的。“仅仅因为类人机器人采取了类似人类的形态,并不意味着它需要以那种方式移动,并受限于我们的关节限制,”波士顿动力公司的一位发言人在邮件中说道。目前,类人机器人仍在寻找自己的立足点。

闪亮的视频和时尚的设计可能会给人一种它们能力或可靠性过高的错觉,布里斯托尔大学的Lepora说道。波士顿动力公司的视频令人印象深刻,但该公司也以其机器人失败的滑稽视频闻名。今年一月,马斯克分享了一段Optimus叠衣服的视频——但眼尖的观众发现机器人是通过遥控操作的迹象。将机器人从实验室和工业环境带入家庭或公共场所的一个主要挑战是安全。

在六月,电气电子工程师学会(IEEE)启动了一个研究小组,专门探讨类人机器人的标准。研究小组主席Aaron Prather解释说,类人在共享空间中的运作与保护笼内的工业机器人截然不同。“它们与亚马逊设施或福特工厂的同事互动是一回事,因为那些工人与机器人一起受训,”他说。“但如果我把那个机器人放到公众公园里,它会如何与孩子互动?它会如何与那些不了解情况的人互动?”

Hurst展望机器人在零售业中的未来应用,如补货或在后台工作。Prather认为我们很快会看到机器人在餐厅里服务。然而,对于许多应用来说,使用机器人可能没有经济上的意义。Walker以送货机器人为例。“它必须在成本上与最低工资、零工合同的电动滑板车送货员相比具有成本效益,”他说。我采访的大多数机器人专家都认为,多功能的家用机器人——能洗碗、洗衣和遛狗的那种——还需要很长时间才能实现。

“有用的类人机器人时代已经到来,但实现真正通用的类人机器人将是漫长而艰难的道路,还需很多年,”波士顿动力公司说道。经常被炒作为老龄化人口解决方案的护理机器人将是一个特别艰难的前景,Read说。“让我们先到机器人可以可靠地拆解一台笔记本电脑或为你做一顿三明治的地步,然后再考虑它如何可能照顾老人,”她说。这还要看我们是否真的希望机器人从事护理工作。就像艺术和诗歌一些角色也许仍然最好由人类亲自完成。