具身智能“进化论”:从“道具”到“兄弟”

【导语】随着AI技术的飞速发展,智能化水平正遵循算法、数据、算力三要素的扩展法则实现跨越式提升,即“智能涌现”。具身智能,作为AI技术从虚拟交互向实体服务的重要跨越,正引领着全球科技竞争的新潮流。本文将深入探讨具身智能的进化目标、典型场景分析、进化路径及未来展望,揭示中国在这一领域的战略布局与前沿实践,特别是中国移动在推动具身智能产业发展方面的创新举措与宏伟蓝图。通过本文,您将全面了解具身智能的现状与未来,感受科技带来的无限可能。

AI的智能化水平遵循算法、数据、算力三要素扩展法则,当三要素达到一定规模后,智能化水平将实现跨越式提升,即所谓的“智能涌现”。我们就不难理解今天为什么千亿、万亿级参数算法,大规模、高质量数据集,万卡、十万卡算力集群的发展一日千里了。

图片3.png图片4.png

具身智能,即具身化的人工智能,是AI技术从“虚拟交互”向“实体服务”的跨越载体,是硬件传感器、机械运动关节与算法、数据、算力三要素的深度融合。将人工智能融入机器人、机械装置、新能源汽车等物理实体,为“大脑”赋予了“身体”,使得它们拥有像(xiàng)人(rén)一(yī)样(yàng)感(gǎn)知、学习和与环境动态交互的能力,是智能体通过身体与环境的互动产生的智能行为。

世界各国、各行业均将具身智能视为未来科技竞争的核心领域,致力于发展机器人技术,将AI融入机器人形成具身智能的重要性日益凸显。

中国在《“十四五”机器人产业发展规划》强调,要推动人工智能、5G、大数据、云计算等技术的融合,提升机器人智能化、网络化水平。明确2025年目标成为全球机器人创新中心,具身智能是重点方向。《规划》同时指出,要强化机器人系统的功能安全、网络安全和数据安全,不断提升国家的技术能力,推动行业应用。2025年,具身智能和智能机器人首次被写入政府工作报告,明确列为新一代智能终端发展重点。

01 进化目标

中国移动具身智能产业创新中心认为具身智能的进化可分为五个阶段:“道具”(仅实现基础特定动作)-“玩具”(具备一定的互动性,限于娱乐或教育启蒙)-“工具”(通过算法与传感器实现精准操作,缺乏自主决策)-“伙计”(具备自然交互能力,提供情感交互与生活服务)-“兄弟”(高度智能化、自主化,接近人类行为与思维模式)。

当前机器人行业正处于从“道具”向“伙计”跨越的关键期,需重点突破具身智能与通用任务规划能力,最终实现机器人与人类的能力互补与情感共鸣。

图片2.png

构建像人类一样“眼-脑-手-足”协同,实现四个“自主”,即自主交互、自主移动、自主作业、自主学习,是具身智能“进化”的终极目标,也是行业正在突破的核心挑战。

主流具身智能机器人技术中,机器人“身体”通过部署各类传感器感知周围环境数据,基于本体或云端算力资源进行深度(dù)学(xué)习(xí)。构(gòu)建(jiàn)可(kě)泛(fàn)化(huà)、分(fēn)布(bù)式(shì)协(xié)同(tóng)、端(duān)边(biān)网(wǎng)云(yún)联(lián)动(dòng)的(de)具(jù)身(shēn)智(zhì)能(néng)变(biàn)得(de)尤(yóu)为(wèi)重(zhòng)要(yào),也(yě)已(yǐ)成(chéng)为(wèi)行(xíng)业(yè)共(gòng)识(shi)。

02 典(diǎn)型(xíng)场(chǎng)景(jǐng)分(fēn)析(xī)

事(shì)实(shí)上(shàng),不同类型机器人的不同场景、不同应用中,所产生的数据规模,以及对网络、算力的需求千差万别。家庭、个人领域是具身智能应用中场景最多、感知环境最复杂的领域,每类场景均具有不同的算力、网络要求。大体上可将具身智能应用场景分为三类:实时快反应类、慢思考类(AGI)以及介于两者之间的狭义人工智能类(ANI)。

本部分梳理了各类应用场景下,对网络、算力的需求量化要求。其中算力需求部分,受算法、软件架构、实现方式等因素影响,列出的是理想情况下的算力需求量级。

(一) 实时快反应类

快反应场景,与机器人运控密切相关,要求在极短的时间内做出精准反应,典型如行走与奔跑、自主避障等。通常需要传感器快速感知环境数据,本体硬件进行一定的算法处理,快速做出反应。通常时延要求在10~100ms,数据规模在1~100MB/s,算力需求在1~20TOPS。

(二) 狭义人工智能类(ANI)

该类场景,对实时性、智能化要求折(zhé)中(zhōng),侧(cè)重(zhòng)虚(xū)拟(nǐ)交(jiāo)互(hù),典(diǎn)型(xíng)如(rú)语(yǔ)音(yīn)识(shi)别(bié)、情(qíng)感(gǎn)识(shi)别(bié)、导(dǎo)航(háng)等(děng)。正(zhèng)是(shì)由(yóu)于(yú)其(qí)对(duì)算(suàn)力(lì)、网(wǎng)络(luò)的(de)折(zhé)中(zhōng)要(yào)求,该类场景可由硬件本体内置算力结合小模型提供智能,亦可由边缘云、中心云智能供给,带来了多种实施可能性。通常时延要求在100~500ms,数据规模在1~50MB/s,算力需求在1~50TOPS。

(三) 慢思考类(AGI)

该类场景,对数据规模、网络带宽、算力有极高的要求,但对时延不敏感。该类场景通常无法由机器人硬件本体进行算力供给,而由边缘云、中心云等进行大颗粒度算力供给,提供智能。通常时延要求在100ms~10s,数据规模在100MB/s~10GB/s,算力需求在10TOPS~1000TOPS。

结合以上分析,可以看出具身智能对网络、算力、数据的要求跨度非常大,如时延方面,从毫秒级(jí)到(dào)秒(miǎo)级(jí),相(xiāng)差(chà)千(qiān)倍(bèi)。具(jù)身(shēn)智(zhì)能(néng)需(xū)要(yào)“身(shēn)体(tǐ)”、“大(dà)脑(nǎo)”、“神(shén)经(jīng)”的(de)有(yǒu)机(jī)协(xié)同(tóng),未(wèi)来(lái)具(jù)身(shēn)智(zhì)能(néng)的(de)进(jìn)化(huà),必(bì)然(rán)朝(cháo)着(zhe)异(yì)构(gòu)、泛(fàn)化(huà)、分(fēn)布(bù)式(shì)协(xié)同(tóng)的(de)方向演进。

03 进化路径

机器人正经历从“智能机械人”向“自主机器人”的范式跃迁,精密运动控制(小脑)和机械系统(本体)为核心的技术已相对成熟,而驱动智能跃升、实现自主智能的“大脑”成为亟需突破的核心能力。构建异构、泛化、分布式协同的具身智能系统是实现“大脑”自主智能的必然路径,需均衡硬件、网络、算力三要素供给代价,同时,面向消费者仍需兼顾硬件成本、能耗、续航等因(yīn)素(sù)。结(jié)合(hé)中(zhōng)国(guó)移(yí)动(dòng)自(zì)身(shēn)实(shí)践,我们形成如下方案:

图片1.png

方案包括具身智能体、近源智能体、云端智能体以及连接各智能体的IoA(Internet of Agent)互联网四部分。

(一) 具身智能体

负责本体实时传感、控制及轻量级计算。具有强实时性(控制周期≤1ms)、低功耗特点(嵌入式芯片)。硬件载体基于嵌入式芯片,软件方面部署ROS节点、实时操作系统(RTOS)等。核心功能逻辑分层包括传感层、实时控制层、轻量计算层等。

(二) 近源智能体

负责大颗粒算力供给,智能增强,智能体弹性部署,分布式协同及任务优化。区域自治单个近源节点管理10~100台机器人,网络时延<20ms,同时可弹性扩展,支持边缘节点动态加入、退出(如K3s轻量级K8s)。核心功能逻辑分层包括数据融合层、协同决策层、模型推理应用层等。

(三) 云端智能体

重点攻关VLA(视觉、语言、运动)具身智能大模型,聚焦四个“自主”核心能力,驱动机器人由自动化迈向自主化。负责全局优化与知识沉淀,仿真迭代训练,为本体、近源算力提供智能赋能及调度,业务管理、版本(běn)升(shēng)级等。

核心功能逻辑包括:

1) RaaS能力:即Robot as a Service,提供机器人即服务能力;

2) 大数据服务:全系统运行数据存储与分析;

3) 仿真训练:具身智能行为仿真训练,大规模AI模型训练与优化;

4) 全局管理调度:全局任务拆解、分配、调度,多机、多任务任务协同;

(四) IoA智能体互联网

IoA即Internet of Agent, 智能体互联网, 连接具身、近源、云端智能体,提供高可靠、自适应连(lián)接(jiē)枢(shū)纽(niǔ)。融(róng)合(hé)Wi-Fi、全光网络、5G/5G-A、6G、卫星通信等多种通信方式,支撑各智能体之间高速稳定互联。核心功能逻辑包括:

1) R2X通信:即Robot-to-Everything,以机器人为中心的具身智能网核心技术,通过无线或蜂窝通信实现机器人与周围环境的全方位交互。其内容涵盖通信模式、应用场景、技术标准及生态系统,包含R2R(Robot to Robot),R2P(Robot to Person)、R2I(Robot to Infrastructure)、R2N(Robot to Network)等各项通信能力。

2) 分布式自组网:实现机器人自主分布式协同,降低对云端、网络依赖,具备低时延、节能、节省频谱资源优势。

3) 专网通信:网络切片能力,机器人专网,为实时指令控制、音视频码流等提供端到端差异化转发调度。

4) 通感一体:未来网络基础设施应具备通感一体能力,集成高精度定位、激光、雷达(dá)等(děng)感(gǎn)知(zhī)能(néng)力(lì),实现通感深度融合。如当前5G-A基站载波相位测量等技(jì)术(shù)提(tí)供(gōng)高(gāo)精(jīng)度(dù)定(dìng)位(wèi),除(chú)基(jī)础(chǔ)网(wǎng)络(luò)能(néng)力(lì)外(wài),还(hái)可(kě)用(yòng)于(yú)机(jī)器(qì)人(rén)自(zì)主避(bì)障(zhàng)、行(xíng)走(zǒu)奔(bēn)跑(pǎo)、精(jīng)细(xì)操(cāo)作(zuò)等(děng)场(chǎng)景(jǐng)。

5) 语(yǔ)义(yì)通(tōng)信(xìn):具(jù)身(shēn)智(zhì)能(néng)机(jī)器(qì)人(rén)集成(chéng)了(le)各(gè)类(lèi)传(chuán)感器,有大量数据传输交互,网络带宽需求激增,依靠传统原始环境数据采集并直接传输,难以适应智能化需求。语义通信是提升机器人智能化水平及环境自适应鲁棒性的关键通信能力。

04 展望

具身智能产业方兴未艾,中国移动将分阶段推出“家家可及”的机器人“兄弟”。2025年重点围绕迎宾导览、家庭陪伴两大系列打造商用级产品,推动四足狗系列成为家庭场景消费级产品;围绕居家服务前瞻布局家庭场景通用机器人产品。与此同时,基于促进产业协同发展理念,成立产业发展联盟,覆盖企业、高校、机构等不同角色,构筑“产-学-研-用-测”闭环体系;建立开放式中试基地,推动技术中试转化,打通从研到用“最后一公里”;建(jiàn)立(lì)能(néng)力(lì)开(kāi)放(fàng)体(tǐ)系(xì),推(tuī)动(dòng)关键成果产业共享。加速形成产业从“组起来”到“干起来”到“用起来”的“飞轮效应”。

具身智能机器人的智能化、网络化是实现“类人”的核心关键,面向未来单体智能必将从自动走向自主,单体智能必将走向群体智能。

【参考资料】

[1] 3GPP V2X系列标准(Release 14~18)

[2] Brooks, R.A., 1991. Intelligence without representation. Artificial intelligence, 47(1-3), pp.139-159.

[3] Pfeifer, R. and Scheier, C., 2001. Understanding intelligence. MIT press.

[4] Smith, L.B., 2005. Cognition as a dynamic system: Principles from embodiment. Developmental Review, 25(3-4), pp.278-298.

[5] Lakoff, G., & Johnson, M. (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Thought. Basic Books.

[6]《智能体互联网 - 定义、架构与应用》,北京邮电大学,刘军、禹可、陈科良、李珂

作者:

程宝平 中国移动首席专家,中国移动智慧家庭运营中心具身智能产业创新中心总经理

晁军显 中国移动“十百千”专家,具身智能系统架构师

高金飞 具身智能平台研发技术经理

许学 具身智能本体研发技术经理

审核:

程宝平 中国移动首席专家,中国移动智慧家庭运营中心具身智能产业创新中心总经理

本文图片均系原创,转载请注明出处

更多资讯内容!欢迎关注大数据官方微信()