打造“千里眼”的非结构光场智能成像技术

打造“千里眼”的非结构光场智能成像技术

对于很多摄影圈资深人士来说,Lytro这个名字既如雷贯耳,又显得分外陌生。这曾是一家生产新型光场成像设备的初创企业,从2006年成立伊始,Lytro凭借其惊艳的产品和多项专利,一时间成为资本市场炙手可热的宠儿。但如今,除了部分摄影爱好者手中的珍藏品,我们已经难觅Lytro的踪迹了。

由清华大学、凌云光技术股份有限公司等多家单位共同完成的科研项目“非结构光场智能成像关键技术与装备”荣获2021年度北京市科学技术奖技术发明一等奖。该项科研成果将光场成像技术的发展推向了一个全新的高度。那么光场成像是否会在新技术的加持下焕发新生呢?

光场:既要“看得清”,又要“看得全”

说起“光场成像”,就要从那个生僻的物理概念——“光场”说起。在物理学领域里,“场”是一个被广泛应用的概念,我们耳熟能详的有“电场”“磁场”“引力场”等。对于这一抽象的物理学术语,我们可以简单地理解为物理量在时间和空间中的分布状态。从物理学的视角看去,光可不只是诗人在(zài)黑(hēi)暗(àn)中(zhōng)寻(xún)找(zhǎo)的圣物,而是可以用严谨的数学模型表达的物理概念。

早在200多年前,电磁学之父法拉第就在他的一篇演讲中提出,光应该像磁场一样,被理解为一个“场”,这算是光场理论的起源。此后,麦克斯韦提出了将电、磁、光统归为电磁场现场的麦克斯韦方程组,为光场理论的发展打下了重要基础。1936年,物理学家亚历山大·格尔顺(AlexanderGershun)在他的论文中正式提出了“光场”这一概念,并首次对光场进行建模。不过一直到20世纪末,人类才在光场理论上取得了实质性突破,1991年麻省理工学院教授爱德华·阿德尔森(E.H.Adelson)

等学者,提出了全光函数,为光场理论建立了一套清晰的数学模型。阿德尔森用一个7维函数,将光线在空间中的分布简洁明了地表达出来。在阿德尔森的理论中,全光函数将物体所发出或反射的光解析成7个维度的信息:光的空间位置(用空间坐标系x,y,z表达),光线入射角度(用球坐标系的角度值θ,Φ表达),波长(用λ表达)和时间(用t表达)。全光函数的提出,将人类看得见却摸不着的光,完整地拆解开来呈现在人类面前。既然光线本身包含了这些维度的信息,那么如果我们在空间内遍布数量众多的观察光线的位置,那么由此记录下这个空间内光线的动态分布状态,就可以被理解为“光场”。

全光函数的提出推动了“光场理论”的发展与完善,也为科学家指明了研究方向——光场成像技术。我们知道,传统的数码相机是由光学镜头、影像传感器和影像处理器三大核心部件组成的,自然界三维场景发出、反射或散射的光线,被单镜头捕捉并聚焦,经由影像传感器转换为数字信号,最后交给影像处理器变成二维图像。清华大学方璐教授介绍道:“毕竟光是一个高维的信(xìn)号,普通成像设备无法将光场内这些高维信号全部、高速并实时地转换成一个电子信号。”传统成像设备只能记录光场中的光亮信息,对光的方向等信息束手无策,导致深度信息的丢失,且能获取的总信息量受到影像处理器像素数量的限制。因此,“‘看得清’和‘看得全’这对矛盾一直困扰着人们。举个大家日常拍照上的例子,广角镜头可以把照片拍得很宽很大,分辨率却不甚精确。而长焦镜头可以拍得很远很清晰,却只能覆盖一片很小的区域。”方璐说。

光场成像的前世今生

近年来,光场采集感知重建理论及技术的进步为我们指出了另外一条思路:如果我们将全光函数中所有的参数都捕捉到,成像效果不就能做到既看得全也看得清吗?答案是肯定的。不过,全光函数包含了(le)光(guāng)线(xiàn)多(duō)达(dá)7个(gè)维(wéi)度(dù)的(de)信(xìn)息(xi),显(xiǎn)然还是过于复杂了,而且并不是所有维度的信息在拍摄时都用得着。于是安德尔森的后继者们将该函数做了简化,波长λ被简化为记录红、绿、蓝三原色,时间t被简化为记录不同帧,这样函数就被简化为只包含位置(x,y,z)与光线入射角度(0,Φ)5个维度信息。此后又被进一步降到了4维:即通过记录一条光线穿过两个平行平面的坐标(分别用u,v和x,y两个坐标系表示),就能得到光线的位置与方向信息。如果将这个双平面模型套用在(zài)普通成像系统的结构上,那么其中u-v平面就是(shì)主镜(jìng)头(tóu)中(zhōng)心(xīn)所(suǒ)在(zài)平(píng)面(miàn),x-y平(píng)面(miàn)是(shì)影(yǐng)像(xiàng)传(chuán)感(gǎn)器(qì)所(suǒ)在(zài)平(píng)面(miàn),这(zhè)样(yàng)通(tōng)过(guò)采集光(guāng)线(xiàn)穿(chuān)过(guò)两(liǎng)个(gè)平(píng)面(miàn)时(shí)所(suǒ)产(chǎn)生(shēng)的(de)4个(gè)维(wéi)度(dù)信(xìn)息(xi),理(lǐ)论(lùn)上(shàng)就(jiù)能(néng)兼(jiān)顾(gù)到(dào)“看(kàn)得(de)全、看(kàn)得(de)清(qīng)”的(de)效(xiào)果(guǒ)。问(wèn)题(tí)在(zài)于(yú),要(yào)借(jiè)助(zhù)什(shén)么(me)样(yàng)高(gāo)科(kē)技(jì)的(de)神(shén)器(qì)才(cái)完(wán)成(chéng)这(zhè)样(yàng)的(de)采集工(gōng)作(zuò)呢(ne)?“要(yào)兼(jiān)顾(gù)既(jì)看(kàn)得(de)全又(yòu)看(kàn)得(de)清(qīng),就(jiù)意(yì)味(wèi)着(zhe)依(yī)靠(kào)单(dān)个(gè)镜(jìng)头(tóu)和(hé)单(dān)个(gè)影(yǐng)像(xiàng)传(chuán)感(gǎn)器(qì)的(de)系(xì)统(tǒng)根(gēn)本(běn)无(wú)能(néng)为(wèi)力(lì)。这(zhè)时(shí)人(rén)们(men)就(jiù)想(xiǎng)到(dào):能(néng)否(fǒu)把(bǎ)多(duō)个(gè)相(xiāng)机(jī)放(fàng)在(zài)一(yī)起(qǐ)形(xíng)成(chéng)阵(zhèn)列(liè),通(tōng)过(guò)‘量(liàng)变(biàn)引(yǐn)起(qǐ)质(zhì)变(biàn)’的(de)思(sī)路来(lái)实(shí)现(xiàn)?”方(fāng)璐(lù)介(jiè)绍(shào)道(dào)。初(chū)代(dài)光(guāng)场(chǎng)成(chéng)像(xiàng)技(jì)术(shù)的(de)解(jiě)决(jué)方(fāng)案(àn)是(shì)在(zài)影(yǐng)像(xiàng)传(chuán)感(gǎn)器(qì)前(qián),用(yòng)数(shù)量(liàng)众(zhòng)多(duō)的(de)单(dān)镜(jìng)头(tóu)组(zǔ)成(chéng)阵(zhèn)列(liè),形(xíng)成(chéng)类(lèi)似(shì)于(yú)昆(kūn)虫(chóng)复(fù)眼(yǎn)的(de)结(jié)构(gòu),对(duì)u-v和(hé)x-y平(píng)面(miàn)的(de)信(xìn)息(xi)进(jìn)行(xíng)采集,然(rán)后(hòu)通(tōng)过(guò)数(shù)字(zì)调(diào)焦(jiāo)的(de)形(xíng)式(shì)进(jìn)行(xíng)图(tú)像(xiàng)还(hái)原(yuán)。这(zhè)样(yàng)就(jiù)形(xíng)成(chéng)了(le)“先(xiān)拍(pāi)照(zhào),后(hòu)对(duì)焦(jiāo)”的(de)特(tè)点(diǎn),省(shěng)去(qù)了(le)传(chuán)统(tǒng)成(chéng)像(xiàng)设(shè)备(bèi)同(tóng)时(shí)对(duì)焦(jiāo)和(hé)拍(pāi)照(zhào)导(dǎo)致(zhì)拍(pāi)摄(shè)不(bù)清(qīng)晰(xī)的(de)麻(má)烦(fán)。

2006年(nián),美(měi)国(guó)斯坦福大学的马克·勒沃伊(MarcLevoy)团队根据这一思路研制出了阵列式光场成像系统,这个身形巨大的装置通过不同位置的相机同时曝光进行光场信息采集,从而迈出了光场成像技术落地的第一步。2012年,美国杜克大学的戴维·布雷迪(DavidBrady)团队在顶级学术期刊《自然》上(shàng)发(fā)表(biǎo)了(le)世(shì)界(jiè)上(shàng)首(shǒu)款(kuǎn)亿(yì)像(xiàng)素(sù)级(jí)阵(zhèn)列(liè)式(shì)光(guāng)场(chǎng)成(chéng)像(xiàng)系(xì)统(tǒng),像(xiàng)素(sù)分(fēn)辨(biàn)率(lǜ)达(dá)到(dào)当(dāng)年(nián)数(shù)码(mǎ)相(xiāng)机(jī)的(de)30多(duō)倍(bèi),能(néng)捕(bǔ)捉(zhuō)到(dào)几倍于人眼感知能力的细节。但体积和重量的限制导致这些阵列成像设备只能止步于实验室。此外,在这种技术里,“每个相机采用同样的尺度,并且位置和姿态固定,只有一种拍摄模式,依赖事先标定的参数进行重建,系统的鲁棒性和扩展性都受限。”方璐介绍道,“如果有相机在成像过程中受到扰动,整个阵列系统的工作都会受到影响,需要进行重新标定。”

欲(yù)穷(qióng)千(qiān)里(lǐ)目(mù),智(zhì)能(néng)技(jì)术(shù)来(lái)相(xiāng)助(zhù)

方(fāng)璐(lù)带(dài)领(lǐng)团(tuán)队(duì)另(lìng)辟蹊径,提出了非结构光场阵列感知技术。不同于之前,非结构光场阵列感知技术的特征是“层内非结构”和“层间异构”:层内非结构突破了结构固化的制约,使得阵列系统具有场景自适应成像的能力;层间异构克服了(le)尺(chǐ)度(dù)单(dān)一(yī)的(de)瓶(píng)颈(jǐng),使(shǐ)得(de)阵(zhèn)列(liè)系(xì)统(tǒng)的(de)感(gǎn)知(zhī)尺(chǐ)度(dù)和(hé)维(wéi)度(dù)可(kě)扩(kuò)展(zhǎn)。非(fēi)结(jié)构(gòu)光(guāng)场(chǎng)阵(zhèn)列(liè)感(gǎn)知(zhī)技(jì)术(shù)不(bù)再(zài)依(yī)赖(lài)复(fù)杂(zá)的(de)硬(yìng)件(jiàn)设(shè)计(jì)和(hé)烦(fán)琐(suǒ)的(de)系(xì)统(tǒng)标(biāo)定(dìng),而(ér)是(shì)借(jiè)助(zhù)人(rén)工(gōng)智(zhì)能(néng),通(tōng)过(guò)阵(zhèn)列(liè)结(jié)构(gòu)自(zì)适(shì)应(yīng)感(gǎn)知(zhī)、跨(kuà)尺(chǐ)度(dù)映(yìng)射(shè)融(róng)合(hé)等(děng)技(jì)术(shù),直(zhí)接(jiē)利(lì)用(yòng)多(duō)尺(chǐ)度(dù)图(tú)像(xiàng)内(nèi)容(róng)进(jìn)行(xíng)计(jì)算(suàn)重(zhòng)建(jiàn),同(tóng)样(yàng)的(de)硬(yìng)件(jiàn)资(zī)源(yuán)条(tiáo)件(jiàn)下(xià),大(dà)幅(fú)提(tí)升(shēng)了(le)系(xì)统(tǒng)的(de)成(chéng)像(xiàng)效(xiào)率(lǜ)与(yǔ)鲁(lǔ)棒(bàng)性(xìng)。这(zhè)一(yī)系(xì)列(liè)环(huán)环(huán)相(xiāng)扣(kòu)的(de)技(jì)术(shù)创(chuàng)新(xīn),大(dà)大(dà)降(jiàng)低(dī)了(le)光(guāng)场(chǎng)阵(zhèn)列(liè)系(xì)统(tǒng)的(de)复(fù)杂(zá)程(chéng)度(dù),节约了硬件带来的高昂成本,让计算摄像和人工智能技术有了更多施展空间,突破了传统光学成像的瓶颈。

当然,这种全新的技术,是让几十个不一样的成像设备整合在一起工作,这背后算法部分的技术难度是可想而知的。“毕竟软件和算法的成本与迭代周期是远小于硬件系统的,我们把硬件制作的难度降低,让更多的工作留给算法去做,让智能成像成为可能,这种‘非结构光场感知’新范式使得光场成像真正实现了‘鲁棒性’。”方璐介绍道。

在人工智能技术的加持下,除了鲁棒性,非结构光场智能感知技术同时实现了另一大优势,即可扩展性:这种非结构光场阵列系统可以灵活地调整阵列的数量和组合方式,以适应不同的应用场景需求。对此,方璐指出:“要知道,鲁棒性和可扩展性这两大优势,对于技术的应用意义重大。在这两项优势加持下,这一新技术才有可能应用到未来多个不同领域中。”从工业检测到公共安全,再到智慧城市,光场成像在B端的(de)应(yīng)用前景十分广阔。方璐认为,目前的非结构光场成像技术,并不是给摄影爱好者去品鉴的,而是供智能无人系统进行识别分析之用的。那么在这种应用场景下,追求高分辨率就并不是唯一的目标。她进一步指出:“对此,我们也在研究‘感算一体’的成像技术,将计算移到前端,在成(chéng)像(xiàng)的(de)同(tóng)时(shí)就(jiù)计算出目标物体的特征和位置,这就省(shěng)去了传统光场成像对图片压缩和解压,以及后续的目标特征提取与(yǔ)识(shi)别(bié)等(děng)烦(fán)琐(suǒ)步(bù)骤(zhòu),这(zhè)节(jié)约(yuē)的(de)资(zī)源(yuán)与(yǔ)功(gōng)耗(hào)是(shì)巨(jù)大(dà)的(de)。”

非(fēi)结(jié)构(gòu)光(guāng)场(chǎng)智(zhì)能(néng)成(chéng)像(xiàng)技(jì)术(shù)所(suǒ)面(miàn)临(lín)的(de)另(lìng)外(wài)一(yī)个(gè)问(wèn)题(tí)就(jiù)是(shì)数(shù)据(jù)。因(yīn)为(wèi)现(xiàn)阶(jiē)段(duàn)人(rén)工(gōng)智(zhì)能(néng)算(suàn)法(fǎ)开(kāi)发(fā)迭(dié)代(dài)对(duì)于(yú)数(shù)据(jù)集的(de)依(yī)赖(lài)是(shì)非(fēi)常(cháng)大(dà)的(de)。方(fāng)璐(lù)对(duì)此(cǐ)说(shuō)道(dào):“但(dàn)目(mù)前(qián)国(guó)际(jì)上(shàng)常(cháng)用(yòng)的(de)视(shì)觉(jué)数(shù)据(jù)集大(dà)多(duō)是(shì)少(shǎo)场(chǎng)景(jǐng)、少(shǎo)对(duì)象(xiàng)、关系(xì)简(jiǎn)单(dān),可(kě)能(néng)就(jiù)只(zhǐ)有(yǒu)一(yī)只(zhǐ)猫(māo)、一(yī)条(tiáo)狗(gǒu)、一(yī)辆(liàng)车(chē)这(zhè)样(yàng)的(de)信(xìn)息(xi)。这(zhè)就(jiù)难(nán)以(yǐ)呈(chéng)现(xiàn)复(fù)杂(zá)真(zhēn)实(shí)的(de)场(chǎng)景(jǐng),难(nán)以(yǐ)支(zhī)撑(chēng)面(miàn)向(xiàng)大(dà)场(chǎng)景(jǐng)多(duō)对(duì)象(xiàng)复(fù)杂(zá)对(duì)象(xiàng)的(de)新(xīn)一(yī)代(dài)人(rén)工(gōng)智(zhì)能(néng)理(lǐ)论(lùn)和(hé)算(suàn)法(fǎ)的(de)研(yán)究(jiū)。”在(zài)这(zhè)样(yàng)的(de)数(shù)据(jù)集里(lǐ)进(jìn)行训练的人工智能算法,一旦放在类似“万人跑马拉松”这样的壮观场景中,可能就力不从心了(le)。因(yīn)此,方璐带领团队构建了PANDA数据平台(全称GigaPixel-levelHuman-centricVideoDataset),具有大场景(平方千米级别范围)、高分辨(十亿像素级,支持百米对象识别)、多对象复杂关系(万级对象,尺度变化超百倍,遮挡关系复杂,交互行为丰富)的特点,填补了大场景下高密度群体对象数据平台的空白,为探索人工智能新理论和新方法提供了不可或缺的数据基础。

立足于人工智能技术,非结构光场智能成像技术为未来的光场成像技术指明了一条全新的赛道。谈到该技术的应用前景,方璐充满信心:“首先,我们会将技术从现在的宏观场景向微观场景普及,在未来会进一步向天文远观场景扩展,这背后的研发思路是一脉相承的。其次,人工智能算法还有待于进一步突破和推进:未来的成像目标是将性能做到极致,实现光速感知计算,这对于人工智能算法的要求是越来越高的。”

更多资讯内容!欢迎关注大数据官方微信()