“早在2010年的時(shí)候微軟Kinect出來后,僅僅3個(gè)月就銷售了800多萬臺,在我們看來3D視覺感知是革命性的方向,它實(shí)現(xiàn)了大腦人工智能的“耳眼”這一創(chuàng)新性功能。當(dāng)時(shí)我們就著手開始研究,沒想到一研究就長達(dá)5年之久,到2014年年底的時(shí)候,基本上把主要的技術(shù)障礙和算法難題給克服了。”華捷艾米CTO周曉軍說到。
2017年5月11日,手機(jī)攝像頭領(lǐng)域最具有影響力的智能終端產(chǎn)業(yè)峰會之手機(jī)產(chǎn)業(yè)創(chuàng)新大會在深圳舉行。在大會演講中,華捷艾米CTO周曉軍重點(diǎn)分享了3D視覺感知、自然語言交互解決方案,并從3D視覺、3D感知芯片、3D測量模組、3D視覺感知相關(guān)算法、3D視覺感知關(guān)鍵技術(shù)、3D視覺感知的移動設(shè)備、3D視覺應(yīng)用方向等多維度方案及市場應(yīng)用方式,華捷艾米的3D視覺方案引起業(yè)內(nèi)高度關(guān)注。
周曉軍還談到,“未來世界就是萬物互聯(lián),人工智能無所不在,而隨著人工智能算法的進(jìn)步,3D視覺算法的完善,帶有3D視覺的設(shè)備可以精確地進(jìn)行3D手勢識別、人體骨架識別、物體3D輪廓識別、人臉3D識別,并可以進(jìn)行空間計(jì)算與場景重構(gòu),并計(jì)算追蹤設(shè)備在空間中的運(yùn)動姿態(tài)等。”
筆者了解到,具備3D測量算法和芯片、人物提取、骨架識別技術(shù)和動作跟蹤等算法技術(shù)等全套軟硬件技術(shù)的公司只有三家:微軟、蘋果(收購了primsense)和華捷艾米。
周曉軍對筆者稱:“使用結(jié)構(gòu)光方式實(shí)現(xiàn)3D視覺有3個(gè)技術(shù)難點(diǎn)。其一是發(fā)射模組的光柵設(shè)計(jì),其二是3D測量算法,簡單點(diǎn)說就是激光器發(fā)射的紅外光經(jīng)過光柵形成一定模式的結(jié)構(gòu)光投射到物體之上,接收端采用紅外CMOS,拍攝到帶光斑的二維畸變圖像,通過算法生成3D深度數(shù)據(jù)。華捷艾米專門設(shè)計(jì)了一顆ASIC 3D測量的算法芯片,可以實(shí)時(shí)算出深度數(shù)據(jù)。”
要知道一旦攻克上述兩大難點(diǎn),便可以做出深度照相機(jī)。例如目前Intel等公司都可以做到深度照相機(jī)這一功能。
還有一個(gè)核心的問題便是骨架算法。據(jù)悉,它可以把人從背景中提出來,而3D測量芯片輸出的深度圖是骨架算法的輸入源,有了骨架算法,就可以快速識別人的動作、姿態(tài)、手勢等等。華捷艾米的骨架算法,可以同時(shí)并實(shí)時(shí)識別6個(gè)人,每個(gè)人20個(gè)關(guān)節(jié)點(diǎn),并且打破了微軟、蘋果(Primsense)對骨架算法的壟斷。
筆者現(xiàn)場了解到,華捷艾米的產(chǎn)品是最新的自主研發(fā)的3D視覺、自然語言交互解決方案,包括自主芯片、內(nèi)嵌3D測量的算法、骨架算法、手勢算法和其他應(yīng)用算法。華捷艾米能夠?yàn)橹悄苁謾C(jī)、機(jī)器人、VR/AR等行業(yè)用戶提供搭載智能3D視覺算法的深度攝像頭,從而為行業(yè)客戶提供一站式的只能3D視覺感知、自然語言交互解決方案。例如在應(yīng)用端,可運(yùn)用在三維人臉識別、醫(yī)療康復(fù)、教育、游戲和健身、看護(hù)陪伴、裝修裝飾、智能監(jiān)控、跳舞運(yùn)動、機(jī)器人、老人看護(hù)、運(yùn)用識別、自動取款機(jī)、虛擬換衣鏡等開創(chuàng)性的交互體驗(yàn)。
華捷艾米自主研發(fā)的3D視覺感知、自然語言交互解決方案,最大的優(yōu)勢在于,技術(shù)層面,有自主芯片、內(nèi)嵌3D測量的算法和應(yīng)用算法,特別是2代芯片可以達(dá)到90幀/秒,這是什么概念?通俗點(diǎn)講就是完全實(shí)時(shí)。
其次,華捷艾米的競爭優(yōu)勢在于其技術(shù)積累,要知道在其自主完整的3D視覺感知解決早期便已經(jīng)和國內(nèi)一線電視廠商均有合作,其深度攝像頭更是的克服了抗變形的難點(diǎn),而這一難點(diǎn)在算法中便已經(jīng)實(shí)現(xiàn)過濾。
其團(tuán)隊(duì)更是精英齊齊,有專門的芯片設(shè)計(jì)團(tuán)隊(duì)和算法研究團(tuán)隊(duì),在算法領(lǐng)域目前有20多位博士做相關(guān)研究,同時(shí)也和清華大學(xué)、中科院保持深度合作關(guān)系。
更值得一提的是,作為3D視覺領(lǐng)域非常重要的部件芯片,華捷艾米早在2014年便早已積極布局,獲悉,華捷艾米的一代3D測量芯片已經(jīng)量產(chǎn),該芯片可支持彩色攝像頭數(shù)據(jù)輸入,支持VGA分辨率,30FPS輸出,支持VGB深度圖、30FPS輸出;同時(shí)也支持QVGA深度圖,60FPS輸出,支持4路數(shù)字音頻輸入。
據(jù)筆者了解,華捷艾米手機(jī)芯片將于今年Q4量產(chǎn),其支持主流RGB攝像頭、1080P分辨率,拍照增強(qiáng)、美化、輸出3D人臉識別等功能;此外,在年底將內(nèi)置更多人工智能算法,應(yīng)用領(lǐng)域不僅持3D人臉識別,同時(shí)也支持摳圖、人體行為識別、語音、AR、人體與手持設(shè)備的配合等領(lǐng)域。
而遠(yuǎn)場語音識別,是基于線性(環(huán)形)矩陣麥克風(fēng)陣列的SSP技術(shù),有效抑制噪聲和混響,實(shí)現(xiàn)遠(yuǎn)距離(超過5米)語音采集和語音識別,可以通過語音對設(shè)備進(jìn)行精準(zhǔn)的遠(yuǎn)程語音控制,適用于智能家居、家電的交互場景。
毫無疑問,隨著3D攝像頭技術(shù)的不斷發(fā)展與創(chuàng)新行業(yè)應(yīng)用的推動,不僅在智能手機(jī)、機(jī)器人、金融領(lǐng)域還有人臉識別、安防、智能家居等領(lǐng)域都將在智能深度攝像頭的帶動下給我們帶來劃時(shí)代的交互新體驗(yàn)。


