|
驅(qū)動(dòng)中國2017年10月23日消息 隨著面部識(shí)別、圖像識(shí)別等計(jì)算機(jī)視覺技術(shù)在更多應(yīng)用場(chǎng)景的興起,已經(jīng)有技術(shù)公司嘗試讓機(jī)器學(xué)會(huì)做更深入的識(shí)別。像之前,eBay就嘗試讓用戶通過圖片來搜索商品,谷歌推出過寵物圖像識(shí)別功能。計(jì)算機(jī)視覺已經(jīng)將從靜態(tài)圖像領(lǐng)域,走向動(dòng)態(tài)視頻領(lǐng)域。
據(jù)外媒報(bào)道,日前谷歌公司推出了最新適配數(shù)據(jù)庫,希望通過推動(dòng)計(jì)算機(jī)視覺來識(shí)別視頻影像中人物的行為。這個(gè)數(shù)據(jù)庫被命名為“AVA”,意思是原子視覺行為,是一個(gè)由多個(gè)標(biāo)簽組成的數(shù)據(jù)庫,用戶可在視頻序列中進(jìn)行操作。未來,AVA數(shù)據(jù)庫將用于人類行為識(shí)別系統(tǒng)開發(fā),并對(duì)基于時(shí)空間隔標(biāo)簽的復(fù)雜行為進(jìn)行建模。
對(duì)于視頻中動(dòng)作的識(shí)別,由于多個(gè)動(dòng)作在同一時(shí)間由不同人發(fā)出,這種識(shí)別的難度就是視頻中各種場(chǎng)景的復(fù)雜重疊。谷歌軟件工程師大衛(wèi)羅斯表示,“要教會(huì)機(jī)器識(shí)別影像中人物的行為是發(fā)展計(jì)算機(jī)視覺的一大基本難題,但對(duì)于個(gè)人視頻搜索和發(fā)現(xiàn)、體育分析和手勢(shì)界面等應(yīng)用至關(guān)重要。”
AVA數(shù)據(jù)庫本質(zhì)上來看,它是一個(gè)被80個(gè)原子動(dòng)作標(biāo)注的YouTube網(wǎng)址,這個(gè)視頻庫中總共有5.8萬個(gè)視頻片段,包含了握手、擁抱、散步、踢腿、玩樂器等人類日常行為。谷歌希望對(duì)外開放這個(gè)數(shù)據(jù)庫可以改進(jìn)機(jī)器智能視覺工功能,可以做到理解人類行為動(dòng)作、并預(yù)測(cè)下一步動(dòng)作。
|


