中國AI又奪一冠,依圖在行為識別領(lǐng)域取得新突破!
來(lái)源:依圖科技 編輯:lsy631994092 2020-08-05 10:12:27 加入收藏 咨詢(xún)

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢(xún)內容: | |
驗證碼: |
|
繼蟬聯(lián)全球權威人臉識別競賽冠軍、先后刷新國際聲紋識別權威競賽(VoxSRC)紀錄、行人重識別(ReID)三大權威數據集之后,依圖在全球AI技術(shù)賽道再下一城,又攻下一個(gè)第一。
在權威機構ACM MM’20 Grand Challenge主辦的“大規模復雜場(chǎng)景人體視頻解析”挑戰賽中,依圖科技以大幅領(lǐng)先的成績(jì)拿下了“Track-4:行為識別”的第一名。
ACM是全球最大的計算機領(lǐng)域專(zhuān)業(yè)性學(xué)術(shù)組織,其評選的圖靈獎(A.M.Turing Award)被公認為世界計算機領(lǐng)域的諾貝爾獎。而ACM MM是全球多媒體領(lǐng)域的頂級會(huì )議,屬中國計算機學(xué)會(huì )(CCF)指定的A類(lèi)國際會(huì )議。
在此次挑戰賽中,包括 Amazon、騰訊、大華科技、中山大學(xué)等上百支參賽隊伍參與了超過(guò)56000個(gè)復雜事件下的人體行為(包括排隊、打架、俯身、同行、跑動(dòng)、滯留等)解析。視頻中行為識別是本屆比賽中的重點(diǎn)項目,目的是考察算法在復雜場(chǎng)景下對行為(包含多人追蹤、人體姿態(tài)、行為識別)的解析能力。
該賽事是該方向最接近真實(shí)場(chǎng)景的大規模挑戰賽,依圖科技奪冠的同時(shí),其背后的技術(shù)創(chuàng )新和對行為識別難題的攻克一時(shí)間備受關(guān)注。
行為識別究竟有多難?
如果把人臉識別比作醫院的“普外門(mén)診”的話(huà),行為識別尤其是人類(lèi)的行為識別,其復雜度和識別難度不亞于“心血管內科+神經(jīng)內科”。
場(chǎng)景復雜多變、動(dòng)作差異化大、需要捕捉連續動(dòng)作和長(cháng)時(shí)間動(dòng)作,這些對行為識別和分析都有著(zhù)巨大的挑戰,也就需要算法對行為本身有更精準的分析推理能力,甚至還能通過(guò)既定的場(chǎng)景推算未曾見(jiàn)過(guò)的場(chǎng)景。
結合此次比賽,行為識別是指以人為基礎單位,只分析人的行為,關(guān)注單人的動(dòng)作以及多人的動(dòng)作(例如:一起走路、奔跑、打架等)。學(xué)術(shù)界通常用frame mAP (f-mAP@avg)來(lái)作為行為識別的評價(jià)指標,f-mAP@avg代表的含義是以關(guān)鍵幀為單位,評判行為的位置與分類(lèi)是否準確;與學(xué)術(shù)界對行為識別的考察指標不同,此次競賽的評價(jià)標準是wf-mAP@avg,這意味著(zhù)更注重對難度較大的擁擠場(chǎng)景的考察,以及比較少見(jiàn)的動(dòng)作的識別,同時(shí)對于人體框的定位的精確性要求也更高。
深度優(yōu)化算法框架,算法性能極致提升
比賽中,依圖算法的指標達到了wf-mAP@avg 0.26,將以往學(xué)術(shù)界中的基準算法提升了近3倍。與舉辦了多次的國際競賽不同,這次競賽是首屆,參賽隊伍在賽前也無(wú)法了解識別的類(lèi)別、數據集的大小和識別的具體需求,要在短短一個(gè)多月的時(shí)間內,設計出最優(yōu)的算法, 并在眾多實(shí)力強勁的隊伍中達到世界第一,難度極高。
首先,視頻相較于圖像的行為識別更加復雜,且如何建模、視頻幀之間的相關(guān)性仍是學(xué)術(shù)界一直存在的難題。依圖認為,當應用場(chǎng)景明確后,在已知分析的對象是人體且明確知道要識別的類(lèi)別后,就可以針對性的進(jìn)行算法優(yōu)化,通過(guò)算法定制化來(lái)提升算法性能,解決以往不能很好解決的問(wèn)題。
與此同時(shí),如同一提到依圖大家就會(huì )想到多項人工智能技術(shù)挑戰的世界冠軍,由不同場(chǎng)景帶來(lái)的先驗知識和經(jīng)驗,有助于算法對行為的判斷。依圖此次創(chuàng )新性地將算法與場(chǎng)景進(jìn)行了深度結合。一方面創(chuàng )新性的從視頻中自動(dòng)提取到了準確豐富的場(chǎng)景信息,結合先進(jìn)的行人檢測、行人重識別算法,全面構建了人與人、人與場(chǎng)景、人與物之間在視頻中的關(guān)系;另一方面,借助多年來(lái)的算法積淀和對行業(yè)場(chǎng)景的理解,依圖對比賽中要求的特定的14類(lèi)任務(wù)進(jìn)行了深度算法優(yōu)化。
值得關(guān)注的是,不同于其他參賽隊伍,依圖此次沒(méi)有使用復雜的多模型融合策略,僅用單模型,借助強大的背景提取和分割算法,將行為的解析與場(chǎng)景結合,就大大降低了問(wèn)題難度,這也意味著(zhù)依圖仍可以進(jìn)一步通過(guò)融合多個(gè)模型提升算法性能。
依圖在相關(guān)行為上持續迭代,不斷積累,行為識別算法的性能已遠超比賽當時(shí)的算法性能。同時(shí),運用該技術(shù)落地實(shí)戰的項目難度也遠超比賽的數據集。
芯片+算法,加速AI技術(shù)落地
想象一下,未來(lái)運用該技術(shù)如何判斷一個(gè)都市夜歸人路遇劫匪而自動(dòng)報警?如何在家中老人倒地時(shí)讓及時(shí)預警并第一時(shí)間告知監護人?如何判斷一個(gè)生產(chǎn)線(xiàn)上的工人施工順序出錯并即刻發(fā)出告警?如何在一個(gè)視頻中對內容進(jìn)行精準理解,并為其貼上更合適的標簽使得能夠被更精準和更容易檢索到?
在依圖不斷開(kāi)拓AI新領(lǐng)域的版圖上,相信這些問(wèn)號背后的答案已逐漸清晰。此前,依圖科技自主研發(fā)的全球首款云端視覺(jué)智能芯片求索(questcore™),開(kāi)啟了算法設計與芯片設計相結合的時(shí)代。集合了高性能AI算法和芯片耦合設計優(yōu)化的芯片平臺,結合世界領(lǐng)先的行為識別算法的依圖,將更有利于賦能智能城市、安全生產(chǎn)、智能商業(yè)等領(lǐng)域,打造新一代AI基礎設施。
近日依圖還通過(guò)了由英國標準協(xié)會(huì )(即“BSI”)頒發(fā)的ISO/IEC 27701:2019隱私信息管理體系國際認證,成為國內首家通過(guò)認證的AI公司。認證由國際標準化組織(ISO)和國際電工委員會(huì )(IEC)聯(lián)合發(fā)布,是全球首個(gè)針對隱私信息管理的國際標準,也被公認為是最嚴格、權威的隱私信息管理標準。獲得該認證充分體現了依圖對數據隱私保護的堅持和持續踐行。
新基建趨勢下,各行各業(yè)加快數字化,提升各類(lèi)工作的智能水平成為剛需。作為目前國內唯一具有提供超大規模、復雜環(huán)境下億級規模城市的智能化運營(yíng)管理技術(shù)能力的人工智能公司,在硬核的技術(shù)實(shí)力和隱私保障上的不斷努力已形成一套“組合拳”,也即將加速解鎖更多的智能應用。
評論comment