隨著科技的發(fā)展,人工智能已成為我們生活中不可或缺的一部分。而深度學習作為人工智能的一種重要技術手段,正日益受到重視和廣泛應用。與此同時,人工智能的應用也正在不斷地拓展,例如像ChatGPT這樣的自然語言處理技術,能夠讓人機交互更加智能化。在中國,有著眾多的深度學習專家,他們?yōu)槿斯ぶ悄艿陌l(fā)展做出了杰出的貢獻。其中,周毅敏作為國內(nèi)杰出的深度學習專家,一直致力于推動深度學習技術的發(fā)展和應用。在本篇報道中,我們將采訪周毅敏博士,了解他對深度學習的看法,以及他在這一領域中的成就和經(jīng)驗。
周毅敏博士畢業(yè)于同濟大學應用計算機科學與技術,研究方向包括機器學習、人工智能、深度學習以及圖像處理和自然語言處理等領域。他曾在多家知名公司和大學從事深度學習和人工智能方面的工作,擁有豐富的實踐經(jīng)驗和技術能力。周毅敏博士目前在世界一流的芯片公司擔任深度學習工程師,研究著深度學習最前沿的圖像技術。回顧過去十多年,周毅敏博士發(fā)表了多篇高水平的論文,在機器學習和人工智能領域取得了顯著的成就。
自2010年致力于研究深度學習賦能計算機專業(yè)藝術家的審美和思維模式,周毅敏提出行業(yè)領先的圖像美學評分方法。
美學是一個主觀的概念,具有很強的個體差異性和文化差異性。美學評價涉及到多個因素,包括構圖、色彩、紋理、對比度等,這些因素之間相互影響,同時也受到主題和情感等因素的影響。不同的人對于同一幅圖像可能會有不同的美學評價。因此,如何將主觀的美學感受量化和計算,建立合適的美學評價模型是一個難點和挑戰(zhàn)。
周毅敏研究的圖像美感質量評估是“計算美學”研究的重點方向。從深度卷積神經(jīng)網(wǎng)絡DCNN(Deep Convolutional Neural Network)出發(fā),基于GoogLeNet模型周毅敏優(yōu)化了圖像分類識別效率和能力,提出具有深度和寬度卷積神經(jīng)網(wǎng)絡的照片美學分類器,可以更好地描述圖像的美學信息,取得了更好的美感分類效果,是行業(yè)領先的圖像美學評估方法。該方法在世界最流行的圖像數(shù)據(jù)集DPChallinge.com實驗中,正確分類精度接近90%,高達87.10%。實驗結果顯著優(yōu)于當時已有技術,與人類的視覺感知和審美判斷已經(jīng)基本一致。
周毅敏使用卷積神經(jīng)網(wǎng)絡對圖像進行分類,過程中采用了帶有補丁的圖像作為訓練標簽,并通過微調網(wǎng)絡對其進行訓練。經(jīng)過第一卷積層濾波后,得到特征圖,隨后通過最大池化層對特征圖進行降維處理。接下來,經(jīng)過彼此連接的第二和第三卷積層進行進一步過濾,然后進入了九個初始模塊,控制計算復雜性來避免算法失控。隨著初始模塊和更深的逐層卷積結構,該方法顯著提高了識別率。此外,周毅敏還添加了兩個輔助分類器以提高精度,并在在深度神經(jīng)網(wǎng)絡中的最后一層使用了雙向多類別分類器softmax來進行分類。最終,softmax將圖像分類為“高審美價值”或“低審美價值”,實現(xiàn)了使用卷積神經(jīng)網(wǎng)絡對圖像進行分類的目標。
周毅敏在模型訓練方面還采用了雙線性插值圖像縮放技術將來自數(shù)據(jù)庫的輸入圖像縮小到256×256,并從每個圖像獲取中間、四角、翻轉等10處圖像特征信息,形成圖像特征訓練數(shù)據(jù)集用于訓練模型,以提高模型的準確性和魯棒性(Robustness)。
2018年前后在Penn State University息科學與技術學院人工智能研究實驗室,周毅敏率先開創(chuàng)了一種利用知識圖譜改進圖像字幕的全新理論,具有行業(yè)前瞻性和較高的研究潛力。
在計算機科學人工智能領域中,System1與System2廣為人知。System1可以描述為自動化系統(tǒng),可以快速地完成簡單的任務,并能夠自主適應變化。例如,自動駕駛汽車中的一些基本控制系統(tǒng)可能被歸類為System1。System2可以描述為更為復雜的計算機系統(tǒng),需要進行更加深入的計算和思考,例如圖像識別、自然語言處理等任務。將人工智能從System1推進到System2意味著更加深入的計算和思考,需要更多的資源和時間。
由于計算機對于圖像的理解是基于像素級別的信息,因此如何將圖像的高層次語義信息融入人工智能System2依然是一個行業(yè)難點。簡單來說,從一張照片可能包含了某種情感、故事情節(jié)等高層次信息,如何從圖像中自動提取這些信息是一個巨大挑戰(zhàn)。周毅敏率先提出了使用知識圖譜關聯(lián)背景信息,輔助計算機聯(lián)想能力進行美學評價的圖像字幕方法。
知識圖譜已經(jīng)廣泛應用于信息檢索、問題解答等領域,被證明與背景知識結合的方法是有用的。周毅敏創(chuàng)新結合知識圖譜提出增強型神經(jīng)圖像字幕系統(tǒng)(CNetNIC)采用神經(jīng)圖像字幕(NIC)方法,通過訓練卷積神經(jīng)網(wǎng)絡(CNN)進行圖像處理,得到圖像編碼為固定長度的向量空間表示或嵌入,并使用向量空間嵌入來指定遞歸神經(jīng)網(wǎng)絡(RNN)的初始狀態(tài)。再訓練遞歸神經(jīng)網(wǎng)絡(RNN)先使用對象識別模塊訓練生成圖像特征的向量空間嵌入,以圖像作為輸入,生成與場景中的對象相對應的一組術語作為輸出。?再使用外部知識圖譜ConceptNet常識知識庫,通過圖譜獲取常識關系邊緣連接的自然語言單詞和短語,用于推斷與聯(lián)想由對象識別模塊在場景中發(fā)現(xiàn)的對象的單詞直接或間接相關的兩組術語。最后,利用術語的向量空間嵌入以及圖像特征來指定基于LSTM的遞歸神經(jīng)網(wǎng)絡(RNN)的初始狀態(tài),以產(chǎn)生輸入圖像的字幕。
實驗結果表明,周毅敏設計的CNetNIC圖像字幕系統(tǒng)的BLEU、METEOR、ROUGEL性能指標優(yōu)于當時最先進的圖像字幕系統(tǒng)。結合知識圖譜關聯(lián)提取背景信息后,改進的圖像字幕處理技術方法顯著優(yōu)于現(xiàn)有不使用知識圖譜的技術方法。并且與知識庫相結合的ConceptNet使得其生成的圖像字幕更加接近于人類思維的字幕描述。
由于知識圖譜信息數(shù)據(jù)量和計算機算力的局限性,計算機聯(lián)想還不能擁有與人類一樣或者優(yōu)于人類思維范圍和效率的想象力。但是隨著科技的發(fā)展,這類瓶頸一定會隨著軟件和硬件的提升而優(yōu)化。
現(xiàn)役公司北美總部團隊半年一籌莫展,周毅敏三個月從0到1取得突破,獨立推進深度學習框架搭建,挑戰(zhàn)行業(yè)頭部Apex框架技術。
Apex是全球知名半導體公司開發(fā)的,當下全球最流行的開源軟件庫,能夠實現(xiàn)增加運算速度、減少顯存的占用的同時不降低性能。然而,該框架技術采取了硬件綁定銷售的商業(yè)模式,使用Apex必須相應地配置該半導體公司的硬件系統(tǒng),形成了壟斷壁壘。
為打破市場的壟斷競爭優(yōu)勢,周毅敏所在的公司立項開發(fā)符合公司自身半導體硬件的深度學習框架。但是項目在啟動初期便遇到了眾多難題,首先,針對CUDA PTX(一種GPU匯編語言)中實現(xiàn)FMHA的操作邏輯的復雜度超越了項目團隊的想象。其次,公司自身圖形處理器(GPU)架構的匯編語言與CUDA PTX完全不一樣。最后,處理大量內(nèi)聯(lián)組件和支持波前多線程矩陣乘法(MFMA)操作也存在技術實現(xiàn)難題。
這些問題涉及到深度學習框架的底層編程,需要開發(fā)人員對硬件架構和底層指令的理解非常深入,并且需要掌握不同的編程技術才能進行深度學習框架的開發(fā)。因此,困難重重使得公司北美團隊歷時半年都沒能夠推進項目前進半步。
既然CUDA PTX導致了那么多問題,那么就從這里入手。周毅敏創(chuàng)新提出拋開CUDA PTX匯編,使用公司GPU匯編純實現(xiàn)FMHA。周毅敏一人集中精力研究公司GPU底層匯編邏輯,利用GPU在匯編層面的優(yōu)勢減少同步次數(shù),利用內(nèi)聯(lián)匯編減少編譯器生成的冗余代碼,這兩項內(nèi)容都是十分耗時。周毅敏通過重新編寫匯編指令來最大程度地利用硬件性能,以實現(xiàn)FMHA調用底層硬件的時候解除對原本CUDA PTX匯編語言的依賴,是該公司移植內(nèi)聯(lián)匯編的第一人。
周毅敏的解決方案大大提高了訓練基準模型的速度,從而保障公司GPU產(chǎn)品與市場上的同類產(chǎn)品保持競爭力,并擴大其適用性?,F(xiàn)在,由周毅敏與編譯器團隊一同繼續(xù)進行該項目的研發(fā),以實現(xiàn)項目最終的完成和落地,預期超越行業(yè)領先的深度學習框架。未來,該項目的成功將為公司在深度學習領域的發(fā)展奠定堅實的基礎,提高公司在該領域的聲譽和市場地位。隨著深度學習在各個行業(yè)的應用不斷擴大,該項目的成功還將為公司帶來更多的商業(yè)機會和潛在客戶。
周毅敏將繼續(xù)努力奮斗在深度學習的最前線,推進項目的研發(fā)和落地,并不斷尋求創(chuàng)新和優(yōu)化的機會,以滿足不斷變化的市場需求和客戶需求。同時,他們也將積極探索和研究其他新技術和新算法,以保持在行業(yè)內(nèi)的領先地位,并為公司的未來發(fā)展打下更堅實的基礎。
相關稿件