基于大數據的AI適合制造業嗎?
發布時間:2022-02-16 www.xstr.xyz
吳恩達是人工智能(AI)和機器學習領域國際最權威的學者之一,最近一年里,他一直在提 "以數據為中心的AI" ,希望將大家的目光從以模型為中心轉向以數據為中心。
對于傳統企業來說,預訓練好的模型都是基于公開數據,在實際中往往派不上用場。但畢竟是傳統企業,上哪兒收集海量的特定數據來支撐訓練?
最近,吳恩達在接受IEEE Spectrum的一段專訪中,他談到了對基礎模型、大數據、小數據以及數據工程的一些感悟,并討論了人工智能領域下一個十年的風向,表達了“是時候從大數據轉向小數據、優質數據”的觀點。
"過去十年,代碼-神經網絡的架構已經非常成熟。保持神經網絡架構固定,尋找改進數據的方法,才會更有效率。"
關于小數據,吳教授認為,它同樣能夠有威力:"只要擁有50個好數據(examples),就足以向神經網絡解釋你想讓它學習什么。"
以下內容節選自采訪原文,由AI科技評論編譯。
問:過去十年,深度學習的成功來源于大數據和大模型,但有人認為這是一條不可持續的路徑,您同意這個觀點么?
吳: 好問題。
我們已經在自然語言處理(NLP)領域看到了基礎模型(foundation models)的威力。說實話,我對更大的NLP模型,以及在計算機視覺(CV)中構建基礎模型感到興奮。視頻數據中有很多信息可以利用,但由于計算性能以及視頻數據處理成本的限制,還無法建立相關的基礎模型。
大數據與大模型作為深度學習引擎已經成功運行了15年,它仍然具有活力。話雖如此, 但在某些場景下,我們也看到,大數據并不適用,"小數據"才是更好的解決方案。
問:您提到的CV基礎模型是什么意思?
吳: 是指規模非常大,并在大數據上訓練的模型,使用的時候可以為特定的應用進行微調。是我和斯坦福的朋友創建的術語,例如GPT-3就是NLP領域的基礎模型。基礎模型為開發機器學習應用提供了新的范式,有很大的前景,但同時也面臨挑戰:如何確保合理、公平、無偏?這些挑戰隨著越來越多的人在基礎模型上構建應用,會越來越明顯。
問:為CV創建基礎模型的契機在哪?
吳:目前還是存在可擴展性難題。相比NLP,CV需要的計算能力更強大。如果能生產出比現在高10倍性能的處理器,就能夠非常輕松建立包含10倍視頻數據的基礎視覺模型。目前,已經出現了在CV中開發基礎模型的跡象。
說到這,我提一嘴:過去十年,深度學習的成功更多的發生在面向消費的公司,這些公司特點是擁有龐大的用戶數據。因此,在其他行業,深度學習的"規模范式"并不適用。
問:您這么一說我想起來了,您早期是在一家面向消費者的公司,擁有數百萬用戶。
吳:十年前,當我發起 Google Brain 項目,并使用 Google的計算基礎設施構建"大"神經網絡的時候,引起了很多爭議。當時有位行業資深人士,"悄悄"告訴我:啟動Google Brain 項目不利于我的職業生涯,我不應該只關注大規模,而應該專注于架構創新。
到現在我還記著,我和我的學生發表的第一篇NeurIPS workshop論文,提倡使用CUDA。但另一位行業資深人勸我:CUDA 編程太復雜了,將它作為一種編程范式,工作量太大了。我想辦法說服他,但我失敗了。
問:我想現在他們都被說服了。
吳:我想是的。
在過去一年,我一直在討論以數據為中心的AI,我遇到了和10年前一樣的評價:"沒有新意","這是個錯誤的方向"。
問:您如何定義"以數據為中心的AI",為什么會稱它為一場運動?
吳:"以數據為中心的AI"是一個系統的學科,旨在將關注點放在構建AI系統所需的數據上。對于AI系統,用代碼實現算法,然后在數據集上訓練是非常必要的。過去十年,人們一直在遵循"下載數據集,改進代碼"這一范式,多虧了這種范式,深度學習獲得了巨大的成功。
但對許多應用程序來說,代碼 -神經網絡架構,已經基本解決,不會成為大的難點。因此保持神經網絡架構固定,尋找改進數據的方法,才會更有效率。
當我最開始提這件事的時候,也有許多人舉手贊成:我們已經按照"套路"做了20年,一直在憑直覺做事情,是時候把它變成一門系統的工程學科了。
"以數據為中心的AI"遠比一家公司或一群研究人員要大得多。當我和朋友在NeurIPS上組織了一個"以數據為中心的AI"研討會時候,我對出席的作者和演講者的數量感到非常高興。
問:大多數公司只要少量數據,那么"以數據為中心的AI"如何幫助他們?
吳:我曾用3.5億張圖像構建了一個人臉識別系統,你或許也經常聽到用數百萬張圖像構建視覺系統的故事。但這些規模產物下的架構,是無法只用50張圖片構建系統的。但事實證明,如果你只有50張高質量的圖片,仍然可以產生非常有價值的東西,例如缺陷系統檢測。
在許多行業,大數據集并不存在,因此,我認為目前必須將重點 "從大數據轉移到高質量數據" 。其實, 只要擁有50個好數據(examples),就足以向神經網絡解釋你想讓它學習什么。
問:使用50張圖片訓練什么樣的模型?是微調大模型,還是全新的模型?
吳:讓我講一下Landing AI的工作。在為制造商做視覺檢查時,我們經常使用訓練模型,RetinaNet,而預訓練只是其中的一小部分。其中更難的問題是提供工具,使制造商能夠挑選并以相同的方式標記出正確的用于微調的圖像集。
這是一個非常實際的問題,無論是在視覺、NLP,還是語音領域,甚至連標記人員也不愿意手動標記。在使用大數據時,如果數據參差不齊,常見的處理方式是獲取大量的數據,然后用算法進行平均處理。但是, 如果能夠開發出一些工具標記數據的不同之處,并提供非常具有針對性的方法改善數據的一致性,這將是一個獲得高性能系統的更有效的方法。
例如,如果你有10,000張圖片,其中每30張圖片一組,這30張圖片的標記是不一致的。我們所要做的事情之一就是建立工具,能夠讓你關注到這些不一致的地方。然后,你就可以非常迅速地重新標記這些圖像,使其更加一致,這樣就可以使性能得到提高。
問:您認為如果能夠在訓練前更好地設計數據,那這種對高質量數據的關注是否能幫助解決數據集的偏差問題?
吳:很有可能。有很多研究人員已經指出,有偏差的數據是導致系統出現偏差的眾多因素之一。其實,在設計數據方面也已經有了很多努力。NeurIPS研討會上,Olga Russakovsky就這個問題做了一個很棒的演講。我也非常喜歡Mary Gray在會上的演講,其中提到了"以數據為中心的AI"是解決方案的一部分,但并不是解決方案的全部。像Datasheets for Datasets這樣的新工具似乎也是其中的重要部分。
"以數據為中心的AI"賦予我們的強大工具之一是:對數據的單個子集進行工程化的能力。想象一下,一個經過訓練的機器學習系統在大部分數據集上的表現還不錯,卻只在數據的一個子集上產生了偏差。這時候,如果要為了提高該子集的性能,而改變整個神經網絡架構,這是相當困難的。但是,如果能僅對數據的一個子集進行設計,那么就可以更有針對性的解決這個問題。
問:您說的數據工程具體來講是什么意思?
吳:在人工智能領域,數據清洗很重要,但數據清洗的方式往往需要人工手動解決。在計算機視覺中,有人可能會通過Jupyter notebook將圖像可視化,來發現并修復問題。
但我對那些可以處理很大數據集的工具感興趣。即使在標記很嘈雜的情況下,這些工具也能快速有效地將你的注意力吸引到數據的單個子集上,或者快速將你的注意力引向100個分組中的一個組中,在那里收集更多數據會更有幫助。收集更多的數據往往是有幫助的,但如果所有工作都要收集大量數據,可能會非常昂貴。
例如,我有次發現,當背景中有汽車噪音時,有一個語音識別系統的表現會很差。了解了這一點,我就可以在汽車噪音的背景下收集更多的數據。而不是所有的工作都要收集更多的數據,那樣處理起來會非常昂貴且費時。
問:那使用合成數據會是一個好的解決方案嗎?
吳:我認為合成數據是"以數據為中心的AI"工具箱中的一個重要工具。在NeurIPS研討會上,Anima Anandkumar做了一個關于合成數據的精彩演講。我認為合成數據的重要用途,不僅僅表現在預處理中增加學習算法數據集。我希望看到更多的工具,讓開發者使用合成數據生成成為機器學習迭代開發閉環中的一部分。
問:您的意思是合成數據可以讓你在更多的數據集上嘗試模型嗎?
吳:并非如此。比方說,智能手機上有許多不同類型的缺陷,如果要檢測智能手機外殼的缺陷,那可能會是劃痕、凹痕、坑痕、材料變色或者其它類型的瑕疵。若你訓練了模型,然后通過誤差分析發現總體上它的表現很好,但在坑痕上表現得很差,那么合成數據的生成就可以讓你以更有針對性地解決這個問題。你可以只為坑痕類別生成更多的數據。
問:您可以舉例具體說明嗎?若一家公司找到Landing AI,并說他們在視覺檢查方面有問題時,您將如何說服他們?您又將給出怎樣的解決方案呢?
吳:合成數據生成是一個非常強大的工具,但我通常會先嘗試許多更簡單的工具。比如說用數據增強來改善標簽的一致性,或者只是要求廠家收集更多的數據。
當客戶找到我們時,我們通常會先就他們的檢測問題進行交談,并查看一些圖像,以驗證該問題在計算機視覺方面是否可行。假若可行,我們會要求他們將數據上傳到LandingLens平臺。我們通常根據"以數據為中心的AI"方法向他們提供建議,并幫助他們對數據進行標記。
Landing AI關注的重點之一是讓制造企業自己做機器學習的工作。我們的很多工作都是為了軟件的便捷使用。通過對機器學習的開發迭代,我們為客戶提供了如何在平臺上訓練模型,以及如何改進數據標記問題來提高模型的性能等很多建議。我們的訓練和軟件在此過程中會一直發揮作用,直到將訓練好的模型部署到工廠的邊緣設備上。
問:那您如何應對不斷變化的需求?如果產品發生變化或是工廠的照明條件發生變化,在這樣的情況下,模型能適應嗎?
吳:這要因制造商而異。在很多情況下都有數據偏移,但也有一些制造商已經在同一生產線上運行了20年,幾乎沒有什么變化,所以在未來5年內他們也不期望發生變化,環境穩定事情就變得更容易了。對于其他制造商,在出現很大的數據偏移問題時我們也會提供工具進行標記。
我發現使制造業的客戶能夠自主糾正數據、重新訓練和更新模型真的很重要。比如現在是美國的凌晨3點,一旦出現變化,我希望他們能夠自行立即調整學習算法,以維持運營。
在消費類軟件互聯網中,我們可以訓練少數機器學習模型來為10億用戶服務。而在制造業,你可能有10,000家 制造商定制10,000 個人工智能模型。所面臨的挑戰是,Landing AI 在不雇用10,000名機器學習專家的情況下,如何做到這一點?
問:所以為了提高質量,必須授權用戶自己進行模型訓練?
吳:是的,完全正確!這是一個全行業的AI問題,不僅僅是在制造業。例如在醫療領域,每家醫院電子病歷的格式略有不同,如何訓練定制自己的AI模型?期望每家醫院的IT人員重新發明神經網絡架構是不現實的。因此, 必須構建工具,通過為用戶提供工具來設計數據和表達他們的領域知識,從而使他們能夠構建自己的模型。
問:您還有什么需要讀者了解的么?
吳:過去十年,人工智能最大的轉變是深度學習,而接下來的十年,我認為會轉向以數據為中心。隨著神經網絡架構的成熟,對于許多實際應用來說,瓶頸將會存在于"如何獲取、開發所需要的數據"。以數據為中心的AI在社區擁有巨大的能量和潛力,我希望能有更多的研究人員加入!
采訪原文:
https://spectrum.ieee.org/andrew-ng-data-centric-ai