欧美优质美女网站_国产大片精品免费永久看nba_亚洲自拍与偷拍_精品久久久久久久久久久院品网_中文字幕日韩一区二区_欧美中文字幕在线_美女一区二区久久_夜夜嗨av一区二区三区免费区 _欧美一区二区在线不卡_日韩三级电影网址

數據是最重要的資產 云天勵飛王孝宇分享AI大規模產業化實踐經驗

2021年12月11日,由雷峰網 & AI 掘金志主辦的第四屆中國人工智能安防峰會,在深圳正式召開。

本屆峰會以「數字城市的時代突圍」為主題,會上代表城市AIoT的14家標桿企業,為現場和線上觀眾,分享迎接數字城市的經營理念與技術應用方法論。

在下午場的演講環節中,云天勵飛首席科學家王孝宇發表了精彩演講。

王孝宇認為,AI的研發模式有兩大關鍵點:一是用什么樣的數據訓練模型;二是模型如何基于數據得到更好的結果。

過去的研發模式大都以模型為中心,依賴專家,找數據、標注數據,然后讓AI博士調參,如同工業化時代的“擰螺絲釘”,導致AI無法大規模產業化。

同時,過去的研發范式,大都集中于用更好的技術建立更好的模型。但幾年之后,業界發現所用的技術越來越趨同,標準化的條件成熟了

事實上,對比不同研發模型,可以發現對AI研發和應用來說,高效地獲取最好的數據,比模型本身要重要得多。

究其原因是技術迭代快,容易被趕上,但數據迭代慢,因此如何在最短時間內得到可以使模型達到最優效果的數據集,這才是最重要的。

因此鑒于人力成本和模型標準化條件的成熟,云天勵飛在內部打造了一套標準化、流程化、平臺化的模型研發方式。

云天勵飛大規模算法研發的流程是:

第一步,獲取初始模型。通過分布式標注平臺定義任務,再利用被千億、百億級的數據訓練出來的大模型和無監督學習,配合少量數據的標注,得到不錯的初始模型。

第二步,數據迭代。在海量還沒有標注好的數據中,用技術、算法找到真正有用的數據,用主動學習算法做數據擇優。

第三步,模型訓練。在云天勵飛的平臺上用一鍵化方式,完成調整參數、數據挖掘等工作,降低對訓練模型人員的從業要求。同時讓數據、研發軌跡、開發技巧都沉淀在平臺上,動作可復用,流程可追溯,降低AI人員高流動性帶來的負面影響。

他認為視覺AI目前還處在拓荒階段,是一片沙漠,沒有變成綠洲,只有等到其變成綠洲時,才能“長”出很多AI企業,而云天勵飛建立的這套平臺,就是加速沙漠變綠洲的驅動底座。

以下是王孝宇演講全文,雷峰網AI掘金志作了不改變原意的整理與編輯:

很高興與大家一起分享云天勵飛從事AI研發十幾年來總結的一套模型研發范式,我這次的演講題目是——AI大規模產業化實踐。

首先做下自我介紹。我畢業之后去了硅谷,在NEC Labs做無人車、人臉方面的研究。2015年,我和另外幾人一起去洛杉磯,幫Snap公司創建了AI研究院。2017年,回國之后,我來到了云天勵飛。

2017年的時候,人工智能開始火爆起來,有非常多的應用,像聊天機器人、無人車、人臉識別,健康領域,智慧家居、AR等。但是只有人臉識別有人相信,其他的,不管是業界還是投資人,都認為是騙子,覺得做不出來什么東西。

時隔五年,再回頭來看行業,我覺得很有意思。聊天機器人在每個社交網絡平臺,像阿里、京東,現在在電商平臺上都有應用。無人車,慢慢也有Robotaxi的落地,現在也有很多企業在這方面興起。在健康領域,五年前我們還在討論IBM沃森的失敗,當時折騰了很大的動靜,但現在有很多這方面的優秀企業興起。

當時美國一些知名的AR公司也倒閉了,但現在很多公司把自己的名字改成元宇宙,又火了起來,AR又讓大家看到了希望。

這些變化其實印證了我的一個觀點:不要高估AI帶來的改變,也不要低估AI帶來的影響,我們是在這片沙漠里墾荒的一批人。

在墾荒的過程中,我們回過頭來看AI,落地應用的最大瓶頸是什么?

人才太貴了。

六年前,我們招聘AI博士的時候,給到40萬美金一年,光是養一群技術人員,每年的人力成本就是一個巨額數字。但是現在,這項成本正在降低,究其原因,是AI的研發模式發生了變化。

AI的研發模式,有兩個關鍵點。首先,有什么樣的數據訓練模型;其次,如何用各種技術基于數據來讓模型取得更好的效果。

過去,大家把重心放在模型上,需要數據就要找,不停標注,標注完以后,就是專家干的事了,天天調模型參數、損失函數、優化器,很多AI博士畢業之后就干這個事。

這個事其實跟工業化時代擰螺絲釘的工作沒太大區別,但沒有博士相關的學習經歷,還干不了這個事,所以很難規模化、產業化。

我們之前的研發范式,都是集中用更好的技術建立更好的模型上的,但現在不是那么回事了。

12月8日,Andrej Karpathy 發了一個推文,他是李飛飛的學生,畢業之后去了特斯拉,擔任無人駕駛總監。他說,現在的AI技術都趨同了,大家都一樣。

什么意思?

以視覺為例,五六年前,做自然語言處理的有一套技術,做圖像識別的也有一套技術,但是做了五年之后,大家發現做的技術是一樣的。不管是視覺、語音還是自然語言處理,大家用的都是同一套技術框架和模型架構來解決問題。

最近,機器學習領域的國際頂尖會議NIPS也提到:慢慢的,那些通用模型的結構,已經占據所有任務的主導地位了。

這有點像通信或編碼時期,大家剛開始是百花齊放的,后來慢慢的,大家都用同一套技術架構解決所有的問題,也就是走向了標準化階段。

如果把這兩個模型研發的過程放在一起做比較,我認為更重要的,不是模型有多好,而是數據有多優質。

有句話說得好:“巧婦難為無米之炊”,你的廚藝再好,沒有素材做不出任何東西,所以有好的數據才是最重要的。

在云天勵飛十多年的研發過程中,我們發現,如何高效地獲取最好的數據,比模型本身要重要得多。

因為技術是很容易趕上的,今天這個技術不行,可能再過三個月、六個月會有新技術出現,會不停地更新迭代。但數據的迭代效率往往沒那么高,而且我們也發現,在研發過程中,90%以上的時間是放在數據上的,而不是做模型。

由此帶來研發觀念的轉變:之前我們的觀念是招聘最好的人,開發最好的技術,達到最好的效果。但實際不是這樣的,如何在最短的時間內,得到可以使模型達到最優效果的數據集,這才是最重要的。

云天勵飛從創立到現在,從來沒有一個研發任務是,把數據收集好,模型做一遍就結束了,這個模型永遠要在用戶的實際場景中迭代。

怎么在實際場景中迭代?

需要在做的不夠好的地方,把數據收集起來。也就是說,數據集的分布會慢慢讓模型的精度達到最好。

云天勵飛對研發部門KPI的制定,不僅僅是訓練出了多少模型,或者說模型的精度是多少。而且明確把數據集的產生作為KPI的導向之一,它其實更重要。

優秀的開發者和一般的開發者之間,對數據的認知是不一樣的,優秀的開發者對數據有非常良好的認知,模型被數據cap得很明顯,在最短的時間內拿到最好的數據,才能做到最好的模型精度。

為什么說模型大規模生產?

因為現在面向城市治理算法的應用,已經不僅僅是幾個算法模型了。大家經常一看,有幾百個模型的需求,但企業不可能招幾百個人做這個事,所以需要大規模地跑這些技術,必須要有平臺化的東西進行研發。

所以云天勵飛在內部打造了一套標準化、流程化、平臺化的研發方式。

什么叫流程化?

流程化的英文叫Streamline。不需要切換上下文就可以把所有的事情做完,現在美國的創業非常流行這樣做,RPA也是同樣的思路,做機器人流程自動化,把業務的流程放在無縫銜接的框架下完成。

只有在這種情況下,效率才是最高的,不需要一會兒做這個事,一會兒做那個事,頻繁切換會影響工作效率。

標準化(standardization),把里面跟模型相關的非標準化的部分全部呈現在技術上,整個平臺上只剩下標準化的東西。

這樣做的好處是什么?容易學習,所以不需要博士做這個事情,可能本科生甚至是高中生就可以干這個事,從而把博士資源放在更緊要的地方。

平臺化(platform),這也是整個軟件行業的趨勢。

這張圖是我們大規模算法研發的流程:

第一步,搜集數據,這時候數據是沒有標注的。

第二步,做數據標注;

第三步,模型訓練;

第四步,data mining,有了初始模型后,在海量沒有標注的數據里找到可以提高性能的數據;

第五步,再進行標注。

如果把這個平臺分成三步,前兩步就是做初始模型的建立,后面就是做完整閉環,像飛輪一樣,它在不停地轉,每轉一次都可以得到更好的精度。這個轉法是在我們平臺上實現的,不需要專家級別的人專門來做。

第一步,獲取初始模型。

首先我們有分布式標注平臺,開發人員可以定義一個任務。比如做街道下水道井蓋有沒有被人拿走的檢測,也許我們會標注10-20個數據。

標注之后怎么辦?這是學術界和工業界很火的大模型和無監督學習。

為什么我們在這里面放了大模型和無監督學習?剛才我們講到,一開始我們想做井蓋被人拿走的事實檢測,我們一開始可能沒有這么多標注好的數據,可能只有100個,但數據標注的效率可能是萬分之一。

如果你想標1萬個這樣的數據,需要標1億個data,這個量非常大。怎么辦?

先標100個,為什么要用大模型和無監督學習配合這個數據去跑模型?就是為了讓你初始模型的精度達到最高。

無監督和大模型最好的方式,本來100個數據訓練出來的精度只有30%,用大模型和無監督學習的方法訓練之后,精度可以達到80%,那挖掘數據的效率可以提高10倍,也就是說我少標了10倍的數據,一切都是為了后面數據迭代的效率來做的。

為什么大模型和無監督學習可以提高這個性能?雖然它自己沒有標注數據,但它是被千億、百億級的數據訓練出來的,知道井蓋是什么樣的,這種特征的編輯其實已經實現了,再配合少量數據的標注,就可以得到一個還不錯的初始模型。

為什么要得到還不錯的初始模型?因為數據迭代的效率會更高,首先是為了第一步方便。

第二步,我們不說模型迭代,而是數據迭代,因為我們認為模型的訓練已經被標準化了,在平臺上,點個按鈕它就訓練好了,不需要有模型訓練的知識,我們專家的系統已經把它做好了。

所謂的數據迭代,就是在海量還沒有標注好的數據中,找到能夠提高模型性能的數據,進行主動學習。

傳統模型研發的范式是缺數據再去標,但發現標過來的數據跟以前的分布是一樣的,對模型的分布沒有太大用處。所以需要用技術、算法找到對自己真正有用的數據,右邊我們從海量數據中找出了9張有用的數據。

模型挖掘怎么做?在左邊平臺界面,點一個按鈕,選一個數據集,可以自動在這里面挖掘,從幾億的數據里找到幾張跟井蓋相關的數據做訓練,我們是用主動學習算法做數據擇優的。

數據迭代之后,要做模型訓練,在這個平臺上用一鍵化的方式去做,這就是我們花幾百萬招過來的博士應該干的事情,他們不應該天天調參數、挖數據,這些事情應該讓平臺去干。

這一步,只要你點訓練,它可以自動訓練,背后怎么訓練?是由開發者去開發的。但是在整個平臺上去進行操作的人,不需要知道大規模模型訓練,這降低了訓練模型人員的從業要求,只要他知道這是怎么回事,把數據拿進去就可以訓練,無代碼一鍵完成模型開發。

做這種平臺研發環境的好處是什么?數據沉淀在平臺上,動作可復用,流程可追溯。這里面有幾個界面:數據集管理、模型管理、任務管理。

數據集管理,就是一些標注好的數據集,以及挖掘、生成的數據集;模型管理,就是訓練好的模型;任務管理,可以是標注任務,也可以是挖掘任務,也可以是訓練任務,所有研發的軌跡全部停留在這里面。

為什么要做這個事?很簡單,因為人力成本太高,企業無法招聘太多人從事每一個算法的研發。有了這套平臺之后,我們可以實現非算法人員開發模型的方式,讓算法工程師做更高級別的技術,這些平臺話、流程化的事情,可交給一般的技術人員或者學生來做。

整個過程中,我們認為沉淀更多的是數據價值,這比模型的價值更大。

為什么數據的價值比模型的價值更大?

數據沒有了,模型是訓練不出來的,你不會再得到提高,即使得不到模型,數據在這兒,所以很容易再訓練一個模型出來。

數據的重要性遠遠高于模型的重要性,所謂持續性的研發,沉淀出來的是有價值的數據,而不是其他。

因為模型很容易重新訓練,或者用不同的數據迭代。但數據日積月累需要很長的時間。在整個平臺上,通過數據不停的挖掘、訓練、標注、迭代,會一輪一輪增加新的數據,為每個任務沉淀出非常優質的數據集。

也就是說,在這個平臺上,數據變成了最重要的資產。

另外,所有的開發技巧也沉淀到平臺上了。

如果大家搞研發管理,就會發現一個現象:部分人能做得特別好,部分人怎么都做不好。這是因為,任務、指令都是一樣的,但不同的人研發經驗是不一樣的。

人才的素質屬于不可控因素,如果把這套技術能力進行沉淀,每個模型研發過程都能實現可追蹤,這樣就能讓做不好的人,通過學習,把事做好。

這樣做的另一個好處是,不會因為人才流失導致既有的模型失效。

所有公司都會面臨人員流動這個問題,一位優秀員工離職之后,其模型很難復現,因為別人不知道這個模型怎樣迭代才達到現有的精度,上下銜接很困難,費時費力。

但是在這個平臺上,就不會出現問題。模型訓練過程中所做的所有數據的標注、操作,全部都在這個平臺上,主要進行相關操作,全部流程都可以重復,不需要重新做。

在座如果有做研發管理的,肯定會感覺這個東西用起來非常不錯。

現在,云天勵飛內部的研發,除了一些非常高難度的,或者非要人工介入的算法研發(如人臉),其他的算法研發全部依賴于大規模算法開發平臺。也就是說基本全部不需要算法工程師去做,都是標注人員在做。

以大堂搬運貨物檢測案例為例,每個工程師大概開發成本50萬,一個月的時間差不多5萬塊錢的投入,但現在只需要1個標注人員,5-7天就可以做完從0到實用部署。

為什么能力稍微差一點,時間反而縮短了?

這就是流程化,所有模型的訓練只在一個平臺上完成。以前的方式,來來回回對接的成本太高,但在這個平臺上,點擊挖掘,自動尋找,再點標注,尋找標注人物,后臺人員標注好,再點訓練,全部就完成了,整個流程即使和非常有算法經驗的工程師相比,這個平臺也有4倍以上的提升。

我們憑借這個平臺在深圳做了幾個項目,像龍華智能運算能力平臺。

這里面涉及的算法有上百個,公司不可能在短期內招聘幾百個算法人員進行研發,因為這套平臺當時還沒有做得完備,所以讓2個算法人員、10個標注人員,在6個月的時間把20多個算法開發全部完成了,成本也降低了很多。

為什么它需要這么多的算法?

這其實是整個城市管理思路的轉變:以前是巡視型管理,需要實地巡查,才能發現、處理;現在布置相關攝像頭,就能在后臺發現,從而解決。

這種管理思路的轉變,需要大量算法技術能力的支撐。云天勵飛在龍崗算法倉做了一個項目,也是算法訓練與賦能平臺,這里面也有上百種算法的需求。

需要強調的是,這套研發平臺沒有犧牲模型的精度,不同的人群訓練這套模型沒有太大差別,因為在這個平臺里,可以通過主動學習算法,基于數據集做快速迭代,從而得到比較高的檢測精度。

最后提一點,云天勵飛為什么要建立這套平臺?

從行業看,視覺AI還處在拓荒階段,仍然是一片沙漠,沒有變成一片綠洲,只有等到它變成綠洲的時候,才能長出一顆顆參天大樹,長出許多AI企業。

城市治理對于算法的需求是成千上萬的,每個算法都靠有經驗的人員去開發,成本會非常高昂,因此云天勵飛開發了這套系統,縮減成本的同時,加快AI應用的進程。

可以設想,未來的城市,有一張網絡可以檢測方方面面,所有的事件都可以在城市大腦里解決。

這背后的技術邏輯是,算法可以做智能調度。比如對著大海的攝像頭,不用把汽車檢測的算法集成到攝像頭上,當城市擁有一萬種算法時,可以在不同場景下,調度合適的算法,來解決問題。

云天勵飛的愿景是,通過知識圖譜和整個平臺的研發,讓城市超腦實現自我進化,從而達到更高的智能化水平。

值得一提的是,云天勵飛的自進化城市智能體的思路,已經被寫入深圳市政府工作報告中。

(0)
上一篇 2021年12月31日 19:00
下一篇 2021年12月31日 19:27
欧美优质美女网站_国产大片精品免费永久看nba_亚洲自拍与偷拍_精品久久久久久久久久久院品网_中文字幕日韩一区二区_欧美中文字幕在线_美女一区二区久久_夜夜嗨av一区二区三区免费区 _欧美一区二区在线不卡_日韩三级电影网址
国产精品18久久久久久vr| 亚洲国产成人91porn| 亚洲品质自拍视频| 欧美激情综合网| 日本不卡一区二区| 欧美日韩成人激情| 欧美日韩国产不卡| 亚洲一线二线三线视频| 欧美妇女性影城| 成人午夜免费av| 欧美专区日韩专区| www.成人网.com| 精品亚洲porn| 91福利国产精品| 在线免费av一区| 日韩精品一区二区三区中文精品| 久久综合九色综合97婷婷女人| 91极品视觉盛宴| 99re8在线精品视频免费播放| 欧美一级视频精品观看| 亚洲私人黄色宅男| 91麻豆精品国产| 国产成人aaaa| 91成人网在线| 欧美日韩aaaaaa| 欧美亚洲动漫另类| 亚洲成人自拍网| xfplay精品久久| 亚洲18色成人| 91丨国产丨九色丨pron| 国产日韩欧美不卡| 99re66热这里只有精品3直播| 国产在线视频一区二区三区| 欧美羞羞免费网站| 亚洲综合男人的天堂| 亚洲成a人v欧美综合天堂| 日韩一级在线观看| 国产jizzjizz一区二区| 午夜视频一区二区三区| 伊人夜夜躁av伊人久久| 欧美日韩亚州综合| 成人sese在线| 久久黄色级2电影| 免费日韩伦理电影| av一区二区三区| 亚洲三级在线免费观看| 国产女同互慰高潮91漫画| 国产91露脸合集magnet| 亚洲午夜私人影院| 成人精品gif动图一区| 亚洲一区二区av电影| 国产精品久久久久久久裸模| 91在线国产福利| 久久婷婷成人综合色| 高清不卡在线观看av| 狠狠色狠狠色综合日日91app| 久久蜜桃av一区精品变态类天堂 | 精品国产乱码久久| 狠狠色狠狠色综合| 国产成人精品亚洲777人妖| 在线观看日韩一区| 国产精品天天看| 国产精品伦理一区二区| 久国产精品韩国三级视频| 91国产丝袜在线播放| 久久日韩精品一区二区五区| 欧美色欧美亚洲另类二区| av中文字幕不卡| 日韩影视精彩在线| 免费成人你懂的| 国产一区999| 国产传媒日韩欧美成人| 精品免费一区二区三区| 成人毛片老司机大片| 美女网站在线免费欧美精品| 欧美亚洲高清一区| 高清在线成人网| 久久久久久亚洲综合| 日韩欧美在线一区二区三区| 亚洲欧洲另类国产综合| 国产一区二区三区高清播放| 一本久久综合亚洲鲁鲁五月天| 欧美综合色免费| 日韩精品一级中文字幕精品视频免费观看 | 91精品国产综合久久久久久久久久| 不卡一区在线观看| 日韩免费高清av| 亚洲色图19p| 欧美精品一卡两卡| 亚洲激情在线播放| 国产午夜一区二区三区| 欧美一区三区四区| 日韩视频免费直播| 日韩欧美成人激情| 精品乱码亚洲一区二区不卡| 久久综合精品国产一区二区三区| 蜜桃av噜噜一区| 成人免费观看男女羞羞视频| 日韩欧美国产精品| 国产精品久久久久影院亚瑟| 亚洲综合区在线| 欧美日韩一区二区三区四区五区| 欧美图区在线视频| 亚洲乱码精品一二三四区日韩在线 | 久久精品99国产精品日本| 欧美久久久久免费| 亚洲国产aⅴ天堂久久| 51精品视频一区二区三区| 国产精品一区免费在线观看| 亚洲国产一二三| 国产精品资源网站| 不卡欧美aaaaa| 日本不卡一二三| 欧美日韩精品一区二区天天拍小说| 精品一区二区日韩| 色88888久久久久久影院野外| 国产精品一二三| 亚洲色图欧美偷拍| 国产亚洲成年网址在线观看| 久久免费国产精品| 欧美影院一区二区三区| 不卡的av在线| 欧美日韩一本到| 精品乱人伦小说| 91精品国产综合久久久久| 国产精品二区一区二区aⅴ污介绍| 精品久久五月天| 国产亚洲成年网址在线观看| 中文在线免费一区三区高中清不卡| 国产午夜一区二区三区| 亚洲免费在线观看视频| 天天影视网天天综合色在线播放| 久久精品国产一区二区| 大胆亚洲人体视频| 欧美日本在线播放| 亚洲国产成人午夜在线一区| 亚洲最色的网站| 国产精品一区二区免费不卡| 色婷婷激情一区二区三区| 日韩一卡二卡三卡四卡| 中国av一区二区三区| 轻轻草成人在线| 91香蕉视频在线| 日韩你懂的在线观看| 亚洲黄色小视频| 国产一区二区免费视频| 欧美剧在线免费观看网站| 中文字幕精品在线不卡| 青青草原综合久久大伊人精品优势 | 色94色欧美sute亚洲线路一ni| 欧美高清精品3d| 亚洲伊人色欲综合网| 成人免费视频国产在线观看| 日韩一区二区在线观看视频 | 国产视频一区在线观看| 日韩精品成人一区二区在线| 91看片淫黄大片一级在线观看| 精品国产乱码久久| 亚洲成人综合在线| 在线观看日韩电影| 亚洲精品国产成人久久av盗摄 | 精品国产亚洲一区二区三区在线观看| 樱花草国产18久久久久| 99riav久久精品riav| 久久日一线二线三线suv| 免费观看日韩电影| 欧美一区二区免费视频| 午夜视频一区在线观看| 欧美美女一区二区在线观看| 亚洲成人动漫在线观看| 欧美日韩黄色一区二区| 亚洲一区二区三区中文字幕在线 | 欧美日韩激情在线| 亚洲妇熟xx妇色黄| 制服.丝袜.亚洲.另类.中文| 日本免费新一区视频| 精品日韩欧美在线| 国产综合一区二区| 欧美国产综合一区二区| www.欧美色图| 亚洲午夜久久久久久久久电影院| 欧美主播一区二区三区美女| 亚洲成人tv网| 久久综合九色综合欧美亚洲| 九色porny丨国产精品| 欧美国产精品专区| 欧美在线观看视频一区二区 | 亚洲精品精品亚洲| 欧美高清你懂得| 激情五月播播久久久精品| 国产网站一区二区三区| 色综合久久九月婷婷色综合| 亚洲bt欧美bt精品777| 精品处破学生在线二十三| 不卡电影一区二区三区| 丝袜国产日韩另类美女| 欧美经典一区二区| 欧美精品丝袜久久久中文字幕| 国产一区美女在线| 午夜精品久久久久久久|