百度自動駕駛首席架構師陳競凱:自動駕駛的現狀及發展 | 北大AI公開課筆記...
主講人:陳競凱 | 百度自動駕駛首席架構師
整理:陳銘林 俞晶翔
量子位 出品 | 公眾號 QbitAI
4月4日週三晚,北京大學“人工智慧前沿與產業趨勢”第六講,本期百度自動駕駛首席架構師陳競凱授課主題為“自動駕駛的現狀及發展”,分享了自動駕駛的歷史、自動駕駛的分級、目標,相關硬體設施等相關內容。
全程深入淺出地拆解相關技術知識,乾貨滿滿,量子位作為獨家合作媒體,為大家帶來詳細課程筆記一份。
課程導師:雷鳴,天使投資人,百度創始七劍客之一,酷我音樂創始人,北京大學信科人工智慧創新中心主任,2000年獲得北京大學計算機碩士學位,2005年獲得斯坦福商學院MBA學位,同時也是“千人計劃”特聘專家。
主講嘉賓:陳競凱,百度自動駕駛首席架構師;2002年畢業於北京大學計算機系,碩士。
自動駕駛的歷史
自動駕駛是一個很有趣的領域,歷史也相對較久。
自動駕駛的首次嘗試大概是1925年,Francis P. Houdina製作了一個無線電遙控汽車,能遠端控制方向盤,當時還在紐約的大街上測試過。從汽車發明到自動駕駛的首次嘗試不過30年。
現在有公司也在做類似的事情,叫遙控駕駛。跟1925年的首次自動駕駛嘗試相比,本質沒有區別,唯一的不同是:1925年的遙控駕駛,需要人在現場看著路;而現在的自動駕駛,人是在幾千公里以外,通過網路來掌控,但本質都是遙控。
到1939年左右,通用公司提出了未來城市的計劃:城市裡使用無線電遙控的汽車。雖然計劃失敗,但這個方向很火熱。目前談論的港口自動駕駛和當時未來城市計劃的源頭是類似的,都是在駕駛上將人的功能弱化。
真正和現代的無人駕駛定義類似的是1969年,人工智慧之父約翰·麥卡錫寫了一篇類似電腦加速汽車的文章,這個設想與現代很相似:攝像機通過電腦進行操控汽車,到現在為止,路況上跑的車也是同樣的套路。
在汽車工業界,1992年三菱做了第一輛量產的輔助駕駛ACC,在Debonair,當時使用鐳射雷達控制油門,但沒有控制剎車。
現在整個汽車工業界在無人駕駛技術的積累很深厚,像博世,像Dywalter等公司,他們真正能夠製造自動駕駛所需的硬體。
自動駕駛分級
一輛汽車在行駛中,主要是控制速度和方向。關於分級的解釋是:
L0:指什麼都不控,只會輔助警告。
L1:只控制一個,比如油門或剎車,以此來控制速度。
L2:控制兩個,一般是油門和剎車,其要求是駕駛員必須時刻保持注意力。
L3:保證駕駛者有足夠的時間應對到來的問題。即使駕駛員睡著了也能將其叫醒,或者為保證安全進行靠邊停車,這可以保證有一段路是可以放鬆的,人不需要從頭開到尾。只有做到了L3 級別,才算是真正走上了便利的路線,否則都是有風險的。
目前市面上只有奧迪A8做到了L3,但是卻有很多限制條件,例如必須是在擁擠的車輛中,跟隨前面車輛,時速也不能超過60公里。
L4:在特定的區域,從頭到尾不用人干涉。但是受到環境的限制,L4不一定比L3厲害。
L5:是自動駕駛的終極目標,不限場所,隨便開。
分級代表著很重要的技術路線,不同級別不僅承諾目標不一樣,而且市面上大規模應用,成本與技術也不一樣。
自動駕駛目標,不同級別的目標定義不同,比如L3定義駕駛室一定要有人;L4 是很安全的,做決定的不是開車的人,是程式。
從整個交通系統這種更巨集觀的考慮來說,道路交通系統就是人為設計的系統,這個系統在設計時會考慮當時的一些狀況。無人駕駛的加入對整個系統的影響和幫助,會考慮這整個系統,怎麼去配合會更加高效環保。所以我們在無人駕駛上,也要往高效環保上靠近。
自動駕駛系統的組成部分
基礎構成
人開車,要有眼睛,一般是雙眼,這樣能得到深度的資訊,有了深度資訊,單目和閉目也能開。然後雙手和腳,分別控制方向和剎車,還有大腦的配合。
自動駕駛就是用雙目系統做感知,計算系統做處理,執行機構做控制,一般來說就這三個系統,這三個系統會涉及到很多具體的東西:感測器、計算和控制等等。
控制這塊涉及少,但也不簡單,比如轉向機與電機接在一起進行控制。剎車系統取決於多久能踩下去,測量人的剎車響應時間,依據人不同的狀態在600ms左右1.4秒剎車系統一定要比人快,比如需要100ms的響應時間,這樣才能保證安全。
計算現在會越來越便宜,但平常使用的與車上的不一樣,有兩個問題:車上有能耗的限制;如何合理佈置計算系統。
自動駕駛硬體方面:感測器、鐳射雷達、攝像頭、超聲波等等。聲波一般是用在慢速的道路場景中。主流的自動駕駛,一般是毫米波雷達,鐳射雷達和攝像頭做的多一點。不同的廠商技術路線不一樣。
汽車這個行業安全第一,所以一定是多感測器組合的。很多公司也在實驗上測試難易,比如以色列的Mobileye,專門是做輔助市場,主要技術是在影象上,是計算機視覺,他們單用12個攝像頭就可以做到L4的實驗,但到現在都沒有量產。
攝像頭的兩個主要問題是:對光的要求很高,運算要求也較大。Lidar解析度太低會導致區別度不夠,另一方面是太貴。在惡劣天氣下,例如霧霾天氣,這些攝像頭都不怎麼好使,但是毫米波可以適應這些天氣,但是毫米波的最初設計是做ADAS,其在檢測時,會經常出現很多虛假報警,現在有一些創業公司在探索適合L4的radar方案。
對於立足做L4的公司一般是所有感測器都加進去,因為最後算成本剔除掉人的因素後,還是划算的。但是做L3以下的公司,例如都是精打細算,因為要加入人的成本。
個人體會:雙目路線是很有價值的,但主要難點是在匹配上。
但是說到單目實驗,就個人體驗來說,自己一隻眼睛開車基本也是行的,因為人有多先驗知識,人的眼睛有自動聚焦,看遠還是看近物體大小是不變的,所以基本能識別物體的大小。
我們在做影象識別的過程中,不僅需要將影象框出來,而且要給出一個距離資訊,這些可以通過CNN模型檢測出來。人的話,一隻眼睛也能開車,因為人的大腦長時間在接受兩隻眼睛的訓練,所以人單眼也能開,只是不習慣。
人能不經思考就能解決的問題,人工智慧一般也能解決。聽和看,基本是不動腦子的,而自動駕駛之所以能做,也是因為人在開車也基本只用聽和看,也不用動腦子的,所以我認為是可實現的。
感測器路線
回到技術來說,不同問題的應對措施是不一樣的。交通系統本身是人為設計的系統,一開始沒有人就非常簡單,就像港口的系統,因為沒有人,車開到哪裡就排程到哪裡,只要能控制行車精度就行,現在的技術能控制在10cm左右。在這個精度上做一個排程系統是很容易的。但是加入了人這個因素後就複雜了,人不可控因素太多,增加了難度。
我們認為未來的交通一定是無人的,無人的駕駛系統就會變得像港口一樣的結構,只需要簡單的感測器系統就能排程。
感測器為什麼需要做識別,只需要讓車告訴駕駛人員自己的位置,聯網上報車輛的座標,這樣就不需要做複雜的檢測,變成了純粹的駕駛系統。這種聯網上報的好處是可以時刻有一個系統在輔助你開車,監控駕駛人員,這樣人就會很守規矩,也會把駕駛變得簡單。
未來趨勢,攝像頭佈滿城市公共場合的角落。這樣人就會有被監督的感覺,從而規範自己的行為,也許這是一種更加高效的社會治理方案。那問題來了,是在汽車上是裝很多感測器,還是在路上佈置一些感測器。
計算的流派
曾有一個朋友說,“看車是否高檔,只要把車蓋子掀開,看裡面的線,線越多越高檔。”因為它裝了很多計算裝置,傳統的汽車配件都是獨立的,每一個功能都一個單獨連線。為防止浪費,有人嘗試集中式,但是集中後又會帶來新的可靠性的問題,而且在汽車系統是分層的,一些是重要的,一些是不重要的,但這些共享在同一個系統裡,也會有問題。而對於自動駕駛,從頭到尾都是一個系統都很重要。
總所周知,AI的計算量大是非常耗電的,這樣對車來說不合理。所以怎麼把計算給降下來,是一個很大的問題。
可以用專用的裝置進行計算,這方面有很多流派:有些可以把計算安置在邊緣部分,做智慧感測裝置,例如雷達,這樣中心計算可以省一點。目前我們的判斷,將來一定是一個混合式的,邊緣計算的缺陷,是缺少感測器的相互互動。如果能夠精確的同步,就可以得到更加豐富的資訊,以此來做計算,這個很可能是未來的趨勢。
規則系統與學習系統
這個問題其實蠻有意思的,就是所謂的學習可解釋性,比如在交通領域出事故之後的定責。所以學習從這個意義上來說,它是不是不可靠?它的規則很簡單,因為什麼原因所以有了這個結果,講起來很清楚。
一個深度模型上面有幾百萬個引數,重新把這個case填進去,重新訓練,也許這個case解決了,但下一個case還不一定。所以這也是兩個流派的爭議點。
有人提出,做一個混合的系統,規則也很複雜,但是(引數)空間不大,做一個萬級別的空間,在這個萬級別空間裡面做些解釋。比如做一個決策樹(Decision Tree),它可以解釋得很清楚。但一兩個決策樹還可以,如果它變成一個幾百棵樹的森林,就很難解決。
如果把這個(引數)空間限制住,是不是就變得可解釋了呢?是不是必須要深度學習才能做自動駕駛?我們發現用了深度學習模型之後效果非常好,但是也有問題。Uber事件之後我們做了分析,猜為什麼會漏檢行人,就是學習模型需要標註,標註過的系統認識,沒標註過系統可能不認識。
所以這樣一個學習系統,我們當然不敢完全依靠它。
有一個流派這樣說,學習系統確實只認識我認識的,但是我可以我做障礙物識別和路面識別,障礙物帶來更多的資訊,可以做更加多的判斷。精細分類做得越細,對駕車會帶來更加大的好處,但是做精細分類這個事情,規則系統做起來非常難受,而學習系統做起來就非常簡單。把兩種方法相加,這樣一來,我既享受到了精細分類帶來的好處,又享受到了規則帶來的好處。
分層系統VS End2End
一般來說自動駕駛系統裡面是這樣做的,下面有一層控制,上面有一層道路決策,再上面一層有感知。感知用來刻畫出現實世界,然後決策和控制在這個刻畫的世界裡尋找道路。
自動駕駛它實際上是一個工程問題,工程問題很重要觀點是我要整個節奏可控,End2End最大的問題是不可控,我們不知道它什麼時候能搞得定,所以我們做這個問題的時候一般不選它。我們這個系統基本上按照這個分層設計上來說,每一部分還是會按照看得非常清楚的來做。
Tesla VS Waymo
Tesla路線和Waymo路線,這是一個非常重要的話題。因為在做自動駕駛的系統上,我們有很多不同的方案。
Tesla是走L3的路線:解決一部分問題,然後再擴充套件解決更多的問題,最終走向全自動駕駛。Waymo的路線是:一開始就是全自動駕駛,不過限制使用的範圍,通過擴大範圍來通向終點
還有就是說,我需要自己去調一些引數,這個時候就涉及到label資料從哪來的問題。所以做自動駕駛的非常羨慕Tesla,因為它有label。Tesla有大量駕駛員的label資料,有很大的優勢。
感知方面,我們基本上還是沿著label的路線來做,不管是點雲資料還是影象資料,都是先標註,然後訓練得到模型,最後拿訓好的模型去做後面的工作。
這條路線的一個很大問題是標註量,因為汽車工業對整個結果的要求是非常高的,因此自動駕駛的標註效果是一個非常大的問題。
人腦的學習過程不是通過大量標註來學習的,有個觀點是說:人看的不是一張張圖片而是視訊,所以視訊在一幀一幀之間隱含了大量資訊,換言之,如果我走弱標註或者連續幀的路線是不是能更好地解決我的問題。所以從感知的角度來說,我覺得無監督或者弱監督的方法在以後會發揮更大的作用。
在下一層駕駛這一塊,不同的可靠性它的需求是不一樣的。在整個駕駛這一塊,如果沒有人,大家都覺得這樣很完美。有人的話,問題就來了,舉個最簡單的例子就是關口,你直行他左轉,這裡有個路權的爭奪,人處理這個博弈也是不容易的,這是很難的一個問題。
其實處理這個博弈的問題有一個非常好的框架,就是增強學習的框架,從自動駕駛的角度來說,增強學習是處理駕駛上一個非常好的模型,因為增強學習裡面有一個重要的概念是做實驗,但在真正駕駛上做實驗是非常難的,所以在這樣一個框架下也需要一個好的學習模擬器,模擬器最難的就是模擬路上發生的真實情況,車得開得像人開的,否則訓練的東西可能不對。
這是我們Baidu Apollo開放的一個架構圖。下面一層是執行層的線控結構,上面一層是實時計算系統,比如一些感測器(Camera、LiDAR、Radar、超聲系統等)的實時處理,再上一層是一個實時作業系統,放在車上的系統一定是一個實時作業系統,不能因為系統波動導致問題,它基本上就是這樣一個結構:感知、計算、控制。
雷鳴對話陳競凱
城市能看作是一個受控環境嗎?在城市的特定區域、特定線路上、在有很多行人的實際路況下讓人能躺著睡覺的自動駕駛你覺得還需要多久?還是說真的挺難做的?
這個問題不太好回答。但是實際上在城市道路上現在能不能開始做自動駕駛呢?可以!
從技術的角度來看,從L4的角度來看,我覺得Waymo做的比較靠前,在鳳凰城那個場景下他們敢開始開了,這是一個非常大的進步。就目前來看從L4領域來說,他們是做的最先進的一個方案,但是我們判斷說,如果拿到北京來,會比較懸。
在中國中不管大、中、小城市,他們的方案都懸,因為不守規矩的人太多了。我們調研過,在他們那個場景下,他們解決得會比較好一點。國內的水平我個人覺得需要三年左右的時間,在一個相當的水平上開起來。
自動駕駛確實在中國挑戰會更大一點,但是從剛剛所述的,也是一個可預見的未來,大概5到10年應會不會在一些城市道路上非特殊情況下,比如今天就是一個特殊情況,下雨又下雪,它就不開了。
其實今天這種情況還算好。最大的問題是怕雪積起來,場景變白之後會出現問題,今天這種情況問題不太大,可見度情況還可以,路面情況還可以。
一般道路上,因為人的介入導致道路環境複雜很多,其實通過一定的行政規劃方案可以把這個地方的交通情況給簡化了,所以從發展過程中看,無人駕駛真的大範圍進入到城市的交通系統裡面,可以說它演變的過程是像一個人開車一樣所有的環境還是原來的樣子,還是說會有政府或者公共設施做一點適應性改變,會不會在道路上有一個無人駕駛專用道之類的?或者說有一些訊號跟紅綠架之間有一個反饋?
一定是這個樣子的,基礎設施實際上對自動駕駛方案來說影響實際上是非常非常大的。
L4它有很多約束。舉個簡單的例子,公交車專用道這種約束就會大大地簡化問題,尤其是物理隔離。我們關鍵是看整個系統裡有沒有動機去驅動系統往前走,我覺得這是非常關鍵的因素。
如果政府覺得有價值,它就可以推動這個改造工作,如果有足夠的推動力,我覺得是可以做到的,並不是說把這個問題解決掉我再看看怎麼走,而是我有一個點,如果這個點過了我就可以被接收了。
如果說未來自動駕駛的車越來越多,那麼對整個交通或者運輸業的影響是一個什麼樣的情況呢,比如我們還買車嗎?然後物流小哥還存在嗎?這些事情你有沒有想過?
有一點不太同意。這個系統裡最難改變的是人。從整個系統來說,什麼時候能夠實現整個交通系統中沒有人開的車,這個時間我覺得會比想象中要長。我可以說自動駕駛很快上升到一個很高的水平,但是人還是會頑固地存在一段時間。
無人駕駛其實是一個門檻相對比較高的事情,創業公司怎麼參與到這個無人駕駛的整個過程中來,它應該跟這些大公司之間應該會互相扮演什麼角色?你是怎麼看待這個問題的?小公司還有機會嗎?
我們對於一些道路的參與者的要求是非常高的,無論說你做運輸的大卡車,還是計程車,要求都是非常高的,因為一旦出事都是大事。但是從更寬泛的角度來看,它是一個自動系統,在這個系統裡其實有好多應用,有非常廣闊的空間。
真正去做這兩個大的行業,比如物流、客運,門檻是比較高的,但我的想法是,在整個的市場裡面,在一些小的類似自動駕駛門類裡面,還是有機會的。
我們為什麼做這個阿波羅這個開放系統呢?其實也是出於這兩方面的考慮,一是對於一個學習系統來說,資料是非常重要的,我們希望做出個系統來達到一個開放的資料生態;二是看到了在自動系統這個領域裡面有非常多的機會,很多創業公司在某個領域裡面都在做一個東西,他們很多東西都是相似的,但是他們的東西各有各的特點,我們把這個東西開放出來,使得他們在一個相對高的起點上去做這個事情,這樣使得他們更快地做點東西。我們是在想加速這個自動系統行業的成熟,儘快把這個行業真正做起來。
我們希望這個阿波羅系統能夠降低眾多領域的門檻。我們希望每個團隊都專注於那些帶來獨特價值的部分,那些公共的部分希望大家去共享。
下期預告
4/11本週三晚18:40,北京大學“人工智慧前沿與產業趨勢”第六講,將由科大訊飛執行總裁胡鬱為大家授課。
感興趣的小夥伴可以新增量子位小助手6:qbitbot6,備註“北大”,通過後可進入課程活動群,獲取每期課程資訊,與其他小夥伴互動交流。
祝大家聽課愉快~
學習資料
在量子位微信公眾號(QbitAI)介面回覆:“北大AI公開課”,可獲取本次課程的視訊回放連結。
— 完 —
活動報名
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態