《電子技術應用》
欢迎订阅(电子2025)
欢迎订阅(网数2025)
您所在的位置:首頁 > 人工智能 > 業界動態 > 城市大腦2.0
NI-LabVIEW 2025

城市大腦2.0

2020-08-11
來源:智芯通

  2020 年 8 月 7 日,第五屆全球人工智能與機器人峰會(CCF-GAIR 2020)于深圳正式拉開帷幕。

  CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網聯合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協辦。

  從 2016 年的學產結合,2017 年的產業落地,2018 年的垂直細分,2019 年的人工智能 40 周年,峰會一直致力于打造國內人工智能和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資平臺。

  本次峰會之上,中國工程院院士、鵬城實驗室主任高文教授在線上為與會者們帶來了一場精彩紛呈的開場報告。

  高文教授介紹,城市大腦1.0是一個以云計算為核心的系統,由于系統各部分之間沒有很好的分工協調機制,使得系統成本高、響應速度慢、數據的可利用性低。

  在他看來,城市大腦2.0是一個端邊云分工協調的混合系統架構,可以有效解決城市大腦1.0的大部分問題。

  城市大腦2.0的核心在于數字視網膜及其標準化,它相較城市大腦1.0具備四大方面的性能提升:

  1、它有先進視頻編碼技術:節省存儲和帶寬50%以上;

  2、它可以定制ASIC邊緣計算:節省云計算資源90%以上;

  3、它能在原始圖像上特征提?。旱脱訒r和高精度;

  4、它還可以做標準化特征的提取,存儲和復用:顯著提升信息密度和價值。

  以下是高文院士線上演講的精彩內容,雷鋒網作了不改變原意的整理與編輯:

  今天我與大家分享的演講主題叫做“城市大腦2.0,邊端云合理分工的人工智能賦能系統”。

  先談談第一個話題:城市大腦1.0。

  城市大腦是現有智慧城市中的一個核心系統,它將算力及數據匯聚到一起,加上算法就可能產生出非常好的結果。

  譬如,基于互聯網的數據、政務的數據、社會的數據,把它們集中到一起,提供一個云計算服務,就可以提升政府效率、加速企業創新。

  智慧城市系統之中,匯集了各類各樣的數據,其中有90%左右的數據都與圖像、視頻相關聯,如何處理好圖像和視頻數據,在城市大腦系統中是非常關鍵的要素。

  現有的系統中,數據基本以圖像與視頻兩種形式進入:

  第一種模式:攝像頭就是一個簡單的傳感器,捕捉到圖像或者視頻以后,進行一個編碼壓縮,傳送給云端,云端將它存儲起來。

  也可能將它解碼之后進行分析,識別出人臉、車輛,或者進行交通數據的分析等等,這是一種信息或者數據感知的模式。

  另一種模式叫做智能終端,在攝像頭這一端就把人臉或者車牌等信息識別出來,識別出來的信息被傳送到云端,直接可以進行分析使用。

  這兩種模式是目前城市大腦中數據使用的主要模式,當然這兩種模式都多多少少存在一些問題。

  如果僅僅作為一個感知終端,后面如果需要調用,除了解碼以外,還要進行特征提取等工作,需要大量的計算程序,這些計算非常耗費云計算算力資源。另外,智能終端還無法識別出未被指定的人或物。

  所以,我們我們需要一個更好的系統,這個系統不僅云上算力資源需求不多且可以完成一些未經規定的動作。

  現在的城市大腦1.0,它是一個具有海量數據的系統,但是這個海量數據并不等于大數據,因為90%的海量數據都是沒有結構化的,只是進行了一個簡單的編碼壓縮。

  另外,這些數據的價值也比較低,它不是結構化的,你無法在上面進行分析,這也是為什么很多智慧城市的視頻數據,一段時間之后就被覆蓋了。

  怎么才能改變這個現狀呢?其實問題的實質就是現有的城市大腦里的數據表達是不到位的。

  為什么不到位呢?如果你只是感知數據后,將編碼壓縮送到云端,它還是一個非結構化的數據;如果你把它識別出來是張三、李四,或者車牌號多少,雖然它已經結構化了,但是它是過度結構化的,對于沒有規定的任務就無法執行了。

  所以我們需要一種泛化能力更強的數據表達,這個數據的表達是一個機緣表達,用這些機緣既可以完成現有的任務,也可以完成現在還沒有定義的一些任務。

  當然這些數據表達想要得到一個比較好的結果,整個系統就必須做得好。所以我們現在考慮城市大腦應該有一套評測的指標,包括系統的智力、性能(響應時間、并發、吞吐)、效率(耗電多大)等等。

  如果某套系統可以通過評測,那就代表這套系統比較智能化了。

  城市大腦1.0系統的弊端在于:它的智能代價比較高,要么是造價高、要么就是耗電高。

  我們希望城市大腦變得更智能,或者效率更高,怎么辦呢?我們希望把現有的城市大腦1.0升級到2.0。

  一個可能的做法就是要合理分工,我們把原來的傳感網絡和云合并的機器變成邊端云協同的機器,云上只需要配備最低的算力,一部分計算放置于邊緣,一部分計算分配給終端,這樣組合起來使得整個系統最優化。

  系統到底應該怎么升級,或者這個結構做成什么樣比較好,我們先來看看人的視覺系統是怎么運行的。

  人的視覺系統是非常合理的、能效比非常高的系統。比如說我們每天只消耗相當于20瓦電燈泡的能耗就能做很多的事情。

  人的視覺系統為何可以做到如此的低功耗、高效率?人的視覺系統主要由三部分組成,包括眼睛、視覺通路和大腦的視覺眼,這三部分分工非常嚴密。

  比如說大腦有了一個刺激信號,通過神經通路傳到大腦不同的視覺眼,不同的視覺眼分工做不同的響應,就可以完成很多事情,比如說感知、決策等。

  不同的感知路徑或者不同任務的復雜度,其實人的響應度是不一樣的。(見PPT)這是1992年一張研究的示意圖,你可以看到當你給一個人下了一個指令說“你給我按一下綠色按鈕”,這個執行是需要經過一定延遲的,比如說視網膜有35毫秒的延遲,從視網膜到下一個環節又有30毫秒的延遲,最后到了肌肉、手指頭動作下去,大概有250毫秒的延遲,這個延遲就告訴我們,對不同的任務,我們整個視覺通道和腦的處理分工是非常嚴密的,使得簡單的任務可以響應很快,復雜的任務響應很慢,分工合作,這樣的系統就能做到能量最優化。

  視覺系統最前端是視網膜,它的結構是由感光細胞、雙極細胞和神經節細胞三類細胞組成的。

  數字視網膜里面,大概有1.2億到1.26億個感光細胞,其中有錐狀細胞核桿狀細胞,錐狀細胞有600多萬個,桿狀細胞有1.2億個,它們可以感知光線的強弱等等。

  這些感光細胞通過雙極細胞,最后匯聚到神經節細胞,進到神經纖維、視覺通道,通過大腦進行傳輸。

  神經節細胞的數量只有差不多100萬個,換句話說從視網膜到視神經,它已經有一個差不多125:1的減縮,這個減縮我們可以把它理解成視覺信號的壓縮,或者特征壓縮。

  所以我們在視網膜和大腦之間已經有一個壓縮,這個壓縮應該說對整個大腦有效的工作其實是起到非常關鍵作用的。

  當然它不僅僅是一個壓縮,它和后面的感知是緊密相關的,比如根據你任務的簡單和復雜程度,它們提取的視覺特征也不一樣,簡單的任務就會優先采取相關的策略,復雜的任務,它就把相關的信息往后傳。

  一個生物識別系統的簡化模型,從視網膜到大腦,信息進來以后經過一個特征的編碼壓縮,特征提取出來以后向后傳輸,傳到智能主體(腦),所以在視網膜這一端是一個定制的輕量級的計算,通過視神經這樣一個有限帶寬的通信送到智能體。

  這樣一個簡化模型,對視覺通道是有很大作用的,所以大腦上有一個通用計算,這里我們可以把它整個特征的類別分為結構特征和行為特征,這個模型是經過自然進化,最后產生出這樣一個優勝劣汰找到的答案。

  這個答案告訴我們仿生視網膜的架構,它有非常好的能量優化的特點,這個特點可以給我們提供一個很好的借鑒,如果我們想把整個城市大腦也做得能量優化或者能量高效化,就可以按照這樣的構造來進行結構。

  所以從視網膜傳到大腦之間,它是一個特征壓縮,我們叫做特征編碼,當然這個編碼和現在傳統的圖像編碼并不一樣,它是一個特征壓縮編碼的東西送到大腦中去。

  另外,現在我們城市大腦里面不能僅傳特征,也要傳壓縮圖像,因為有的時候我們還需要用人眼去確認一些東西,所以壓縮圖像也還是要傳的,這就使得我們現在城市大腦里的架構和真人的視覺系統并不完全一樣,我們是兩個綜合或者綁定的系統。

  有了這樣一個借鑒,下面我們就看城市大腦2.0到底應該怎么樣來設計。

  很顯然它必須是一個邊、端、云合理分工的系統,這個系統我們經過了一段時間思索以后,2018年我們就投出一篇論文,這篇論文最后是在2018年5月份網絡出版,最后正式是在2018年8月份在《中國科學》上發表,我們把邊、端、云結合的最核心的技術叫做數字視網膜,它是整個城市大腦2.0里面一個基本架構,我們把它叫做仿生視網膜的計算架構。

  數字視網膜現在形成了有8個特征的定義,這8個特征原則上分成三大組。

  第一組特征的定義是和時空有關的,一個數字視網膜的終端必須要有全局統一的時空ID,包括全網統一的時間和精確的地理位置,比如說GPS或者北斗的位置,有了這個東西之后,城市大腦就很容易同步,或者很容易可以對標。

  第二組特征簡單來說是視頻編碼+特征編碼+聯合優化,這是所有的攝像頭都應該支持的一個工作,當前絕大部分攝像頭只支持視頻編碼。

  視頻編碼很容易理解,就是為了存儲和離線觀看影像重構。

  特征編碼是為了模式識別和場景理解的緊湊特征表達,聯合優化是因為現在在城市大腦里面它有兩個碼流,一個是視頻編碼壓縮流,一個是特征編碼壓縮流,這兩個碼流會捆綁到一起進行傳輸,所以我們要有一個優化策略,把這個帶寬到底分多少給視頻編碼、分多少給特征編碼,這樣通過一個聯合優化,使得整個系統是最優的。

  第三組特征,簡單來說就是模型可更新、注意可調節、軟件可定義。

  什么叫模型可更新呢?因為我們現在必須要考慮怎么樣支持神經元網絡,不同的模型升級了,你要可以實時更新。

  注意可調整是說,現在的攝像頭是沒有注意的,你把這個東西指到哪兒,景深設定到哪兒,它就在那兒,當然可以通過人工遠程調節它,可以拉近、拉遠等等,但是它不是自動的,我們希望它能做到自動的注意可調節。

  最后一個特征就是軟件可定義,這一點大家很容易理解,系統要想升級,可以通過軟件定義的方法,對系統自動升級。這三個特點如果具備,終端就可以做得非常智能。

  當然,要想把數字視網膜技術全部用起來,這里面有一些使能技術。

  第一個是視頻編碼,現在做城市大腦、監控系統都離不開視頻編碼,攝像頭里面都有一個視頻編碼芯片,視頻編碼芯片用的標準,最早期是H.264,或者用AVS的編碼標準,最近開始使用H.265或者AVS2的標準,未來不久就會用上H.266和AVS3的標準,這個標準差不多每10年就會更新一代,效率每10年就會提高一倍。

  為什么能夠做到編碼壓縮?一個視頻是一個圖像序列,圖像序列里面包含了很多數據的冗余,基本上有三大類冗余:一類是和空間冗余有關的,一類是和時間冗余有關的,另外一類是和編碼冗余有關的。

  所以現在整個視頻編碼里面用的算法,我們一般把它叫做混合視頻編碼架構,這個混合就把剛才三種主流的冗余用不同的算法去掉。

  比如說為了去除空間冗余,一般我們采用正交變換,比如說DCP變換等等正交變換把它去除掉。為了去除時間上的冗余,就是幀和幀上的冗余,一般我們會采取預測編碼,比如說各種各樣的濾波器,把幀間的冗余去除掉。

  為了使得編碼的分配最符合熵的定義,我們使用信息熵編碼來去除編碼上的冗余,這三個冗余都去除干凈了,整個視頻流里就可以壓得很小,只有有用的信息、有用的數據甩出去,這些冗余都被擠壓掉了,這是視頻編碼。

  要想把視頻編碼做得好,算法要做得很精,隨著時間的推移,我們可以用計算、帶寬把這些東西一點點都去除掉。

  當然,這些年我們除了不停地優化算法之外,我們還提出了一種背景建模的技術,使得編碼效率在原有的技術上又可以提高一倍。

  這里有很詳細的一些數據測試作為依據,而且這些東西都已經發表論文,比如2014年我們在TIP發表了一篇論文,里面有這樣一些研究結果。

  AVS2在2016年已經成為我國的標準,同時它也是IEEE1857標準的第四部分?,F在我們做AVS3的時候,就是IEEE1857的第10部分。

  AVS標準是在2019年3月份第一版就發布了,H.266一直到今年7月份第一版才發布,我們超前了H.266有一年三個月,這是有史以來第一次。

  AVS3這個標準去年3月份第一版發布以后,去年9月份海思就把芯片做出來了,在阿姆斯特丹的一次廣電展上,這款芯片一經面市,引起了很大的轟動。

  它可以支持AVS3、8K解碼,是120幀的,這個芯片現在已經裝配在很多4K、8K電視、機頂盒等等。

  第二個使能技術就是特征編碼,這是非常關鍵的一個使能技術,這個技術里面它的標準有兩部分核心的內容,一部分叫CDVS,一部分叫CDVA,這兩部分現在也都是國際標準MPEG-7里面的兩部分,一個是第13部分,一個是第15部分。

  為什么要做視覺特征的壓縮呢?因為根據不同的特征,提取出來的特征數據可能很大,如果不壓縮的話,搞不好特征數據比圖像本身都大,所以要么你就傳個圖像過去,要傳特征的話數據太大,所以就要對它進行特征壓縮。

  怎么進行壓縮?原來有不同的考慮,如果是先把圖像編碼傳過去,再提取特征,再進行識別,和先把特征提取出來,然后把特征傳過去再識別,這兩個其實有一個剪刀差,可能有時候識別率會先差百分之二三十。

  就是說先壓縮了以后,可能有一些比較有用的特征丟了,因為所謂編碼壓縮,它是保留公共部分,把一些非公共的、非常見的東西壓縮掉了,而非常見的部分恰恰可能是特征,所以你把這個打磨掉以后,它的識別率可能就下來了,所以我們是先提特征,再在云端技術識別這樣一個技術策略。

  當然先提特征,怎么樣提的特征體量比較小,我們初期是采用手工作業的策略,當然手工特征怎么支持深度學習,這是另外一個問題,后面我們做了第一版以后,又專門做了一個面向深度學習的編碼壓縮的框架,這個主要是給小視頻來做的,有了這兩個部分以后,基本上可以應對圖像特征編碼和視頻特征編碼這兩個需求。

  圖像特征編碼就是CDVS,視頻特征編碼就是CDVA。CDVS是手工特征的,里面使用的是一個類SIFT的特征集,SIFT大家都知道,當你給的比特數據比較少的時候,它就給一些比較宏觀的特征。

  基于這樣的思路,用這種類SIFT,我們提出了一個特征表達的標準,然后來看它的性能,經過幾年的時間,這個性能越提越高,最后把它固定下來。

  CDVS實際深是從2012年2月份就開始做,到了2015年6月份就做完了,就完全凍結掉了,最后成為國際標準,所以差不多花了4年的時間把它做出來。

  CDVA是在2015年做完以后,標準化組織團隊就馬上轉向利用深度學習去做視頻分析特征壓縮的問題,也是花了差不多兩年多、三年的時間慢慢把它做出來,這個是可以對深度網絡的短視頻,用它做特征的提取、做表達,后面每次這個特征的性能都會有所提高,對不同的網絡,它的特征的檢出和特征識別的效率也都在逐步提高,所以每次提高的趨勢。

  第三個使能技術,我們把它叫做聯合優化。所謂聯合優化,就是在視頻編碼和特征編碼之間,我要找到一個最優的結合點,使得這兩個流捆綁到一起的時候,腦力分配是最優的,上面這個流是視頻壓縮流,下面這個流是特征壓縮流,這樣送到云里,它倆合起來是最優的。

  怎么能夠做到最優呢?因為各自的優化模型都是有的,比如現在我們看到的這些是上面這部分,它是一個視頻編碼優化的流程,上面的虛線是視頻編碼,下面的虛線是特征編碼,這兩個編碼在右端,我們是合成一個流,就是視頻和特征流。

  這一個流我們怎么樣優化呢?我們要設置一個聯合優化流程,把它放到一起去優化。視頻編碼的優化模型叫RBO,RBO就是給定碼率損失最小的優化模型,它的優化曲線就是右下角這個曲線。在識別特征表達這一塊,它是有一個RAO,就是給定碼率,讓你精確度最高的優化模型。

  這個優化模型給的曲線是反過來的,所以我們把這兩個需要優化的東西給它放到一個優化函數里面表達出來,就是這張圖的表達,根據這個東西我們聯合求解一個優化的解,這就是第三個使能技術。

  第四個使能技術是深度學習模型編碼的使能技術,就是通過多模型的重用,通過模型壓縮更新來做。這是深度學習怎么樣去通過重用去使得整個模型的重用精度更高。

  這個重用既包括現有模型的重復使用,也根據目標模型訓練所得到的提升,使得優化做得更好。

  這樣一個多模型重用,如果是在學習體系里面把它用好的話,它的性能就可以提高得比較好,所以怎么樣使得這個多模型編碼壓縮,使得在重用當中可以快速地更新一個模型,就使得這個性能不停地提升,這兩個就是模型編碼的主要動機,有了這個就可以使得當你模型訓練完了以后,壓縮完了以后就可以快速推到終端去升級你的模型。

  上面這些使能技術,最后它要匯總到一個芯片里面,這個芯片現在在北大杭州研究院下面的一家公司做出來了,第一個數字視網膜的芯片叫GV9531,剛才說的三組8個特性,這個芯片全都是支持的。

  這個芯片目前也已經做成了板卡,比如說有4顆芯片的卡、16顆芯片的卡,這些板卡已經可以支持邊緣端,一下支持上百路甚至幾百路的攝像頭數字視網膜特征提取的傳輸。

  除了數字視網膜本身以外,現在配合人工智能技術的推進,也在推動中國的一些AI技術的國家標準,包括神經網絡模型表示與壓縮的標準、城市級大數據匯集關聯的規范和標準,包括這些標準研究開發的路線圖,什么時候要把哪個標準提出來完成等等。

  數字視網膜簡單來說是三個編碼流合并的系統,當然前兩個是最主要的,就是視頻流和特征流,這兩個流時時刻刻都是匯集到一起進行傳輸的,第三個是模型編碼,只是在模型需要壓縮的時候,從云端推到邊緣端或者終端上,進行一些增量的更新。

  有了數字視網膜,就相當于城市大腦邊緣或者是終端方面就可以做得更高效,效能比更高,這樣就可以使得云端的算力不需要那么多,或者說云端的響應可以更精確、速度更快,這樣就使得城市大腦可以做得更好一些。

  為了配合這個工作,現在城市大腦包括一些中臺怎么考慮、業務支撐怎么考慮,應用怎么考慮,現在在鵬城實驗室都有一些比較完整的設計和規劃。所以整體來說,我們把城市大腦2.0里面的數字視網膜也可以簡稱為云腦視網膜,這個可以利用鵬城云腦的算力去提升它的能力。

  鵬城云腦到現在為止已經投入了幾十億元去打造,鵬城云腦只有100P的算力,雖然說只有100P的算力,這也是到目前為止國內作為AI訓練算力最大的一套系統。

  后面還會有更強的系統,現在我們有一個原型,可以有數據進來,對數據進行標注、采集,可以進行訓練,訓練完了以后就可以用剛才這些和芯片有關的系統進行提取,然后可以分析和識別。

  這個原型系統,一般的邊緣用的,甚至在云端大數據服務里面用的東西,現在都在逐步進入系統,上面會有各種各樣的參考軟件,去配合硬件的東西,最上面是開源的算法訓練,有這些東西之后,將來在鵬城云腦上就會對城市大腦進行比較強有力的支持。

  現在已經有一些演示驗證的案例,比如說對系統驗證,比如說對深圳交警提供的一些數據進行視頻的驗證,另外還可以進行視頻的追蹤等等。

  在光明區也進行了一些實際驗證,對于停車、擁堵等問題都可以很好地分析和發現。

  這就是城市大腦2.0到現在為止的一些情況。

  總結一下,城市大腦1.0是一個以云計算為核心的系統,由于系統各個部分分工協調不太好,所以系統成本比較高,響應速度慢,數據的可利用度比較低。借鑒人的視覺系統,比如說人的視網膜、視覺通道、大腦分工非常協調,非常合理。

  城市大腦2.0就是借鑒這樣一個系統提出的一個體系架構,這個體系架構要想把它做出來,需要數字視網膜這樣一套思路、技術及其標準化,現在這些思路、技術、標準化都逐步到位。

  數字視網膜這套系統上了以后,可以使得現有的城市大腦1.0在編碼方面節省50%的存儲和帶寬,在云資源的耗費上,比現有的可以節省90%以上的云計算的算力資源。

  而且它對于圖像特征的提取和分析延遲比較低、精度比較高,所以它有很多好處,這是數字視網膜希望帶給城市大腦2.0的一個好處。

  當然這個系統要想完善,可能還需要一點時間,還需要在更多的地方去做實驗驗證,等這些技術都成熟了,標準全都到位了,甚至城市大腦2.0真正運營起來,對中國的城市化、智能城市等等方面會有一個比較大的貢獻。所以也希望大家多關注、多提比較好的建議和意見。

  

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 黄色影片在线看 | 欧美一区二区在线观看视频 | 欧美一区二区不卡视频 | 免费色片 | 狠狠色综合网站久久久久久久 | 国产精品午夜高清在线观看 | 国产黄在线免费观看 | 青春草在线视频 | 欧美精品亚洲精品 | 成人午夜短视频 | 天天躁天天弄天天爱 | 亚洲色图综合图区 | 日本xxxxx黄区免费看动漫 | 日韩精品视频一区二区三区 | 亚洲天堂aa | 国产区精品高清在线观看 | 大象焦伊人久久综合网色视 | 日韩欧美一区二区三区不卡视频 | 性欧美高清videosex | 久久综合欧美成人 | xxxx性bbbb欧美野外 | 欧美精品h在线播放 | 狠狠久久综合伊人不卡 | 成年午夜一级毛片视频 | 中国妞xxxx | 丝袜魔女的丝袜调教 | 亚洲成人视屏 | 一级a俄罗斯毛片免费 | 91久久精品日日躁夜夜躁欧美 | 在线青草 | 国产福利免费观看 | 久久久久夜夜夜精品国产 | 男女边摸边吃奶边做视频在线 | 91av福利| 日韩成人av在线 | 91精品国产自产在线观看 | 日日插天天干 | 亚洲免费人成在线视频观看 | 日韩精品网址 | 美国黄色一级毛片 | 99在线视频播放 |