結局超出了不少醫生的預想,就像AlphaGo參加的圍棋之戰一樣。
這是全球首場神經影像領域的“人機大戰”。
人類戰隊由25名神經影像領域的頂尖專家、學者以及優秀的臨床醫生組成,與他們對戰的,是北京天壇醫院“神經疾病人工智能研究中心”和首都醫科大學人腦保護高精尖創新中心共同研發的AI輔助診斷系統“BioMind天醫智”。
6月30日的總決賽現場,最終AI選手以高出20%的正確率,戰勝了神經系統疾病診斷的醫界“最強大腦”。
這位醫學界“新星”究竟有多大本事?它的深度學習經歷了怎樣的訓練?它會替代臨床醫生嗎?
戰勝25位人類醫生
當天的比賽被分成了兩個組別,其中A組進行的是顱內腫瘤磁共振檢查(MRI)影像判讀;B組進行腦血管疾病CT影像判讀及血腫預測。
前者要對腦腫瘤作出定性,后者驗證腦出血第一次血腫擴大的風險。
首輪15位參賽醫生,每人對15例影像進行判讀,共225例。
同時,相同數量的病例,AI選手耗時15分鐘判讀完畢,準確率最先顯示為87%。又過了15分鐘,計時結束,人類戰隊的成績定格在66%。
這并沒有打擊醫生們的自信心。
事實上,在第二輪比賽中,10位醫生不僅率先完成判讀,還就其中不確定的答案進行了二次矯正。
然而,卡著點交卷的AI選手還是以83%對63%的準確率,再次獲勝。
這個結果足以讓現場和通過直播視頻觀戰的一線大夫們“消化”一段時間。
不過,就在比賽結束的那一刻,北京天壇醫院神經影像學中心主任高培毅和血管神經病學中心副主任醫師李娜算是放下了懸著的心,對AI選手長達半年的訓練沒有白費。
同樣感到欣慰的,還有BioMind創始人兼技術總監吳振洲。
對他們來說,AI當天的表現屬意料之中。
高培毅提到,在前期的練習中,它對腦腫瘤判定的準確率一度可達到95%。
但這不意味著醫生戰隊的表現就有失水準。
高培毅坦言,結果顯示的就是國際上神經影像判讀的正常水平。
需要指出的是,由于比賽人為增加了難度,如果回到現實場景中,醫生對腦腫瘤判定的準確率會高于比賽時的結果,與AI的差距更小。
國家神經系統疾病臨床醫學研究中心副主任、天壇醫院常務副院長王擁軍認為,這場人機大戰的目的是“教育”。
它可以解答許多臨床醫生的疑問:人工智能究竟有多大本事,以及我們是否會被替代?
“與AlphaGo戰勝圍棋9段選手一樣,并不是AI的智力超越了人類,只是它們更勤奮,學習速度和穩定性都可以達到極致。”王擁軍表示,作為一種工具,它必定能在某一單一特定任務中超越我們。
然而,醫學并非單一的科學問題,臨床醫學也不是千篇一律的,病人的治療、預后要結合家族史、社會經濟地位等各種復雜因素,任何信息的微小變化都會引起復雜決策系統的波動,使醫生產生截然不同的判斷。
醫生這個職業不會消失。
“因此,我們對待人工智能,既不要小看它,也不必恐懼它。”王擁軍表示。
能看到醫生肉眼看不到的
人工智能與醫療的結合,是解決醫療“痛點”的新機遇。業內人士認為,將AI具體應用在醫學影像的輔助診斷上,是最有可能率先實現商業化的。
一方面,醫療數據中有大量數據來自于醫學影像,但這些數據幾乎全部需要人工分析,而相應的醫療從業人員卻非常短缺。
有研究表明,目前我國醫學影像數據年增長率約為30%,而放射科醫師數量年增長率只有約4%,人工處理影像數據的負荷會越來越大。
高培毅希望,AI能把醫生從一部分低附加值的、重復性的工作中解放出來,比如,“BioMind天醫智”系統正式應用后,至少可以替代醫生20%的工作時間。
另一方面,中國優質的醫療資源分布極不均衡。
以復雜程度高、定位診斷難度大的神經系統疾病為例,在大量基層醫院,臨床的誤診率、漏診率居高不下,診斷效率水平很低。
AI+神經影像,需要加強的是對醫學影像數據的內容解讀,幫助醫生進一步提高影像診斷精準度,解決的問題是加強醫生的診斷水平。
以此次人機大戰中腦出血后血腫擴大的風險預測為例,李娜作為一名臨床醫生深知面對腦出血病人時的束手無策,一旦出現血腫擴大,致癱、致死的幾率會顯著上升。
目前,并沒有十分有效的治療辦法。
在基層醫院,治療的機會便更少了。
除非,能在出血或血腫擴大前準確預測,在時間窗內給出積極的治療,比如止血治療。
遺憾的是,在臨床上,仍只有20%~30%的病人能被提早識別。
影像預測就像是該疾病治療中無法挪動的絆腳石。
然而,經過上千病例的訓練,“BioMind天醫智”能在影像中看到醫生肉眼看不到的疾病發展征象,給出醫生更精準的判斷提示。
李娜認為,假以時日,這項技術可以幫醫生提升對腦出血后血腫擴大的診斷認知,從而改進治療方案,這對病人的治療和預后將起到非常積極的作用。
為了讓AI跟上醫生的思路
目前,全世界范圍內,在AI+醫學影像領域,主要業務都涉及肺部結節和糖尿病性視網膜病變檢測,因為這些病灶較為方便直觀測量和診斷,可以很快幫助醫生提升影像診斷效率。
不過,全世界最復雜的影像是大腦的影像,大腦疾病也是非常難攻克的。
據王擁軍介紹,至今還鮮有針對AI+神經影像的研究。
北京天壇醫院“神經疾病人工智能研究中心”之所以可以深入這一領域,完全依賴于它獨一無二的腦疾病大數據積累。
數據是人工智能深度學習算法所需的核心資源。
天壇醫院每年接診來自全國各地的神經系統疑難雜癥患者30萬人次,僅腦部腫瘤年均手術量就達到了8000~10000臺。
“對于很多醫院來說,普遍存在的問題是一家醫院的數據不足,需要多家醫院數據的匯總。”上海交通大學生物醫學工程學院教授錢大宏指出,“我們目前所關注的醫學大數據的共享,需要做的是分布式共享,來讓大家合理合法地獲取多中心的數據。”
他表示,目前數據所有權比較復雜,如果將醫院的數據直接拷貝并帶出醫院進行研究并不現實。
“歐洲和美國已有數據保護條例,比如歐盟《通用數據保護條例》(簡稱GDPR)。這必將成為一個趨勢,對數據的保護會越來越強。”
另外,吳振洲告訴《中國科學報》記者,“不像自然圖像識別,醫學研究領域沒有足夠的開源數據支持深度學習的算法,一開始我們花了很多時間進行數據的整理”。
醫療影像數據與現實的物體不一樣,可以快速直觀地了解數據的內容,但需要在專業醫生指導下才能讀懂。為了讓AI跟上醫生的思路,吳振洲帶領設計人員用了三四個月的時間學習了醫學影像書籍。“我們先要對CT和MRI的影片有初步了解,才能幫助AI建模。”
據錢大宏介紹,AI學習醫學影像的具體方法是深度學習結合先驗知識對模型進行訓練,過程中需要有經驗的醫生將醫學圖像進行標注,程序員將片子的數據注入深度學習中,再留些樣本進行測試。
不同部位的算法不同,但是基本框架大同小異。
他表示,有些不同的學習是在數據的預處理階段,數據需要預處理,比如分割、配準、標注。
預處理方式如果設置得好,對于深度學習效果就更好。
在這方面,一般以醫生的經驗為主,程序員做出工具,幫助醫生做分割和標注的工作。
“而AI需要學習數據的數量則由數據預處理標注的好壞決定,如果標注清晰、質量高,那么學習以‘千’為單位的影像片數量就足夠了。”錢大宏補充道。
高培毅也強調,由于大多數標注依賴人工識別,因此數據標注將耗費醫生很大的人力和時間,在醫療影像領域獲取具有高可靠性的標注數據是一個重要挑戰。
如果數據標注沒有足夠的時間精雕細琢,AI所學習的知識就是粗糙的,甚至可能學壞。
吳振洲提到,不同部位影像對AI來說學習難度也不同。
腦部影像數據相當復雜,比如MRI影像掃描就包括很多層面和掃描序列。
在臨床中,有些醫生作出診斷時并不需要用到所有數據,比如,天壇醫院的醫生不需要掃描全部序列就足以得出判斷結論。
因此,我們獲取的數據序列統一性不好。
再者,難度比較大的是罕見病例的學習,由于罕見病例數量少,最終,我們采用了遷移學習和半監督的方法學習。
歸根結底,AI學習必須依賴醫生的“教導”,醫生對不同疾病的診斷思路和方法不同,AI的學習也要找到最符合該疾病規律的方法。
因此,AI學習效率的提升必定是人工智能專家與醫學專家深度配合的結果。
目標是真正進入臨床
據悉,目前“BioMind天醫智”在部分腦瘤的磁共振影像診斷上,準確率已達到90%以上,相當于一個高級職稱醫師級別的水平;準確預測腦出血和血腫的擴大則是達到了人類很難達到的水平,但對它們的訓練仍在進行中。
同時,該AI產品已經進入國家藥監局(CFDA)驗證階段。
相比中國,美國FDA對于醫療人工智能產品的審批走得更快。
今年,美國多款輔助診斷類AI產品已經通過審核。
王擁軍表示,AI產品的驗證必須符合兩個標準:其一,要達到大型綜合醫院副教授以上醫師的水平;其二,使用該產品與不使用該產品的基層醫院,前者醫生的業務能力須提高20%。
“AI產品除了是輔助基層醫生的工具,更是幫助他們如何閱讀、診斷、預測片子的學習和培訓工具。這也意味著,它不僅解決診斷問題,還應該解決基層醫生培養的問題。”
最終,人工智能輔助診斷產品的應用能否得到國家診療指南的推薦,還需要進一步的實踐證據——除了提升醫生的工作效率,AI產品到底能讓患者獲得多大的收益?
理論上,使用該產品應該對神經疾病復發、死亡、致殘的下降有所貢獻。
因此,天壇醫院將采用國際上最新的研究設計方法——整群隨機對照研究,將幾十家醫院分為干預組和對照組,驗證使用該產品和不使用該產品的患者診療結果的差異。
根據計劃,“BioMind天醫智”系統還將覆蓋更多頭部疾病的輔助診斷,包括腦腫瘤、小血管病變、大血管病變、腦卒中等,因此,AI還需拓展更多學習的領域。
此外,錢大宏提到,事實上,AI目前正學習使用多模態數據監測。
所謂多模態數據監測,就是讓AI能像醫生一樣,利用各種影像和臨床數據,比如生化指標、遺傳基因,甚至是疾病史、生活習慣、生活環境等信息,作出綜合判斷,輔助更多的醫療決策。
正如王擁軍所期待的,除了醫學影像,人工智能更宏大的目標是能真正進入臨床,在患者風險劃分、治療輔助決策、手術介入等方面都能發揮其優勢作用。