智慧醫院需要持續筑牢安全防護墻,但并不意味著要把安全防護墻加高到滴水不進、滴水不出的地步。正如國家衛生健康委規劃發展和信息司毛群安司長所說,未來醫院的邊界會越來越模糊、協作更加頻繁,傳統的醫療業務流程可能嵌入若干大數據、智能應用,實現醫患互動、臨床協作、醫教研的互動。
同樣,為增進與衛生健康部門、公立醫院的互信,醫療大數據、人工智能行業需要擺脫對醫院大數據一味的渴求和索取,從注重數據數量,向注重數據質量和數據績效轉變。針對公民個人數據采集,被稱為“歐盟數據憲章”的《一般數據保護條例》(GDPR)提出了“最小可用原則”,即:個人數據的處理應當是為了實現數據處理目的而適當的、相關的和必要的。因此,數據開發方、數據使用方應當確保數據濫用,或者被低效利用。
為保護患者個人的數據隱私,經過清洗后,被用于二次開發的患者數據集中,患者個人信息既不可被識別,也不可被逆轉(即逆向破解,將脫敏數據還原為原始數據)。盡管主流醫療大數據、人工智能企業普遍擁有成熟的數據脫敏技術,但隨著數據量累計、數據交叉比對持續、新型算法模型被研發,脫敏數據被逆向破解的風險將持續加大。因此,“最小可用”原則是保護患者數據隱私的最后一道防線。
隨著技術革新,傳統深度學習也許將不再過度依賴數據量進行算法訓練。作為新型神經網絡的一個分支,生成對抗網絡(GAN)通過分離出生成網絡、鑒別網絡,猶如一個警察和假鈔販子之間的對抗,警察對假鈔的鑒別能力不斷提高,假鈔販子“以假亂真”能力也不斷提高,最終機器對醫學影像的判斷準確性將趨于甚至超過人類。更重要的是,生成對抗網絡僅需要少量影像數據進行算法訓練,且無需人工參與標注,從而符合“最小可用”原則。
國家衛生健康委統計信息中心張學高主任在2019CHIMA大會開幕式上表示,當前,我國醫院信息化在數據層面面臨以下問題:一是數據質量普遍不高,缺乏數據質量的保障機制;二是對已有標準的應用和執行滯后;三是術語類標準、新技術類標準、安全類標準不健全。
無論是在信息化時代、互聯網時代、大數據時代還是人工智能時代,數據質量始終是靈魂。對于醫院信息系統(HIS)、云平臺、AI算法這些數據“吞吐大戶”,我們既不能讓它們因“上頓不接下頓”而“營養不良”,也不能喂食“過期變質食品”而導致其“食品中毒”,甚至對整個“食品工業”喪失信心并引發行業地震。
公立醫院是醫療衛生服務主戰場,也是數據治理的源頭。“水源”一旦被嚴重污染,公共平臺歸集數據后再進行治理,往往回天乏力。新近出版的《醫院數據治理:框架、技術與實現》一書,標志著統計信息中心首次提出醫院數據治理的理念,梳理了醫院數據治理的實施重點和路徑,結合國家級平臺建設項目實施等相關實踐,應對服務創新、數據質量、開放共享、安全合規等方面存在挑戰。該書和筆者的一線調研呈現出若干迫切問題:
(1)數據治理重數量輕質量:一些地方的全民健康信息化平臺建設先抓數據匯集,再把好質量關,缺乏數據上傳審查機制、數據質量預警機制,未經驗證、未經處理的健康大數據只能是“一般垃圾”甚至是“有害垃圾”;(2)數據治理重技術輕規制:醫院數據治理僅停留在技術框架層面,在院內尚未成立數據治理管理機構,在院外尚未建立第三方數據治理評估體系;(3)數據治理重工程輕績效:把數據治理狹隘、靜態地理解為工程項目,主管部門數據規則跟不上,承建方運營維護跟不上,醫療機構和社會各界對治理績效的獲得感不強。
在數據輸入端,我國尚未對健康大數據(尤其是醫院大數據)啟動國家立法,“健康醫療大數據”相關法規停留在部門規章層面,且仍處在試行期,且對健康大數據的分類、分級、分步共享開放的準則,及其易于操作的流程,尚未作出具體規定。在算法輸出端,我國對醫療人工智能的算法模型的著作權尚未得到法律保障。我國知識產權的主要判定依據是《著作權法實施條例》,該條例的修正案早在2013年3月1日就開始施行,趕不上醫療人工智能技術發展的新趨勢。
綜上所述,立法位階不高、法條不夠明晰、法律約束力不強,導致一些地方、一些醫院的數據治理規則出現較大隨意性,容易出現因時而異(如:人工智能進入某個“風口期”)、因事而異(如:醫院自發提出科研合作需求)、因人而異(如:持開放態度的衛健委領導、醫院領導、信息辦主任)。制度剛性缺失,給醫療人工智能企業的數據可用性、低成本帶來巨大挑戰,也導致算法模型無法根據“額頭出汗原則”的著作權原則歸研發團隊所有,無法對醫療人工智能研發提供穩定盈利預期、研發激勵機制。