醫療人工智能(AI)最受“吹捧”的承諾之一,就是它們能夠幫助人類臨床醫生更精確地解讀X光和CT掃描等圖像,從而作出更準確的診斷報告,增強影像科醫生的表現。
但實際情況確實如此嗎?
美國哈佛大學醫學院、麻省理工學院和斯坦福大學的合作研究表明,使用AI工具進行圖像解讀的效果,似乎因臨床醫生而異。
換句話說,有益還是無用,現階段還是人類說了算。因為研究結果表明,個體臨床醫生的差異,會以AI專家們尚未完全理解的關鍵方式影響著人與機器之間的互動。該分析近日發表在《自然·醫學》雜志上。
考慮醫生個人因素
研究表明,在某些情況下,AI的使用可能會干擾放射科醫生的表現,并影響他們解釋的準確性。
雖然之前的研究表明,AI助手確實可以提高醫生的診斷表現,但這些研究將醫生視為一個整體,而沒有考慮不同醫生之間的差異。在臨床上,每一位醫生的判斷,對患者來說都是100%的。
相比之下,這項新研究著眼于臨床醫生的個人因素——專業領域、實踐年限、之前使用AI工具的經驗,并分析這些因素如何在人機協作中發揮作用。
研究人員分析了AI如何影響140名放射科醫生在15項X射線診斷任務中的表現,即醫生需要可靠地發現圖像上的明顯特征并作出準確診斷。該分析涉及324名罹患15種病癥的患者病例。
為了確定AI如何影響醫生發現和正確識別問題的能力,研究人員使用先進的計算方法來獲取使用AI和不使用AI時的表現變化。
結果顯示,AI輔助的效果在放射科醫生之間不一致且各不相同,一些放射科醫生的表現因AI而提高,而另一些醫生的表現則“惡化”。
英國皇家醫學院布拉瓦尼克研究所生物醫學信息學助理教授帕蘭納福·拉普科爾確認了研究團隊這一發現,并表示“我們不應該將醫生視為一個統一的群體,只考慮AI對其表現的‘平均’影響”。
不過,這一發現并不意味著應該阻止醫生和診所采用AI。相反,結果表明需要更好地了解人類和AI如何互動,并設計精心校準的方法來提高而不是損害人類的表現。
AI“助手”尚難預測
鑒于影像科被認為是能得到AI最大助力的臨床醫學領域,本次研究結果頗具代表意義。
此次發現中值得注意的是,在放射科,AI以令人驚訝的方式產生著影響人類醫生的表現。
例如,與研究人員預期相反,放射科醫生有多少年的經驗、他們是否專門從事胸部放射科,以及他們之前是否使用過AI設備等因素,并不能可靠地預測AI工具對他們工作表現的影響。
另一項挑戰普遍觀點的發現是:基線表現不佳的臨床醫生,并不能持續穩定地從AI中得到幫助。總體而言,無論有或沒有AI,基線表現較低的放射科醫生的表現還是較低。對于基線表現較好的放射科醫生來說也是如此——無論有沒有AI,他們的總體表現始終良好。
但可以肯定的是,更準確的AI提高了放射科醫生的表現,而水平一般的AI則會降低人類臨床醫生的診斷準確性。
這一發現的重要意義也在于:在臨床部署之前,必須測試和驗證AI工具的性能,以確保劣質AI不會干擾人類臨床醫生的判斷,從而延誤患者病情。
影響臨床醫學未來
臨床醫生擁有不同水平的專業知識、經驗和決策風格,因此確保AI能反映這種多樣性,對于有針對性地實施治療至關重要。個體因素及變化,應成為確保AI進步的關鍵,而不是干擾并最終影響診斷的因素。
有意思的是,這一發現并沒有解釋AI為何會對人類臨床醫生的表現產生不同的影響,但隨著AI對臨床醫學的影響越來越深遠,理解其中原因就顯得至關重要。關于這一點,AI專家依然在努力。
研究團隊補充說,下一步,放射科醫生與AI的交互,應該在模擬現實場景的實驗環境中展開測試,測試結果需要反映實際患者群體的情況。而除了提高AI工具的準確性之外,培訓放射科醫生去及時檢測不準確的AI、審查并質疑AI工具的診斷,也很重要。
換言之,在AI幫你之前,你需要先提高自身。