4月24日,上海聯影智能科技股份有限公司(以下簡稱“聯影智能”)開源了全球首個醫療視頻理解大模型——uAI Nexus MedVLM(元智醫療視頻理解大模型)。該論文被CVPR 2026收錄,同步開源的還有6245組精標測試集與全球首個醫療視頻理解公共評測體系。
醫療視頻理解領域,終于有了第一把"標尺"。
三大核心瓶頸,
長期制約行業發展
長期以來,醫療手術視頻理解領域始終存在三大核心技術瓶頸,制約著行業的發展:
其一,數據獲取與標注成本高企。手術視頻涉及患者隱私保護,合規數據的獲取本身存在較高門檻;而精細化的幀級標注,需要臨床醫生的專業參與,標注成本極高,絕大多數研發團隊難以承擔。
其二,行業缺乏統一的評測標準。過往行業內各研發主體采用獨立的數據集與評測指標,技術能力的橫向對比缺乏統一標尺,導致賽道發展陷入同質化內耗,技術迭代節奏受阻。
其三,任務技術壁壘極高。手術視頻理解需要實現毫米級的空間識別、高精度的時序邏輯理解,以及高度專業化的臨床語義解析,對模型的感知與推理能力要求嚴苛;即便是當前頂級的通用大模型,也難以適配這一高度專業化的臨床場景。
針對性突破:
53萬條數據,單卡能跑
而本次,聯影智能發布的 uAI Nexus MedVLM,就專門針對上述大三瓶頸進行了突破。
uAI Nexus MedVLM的底子是53萬條視頻-指令數據,4B/7B參數規模,一張卡就能部署。覆蓋內鏡、腹腔鏡、開放手術、機器人手術、護理操作等8個醫學數據集。
而模型能干8件事:視頻摘要、關鍵安全視野評估、下一步操作預測、技能評估、時間動作定位、密集視頻描述、區域級描述、時空基礎化。
團隊還開發了MedGRPO強化學習框架,解決了一個很實際的問題——異構醫學數據混合訓練容易崩潰。他們用跨數據集獎勵歸一化和醫學LLM評審機制,讓不同難度的數據集能公平優化。這套框架讓器械定位能力提升14%,手術步驟識別能力提升52%。
性能測試結果顯示,uAI Nexus MedVLM 在多項醫療視頻核心任務中,性能全面超越當前主流通用大模型:
手術安全評估任務中,模型準確率達 89.7%,是GPT-5.4(16.4%)的 5.5 倍,遠超 Gemini-3.1 的 24.2%;
時空動作定位任務中,模型 mIoU 指標為 Gemini-3.1 的 3.2 倍,為 GPT-5.4 的 47 倍;
視頻報告生成任務(5 分制)中,模型得分 4.24 分,高于 GPT-5.4 的 3.98 分。
「元智」醫療視頻理解大模型 (uAI NEXUS-MedVLM) 在多項醫療視頻核心任務中性能全面超越主流通用大模型
以腹腔鏡膽囊切除術的操作描述任務為例:
GPT-5.4 僅能給出籠統的泛化描述,無法識別具體手術器械;
Gemini-3.1 出現了器械識別錯誤,將手術工具誤判為 “電凝鉤”;
其他國產通用大模型則無法識別正確的手術步驟。
而 uAI Nexus MedVLM 的輸出為:“位于左上方的抓鉗持續向上并朝中央牽引膽囊,保持張力并為鉤子暴露分離平面”,幾乎接近標準答案。
全鏈條開源,
打造全球協同研發生態
值得一提的事,聯影這次不只是開源模型,還同步開源了大規模高質量醫療視頻標注數據,提供了一個統一的評測基準,徹底解決了過往行業內技術能力無法橫向對比的問題。
以前各說各話,現在同一個數據集上跑一跑,誰強誰弱一目了然。
此外,聯影智能還發布「醫療視頻理解大模型榜單」,面向全球開發者發出邀請。開發者提交模型結果,系統自動評分,動態更新排行榜。全球開發者都能下載模型、用數據集、上傳成果。
醫療視頻理解大模型榜單
本次 uAI Nexus MedVLM 的開源,不僅是聯影智能在醫療AI領域的又一次技術突破,更是整個醫療視頻理解賽道的全新起點。
未來,隨著該模型與具身智能等前沿技術的融合落地,醫療 AI 將逐步從影像診斷等單點場景,向全流程、全場景的臨床輔助延伸,真正實現技術普惠,為全球醫療行業的數字化轉型,注入全新的行業動力。
項目主頁
https://uii-ai.github.io/MedGRPO/
模型詳情
https://huggingface.co/UII-AI/uAI-NEXUS-MedVLM-1.0a-7B-RL
數據集
https://huggingface.co/datasets/UII-AI/MedVidBench
大模型榜單
https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard
推理代碼
https://github.com/UII-AI/MedGRPO-Code
模型體驗
https://huggingface.co/spaces/UII-AI/MedGRPO-Demo
大賽項目成果匯報