NVIDIA最新發(fā)布的RTX 5090和RTX PRO 6000顯卡近日被曝存在嚴重虛擬化漏洞。據wccftech報道,該漏洞會導致顯卡完全無響應,必須物理重啟主機系統(tǒng)才能恢復。
GPU云服務商CloudRift率先在生產環(huán)境中發(fā)現了這一問題。他們在多臺搭載Blackwell芯片的系統(tǒng)上復現了該故障后,發(fā)布了詳細的技術分析報告,并設立1000美元獎金公開征集解決方案。
技術分析顯示,該漏洞出現在GPU通過KVM和VFIO傳遞給虛擬機后。當虛擬機關閉或GPU重新分配時,主機系統(tǒng)發(fā)出的PCIe功能級重置(FLR)無法使顯卡恢復正常狀態(tài)。系統(tǒng)日志顯示"FLR后65535毫秒仍未就緒;放棄"的錯誤提示,此時顯卡完全失去響應,甚至無法被lspci工具識別。
值得注意的是,AI初創(chuàng)公司Tiny Corp也獨立驗證了這一漏洞,并質疑Blackwell架構是否存在硬件缺陷。社區(qū)討論中,多位RTX 5090早期用戶報告了類似問題,包括Windows虛擬機關閉后導致整個主機系統(tǒng)掛起等異常情況。
目前測試表明,調整PCIe ASPM或ACS設置均無法解決該問題。值得慶幸的是,舊款顯卡如RTX 4090尚未出現類似報告,暗示該漏洞可能僅限于NVIDIA Blackwell系列產品。