融合點云自動標注工具,薈聚NeurIPS頂會模型、智能標注10倍速神器、人像分割SOTA方案、3D醫療影像分割利器,PaddleSeg重磅升級!
融合點云自動標注工具,薈聚NeurIPS頂會模型、智能標注10倍速神器、人像分割SOTA方案、3D醫療影像分割利器,PaddleSeg重磅升級!
導讀
圖像分割是計算機視覺三大任務之一,基于深度學習的圖像分割技術也發揮日益重要的作用,廣泛應用于智慧醫療、工業質檢、自動駕駛、遙感、智能辦公等行業。
然而在實際業務中,圖像分割依舊面臨諸多挑戰,比如:分割數據標注效率較低,標注過程自動化程度低;垂類場景多樣,打造全流程方案的難度大;針對3D分割的方案較少。
針對以上挑戰,飛槳圖像分割開源套件PaddleSeg近期升級,主要包括:
-
開源NeurIPS 2022頂會發表的語義分割官方實現模型RTFormer,結合CNN和Transformer的優點,該模型設計并使用了高效的RTFormer Block。對比其他實時語義分割模型,RTFormer在多個數據集上實現SOTA精度和速度。(后續會有單獨文章詳細解讀)
-
針對標注數據的難題,發布智能標注平臺EISeg正式版,支持醫療、遙感、工業質檢等領域的分割標注,新增視頻分割標注,分割標注效率提升超過10倍。
-
針對人像分割場景,發布實時人像分割SOTA方案PP-HumanSegV2,推理速度提升87.15%,分割精度達到96.63%,可視化效果更佳,可與商業收費方案媲美。
-
針對3D醫療分割場景,發布3D醫療影像分割方案MedicalSegV2,支持3D交互式標注標注,實現高精度、定制化、全流程。
注:了解更多詳情,可至文末加入PaddleSeg技術交流群
感謝大家star關注
https://github.com/PaddlePaddle/PaddleSeg
技術升級詳細解析
第一部分
EISeg 正式版標注效率提升超過10倍
通用場景的智能標注
EISeg基于深度學習模型,能夠結合用戶提供的標注信息靈活選擇用戶感興趣的區域。在EISeg中,用戶通過點擊正點或負點來選擇需要被分割的目標,不需要再對目標周圍進行點擊和拉線。它能減少用戶交互的次數,提升標注效率。
醫療、遙感垂類場景的智能標注
EISeg針對特定數據集進行訓練并獲得了高質量的交互式分割模型,目前覆蓋的場景包括: 醫療腹腔多器官、椎骨分割、產品瑕疵分割、遙感建筑物分割等。同時,針對不同場景的標注需求,EISeg提供了相應的特色標注能力,比如遙感圖像支持遙感信息的讀取,醫療圖像支持窗寬窗位的選擇等,從而拓展了交互式分割的應用領域。
業界領先的內置分割模型
目前EISeg提供的各類模型能夠達到業界的領先水平,EISeg通用模型精度和速度如下表所示:
支持視頻智能標注
EISeg正式版視頻標注工具以交互式分割算法及交互式視頻分割算法MiVOS為基礎,涵蓋了通用、腹腔多器官,CT椎骨等不同方向的高質量交互式視頻分割模型,方便開發者快速實現視頻的分割標注。
支持多種圖像及標注格式
EISeg正式版支持多種標注格式生成,同時支持導出偽彩色圖、灰度圖,以及JSON、COCO等數據格式,總有一款能滿足你的需求。
助力多家標注平臺落地
PaddleSeg提供的智能標注能力現已落地百度大腦EasyData智能數據服務平臺,百度智能云數據眾包、標貝數據、中國空天院、國家農業智能裝備工程技術研究中心等廠內外數十家公司,助力企業提升標注效率,降低標注成本。
- EISeg傳送門
https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.6/EISeg
第二部分
PP-HumanSegV2人像分割SOTA方案,精度96.63%、速度63FPS
在視頻通話和觀看直播時,背景虛化、彈幕穿人等神奇的功能,給我們帶來了更優質的體驗和多維的樂趣。那這是靠什么AI黑科技實現的呢?答案就是人像分割。人像分割是將人物和背景在像素級別進行區分。目前人像分割技術得到快速突破,但是高精度、高性能、全流程的方案,仍是業界高手持續發力優化的地方。
PaddleSeg重磅升級的PP-HumanSegV2人像分割方案,以96.63%的mIoU精度, 63FPS的手機端推理速度,再次刷新開源人像分割算法SOTA指標。相比PP-HumanSegV1方案,推理速度提升87.15%,分割精度提升3.03%,可視化效果更佳。支持零成本、開箱即用!
PP-HumanSegV2方案核心點在以下三方面:
開源PP-HumanSeg14K人像分割數據集
常見的人像分割公開數據集有EG1800和Supervise-Portrait,數據量分別是1.8k和3k,而且都是針對通用場景。PP-HumanSegV2方案重點關注視頻會議和遠程通話場景,面臨場景變化多樣、可用數據量過少的難點。因此,我們針對視頻會議和遠程通話場景,構建并開源了最大的視頻會議人像分割數據集PP-HumanSeg14K。
該數據集充分考慮了場景多樣性,采集的圖片涵蓋了背景光照、人物動作、人物個數、戴口罩等諸多變化因素。總共收集了將近14000張圖片進行高精標注,劃分為訓練集9000張、驗證集2500張、測試集2500張。
同時PaddleSeg團隊將PP-HumanSeg14K數據集論文發表在WACV 2022 Workshop上,讓更多學者可以看到并申請使用該數據集。截至目前,PP-HumanSeg14K已經廣泛助力人像分割的研究,涵蓋60+高校、20+機構、30+公司。
- PP-HumanSeg14K數據集傳送門
https://github.com/PaddlePaddle/PaddleSeg/blob/release/2.6/contrib/PP-HumanSeg/paper.md
采集的圖片
標注的圖片
升級實時高精度人像分割SOTA模型
此前的實時人像分割模型,無法實現精度和速度的完美平衡,所以我們基于PaddleSeg近期發布的超輕量級系列MobileSeg模型,根據方案目標,設計新的實時人像分割SOTA模型模型。(結構如下圖所示)
實時人像分割SOTA模型
對于模型Encoder部分,考慮到模型的算量要求很高,我們選用MobileNetV3作為骨干網絡提取多層特征。分析發現MobileNetV3的參數主要集中在最后一個Stage,在不影響分割精度的前提下,我們只保留MobileNetV3的前四個Stage,成功減少了68.6%的參數量。對于上下文部分,我們使用PP-LiteSeg模型中提出的輕量級SPPM模塊,而且其中的普通卷積都替換為可分離卷積,進一步減小計算量。SPPM模塊輸入16倍下采樣特征圖,輸出匯集全局上下文信息的特征圖。對于Decoder部分,我們設計三個Fusion融合模塊,多次融合深層語義特征和淺層細節特征,最后一個Fusion融合模塊再次匯集不同層次的特征圖,輸出分割結果。
三個關鍵優化策略升級
除了數據和模型方面的工作,我們還分析實際場景,提出了三種優化策略,實現最好的精度、速度和可視化效果:
- 使用兩階段訓練方式,提升分割精度
兩階段訓練是基于遷移學習的思想,首先在大規模混合人像數據集(數據量100k+)上訓練,然后使用該預訓練權重,在PP-HumanSeg14K數據集(數據量14k)上訓練,最終得到訓練好的模型。使用兩階段訓練方式,可以充分利用其他數據集,提高模型的分割精度和泛化能力。
- 調整圖像分辨率,提升推理速度
調整圖像分辨率也直接影響模型的推理速度,我們使用多種圖像分辨率進行訓練和測試,在PP-HumanSegV2方案中選擇最佳圖像分辨率,進一步提升了模型推理速度。
- 使用形態學后處理,提升可視化效果
首先獲取原始預測圖像I,然后使用閾值處理、圖像腐蝕、圖像膨脹等操作得到掩碼圖像M,最后預測圖像I和掩碼圖像M相乘,輸出最終預測圖像O。下圖直觀展示了形態學后處理可以濾除背景干擾,提升可視化效果。
形態學后處理的圖像
- 傳送門
https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.6/contrib/PP-HumanSeg
第三部分
MedicalSegV2:高精度定制化3D醫療分割方案
3D醫療影像分割通過學習3D醫療影像數據(CT、MRI)和特定標簽的映射關系,獲取3D的特定感興趣器官、組織的立體分割結果。進一步結合3D打印、數據分析、可視化等技術,就可以幫助醫生對患者的病情進行高效診斷、手術規劃、疾病研究等重要工作。
多層2D椎骨數據通過3D分割獲得3D立體分割結果
基于自研模型的3D智能標注平臺EISeg-Med3D
醫療影像分割中的一個源頭性問題為數據標注極為困難,專業醫生需要通過極為繁雜的標注流程、多重質量保證機制來生成大量、準確標注結果。為了緩解這個問題。PaddleSeg團隊創新性地將3D網絡應用于交互式分割流程中,并實現100%3D數據流,形成了基于3D交互式分割的智能標注平臺EISeg-Med3D。
EISeg-Med3D基于3D Slicer搭建,具有高效、高精度、用戶友好三大特點:只要一次點擊1s生成3D標注結果,相比2D標注實現十倍提速;兩次點擊就可達到85% 精度,結合搭載的機器學習圖像算法、手工微調工具,實現100%高精度標注;擁有標注進度管理、三步輕松安裝、歷史標注結果自動導入等用戶友好設計。
極大豐富的高精度多器官前沿模型
從v1到v2,MedicalSeg的內置分割算法從單個VNet豐富到6個SOTA算法,擴充的模型數量提供了更為先進高效的分割性能,覆蓋了18種各類器官組織。如下表所示,復現的模型對比原始算法精度均有不同精度的提升,其中TransUNet相比原始算法精度提升了3.6。
定制化醫療分割方案nnUNet
有過醫療分割經驗的開發者一定聽過nnUNet,作為各大比賽的打榜方案,其支持數據定制化下的高精度分割。而看過其代碼的開發者也會發現其代碼的晦澀難懂。為了支持大家更加靈活使用nnUNet的需要,我們基于飛槳對其進行了模塊化、清晰化的復現;同時還新增了在靜態圖預測時匹配多種模型、多折模型的部署方案,達到同一張圖像可使用多折靜態模型部署的效果,從而大大提升了其產業實用性。
- MedicalSeg v2傳送門
https://github.com/PaddlePaddle/PaddleSeg/tree/develop/contrib/MedicalSeg
加入PaddleSeg技術交流群
入群福利
-
獲取PaddleSeg詳解本次升級內容的直播課鏈接
-
獲取PaddleSeg團隊整理的5G重磅學習大禮包,包括:
1. PaddleSeg歷次發版直播課視頻
2. 社區優秀開發者項目分享視頻
相關地址
- 官網地址
https://www.paddlepaddle.org.cn
- PaddleSeg項目地址(GitHub)
https://github.com/PaddlePaddle/PaddleSeg
- Gitee
https://gitee.com/paddlepaddle/Paddleseg
關注【飛槳PaddlePaddle】公眾號
獲取更多技術內容~