成人片黄网站色大片免费,男男无码GV片在线看,又粗又大又硬又长又爽

  • <input id="xi7g7"></input><thead id="xi7g7"><del id="xi7g7"></del></thead>
    <blockquote id="xi7g7"></blockquote>
    <thead id="xi7g7"><s id="xi7g7"></s></thead>
      當前位置:首頁 > 新聞中心 > 科研動態

    科研動態

    自動化所11篇論文被2022神經信息處理系統大會(NeurIPS)接收

  • 發表日期:2022-10-08 【 【打印】【關閉】
  •   NeurIPS全稱神經信息處理系統大會(Conference on Neural Information Processing Systems),是機器學習和計算神經科學領域的頂級國際會議。本文將介紹中科院自動化所團隊在NeurIPS 2022中收錄的11篇論文:

      01. 紫東太素:1.66億超大規模高質量中文多模態預訓練數據集 

      TaiSu: A 166M Large-scale High-Quality Dataset for Chinese Vision-Language Pre-training 

      多模態預訓練是從大規模、弱相關的多模態數據對中學習多模態統一語義表征,在眾多的下游任務中展現了卓越的泛化能力。多模態預訓練模型的性能也與數據集的規模呈現正相關。然而,當前幾乎所有的億級以上的多模態數據集采用的是英文語料,中文超大規模且高質量的多模態數據集還比較稀缺,這限制了中文多模態智能的發展。為此,本文提出了一個新穎的數據自動獲取與清洗全流程處理框架,并構建了當前最大規模的中文多模態數據集-紫東太素(TaiSu)。 

      紫東太素首次提出結合網絡圖文數據與生成的圖像描述共同構建多模態數據集,相比先前的超大規模圖文數據集,紫東太素是唯一一個為圖像提供多個中文文本描述的數據集。此外,紫東太素針對多模態數據對的相關性采用了自監督的圖文匹配性過濾。紫東太素在多個下游任務上取得了優異的表現,充分的實驗表明紫東太素是一個具有應用前景的中文超大規模多模態數據集。 

    圖1:紫東太素數據集構建框架

    圖2:基于紫東太素的預訓練模型的生成樣本示例 

      數據集相關鏈接:https://github.com/ksOAn6g5/TaiSu. 

      作者:Yulong Liu,  Guibo Zhu, Bin Zhu, Qi Song, Guojing Ge, Haoran Chen, Guanhui Qiao, Ru Peng, Lingxiang Wu, and Jinqiao Wang(劉雨龍,朱貴波,朱斌,宋奇,葛國敬,陳浩然,喬冠輝,彭茹,吳凌翔,王金橋) 

     

      02. 融合目標表達與語言知識的通用視覺基礎模型 

      Obj2Seq: Formatting Objects as Sequences with Class Prompt for Visual Tasks 

      當前視覺任務的種類和輸出形式多種多樣,構建多專多能的通用視覺基礎模型較為困難。其中最主要的挑戰在于如何統一不同視覺任務的復雜輸出形式。 

      在本文中,我們提出了一個通用視覺基礎模型(簡稱Obj2Seq),該模型融合了語言預訓練知識,并且利用seq2seq的思想統一視覺任務的輸出形式,有效推動了覆蓋多場景、多功能視覺模型的發展,并與文本等其他模態形成更加一致的結構。具體地,Obj2Seq以輸入語言知識為指導,將單個目標物體當作最基本的單元,并將所有視覺任務統一定義為針對圖像中物體的序列預測任務。我們將視覺任務拆分成兩個階段:識別由語言知識指定的目標物體以及生成描述這些物體的輸出序列。依據不同任務需求,Obj2Seq可以靈活地修改輸入的語言知識,以及輸出序列的定義方式。從而,這一通用視覺模型能夠廣泛應用于不同的視覺任務中,構建統一的解決方案。Obj2Seq在多個視覺任務上均取得了優秀的性能,在MS COCO數據集目標檢測、多標簽分類、人體姿態估計任務中均超越了同級別單一任務模型的精度。 

    圖1. 框架圖

    圖2. 視覺序列輸出結構圖 

      代碼已開源在: https://github.com/CASIA-IVA-Lab/Obj2Seq 

      作者:Zhiyang Chen, Yousong Zhu, Zhaowen Li, Fan Yang, Wei Li, Haixin Wang, Chaoyang Zhao, Liwei Wu, Rui Zhao, Jinqiao Wang, Ming Tang (陳志揚、朱優松、李朝聞、楊帆、李韡、王海鑫、趙朝陽、吳立威、趙瑞、王金橋、唐明) 

     

      03. 全稀疏3D目標檢測 

      Fully Sparse 3D Object Detection 

      本文提出了一種適用于自動駕駛場景的全稀疏3D目標檢測器。通過稀疏實例識別模塊克服了3D物體中心特征缺失的問題,避免了特征的致密化,同時也大大提高了點云算子的速度。全稀疏的結構使得本方法可以高效地實現超大范圍的點云檢測(感知半徑>200m)。我們在Waymo Open Dataset和Argoverse 2 dataset上都取得了當前最佳的性能。 

    圖1. 全稀疏檢測器方法結構圖

    圖2. 大感知范圍下的效率對比 (圖中FSD為本方法)

      代碼已開源在: https://github.com/BraveGroup/SST

      作者:Lue Fan; Feng Wang; Naiyan Wang; Zhaoxiang Zhang (范略、王峰、王乃巖、張兆翔) 

     

      04. 4D無監督物體發現 

      4D Unsupervised Object Discovery 

      無監督的物體發現具有重要的研究意義與應用價值。我們提出一種新的研究范式,4D無監督物體發現——從4D數據中(聯合三維點云和圖像視頻序列)發現三維空間和二維圖像上的物體。我們的方法充分利用了不同模態間的幾何約束以及時序上的運動線索,通過三維聚類網絡和二維定位網絡的聯合迭代優化,實現了復雜場景下無需任何標注的二維物體檢測與三維實例分割。我們的方法在真實的、大規模駕駛場景數據集Waymo上進行測試,在物體檢測和點云實例分割任務上均取得了優異的性能,遠遠超過10%人工標注的模型性能,顯著縮小了無監督方法與全監督方法之間的差距,為無監督的物體發現提供了一種全新的研究視角。 

      相關鏈接: https://github.com/Robertwyq/LSMOL

      作者:Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang(王宇琪,陳韞韜,張兆翔) 

     

      05. 基于多模態知識的少監督圖文匹配 

      MACK: Multimodal Aligned Conceptual Knowledge for Unpaired Image-text Matching 

      近年來,基于大規模成對圖文數據的預訓練模型不斷刷新圖文匹配任務的最好結果,模型精度在多個國際公開數據庫上基本接近飽和。與此不同,該工作探索了一個較為現實的新場景,即如果大量成對的圖文匹配數據無法獲取,那么我們該如何進行圖文匹配?為了緩解成對監督信息的缺失,該工作構建了多模態對齊的語義概念知識,并以此為基礎設計了知識推理與自監督學習方法,能夠在不進行模型訓練的情況下進行圖文匹配。并且,該方法可以作為重排序方法來優化其它圖文匹配模型的檢索結果,能夠進一步提升現有圖文匹配預訓練模型的精度。 

      作者:Yan Huang, Yuming Wang, Yunan Zeng, Liang Wang(黃巖,王聿銘,曾宇楠,王亮) 

     

      06. 基于樣本相關性的神經網絡模型指紋保護 

      Are You Stealing My Model? Sample Correlation for Fingerprinting Deep Neural Networks 

      模型水印旨在驗證嫌疑模型是否竊取受害模型的模型參數或知識,在近年來逐漸受到人們的關注。之前的模型水印方法利用對抗樣本的遷移性來識別竊取模型,但是這些方法一般對對抗訓練敏感,模型竊取者可以通過對抗訓練或者遷移學習規避模型所有者的模型指紋檢測。 

      為了解決上述問題,我們提出了一種基于樣本相關性檢測的模型指紋算法(SAC)。具體來說,我們通過計算特定樣本在受害模型以及嫌疑模型輸出的相關性矩陣的L2距離來判斷模型嫌疑模型是否從受害模型竊取相關知識。進一步地,為了降低不同模型中公有知識對于模型指紋識別的影響,我們利用錯分樣本或者數據增強樣本作為模型輸入,并提出了SAC-w和SAC-m兩種算法。實驗結果表明,SAC算法針對不同種類的模型竊取攻擊均表現出優異的性能。 

      作者:Jiyang Guan, Jian Liang, Ran He(關霽洋、梁堅、赫然) 

     

      07. 正交Transformer:一種基于Token正交化的高效視覺Transformer主干網絡 

      Orthogonal Transformer: An Efficient Vision Transformer Backbone with Token Orthogonalization 

      視覺Transformer中的自注意力機制,可以有效建模圖像中的全局依賴關系,但對于檢測、分割等密集預測任務,往往面臨計算開銷大的問題。目前對自注意力機制的改進工作,難以同時兼顧局部特征相關性和全局依賴建模。 

      在本文中,我們提出了一種正交自注意力機制,將視覺Token特征變換到低分辨率的正交空間再進行自注意力計算,每一個正交Token都可以感知到所有的視覺Token,從而有效建模局部特征相關性和全局特征依賴關系。我們提出了一種內生的正交變換矩陣來保證Token特征的正交性,該正交變換矩陣可以直接作為網絡參數優化更新而無需引入額外的正交約束監督。此外,我們還提出了一種基于位置編碼的多層感知機并搭建了一個層次化的主干網絡,稱為正交Transformer網絡。我們提出的正交Transformer在圖像分類、目標檢測、實例分割和語義分割等領域均取得了超越SOTA方法的性能。 

    圖1. Transformer的網絡結構 

    圖2. 正交自注意力機制與其他自注意力機制比較 

      作者:Huaibo Huang, Xiaoqiang Zhou, Ran He (黃懷波、周曉強、赫然) 

     

      08. 基于實例查詢與候選框傳播的在線視頻實例分割 

      InsPro: Propagating Instance Query and Proposal for Online Video Instance Segmentation 

      視頻實例分割旨在同時完成視頻中的物體實例分割和跟蹤。之前的方法采用顯式的實例關聯方法,即逐幀或逐片段地預測物體實例,再通過額外的跟蹤模型或匹配算法,關聯相鄰幀或片段上的實例。此類方法增加了系統的復雜性,并且無法充分利用視頻中的時序線索。 

      在本文中,我們設計了一個簡潔、快速且有效的在線視頻實例分割框架。該框架依靠實例查詢和候選框傳播機制,以及幾個專門開發的組件,可以隱式執行準確的幀間實例關聯。具體來說,我們基于從先前幀傳播的實例查詢-候選框對生成當前幀的物體實例。該實例查詢-候選框對與一個特定實例跨幀綁定,當用其預測當前幀的物體實例時,不僅生成的實例會自動與先前幀的關聯,而且模型在預測同一物體時獲得了良好的先驗。通過這種方式,我們實現了與分割并行的隱式實例關聯,并高效地利用了視頻中的時序線索。實驗結果表明,本工作提出的方法在多個數據集上實現了比基準方法更優的性能,驗證了方法的有效性。 

      作者:Fei He, Haoyang Zhang, Naiyu Gao, Jian Jia, Yanhu Shan, Xin Zhao, Kaiqi Huang (何飛,張昊飏,高乃鈺,賈健,單言虎,趙鑫,黃凱奇) 

     

      09. 基于自適應門控的統合脈沖神經元 

      GLIF: A Unified Gated Leaky Integrate-and-Fire Neuron for Spiking Neural Networks 

      脈沖神經網絡(Spiking Neural Network, SNN)自提出以來就被認為是第三代人工智能網絡,從而被廣泛研究。它最核心的特殊點就在于仿生的激活單元,即脈沖神經元。這幾年,隨著各種研究場景的不同,各種不同的脈沖神經元建模被提出。這些不同的脈沖神經元在不同神經行為上擁有相對不同的生物特征。 

      受到大腦神經元層級結構差異性的啟發,我們提出了Gated LIF模型,將這些不同的特征都統合起來,并利用門控機制將同一個神經行為上的對偶特征進行平衡。得益于參數化技術和反向傳播的充分利用,基于Gated LIF的SNN在每個通道上都會學得神經元特性完全不同的脈沖神經元,進而極大地提升網絡的內部異質性。我們在CIFAR、ImageNet、CIFAR10-DVS數據集上進行驗證,均取得了SOTA。 

     

      作者:Xingting Yao,Fanrong Li,Zitao Mo,Jian Cheng(姚星廷,李繁榮,莫子韜,程?。?/span> 

     

      10. PKD:基于皮爾遜相關系數的通用目標檢測知識蒸餾框架 

      PKD: General Distillation Framework for Object Detectors via Pearson Correlation Coefficient 

      知識蒸餾(KD)是一種在目標檢測中廣泛應用的模型壓縮技術。然而,目前對于如何在異構檢測器之間進行知識蒸餾還缺乏相關研究。本文通過實驗證明,盡管模型結構、檢測頭和標簽分配算法不同,來自異構教師檢測器的表達能力更強的FPN特征依然可以改善學生檢測器。然而,直接對齊學生和教師網絡提取的特征存在兩個問題。首先,教師和學生網絡特征幅值上的差異可能會對學生施加過于嚴格的約束。其次,激活程度較高的FPN層和通道會主導蒸餾損失的梯度,這將壓倒知識蒸餾中其他特征的影響,并引入大量噪聲。 

      針對上述問題,我們提出利用皮爾遜相關系數進行特征對齊,聚焦于來自老師的相關信息,放松對特征幅值大小的約束。我們的方法性能優于現有的針對目標檢測的知識蒸餾方法,并適用于同構和異構學生-教師檢測器對。此外算法收斂速度也較現有方法更快,且只有一個超參數并對參數設置不敏感,易于實際部署。在MaskRCNN-Swin檢測器的指導下,基于ResNet-50的RetinaNet和FCOS檢測器在COCO2017上的mAP分別達到41.5%和43.9%,分別比基線高4.1%和4.8%。 

      相關鏈接:https://arxiv.org/abs/2207.02039 

      作者:Weihan Cao,Yifan Zhang,Jianfei Gao,Anda Cheng,Ke Cheng,Jian Cheng(曹巍瀚、張一帆、高劍飛、程安達、程科、程?。?/span> 

     

      11. 一種元強化學習中梯度偏差的理論理解 

      A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning 

        相關鏈接:https://arxiv.org/abs/2112.15400 

      作者:Bo Liu, Xidong Feng, Jie Ren, Luo Mai, Rui Zhu, Haifeng Zhang, Jun Wang, Yaodong Yang (劉博 馮熙棟 任杰 麥絡 朱銳 張海峰 汪軍 楊耀東) 

    成人片黄网站色大片免费,男男无码GV片在线看,又粗又大又硬又长又爽