Nothing Special   »   [go: up one dir, main page]

TWI785739B - 目標模型的獲取方法、電子設備與儲存媒體 - Google Patents

目標模型的獲取方法、電子設備與儲存媒體 Download PDF

Info

Publication number
TWI785739B
TWI785739B TW110130162A TW110130162A TWI785739B TW I785739 B TWI785739 B TW I785739B TW 110130162 A TW110130162 A TW 110130162A TW 110130162 A TW110130162 A TW 110130162A TW I785739 B TWI785739 B TW I785739B
Authority
TW
Taiwan
Prior art keywords
network
feature extraction
subnetwork
candidate
sub
Prior art date
Application number
TW110130162A
Other languages
English (en)
Other versions
TW202209194A (zh
Inventor
孫明
竇浩軒
Original Assignee
大陸商北京市商湯科技開發有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京市商湯科技開發有限公司 filed Critical 大陸商北京市商湯科技開發有限公司
Publication of TW202209194A publication Critical patent/TW202209194A/zh
Application granted granted Critical
Publication of TWI785739B publication Critical patent/TWI785739B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Image Analysis (AREA)
  • Automatic Disk Changers (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Holo Graphy (AREA)

Abstract

本公開提供了一種目標模型的獲取方法及裝置、電子設備和儲存媒體,其中,目標模型的獲取方法包括:利用第一訓練樣本集預訓練原始模型,以調整原始模型的網路參數,其中,原始模型包括用於特徵提取的第一子網路;利用第二子網路和經預訓練的第一子網路的至少部分結構,得到目標模型,其中,第二子網路用於基於第一子網路提取的特徵執行目標任務;利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路參數。

Description

目標模型的獲取方法、電子設備與儲存媒體
本公開涉及資訊技術領域,特別是涉及一種目標模型的獲取方法及裝置、電子設備和儲存媒體。
遷移學習(Transfer Leaning)旨在將用於執行某個任務的原始模型經過相關處理,得到目標模型以應用到目標任務上。隨著深度學習、計算機視覺等技術的快速發展,遷移學習已經在諸多場景得到了應用。故此,如何提高目標模型的性能成為極具研究價值的課題。
本公開提供一種目標模型的獲取方法及裝置、電子設備和儲存媒體。
本公開第一方面提供了一種目標模型的獲取方法,所述方法可包括:利用第一訓練樣本集預訓練原始模型,以調整原始模 型的網路參數;其中,原始模型包括用於特徵提取的第一子網路;利用第二子網路和經預訓練的第一子網路的至少部分結構,得到目標模型;其中,第二子網路用於基於第一子網路提取的特徵執行目標任務;利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路參數。
在一些實施例中,所述第一子網路可包括多個網路區段,每一所述網路區段可包括順序連接的至少一個特徵提取單元,所述特徵提取單元用於進行特徵提取。
在一些實施例中,所述第一子網路可包括至少一路分支網路,且每路所述分支網路可包括順序連接的至少一個所述網路區段。
在一些實施例中,所述利用第二子網路和經預訓練的所述第一子網路的至少部分結構,得到所述目標模型,可包括:利用所述第一子網路的不同部分結構得到至少一個候選子網路,並選取滿足預設條件的所述候選子網路作為選中子網路;利用所述選中子網路和所述第二子網路,得到所述目標模型。
在一些實施例中,所述預設條件可包括:利用所述候選子網路與所述第二子網路得到的候選模型滿足預設性能條件。
在一些實施例中,所述預設條件還可包括:所述候選子網路中的特徵提取單元的數量達到預設數量。
在一些實施例中,所述候選子網路可包括同一所述分支網路中每個所述網路區段中的至少一個特徵提取單元,且不同所 述候選子網路中的所述特徵提取單元可至少部分不同。
在一些實施例中,所述利用所述第一子網路的不同部分結構得到至少一個候選子網路,並選取滿足預設條件的所述候選子網路作為選中子網路,可包括:選擇同一所述分支網路中每個所述網路區段中的第一個特徵提取單元,得到初始的待定子網路;對於所述待定子網路,增加至少一個特徵提取單元,得到候選子網路,其中,增加的特徵提取單元位於所述網路區段中選擇的特徵提取單元之後;將多個所述候選子網路分別與所述第二子網路組成候選模型,選擇多個所述候選模型中性能條件最好的一個候選模型對應的候選子網路,作為待定子網路;在所述待定子網路中的特徵提取單元數量小於預設數量的情況下,基於所述待定子網路,得到新的所述候選子網路,並選擇多個新的所述候選子網路與所述第二子網路組成的候選模型中性能條件最好的一個候選模型對應的候選子網路,作為新的所述待定子網路;在所述待定子網路中的特徵提取單元數量不小於所述預設數量的情況下,將所述待定子網路作為所述選中子網路。
在一些實施例中,所述對於所述待定子網路,增加至少一個特徵提取單元,得到候選子網路,可包括:將每個所述網路區段分別作為目標區段,將所述目標區段所選擇的特徵提取單元數量增加一整數數值,同時保持其他網路區段中所選擇的特徵提取單元數量不變,得到對應所述目標區段的候選子網路。
在一些實施例中,所述基於所述待定子網路,得到新的所 述候選子網路,可包括:對於所述待定子網路,增加至少一個特徵提取單元,得到新的候選子網路,其中,增加的特徵提取單元位於所述網路區段中選擇的特徵提取單元之後。
在一些實施例中,所述利用所述候選子網路與所述第二子網路得到的候選模型滿足預設性能條件,可包括:利用與所述目標任務對應的驗證樣本,對利用所述候選子網路與所述第二子網路得到的候選模型進行驗證,得到所述候選模型執行所述目標任務的性能評分;基於所述性能評分確定所述候選模型是否滿足所述預設性能條件。
所述第一子網路包含第一數量個特徵提取單元,所述第一子網路包含第二數量個網路區段,所述預設數量小於所述第一數量,且大於或等於所述第二數量。
在一些實施例中,所述第一子網路可包括一路分支網路,且該路分支網路可包括順序連接的多個網路區段,每一所述網路區段可包括順序連接的至少一個特徵提取單元;所述利用第一訓練樣本集預訓練原始模型,以調整所述原始模型的網路參數,可包括:每次訓練前利用預設選擇策略,在每一所述網路區段中選擇一所述特徵提取單元;利用所述第一訓練樣本集,對每一所述網路區段中位於選擇的特徵提取單元之前的部分進行訓練,以調整每一所述網路區段中位於選擇的特徵提取單元之前的部分的網路參數。
在一些實施例中,所述第一子網路可包括多路分支網路,且每路所述分支網路可包括順序連接的至少一個網路區段,每一 所述網路區段可包括順序連接的至少一個特徵提取單元;所述利用第一訓練樣本集預訓練原始模型,以調整所述原始模型的網路參數,可包括:每次訓練前利用預設選擇策略,在所述第一子網路中選擇一路所述分支網路並在選擇的所述分支網路所包含的每一所述網路區段中選擇一所述特徵提取單元;利用所述第一訓練樣本集,對每一所述網路區段中位於選擇的特徵提取單元之前的部分進行訓練,以調整每一所述網路區段中位於選擇的特徵提取單元之前的部分的網路參數。
在一些實施例中,所述每次訓練前利用預設選擇策略,在所述第一子網路中選擇一路所述分支網路並在選擇的所述分支網路所包含的每一所述網路區段中選擇一所述特徵提取單元,可包括:在所述第一子網路中隨機選擇一路所述分支網路並在選擇的所述分支網路所包含的每一所述網路區段中選擇一所述特徵提取單元。
在一些實施例中,所述每次訓練前利用預設選擇策略,在所述第一子網路中選擇一路所述分支網路並在選擇的所述分支網路所包含的每一所述網路區段中選擇一所述特徵提取單元,可包括:在所述第一子網路中選擇包含所述特徵提取單元數量最多的分支網路並在選擇的所述分支網路所包含的每一所述網路區段中選擇一所述特徵提取單元。
在一些實施例中,所述第一子網路還可包括位於相鄰所述網路區段之間的下採樣層。
在一些實施例中,所述特徵提取單元可包括順序連接的卷積層、激活層和批量歸一化層。
在一些實施例中,在所述利用第一訓練樣本集預訓練原始模型,以調整所述原始模型的網路參數之後,以及在所述利用第二子網路和經預訓練的所述第一子網路的至少部分結構,得到所述目標模型之前,所述方法還可包括:利用所述第二訓練樣本集訓練所述原始模型,以調整所述原始模型的網路參數。
在一些實施例中,在所述利用第二子網路和經預訓練的所述第一子網路的至少部分結構,得到所述目標模型之後,以及在所述利用與所述目標任務對應的第二訓練樣本集訓練所述目標模型,以調整所述目標模型的網路參數之前,所述方法還可包括:利用所述第一訓練樣本集訓練所述目標模型,以調整所述目標模型的網路參數。
在一些實施例中,所述原始模型還可包括第三子網路,所述第三子網路用於基於提取到的特徵執行預設任務,其中,所述預設任務可與所述目標任務相同或不同。
在一些實施例中,所述第一訓練樣本集中第一訓練樣本的數量可大於所述第二訓練樣本集中第二訓練樣本的數量。
待定子網路本公開第二方面提供了一種目標模型的獲取裝置,包括:第一訓練模組、模型獲取模組和第二訓練模組,第一訓練模組用於利用第一訓練樣本集預訓練原始模型,以調整原始模型的網路參數;其中,原始模型包括用於特徵提取的第一子網 路;模型獲取模組用於利用第二子網路和經預訓練的第一子網路的至少部分結構,得到目標模型;其中,第二子網路用於基於第一子網路提取的特徵執行目標任務;第二訓練模組用於利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路參數。
本公開第三方面提供了一種電子設備,包括相互耦接的儲存器和處理器,處理器用於執行儲存器中儲存的程式指令,以實現上述第一方面中的目標模型的獲取方法。
本公開第四方面提供了一種計算機可讀儲存媒體,其上儲存有程式指令,程式指令被處理器執行時實現上述第一方面中的目標模型的獲取方法。
S11:利用第一訓練樣本集預訓練原始模型,以調整原始模 型的網路參數;其中,原始模型包括用於特徵提取的第一子網路
S12:利用第二子網路和經預訓練的第一子網路的至少部分結構,得到目標模型
S13:利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路參數
S41:選擇每個網路區段中的第一個特徵提取單元,得到初始的待定子網路
S42:對於待定子網路,增加至少一個特徵提取單元,得到候選子網路
S43:將多個候選子網路分別與第二子網路組成候選模型,選擇多個候選模型中性能條件最好的一個候選模型對應的候選子網路,作為待定子網路
S44:待定子網路中的特徵提取單元數量是否小於預設數量
S45:將待定子網路作為選中子網路
S46:利用選中子網路和第二子網路,得到目標模型
S601:每次訓練原始模型前利用預設選擇策略,在每一網路區段中選擇一特徵提取單元
S602:利用第一訓練樣本集,對每一網路區段中位於選擇的特徵提取單元之前的部分進行訓練,以調整每一網路區段中位於選擇的特徵提取單元之前的部分的網路參數
S603:利用與目標任務對應的第二訓練樣本集訓練原始模型,以調整原始模型的網路參數
S604:選擇每個網路區段中的第一個特徵提取單元,得到初始的待定子網路
S605:對於待定子網路,增加至少一個特徵提取單元,得到候選子網路
S606:將多個候選子網路分別與第二子網路組成候選模型,選擇多個候選模型中性能條件最好的一個候選子模型對應的候選子網路作為待定子網路
S607:選中子網路的特徵提取單元數量是否小於預設數量
S608:基於待定子網路,得到新的候選子網路
S609:將待定子網路作為選中子網路
S610:利用選中子網路和第二子網路,得到目標模型
S611:利用第一訓練樣本集訓練目標模型,以調整目標模型的網路參數
S612:利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路參數
70:目標模型的獲取裝置
71:第一訓練模組
72:模型獲取模組
73:第二訓練模組
80:電子設備
81:儲存器
82:處理器
90:計算機可讀儲存媒體
901:程式指令
圖1是根據本公開實施例的目標模型的獲取方法的流程示意圖。
圖2是根據本公開實施例的第一子網路的框架示意圖。
圖3是根據本公開另一實施例的第一子網路的框架示意圖。
圖4是根據本公開實施例的圖1中步驟S12的流程示意圖。
圖5是根據本公開實施例的待定子網路的框架示意圖。
圖6是根據本公開另一實施例的目標模型的獲取方法的流程示意圖。
圖7是根據本公開實施例的目標模型的獲取裝置的框架示意圖。
圖8是根據本公開實施例的電子設備的框架示意圖。
圖9是根據本公開實施例的計算機可讀儲存媒體的框架示意圖。
下面結合說明書附圖,對本公開實施例進行詳細說明。
以下描述中,為了說明而不是為了限定,提出了諸如特定系統結構、接口、技術之類的具體細節,以便透徹理解本公開。
本文中術語“系統”和“網路”在本文中可互換使用。本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字符“/”,一般表示前後關聯對象是一種“或”的關係。此外,本文中的“多”表示兩個或者多於兩個。
請參閱圖1,圖1是根據本公開實施例的目標模型的獲取方法的流程示意圖。具體而言,可以包括步驟S11至S13。
步驟S11:利用第一訓練樣本集預訓練原始模型,以調整原始模型的網路參數;其中,原始模型包括用於特徵提取的第一子網路。
在一個實施場景中,第一子網路可以包括多個網路區段(stage),且每一網路區段可以包括順序連接的至少一個特徵提取 單元(block)。具體地,特徵提取單元用於進行特徵提取,可以包括順序連接的卷積層、激活層和批量歸一化層(Batch Normalization,BN)。卷積層可以包括若干卷積核,用於提取特徵。激活層可以包括sigmoid、tanh、ReLu等激活函數,用於引入非線性因素。批量歸一化層可以用於歸一化操作。通過順序連接的卷積層、激活層和批量歸一化層,能夠有利於提高特徵提取單元在訓練過程中的學習效果。此外,在特徵提取單元中,卷積層之後還可以連接有池化層,用於對卷積層提取到的特徵進行下採樣。此外,第一子網路還包括位於相鄰網路區段之間的下採樣層,能夠有利於實現特徵降維,壓縮數據和參數的數量,減小過擬合,同時提高容錯性。每一網路區段所包含的特徵提取單元的數量可以相同,如每一網路區段均包含3個、或4個、或5個特徵提取單元。每一網路區段所包含的特徵提取單元的數量也可以完全不同,如第一個網路區段包含3個特徵提取單元,第二個網路區段包含4個特徵提取單元,第三個網路區段包含5個特徵提取單元。每一網路區段所包含的特徵提取單元的數量還可以不完全相同,如第一個網路區段包含3個特徵提取單元,第二個網路區段也包含3個特徵提取單元,第三個網路區段包含5個特徵提取單元。也就是說,可以根據實際應用需要進行設置,在此不做限定。
在一個具體的實施場景中,上述多個網路區段中的若干網路區段可以具有相同的輸入節點,在此情況下,第一子網路可以有多路分支網路,每路分支網路可以包括順序連接的至少一個網 路區段。
請結合參閱圖2,圖2是根據本公開實施例的第一子網路的框架示意圖,如圖2所示,虛線矩形表示網路區段,每一網路區段包含4個特徵提取單元,第一子網路包含三個並行連接的分支網路,第一路分支網路為第一行網路區段(為簡化示意圖,第一個分支網路僅示意性地描繪了一個網路區段),第二路分支網路為第二行網路區段,第三路分支網路為第三行網路區段(為簡化示意圖,第三個分支網路僅示意性地描繪了一個網路區段),三個分支網路具有相同的輸入節點。在其他場景,也可以根據實際應用需要設置包含其他數量分支網路的第一子網路。例如,可以將第一子網路設置為包括2路分支網路、4路分支網路等等,在此不做限定。
在另一個具體的實施場景中,多個網路區段也可以串行連接,在此情況下,第一子網路可以僅有一路分支網路,且該路分支網路包括順序連接的多個網路區段。
請結合參閱圖3,圖3是根據本公開另一實施例的第一子網路的框架示意圖,如圖3所示,虛線矩形表示網路區段,每一網路區段包含4個特徵提取單元,第一子網路包括兩個串行連接的網路區段,在此情況下,第一子網路僅包含一路分支網路。
在又一個具體的實施場景中,除第一子網路之外,原始模型還可以包括另一子網路,例如,第三子網路,另一子網路用於基於提取到的特徵執行預設任務。預設任務可以是目標檢測任務、影像分類任務、場景分割任務等等,在此不做限定。目標檢測任務表 示在影像中檢測出目標對象,例如,在影像中檢測出車輛、行人等;影像分類任務表示將影像歸類至某一類別,例如,將影像歸類至貓、狗、烏龜等;場景分割任務表示檢測出影像中的像素點所屬的類別,例如,檢測出影像中分別屬車道、車、綠化帶、天空的像素點,上述預設任務的舉例僅僅表示在實際應用中可能存在的一種使用情況,並不因此而限定其使用範圍。另一子網路的具體結構可以根據實際應用需要進行設置,在此不做限定。例如,在預設任務為目標檢測任務或影像分類任務的情況下,另一子網路可以包括若干個(如,2個、3個等)順序連接的全連接層、softmax層等等,在此不做限定。又例如,在預設任務為場景分割的情況下,另一子網路可以包括全連接層、softmax層,在此不做限定。
在一個實施場景中,為了提高預訓練的準確性,第一訓練樣本集可以為大規模數據集,即第一訓練樣本集中第一訓練樣本的數量大於預設數值(如,1000、5000、10000等等)。因此,可以利用第一訓練樣本集充分地對原始模型進行預訓練,有利於提高後續獲取的目標模型的準確性。在一個實施場景中,為了提高預訓練的效率,第一子網路可以僅包括一路分支網路,且該路分支網路可以包括多個順序連接的網路區段。在此情況下,可以在每次訓練前利用預設選擇策略,在每一網路區段中選擇一特徵提取單元,從而可以利用第一訓練樣本集,對每一網路區段中位於選擇的特徵提取單元之前的部分(包含該選擇的特徵提取單元)進行訓練,以調整每一網路區段中位於選擇的特徵提取單元之前的部分的網 路參數。上述方式,能夠有利於提高預訓練的效率。具體地,上述預設選擇策略可以包括:在每一網路區段內隨機選擇一特徵提取單元。
在一個具體的實施場景中,預設選擇策略可以包括:在與各個網路區段分別對應的預設數值範圍內隨機選擇一整數數值,且預設數值範圍的上限值為對應網路區段所包含的特徵提取單元的數量,為了便於描述,可以記為Ni,表示第i個網路區段包含的特徵提取單元的數量,預設數值範圍的下限值可以為1,則可以在1至N i 的預設數值範圍內隨機選擇一整數數值,為了便於描述,可以將隨機選擇的整數數值記為Si,表示第i個網路區段隨機選擇的整數數值,則可以利用第一訓練樣本集,對每一網路區段中位於第Si個特徵提取單元之前的部分(即第1至第Si)進行訓練,以調整每一網路區段中位於第Si個特徵提取單元之前的部分(即第1至第Si)的網路參數。
如圖3中虛線箭頭所示,在利用第一訓練樣本集,對每一網路區段中位於選擇的特徵提取單元之前的部分進行訓練的情況下,可以將每一網路區段內選擇的特徵提取單元的輸出結果,作為下一網路區段的輸入數據。請結合參閱圖3,如圖所示,例如,當第一個網路區段中選擇的特徵提取單元為第2個特徵提取單元時,可以將第2個特徵提取單元的輸出結果,作為下一網路區段的輸入數據。又例如,當第一個網路區段中選擇的特徵提取單元為第3個特徵提取單元時,可以將第3個特徵提取單元的輸出結果, 作為下一網路區段的輸入結果,其他情況可以以此類推,在此不再一一舉例。
在一個實施場景中,在第一子網路包括多路分支網路的情況下,每次訓練前可以利用預設選擇策略,在第一子網路中選擇一路分支網路,並在選擇的分支網路所包含的每一網路區段中選擇一特徵提取單元,從而可以利用第一訓練樣本集,對選擇的分支網路包含的每一網路區段中位於選擇的特徵提取單元之前的部分進行訓練,以調整選擇的分支網路包含的每一網路區段中位於選擇的特徵提取單元之前的部分的網路參數。在網路區段中選擇特徵提取單元的具體方式可以參閱前述相關描述,在此不再贅述。
在一個具體的實施場景中,在第一子網路中選擇分支網路的方式,可以參閱在網路區段中選擇特徵提取單元的方式。具體地,可以在預設數值範圍內隨機選擇一整數數值,且預設數值範圍的上限值為第一子網路所包含的分支網路的數量,為了便於描述,可以記為N,表示第一子網路共包含N路分支網路,預設數值範圍的下限值可以為1,則可以在1至N的預設數值範圍內隨機選擇一整數數值。為了便於描述,可以將隨機選擇的整數數值記為S,表示在第一子網路中選擇第S路分支網路。請結合參閱圖2,圖2所示的第一子網路共包含3路分支網路,則可以在1至3中隨機選擇一整數數值,例如2,則可以將第2路分支網路S 2,作為選擇的分支網路。然後,在第2路分支網路S 2所包含的每一網路區段中選擇一特徵提取單元,具體可以參閱前述描述,在此不再贅述。
在另一個具體的實施場景中,可以選擇第一子網路中包含特徵提取單元數量最多的分支網路。然後,在該分支網路所包含的每一網路區段中選擇一特徵提取單元,具體可以參閱前述描述,在此不再贅述。
在一個實施場景中,當滿足預設結束條件時,可以結束對原始模型的預訓練。具體地,預設結束條件可以包括:每個第一訓練樣本參與訓練的次數已達到預設次數閾值,預設次數閾值可以根據實際應用需要進行設置,例如,可以設置為100、120、150等等,在此不做限定。
步驟S12:利用第二子網路和經預訓練的第一子網路的至少部分結構,得到目標模型。
本公開實施例中,第二子網路用於基於第一子網路提取的特徵執行目標任務。在一個實施場景中,目標任務可以包括以下任一者:目標檢測任務、影像分類任務、場景分割任務。關於目標檢測任務、影像分類任務和場景分割任務的具體含義,可以參考前述描述,在此不再贅述。此外,如前描述,原始模型還可以包括第三子網路,第三子網路用於基於提取到的特徵執行預設任務,預設任務可以與目標任務相同,也可以不同。例如,預設任務和目標任務可以均為影像分類任務。又例如預設任務和目標任務可以均為目標檢測任務。再例如,預設任務可以為目標檢測任務,而目標任務可以為影像分類任務,在此不做限定。此外,第三子網路可以和第二子網路相同,也可以不相同。例如,第三子網路可以包括一個 全連接層和一個softmax層,第二子網路可以包含兩個順序連接的全連接層和連接於這兩個全連接層之後的softmax層。又例如,第二子網路也可以與第三子網路一樣,也包括一個全連接層和一個softmax層,在此不做限定。
在一個實施場景中,可以利用第一子網路的不同部分結構,得到至少一個候選子網路,並選取滿足預設條件的候選子網路,作為選中子網路,從而可以利用選中子網路和第二子網路,得到目標模型。
在一個具體的實施場景中,候選子網路包括同一分支網路中每個網路區段中的至少一個特徵提取單元,且不同候選子網路中的特徵提取單元至少部分不同,則每次選擇第一子網路的部分結構時,可以選擇一路分支網路,並在選擇的分支網路的每一網路區段中選擇一特徵提取單元,從而可以將每一網路區段中位於選擇的特徵提取單元之前的部分的組合,作為第一子網路的部分結構,從而可以得到第一子網路的不同部分結構。以第一子網路僅包括一路分支網路為例,請結合參閱圖3,第一次選擇第一子網路的部分結構時,可以在第一個網路區段隨機選擇第三個特徵提取單元,在第二個網路區段隨機選擇第二個特徵提取單元,則可以將第一個網路區段中位於第三個特徵提取單元之前的部分和第二網路區段中位於第二個特徵提取單元之前的部分的組合,作為第一子網路的部分結構;第二次選擇第一子網路的部分結構時,可以在第一個網路區段隨機選擇第二個特徵提取單元,在第二個網路區 段隨機選擇第三個特徵提取單元,則可以將第一個網路區段中位於第二個特徵提取單元之前的部分和第二網路區段中位於第三個特徵提取單元之前的部分的組合,作為第一子網路的部分結構,以此類推,在此不再一一舉例。具體地,選擇的次數可以根據實際應用需要進行設置,例如,可以根據計算複雜度,將10,或15、或20等作為選擇的次數,在此不做限定。
在另一個具體的實施場景中,預設條件可以包括:利用候選子網路與第二子網路得到的候選模型滿足預設性能條件。具體地,可以利用與目標任務對應的驗證樣本,對利用候選子網路與第二子網路得到的候選模型進行驗證,得到候選模型執行目標任務的性能評分,從而基於性能評分,確定候選模型是否滿足預設性能條件。例如,當性能評分為所有候選模型的性能評分的最高值時,可以認為對應的候選模型滿足預設性能條件。
在又一個具體的實施場景中,預設條件還可以包括:候選子網路中的特徵提取單元的數量不小於預設數量。預設數量可以根據實際應用需要進行設置,例如,可以設置為4、5、6等等,在此不做限定。預設數量可以約束目標模型的複雜度。
在又一個具體的實施場景中,可以將選中子網路和第二子網路順序連接,得到目標模型。
在另一個實施場景中,候選子網路包括同一網路分支的每個網路區段中的至少一個特徵提取單元,且不同候選子網路中的特徵提取單元至少部分不同,為了能夠得到全域最優解,可以窮 舉第一子網路中所有的不同部分結構,並將每一種部分結構,作為對應的候選子網路,並選取滿足預設條件的候選子網路,作為選中子網路,從而可以利用選中子網路和第二子網路,得到目標模型。具體地,預設條件的設置方式,可以參閱前述描述,在此不再贅述。
在一個具體的實施場景中,以第一子網路僅包括一路網路分支為例,在窮舉第一子網路中所有的不同部分結構時,為了避免重複選取,可以為第一子網路中每個網路區段賦予一計數值count i ,表示第i個網路區段的計數值,用於在每次選取部分結構時,將每個網路區段中位於計數值count i 之前的特徵提取單元組合作為本次選取的部分結構,其中,第一子網路中包含的網路區段的數量可以記為N s 。計數值count i 的初始值可以設置為1,並每次選取得到部分結構之後,進行加1計數,直至窮舉完第一子網路中所有的不同部分結構為止。以第一子網路包含4個網路區段,且每個網路區段也包含4個特徵提取單元為例,則第一次選取部分結構時,4個網路區段的計數值可以分別記為1、1、1、1,此時可以將各個網路區段中的首個特徵提取單元的組合,作為本次選取的部分結構;第二次選取部分結構時,4個網路區段的計數值可以分別記為1、1、1、2,此時可以將前3個網路區段的首個特徵提取單元和最後一個網路區段的前2個特徵提取單元的組合,作為本次選取的部分結構;第三次選取部分結構時,4個網路區段的計數值可以分別記為1、1、1、3,此時可以將前3個網路區段的首個特徵提取單元和最後一個網路區段的前3個特徵提取單元的組 合,作為本次選取的部分結構;第四次選取部分結構時,4個網路區段的計數值可以分別記為1、1、1、4,此時可以將前3個網路區段的首個特徵提取單元和最後一個網路區段的全部特徵提取單元,作為本次選取的部分結構;第五次選取部分結構時,4個網路區段的計數值可以分別記為1、1、2、1,此時可以將前2個網路區段的首個特徵提取單元、第三個網路區段的前2個特徵提取單元以及最後一個網路區段的首個特徵提取單元的組合,作為本次選取的部分結構;第六次選取部分結構時,4個網路區段的計數值可以分別記為1、1、2、2,此時可以將前2個網路區段的首個特徵提取單元以及後2個網路區段的前2個特徵提取單元的組合,作為本次選取的部分結構,以此類推,在此不再贅述。
在一個實施場景中,為了提高網路結構維度調整的準確性,還可以在利用第二子網路和經預訓練的第一子網路的至少部分結構,得到目標模型之前,利用第二訓練樣本集訓練原始模型,以調整原始模型的網路參數。從而可以使得原始模型能夠先基於目標任務進行網路參數調整,進而能夠有利於提高網路結構維度調整的準確性。在此情況下,第一子網路的至少部分結構包含經第二訓練樣本集訓練後,調整後的網路參數,即在遷移學習過程中,網路參數和網路結構均進行了調整。
在一個具體的實施場景中,第一訓練樣本集中第一訓練樣本的數量大於第二訓練樣本集中第二訓練樣本的數量,則通過本公開的實施例,能夠在大規模數據樣本(即第一訓練樣本集)和 與目標任務對應的小規模數據樣本(即第二訓練樣本集)的基礎上,得到適用於目標任務的目標模型,從而能夠有利於降低搜集小規模數據樣本的難度,以及標注第二訓練樣本集的工作量,進而能夠有利於進一步提高獲取目標模型的效率。具體地,第一訓練樣本集中第一訓練樣本的數量可以是5000、10000、15000等等,對應地,第二訓練樣本集中第二訓練樣本的數量可以是100、200、300等等,可以根據實際使用情況進行設置,在此不做限定。
步驟S13:利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路參數。
在一個實施場景中,可以僅利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路參數。具體地,第二訓練樣本集中第二訓練樣本的數量小於第一訓練樣本集中第一訓練樣本的數量,例如,第二訓練樣本集為小規模數據樣本,而第一訓練樣本集為大規模數據樣本,具體可以參閱前述描述,在此不再贅述。
在另一個實施場景中,為了提高目標模型的準確性,還可以先利用第一訓練樣本集訓練目標模型,以調整目標模型的網路參數,再利用與目標任務對應的第二訓練樣本集訓練目標模型,以再次調整目標模型的網路參數。
在上述實施例中,首先利用第一訓練樣本集預訓練原始模型,以調整原始模型的網路參數,其中,原始模型包括用於特徵提取的第一子網路。隨後利用第二子網路和經預訓練的第一子網 路的至少部分結構,得到目標模型,其中,第二子網路用於基於第一子網路提取的特徵執行目標任務。最後利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路參數。故此,不僅能夠在“網路參數維度”利用與目標任務對應的第二訓練樣本集進行調整,還能夠在“網路結構維度”對原始模型進行調整,能夠大大提高網路調整的自由度,從而從“網路參數維度”和“網路結構維度”充分挖掘預訓練的原始模型的潛力,有利於提高目標模型的性能。
請參閱圖4,圖4是根據本公開實施例的圖1中步驟S12的流程示意圖。具體地,本公開實施例中,原始模型為單分支網路結構,即,第一子網路包括一路分支網路,且該路分支網路包括順序連接的多個網路區段。每一網路區段包括順序連接的至少一個特徵提取單元。候選子網路包括每個網路區段中的至少一個特徵提取單元。不同候選子網路中的特徵提取單元至少部分不同。步驟S12可以包括步驟S41至S46。
步驟S41:選擇每個網路區段中的第一個特徵提取單元,得到初始的待定子網路。
選擇每個網路區段中第一個特徵提取單元,將每個第一個特徵提取單元連接到一起,得到初始的待定子網路。請結合參閱圖3,如圖3中虛線箭頭所示,可以將第一個網路區段中第一個特徵提取單元的輸出結果,作為第二網路區段的輸入數據。初始的待定子網路記為[1,1]。
步驟S42,對於待定子網路,增加至少一個特徵提取單元,得到候選子網路,其中,增加的特徵提取單元位於至少一個網路區段選擇的特徵提取單元之後。
本公開實施例中,至少一個特徵提取單元可以是一個特徵提取單元、兩個特徵提取單元等等,在此不做限定。例如,在網路結構調整的精度要求相對較低的情況下,至少一個特徵提取單元可以是兩個、三個等多個特徵提取單元;而在網路結構調整的精度要求較高的情況下,可以為一個特徵提取單元,具體可以根據實際應用需要進行設置,在此不做限定。
可以將每個網路區段分別作為目標區段,然後將目標區段在上一步驟中的選擇特徵提取單元的序號加1,也就是增加一個特徵提取單元,同時保持第一子網路中其他網路區段中在上一步驟中的選擇特徵提取單元數不變,得到對應目標區段的候選子網路。請結合參閱圖3,可以分別將第一個網路區段、第二網路區段作為目標區段。利用第一個目標區段中前兩個特徵提取單元(在步驟S41中,第一個網路區段選擇的特徵提取單元是第一個特徵提取單元,因此在此步驟中變為前兩個特徵提取單元)和第二個網路區段中首個特徵提取單元,得到第一個目標區段的候選子網路。具體地,如圖3中虛線箭頭所示,可以將第一個目標區段中第二個特徵提取單元的輸出結果,作為第二網路區段的輸入數據。利用第二個目標區段中前兩個特徵提取單元和第一網路區段中首個提取單元,得到第二個目標區段的候選子網路,具體地,如圖3中虛線 箭頭所示,可以將第一個網路區段中第一個特徵提取單元的輸出結果,作為第二個目標區段的輸入數據。請繼續結合參閱圖3,為了便於描述,可以將第一個目標區段對應的候選子網路記為[2,1],表示第一個目標區段對應的候選子網路是由第一個網路區段前兩個特徵提取單元和第二個網路區段首個特徵提取單元組成的,並將第二個目標區段對應的初始的候選子網路記為[1,2],表示第二個目標區段對應的候選子網路是由第一個網路區段首個特徵提取單元和第二網路區段前兩個特徵提取單元組成的,其他情況可以以此類推,在此不再一一舉例。
在一個實施場景中,可以將每個網路區段分別作為目標區段,然後將目標區段在上一步驟中的選擇特徵提取單元的序號加2、3......等整數,也就是增加兩個特徵提取單元、三個特徵提取單元......,同時保持第一子網路中其他網路區段中在上一步驟中的選擇特徵提取單元數不變,得到對應目標區段的候選子網路。增加的特徵提取單元的數量可以根據實際應用需要進行設置,在此不做限定。
步驟S43:將多個候選子網路分別與第二子網路組成候選模型,選擇多個候選模型中性能條件最好的一個候選模型對應的候選子網路,作為待定子網路。
可以利用與目標任務對應的驗證樣本,對多個候選子網路與第二子網路得到的多個候選模型分別進行驗證,得到多個候選模型執行目標任務的性能評分,並基於性能評分確定性能最好 的候選模型,其中,驗證樣本可以與第二訓練樣本集相同或為第二訓練訓練樣本集的一部分。具體可以參閱前述公開實施例中的相關描述,在此不再贅述。假設,經過驗證樣本的驗證,可以將候選子網路[2,1]作為待定子網路。
步驟S44:判斷待定子網路中的特徵提取單元數量是否小於預設數量,若是,則執行步驟S42,否則執行步驟S45。
本公開實施例中,預設數量可以根據實際應用需要進行預先設置。具體地,可以根據目標模型的期望複雜度進行設置。例如,可以設置為4、5、6等等,在此不做限定。例如,當預設數量為4時,由於待定子網路[2,1]中特徵提取單元數量為3,故小於預設數量,則可以執行步驟S42。又例如,當預設數量為3時,由於待定子網路[2,1]中特徵提取單元數量為3,不小於預設數量,則可以執行步驟S45,即直接將待定子網路[2,1],作為選中子網路。其他情況可以以此類推,在此不再一一舉例。
在一個實施場景中,第一子網路可以包括第一數量個特徵提取單元,第一子網路可以包括第二數量個網路區段,則預設數量可以設置為小於第一數量,且大於第二數量。
在一個實施場景中,預設數量可以根據完成目標任務的目標模型的計算複雜度來設定。
以經過驗證樣本的驗證,可以將候選子網路[2,1]作為待定子網路為例進行繼續說明。當S44步驟判斷待定子網路[2,1]的特徵提取單元小於預設數量時,重新跳轉到步驟S42。此時,基於 待定子網路[2,1],可以得到新的候選子網路。
在一個實施場景中,可以將目標區段中位於選擇的特徵提取單元之後首個特徵提取單元添加至目標區段選擇的特徵提取單元之後,從而得到新的候選子網路。請繼續結合參閱圖3,以待定子網路[2,1]為例,可以將第一個網路區段先作為目標區段,將位於選擇的特徵提取單元(第二個特徵提取單元)之後的首個特徵提取單元(第三個特徵提取單元),添加至目標區段的選擇的特徵提取單元(第二個特徵提取單元)之後,得到新的候選子網路,為了便於描述,可以表示為[3,1],即新的候選子網路是由第一個網路區段中前三個特徵提取單元和第二網路區段首個特徵提取單元組成的。類似的,可以再將第二個網路區段作為目標區段,將目標區段中位於選擇的特徵提取單元(第一個特徵提取單元)之後的首個特徵提取單元(第一個特徵提取單元),添加至目標區段的選擇的特徵提取單元(第一個特徵提取單元)之後,得到另一個新的候選子網路,為了便於描述,可以表示為[2,2]。其他情況可以以此類推,在此不再一一舉例。
從上述步驟可以看出,基於某一特徵提取單元數量,從當前的候選子網路中選擇一個性能條件最好的子網路作為待定子網路,然後在之前的特徵提取單元數量加上至少一個特徵提取單元,以之前的待定子網路為基礎,計算新的候選子網路,並從新的候選子網路中再挑選性能條件最好的子網路作為新的待定子網路。仍以上面所述的例子為例,從候選子網路[2,1]和[1,2]中挑選待定子 網路,假設[2,1]的性能更好,則[2,1]為待定子網路,後續則以[2,1]為基礎,從[3,1]和[2,2]挑選待定子網路。在這種情況下,[1,3]就不會作為候選子網路進行第二輪的性能評估。從而節省了在步驟S43中計算性能評分的候選子網路。當網路區段比較多的情況下,這種方法能顯著節省計算量。
請結合參閱圖5,圖5是根據本公開實施例的待定子網路的框架示意圖,如圖5所示,實線矩形框的特徵提取單元表示選擇的特徵提取單元,虛線矩形框的特徵提取單元表示未選擇的特徵提取單元,圖5所示的待定子網路為[2,2],以待定子網路是[2,2],預設數量是4為例,由於待定子網路中的特徵提取單元的數量等於4,則可以執行下述步驟S45,即可以將待定子網路[2,2]作為選中子網路。
步驟S45:將待定子網路作為選中子網路。
具體地,在待定子網路中的特徵提取單元數量不小於預設數量的情況下,可以將待定子網路作為選中子網路。則通過上述方式,可以在預設數量所約束的模型複雜度下,得到在性能層面的選中子網路。
步驟S46:利用選中子網路和第二子網路,得到目標模型。
具體地,可以將選中子網路和第二子網路順序連接,得到目標模型。
在本公開實施例中,通過上述方法,不僅能夠在“模型複雜度”、“模型性能”層面約束目標模型,還能提高獲取目標模型的 效率。
在一個實施場景中,在第一子網路包括多路分支網路的情況下,可以首先在第一子網路中選擇一路分支網路,隨後針對該路分支網路執行步驟S41至S46。
請參閱圖6,圖6是本公開另一實施例的目標模型的獲取方法的流程示意圖。具體地,本公開實施例中,原始模型包括用於特徵提取的第一子網路,第一子網路包括一路分支網路,且該路分支網路包括順序連接的多個網路區段,每一網路區段包括順序連接的至少一個特徵提取單元。可以包括步驟S601至S612。
步驟S601:每次訓練原始模型前利用預設選擇策略,在每一網路區段中選擇一特徵提取單元。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S602:利用第一訓練樣本集,對每一網路區段中位於選擇的特徵提取單元之前的部分進行訓練,以調整每一網路區段中位於選擇的特徵提取單元之前的部分的網路參數。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S603:利用與目標任務對應的第二訓練樣本集訓練原始模型,以調整原始模型的網路參數。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S604:選擇每個網路區段中的第一個特徵提取單元,得到初始的待定子網路。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S605,對於待定子網路,增加至少一個特徵提取單元,得到候選子網路,其中,增加的特徵提取單元位於至少一個網路區段選擇的特徵提取單元之後。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S606:將多個候選子網路分別與第二子網路組成候選模型,選擇多個候選模型中性能條件最好的一個候選子模型對應的候選子網路作為待定子網路。
本公開實施例中,第二子網路用於基於第一子網路提取的特徵執行目標任務。具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S607:判斷待定子網路的特徵提取單元數量是否小於預設數量,若是,則執行步驟S605,否則執行步驟S608。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S608:基於待定子網路,得到新的候選子網路。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S609:將待定子網路作為選中子網路。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S610:利用選中子網路和第二子網路,得到目標模型。
請結合參閱圖5,待定子網路為圖5所示的子網路[2,2],且預設數量為4時,可以將待定子網路[2,2]作為選中子網路,並利用選中子網路和第二子網路,得到目標模型。具體地,可以將選中子網路和第二子網路順序連接,得到目標模型。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S611:利用第一訓練樣本集訓練目標模型,以調整目標模型的網路參數。
請繼續結合參閱圖5,當選中子網路為圖5所示的待定子網路[2,2]時,可以利用第一訓練樣本集對由待定子網路[2,2]和第二子網路構成的目標模型進行訓練,以調整目標模型的網路參數。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S612:利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路參數。
請繼續結合參閱圖5,當選中子網路為圖5所示的待定子網路[2,2]時,可以進一步利用第二訓練樣本集對由待定子網路[2,2] 和第二子網路構成的目標模型進行訓練,以調整目標模型的網路參數。
具體可以參閱前述公開實施例中的相關描述,在此不再贅述。
在本公開實施例中,通過上述方法,能夠有利於在“網路結構調整”層面提高獲取選中子網路的效率。由於在“網路參數調整”層面和“網路結構調整”層面共同對原始模型進行調整,能夠大大提高網路調整的自由度,得以從“網路參數維度”和“網路結構維度”充分挖掘預訓練的原始模型的潛力,有利於提高目標模型的性能。
在一個實施場景中,在第一子網路包括多路分支網路的情況下,可以首先在第一子網路中選擇一路分支網路,隨後針對該路分支網路執行步驟S601至S612。
請參閱圖7,圖7是根據本公開實施例的目標模型的獲取裝置70的框架示意圖。目標模型的獲取裝置70可包括:第一訓練模組71、模型獲取模組72和第二訓練模組73,第一訓練模組71用於利用第一訓練樣本集預訓練原始模型,以調整原始模型的網路參數;其中,原始模型可包括用於特徵提取的第一子網路;模型獲取模組72用於利用第二子網路和經預訓練的第一子網路的至少部分結構,得到目標模型;其中,第二子網路用於基於第一子網路提取的特徵執行目標任務;第二訓練模組73用於利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路 參數。
在一些公開實施例中,所述第一子網路可包括多個網路區段,每一所述網路區段可包括順序連接的至少一個特徵提取單元,所述特徵提取單元用於進行特徵提取。
在一些公開實施例中,所述第一子網路可包括至少一路分支網路,且每路所述分支網路包括順序連接的至少一個所述網路區段。故能夠將第一子網路設置為“單鏈式”的單分支網路,或者設置為“多鏈式”的多分支網路,從而既能夠在多分支網路中獲取到目標模型,也夠在單分支網路中獲取目標模型,進而能夠有利於擴展使用範圍。
在一些公開實施例中,模型獲取模組72可包括結構搜索子模組,用於利用第一子網路的不同部分結構得到至少一個候選子網路,並選取滿足預設條件的候選子網路作為選中子網路,模型獲取模組72可包括模型構建模組,用於利用選中子網路和第二子網路,得到目標模型。
通過利用第一子網路的不同部分結構,得到至少一個候選子網,並選取滿足預設條件的候選子網路作為選中子網路,從而利用選中子網路和第二子網路,得到目標模型,能夠有利於擴展“網路結構維度”的調整空間,進而能夠有利於提高目標模型的性能。
在一些公開實施例中,預設條件可包括:利用候選子網路與第二子網路得到的候選模型滿足預設性能條件。
在一些公開實施例中,所述預設條件還可包括:所述候選子網路中的特徵提取單元的數量達到預設數量。
由於特徵提取單元數量在一定程度上能夠反映目標模型的複雜度,而預設性能條件在一定程度上能夠反映目標模型的性能,故能夠從“模型複雜度”、“模型性能”層面約束目標模型。
在一些公開實施例中,候選子網路可包括同一分支網路中每個網路區段中的至少一個特徵提取單元,且不同候選子網路中的特徵提取單元至少部分不同。
在一些公開實施例中,結構搜索子模組可包括初始化單元,用於選擇同一所述分支網路中每個所述網路區段中的第一個特徵提取單元,得到初始的待定子網路,所述初始化單元還用於對於所述待定子網路,增加至少一個特徵提取單元,得到候選子網路,其中,增加的特徵提取單元位於所述網路區段中選擇的特徵提取單元之後,結構搜索子模組可包括性能評價單元,用於將多個所述候選子網路分別與所述第二子網路組成候選模型,選擇多個所述候選模型中性能條件最好的一個候選模型對應的候選子網路,作為待定子網路,結構搜索子模組包括重複搜索單元,用於在待定子網路中的特徵提取單元數量小於預設數量的情況下,基於所述待定子網路,得到新的所述候選子網路,並選擇多個新的所述候選子網路與所述第二子網路組成的候選模型中性能條件最好的一個候選模型對應的候選子網路,作為新的所述待定子網路,結構搜索子模組可包括選中獲取單元,用於在待定子網路中的特徵提取單 元數量不小於預設數量的情況下,將待定子網路作為選中子網路。
在一些公開實施例中,初始化單元可用於將每個所述網路區段分別作為目標區段,將所述目標區段所選擇的特徵提取單元數量增加一整數數值,同時保持其他網路區段中所選擇的特徵提取單元數量不變,得到對應所述目標區段的候選子網路重複搜索單元可用於對於所述選中子網路,增加至少一個特徵提取單元,得到新的候選子網路,其中,增加的特徵提取單元位於所述網路區段中選擇的特徵提取單元之後。
通過分別將每個網路區段作為目標區段,並利用每個目標區段中的第一個特徵提取單元,得到初始的待定子網路,故能夠有利於從第一子網路每個網路區段的頭部開始網路結構調整,通過將目標區段所選擇的特徵提取單元數量增加一整數數值,同時保持其他網路區段中所選擇的特徵提取單元數量不變,得到對應目標區段的候選子網路,故能夠在後續調整過程中,逐個調整不同網路區段的特徵提取單元,能夠有利於提高網路調整的精確度。
在一些公開實施例中,性能評價單元可用于利用與目標任務對應的驗證樣本,對利用候選子網路與第二子網路得到的候選模型進行驗證,得到候選模型執行目標任務的性能評分。
在一些公開實施例中,第一子網路包含第一數量個特徵提取單元,第一子網路包含第二數量個網路區段,預設數量小於第一數量,且大於或等於第二數量。
通過利用與目標任務對應的驗證樣本,對利用候選子網 路與第二子網路得到的候選模型進行驗證,得到候選模型執行目標任務的性能評分,並基於性評分確定候選模型是否滿足預設性能條件,故能夠提高選擇選中子網路的準確性;此外,第一子網路包含第一數量個特徵提取單元,且第一子網路包含第二數量個網路區段,且預設數量小於第一數量,大於或等於第二數量,能夠有利於降低目標模型的複雜度。
在一些公開實施例中,第一子網路包括一路分支網路,該路分支網路包括順序連接的多個網路區段,每一網路區段包括順序連接的至少一個特徵提取單元,第一訓練模組71包括單元選取子模組,用於每次訓練前利用預設選擇策略,在每一網路區段中選擇一特徵提取單元,第一訓練模組71包括樣本訓練子模組,用於利用第一訓練樣本集,對每一網路區段中位於選擇的特徵提取單元之前的部分進行訓練,以調整每一網路區段中位於選擇的特徵提取單元之前的部分的網路參數。
在一些公開實施例中,所述第一子網路包括多路分支網路,且每路所述分支網路包括順序連接的至少一個網路區段,每一所述網路區段包括順序連接的至少一個特徵提取單元,所述單元選取子模組還用於每次訓練前利用預設選擇策略,在所述第一子網路中選擇一路所述分支網路並在選擇的所述分支網路所包含的每一所述網路區段中選擇一所述特徵提取單元,所述樣本訓練子模組用於利用所述第一訓練樣本集,對每一所述網路區段中位於選擇的特徵提取單元之前的部分進行訓練,以調整每一所述網路 區段中位於選擇的特徵提取單元之前的部分的網路參數。
通過上述配置,有利於經過多次訓練後對第一子網路的各個部分充分訓練,並提高預訓練效率。
在一些公開實施例中,可在所述第一子網路中隨機選擇一路所述分支網路並在選擇的所述分支網路所包含的每一所述網路區段中選擇一所述特徵提取單元。
在一些公開實施例中,可在所述第一子網路中選擇包含所述特徵提取單元數量最多的分支網路並在選擇的所述分支網路所包含的每一所述網路區段中選擇一所述特徵提取單元。
在一些公開實施例中,第一子網路還可包括位於相鄰網路區段之間的下採樣層。
在一些公開實施例中,特徵提取單元可包括順序連接的卷積層、激活層和批量歸一化層。
通過將特徵提取單元設置為包括順序連接的卷積層、激活層和批量歸一化層,能夠有利於提高特徵提取單元在訓練過程中的學習效果;而在第一子網路設置位於相鄰網路區段之間的下採樣層,能夠有利於實現特徵降維,壓縮數據和參數的數量,減小過擬合,同時提高容錯性。
在一些公開實施例中,目標模型的獲取裝置70還可包括第三訓練模組,用於利用第二訓練樣本集訓練原始模型,以調整原始模型的網路參數。
通過在預訓練之後,先利用與目標任務對應的第二訓練 樣本集訓練原始模型,以調整原始模型的網路參數,能夠有利於提高後續網路結構維度調整的準確性。
在一些公開實施例中,目標模型的獲取裝置70還可包括第四訓練模組,用於利用第一訓練樣本集訓練目標模型,以調整目標模型的網路參數。
通過在完成網路結構維度調整之後,先利用第一訓練樣本集訓練目標模型,再利用與目標任務對應的第二訓練樣本集再次訓練目標模型,能夠有利於提高目標模型的性能。
在一些公開實施例中,原始模型還可包括第三子網路,第三子網路用於基於提取到的特徵執行預設任務,其中,預設任務與目標任務相同或不同。
通過將原始模型設置為包括第三子網路,且第三子網路用於基於提取到的特徵執行預設任務,且預設任務與目標任務相同或不同,能夠有利於進一步擴展適用於獲取目標模型的範圍。
在一些公開實施例中,第一訓練樣本集中第一訓練樣本的數量可大於第二訓練樣本集中第二訓練樣本的數量。
通過將第一訓練樣本集中第一訓練樣本的數量設置為大於第二訓練樣本集中第二訓練樣本的數量,能夠有利於減少在目標任務上樣本標注的工作量。
請參閱圖8,圖8是根據本公開實施例的電子設備80的框架示意圖。電子設備80包括相互耦接的儲存器81和處理器82,處理器82用於執行儲存器81中儲存的程式指令,以實現上述任 一目標模型的獲取方法實施例的步驟。在一個具體的實施場景中,電子設備80可以包括但不限於:微型計算機、伺服器,此外,電子設備80還可以包括筆記型電腦、平板電腦等移動設備,在此不做限定。
具體而言,處理器82用於控制其自身以及儲存器81以實現上述任一目標模型的獲取方法實施例的步驟。處理器82還可以稱為CPU(Central Processing Unit,中央處理單元)。處理器82可能是一種積體電路晶片,具有信號的處理能力。處理器82還可以是通用處理器、數位訊號處理器(Digital Signal Processor,DSP)、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式化邏輯閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式化邏輯器件、分立門或者電晶體邏輯器件、分立硬體組件。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。另外,處理器82可以由積體電路晶片共同實現。
在本公開實施例中,不僅能夠在“網路參數維度”利用與目標任務對應的第二訓練樣本集進行調整,還能夠在“網路結構維度”對原始模型進行調整,能夠大大提高網路調整的自由度,得以從“網路參數維度”和“網路結構維度”充分挖掘預訓練的原始模型的潛力,有利於提高目標模型的性能。
請參閱圖9,圖9為本公開計算機可讀儲存媒體90一實施例的框架示意圖。計算機可讀儲存媒體90儲存有能夠被處理器運行的程式指令901,程式指令901用於實現上述任一目標模型的 獲取方法實施例的步驟。
在本公開實施例中,不僅能夠在“網路參數維度”利用與目標任務對應的第二訓練樣本集進行調整,還能夠在“網路結構維度”對原始模型進行調整,能夠大大提高網路調整的自由度,得以從“網路參數維度”和“網路結構維度”充分挖掘預訓練的原始模型的潛力,有利於提高目標模型的性能。
在一些實施例中,本公開實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
上文對各個實施例的描述傾向於強調各個實施例之間的不同之處,其相同或相似之處可以互相參考,為了簡潔,本文不再贅述。
在本公開所提供的幾個實施例中,應該理解到,所揭露的方法和裝置,可以通過其它的方式實現。例如,以上所描述的裝置實施方式僅僅是示意性的,例如,模組或單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性、機械或其它的形式。
作為分離部件說明的單元可以是或者也可以不是實體上分開的,作為單元顯示的部件可以是或者也可以不是實體單元,即 可以位於一個地方,或者也可以分佈到網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施方式方案的目的。
另外,在本公開各個實施例中的各功能單元可以整合在一個處理單元中,也可以是各個單元單獨實體存在,也可以兩個或兩個以上單元整合在一個單元中。上述整合的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
整合的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以儲存在一個計算機可讀取儲存媒體中。基於這樣的理解,本公開的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該計算機軟體產品儲存在一個儲存媒體中,包括若干指令用以使得一台計算機設備(可以是個人計算機,伺服器,或者網路設備等)或處理器(processor)執行本公開各個實施方式方法的全部或部分步驟。而前述的儲存媒體包括:隨身碟、移動硬碟、唯讀記憶體(ROM,Read-Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、磁碟或者光碟等各種可以儲存程式代碼的媒體。
S11:利用第一訓練樣本集預訓練原始模型,以調整原始模型的網路參數;其中,原始模型包括用於特徵提取的第一子網路
S12:利用第二子網路和經預訓練的第一子網路的至少部分結構,得到目標模型
S13:利用與目標任務對應的第二訓練樣本集訓練目標模型,以調整目標模型的網路參數

Claims (12)

  1. 一種目標模型的獲取方法,包括:利用第一訓練樣本集預訓練原始模型,以調整所述原始模型的網路參數;其中,所述原始模型包括用於特徵提取的第一子網路;利用第二子網路和經預訓練的所述第一子網路的至少部分結構,得到所述目標模型;其中,所述第二子網路用於基於所述第一子網路提取的特徵執行目標任務;利用與所述目標任務對應的第二訓練樣本集訓練所述目標模型,以調整所述目標模型的網路參數,其中,所述第一子網路包括多個網路區段,每一所述網路區段包括順序連接的至少一個特徵提取單元,所述特徵提取單元用於進行特徵提取,其中,所述第一子網路包括至少一路分支網路,且每路所述分支網路包括順序連接的至少一個所述網路區段,其中,所述利用第二子網路和經預訓練的所述第一子網路的至少部分結構,得到所述目標模型,包括:利用所述第一子網路的不同部分結構得到至少一個候選子網路,並選取滿足預設條件的所述候選子網路作為選中子網路;利用所述選中子網路和所述第二子網路,得到所述目標模型。
  2. 如請求項1所述的目標模型的獲取方法,其中,所述預設條件包括:利用所述候選子網路與所述第二子網路得到的候選模型滿足預設性能條件。
  3. 如請求項2所述的目標模型的獲取方法,其中,所述預設條件還包括:所述候選子網路中的特徵提取單元的數量達到預設數量。
  4. 如請求項3所述的目標模型的獲取方法,其中,所述候選子網路包括同一所述分支網路中每個所述網路區段中的至少一個特徵提取單元,且不同所述候選子網路中的所述特徵提取單元至少部分不同。
  5. 如請求項4所述的目標模型的獲取方法,其中,利用所述第一子網路的不同部分結構得到至少一個候選子網路,並選取滿足預設條件的所述候選子網路作為選中子網路,包括:選擇同一所述分支網路中每個所述網路區段中的第一個特徵提取單元,得到初始的待定子網路;對於所述待定子網路,增加至少一個特徵提取單元,得到候選子網路,其中,增加的特徵提取單元位於所述網路區段中選擇的特徵提取單元之後;將多個所述候選子網路分別與所述第二子網路組成候選模型,選擇多個所述候選模型中性能條件最好的一個候選模型對應的候選子網路,作為待定子網路;在所述待定子網路中的特徵提取單元數量小於預設數量的情 況下,基於所述待定子網路,得到新的所述候選子網路,並選擇多個新的所述候選子網路與所述第二子網路組成的候選模型中性能條件最好的一個候選模型對應的候選子網路,作為新的所述待定子網路;在所述待定子網路中的特徵提取單元數量不小於所述預設數量的情況下,將所述待定子網路作為所述選中子網路。
  6. 如請求項5所述的目標模型的獲取方法,其中,所述對於所述待定子網路,增加至少一個特徵提取單元,得到候選子網路,包括:將每個所述網路區段分別作為目標區段,將所述目標區段所選擇的特徵提取單元數量增加一整數數值,同時保持其他網路區段中所選擇的特徵提取單元數量不變,得到對應所述目標區段的候選子網路。
  7. 如請求項6所述的目標模型的獲取方法,其中,所述基於所述待定子網路,得到新的所述候選子網路,包括:對於所述待定子網路,增加至少一個特徵提取單元,得到新的候選子網路,其中,增加的特徵提取單元位於所述網路區段中選擇的特徵提取單元之後。
  8. 如請求項7所述的目標模型的獲取方法,其中,所述第一子網路包含第一數量個特徵提取單元,所述第一子網路包含第二數量個網路區段,所述預設數量小於所述第一數量,且大於或等於所述第二數量, 所述利用所述候選子網路與所述第二子網路得到的候選模型滿足預設性能條件,包括:利用與所述目標任務對應的驗證樣本,對利用所述候選子網路與所述第二子網路得到的候選模型進行驗證,得到所述候選模型執行所述目標任務的性能評分;基於所述性能評分確定所述候選模型是否滿足所述預設性能條件。
  9. 如請求項1所述的目標模型的獲取方法,其中,所述第一子網路包括一路分支網路,且該路分支網路包括順序連接的多個網路區段,每一所述網路區段包括順序連接的至少一個特徵提取單元;所述利用第一訓練樣本集預訓練原始模型,以調整所述原始模型的網路參數,包括:每次訓練前利用預設選擇策略,在每一所述網路區段中選擇一所述特徵提取單元;利用所述第一訓練樣本集,對每一所述網路區段中位於選擇的特徵提取單元之前的部分進行訓練,以調整每一所述網路區段中位於選擇的特徵提取單元之前的部分的網路參數。
  10. 如請求項1所述的目標模型的獲取方法,其中,所述第一子網路包括多路分支網路,且每路所述分支網路包括順序連接的至少一個網路區段,每一所述網路區段包括順序連接的至少一個特徵提取單元;所述利用第一訓練樣本集預訓練原始模型,以調整所述原始模型的網路參數,包括: 每次訓練前利用預設選擇策略,在所述第一子網路中選擇一路所述分支網路並在選擇的所述分支網路所包含的每一所述網路區段中選擇一所述特徵提取單元;利用所述第一訓練樣本集,對每一所述網路區段中位於選擇的特徵提取單元之前的部分進行訓練,以調整每一所述網路區段中位於選擇的特徵提取單元之前的部分的網路參數。
  11. 一種電子設備,其中,包括相互耦接的儲存器和處理器,所述處理器用於執行所述儲存器中儲存的程式指令,以實現請求項1所述的目標模型的獲取方法。
  12. 一種計算機可讀儲存媒體,其上儲存有程式指令,其中,所述程式指令被處理器執行時實現請求項1所述的目標模型的獲取方法。
TW110130162A 2020-08-21 2021-08-16 目標模型的獲取方法、電子設備與儲存媒體 TWI785739B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010852192.4A CN112052949B (zh) 2020-08-21 2020-08-21 基于迁移学习的图像处理方法、装置、设备和存储介质
CN202010852192.4 2020-08-21

Publications (2)

Publication Number Publication Date
TW202209194A TW202209194A (zh) 2022-03-01
TWI785739B true TWI785739B (zh) 2022-12-01

Family

ID=73599559

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110130162A TWI785739B (zh) 2020-08-21 2021-08-16 目標模型的獲取方法、電子設備與儲存媒體

Country Status (5)

Country Link
JP (1) JP2022548341A (zh)
KR (1) KR20220023825A (zh)
CN (1) CN112052949B (zh)
TW (1) TWI785739B (zh)
WO (1) WO2022036921A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633156B (zh) * 2020-12-22 2024-05-31 浙江大华技术股份有限公司 车辆检测方法、图像处理装置以及计算机可读存储介质
CN112634992A (zh) * 2020-12-29 2021-04-09 上海商汤智能科技有限公司 分子性质预测方法及其模型的训练方法及相关装置、设备
CN112784912B (zh) * 2021-01-29 2024-11-26 北京百度网讯科技有限公司 图像识别方法及装置、神经网络模型的训练方法及装置
CN118411128B (zh) * 2024-07-01 2024-10-18 一智科技有限公司 工程施工验收单生成方法、系统和存储介质
CN118869463A (zh) * 2024-09-26 2024-10-29 杭州数云信息技术有限公司 基于社团挖掘的风险网络定位方法、系统及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321964A (zh) * 2019-07-10 2019-10-11 重庆电子工程职业学院 识别模型更新方法及相关装置
CN110443286A (zh) * 2019-07-18 2019-11-12 广州华多网络科技有限公司 神经网络模型的训练方法、图像识别方法以及装置
WO2020073951A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的模型的训练方法、装置、网络设备和存储介质
US20200167930A1 (en) * 2017-06-16 2020-05-28 Ucl Business Ltd A System and Computer-Implemented Method for Segmenting an Image

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679525B (zh) * 2017-11-01 2022-11-29 腾讯科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质
US10769432B2 (en) * 2018-10-10 2020-09-08 Drvision Technologies Llc Automated parameterization image pattern recognition method
CN110363233B (zh) * 2019-06-28 2021-05-28 西安交通大学 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统
CN111368998B (zh) * 2020-03-04 2025-02-11 深圳前海微众银行股份有限公司 基于Spark集群的模型训练方法、装置、设备及存储介质
CN111507985A (zh) * 2020-03-19 2020-08-07 北京市威富安防科技有限公司 图像实例分割优化处理方法、装置和计算机设备
CN111522944B (zh) * 2020-04-10 2023-11-14 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200167930A1 (en) * 2017-06-16 2020-05-28 Ucl Business Ltd A System and Computer-Implemented Method for Segmenting an Image
WO2020073951A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的模型的训练方法、装置、网络设备和存储介质
CN110321964A (zh) * 2019-07-10 2019-10-11 重庆电子工程职业学院 识别模型更新方法及相关装置
CN110443286A (zh) * 2019-07-18 2019-11-12 广州华多网络科技有限公司 神经网络模型的训练方法、图像识别方法以及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
網路文獻 Fahim Dalvi, et al., "What Is One Grain of Sand in the Desert? Analyzing Individual Neurons in Deep NLP Models", AAAI Conference on Artificial Intelligence (AAAI 2019), 2019. [https://arxiv.org/abs/1812.09355] *
網路文獻 Milad Salem,et al., "ECG Arrhythmia Classification Using Transfer Learning from 2-Dimensional Deep CNN Features", 2018 IEEE Biomedical Circuits and Systems Conference (BioCAS), 2018. [https://arxiv.org/abs/1812.04693]; *

Also Published As

Publication number Publication date
KR20220023825A (ko) 2022-03-02
JP2022548341A (ja) 2022-11-18
CN112052949B (zh) 2023-09-08
CN112052949A (zh) 2020-12-08
WO2022036921A1 (zh) 2022-02-24
TW202209194A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
TWI785739B (zh) 目標模型的獲取方法、電子設備與儲存媒體
Zhao et al. Pyramid feature attention network for saliency detection
CN114092820B (zh) 目标检测方法及应用其的移动目标跟踪方法
US20220215227A1 (en) Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium
US9786036B2 (en) Reducing image resolution in deep convolutional networks
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
WO2019100723A1 (zh) 训练多标签分类模型的方法和装置
US10282864B1 (en) Method and device for encoding image and testing method and testing device using the same
US10275688B2 (en) Object detection with neural network
WO2023207163A1 (zh) 用于消防通道占用目标检测的目标检测模型、方法及应用
CN111144329B (zh) 一种基于多标签的轻量快速人群计数方法
CN110032926A (zh) 一种基于深度学习的视频分类方法以及设备
WO2017048386A1 (en) Managing crowd sourced photography in a wireless network
US20210056357A1 (en) Systems and methods for implementing flexible, input-adaptive deep learning neural networks
TWI761813B (zh) 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質
CN111797841A (zh) 一种基于深度残差网络的视觉显著性检测方法
TW202240451A (zh) 用於整體視訊理解的視訊模型的自適應使用
CN107564007A (zh) 融合全局信息的场景分割修正方法与系统
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN112329861A (zh) 一种面向移动机器人多目标检测的分层特征融合方法
Cong et al. CAN: Contextual aggregating network for semantic segmentation
CN117173422B (zh) 基于图融合多尺度特征学习的细粒度图像识别方法
CN116524379A (zh) 基于注意力机制和自适应特征融合的航拍目标检测方法
CN111815638B (zh) 视频分割网络模型的训练方法、视频分割方法及相关设备
ZHANG et al. Crowd counting in images via dsmcnn

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees