JP2022504704A - ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム - Google Patents
ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2022504704A JP2022504704A JP2021519836A JP2021519836A JP2022504704A JP 2022504704 A JP2022504704 A JP 2022504704A JP 2021519836 A JP2021519836 A JP 2021519836A JP 2021519836 A JP2021519836 A JP 2021519836A JP 2022504704 A JP2022504704 A JP 2022504704A
- Authority
- JP
- Japan
- Prior art keywords
- image
- training
- waiting
- domain
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 478
- 238000001514 detection method Methods 0.000 title claims abstract description 333
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000004590 computer program Methods 0.000 title 1
- 238000012546 transfer Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 282
- 238000012795 verification Methods 0.000 claims description 255
- 241001482630 Epinnula magistralis Species 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 25
- 238000010200 validation analysis Methods 0.000 abstract description 22
- 230000008685 targeting Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 38
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 24
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 24
- 238000006243 chemical reaction Methods 0.000 description 15
- 238000009826 distribution Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 230000000052 comparative effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/58—Extraction of image or video features relating to hyperspectral data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
Description
本願は、2019年3月21日に提出された、出願番号が201910218444.5であり、発明名称が「画像に基づくターゲット検出方法、モデル訓練方法及び装置」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含む。
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む。
取得モジュールは、第1検出待ち画像を取得するように構成され、前記第1検出待ち画像は、第1ドメインに属し、
前記取得モジュールは更に、第1検出待ち画像に対応する第2検出待ち画像を取得するように構成され、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
取得モジュールは、訓練待ち画像及び検証待ち画像を取得するように構成され、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
前記取得モジュールは更に、第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するように構成され、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属し、
前記取得モジュールは更に、第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するように構成され、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、
前記取得モジュールは更に、前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するように構成され、
訓練モジュールは、前記取得モジュールが取得した前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るように構成される。
前記訓練モジュールは具体的には、前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定し、
前記予測確率値に基づいて、第2損失関数を決定し、
前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定し、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成し、
前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うように構成される。
前記訓練モジュールは具体的には、
Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(xt))-xt||]+Es~X(s)[||Gt-s(Gs-t(xs))-xs||]という方式を用いて前記第1損失関数を決定するように構成され、
前記検出モジュールは、前記取得モジュールが第1訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第1判別器により、前記検証スタイル画像に対して真実性検出を行うように構成され、前記第1判別器は、第1敵対的損失関数を用いて訓練して得られたものであり、
前記検出モジュールは更に、前記取得モジュールが第1訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第2判別器により、前記訓練スタイル画像に対して真実性検出を行うように構成され、前記第2判別器は、第2敵対的損失関数を用いて訓練して得られたものである。
前記取得モジュールは更に、前記検出モジュールが第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、
LGAN(Dt,Gs-t)=Et~X(t)[log Dt(x)]+Es~X(s)[log(1-Dt(Gs-t(s)))]という方式を用いて前記第1敵対的損失関数を取得するように構成され、
前記LGAN(Dt,Gs-t)は、前記第1敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Dt( )は、前記第1判別器を表し、前記sは、前記第1ドメインの画像を表し、前記Gs-t( )は、前記第1ドメインの画像を前記第2ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
前記取得モジュールは更に、前記検出モジュールが第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、
LGAN(Ds,Gt-s)=Es~X(s)[log Ds(x)]+Et~X(t)[log(1-Ds(Gt-s(t)))]という方式を用いて前記第2敵対的損失関数を取得するように構成され、
前記LGAN(Ds,Gt-s)は、前記第2敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ds( )は、前記第2判別器を表し、前記tは、前記第2ドメインの画像を表し、前記Gt-s( )は、前記第2ドメインの画像を前記第1ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
前記訓練モジュールは具体的には、
Ldomain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]という方式を用いて前記第2損失関数を決定するように構成され、
前記Ldomainは、前記第2損失関数を表し、前記pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、前記dは、画像出所値を表す。
前記訓練モジュールは具体的には、
Ldet(p,u,tm,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(tm rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(tm obj,vobj)という方式を用いて前記第3損失関数を決定するように構成され、
前記Ldet(p,u,tm,v)は、前記第3損失関数を表し、前記Lrpn-clsは、前記第2訓練待ちネットワークモデルにおける領域生成ネットワークRPNの分類損失関数を表し、前記prpnは、前記RPNの前記第1予測カテゴリ確率値を表し、前記urpnは、前記RPNの第1真実カテゴリ確率値を表し、前記Lrpn-locは、前記第2訓練待ちネットワークモデルにおける前記RPNの位置決め損失関数を表し、前記tm rpnは、前記RPNの前記第1予測位置決め値を表し、前記vrpnは、前記RPNの第1真実位置決め値を表し、前記Lobj-clsは、前記第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記pobjは、前記ターゲット検出ネットワークの前記第2予測カテゴリ確率値を表し、前記uobjは、前記ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、前記Lobj-locは、前記第2訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記tm objは、前記ターゲット検出ネットワークの前記第2予測位置決め値を表し、前記vobjは、前記ターゲット検出ネットワークの第2真実位置決め値を表す。
前記訓練モジュールは具体的には、
L=Lcyc(Gt-s,Gs-t)+Ldomain+Ldetという方式を用いて前記ターゲット損失関数を決定するように構成され、
前記Lは、前記ターゲット損失関数を表し、前記Lcyc(Gt-s,Gs-t)は、前記第1損失関数を表し、前記Ldomainは、前記第2損失関数を表し、前記Ldetは、前記第3損失関数を表す。
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含むモデル訓練ステップを実行させ、
又は、コンピュータに、
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含むターゲット検出ステップを実行させる。
101において、ターゲット検出装置は、第1検出待ち画像を取得し、第1検出待ち画像は、第1ドメインに属する。
検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
予測確率値に基づいて、第2損失関数を決定するステップと、
第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
第1損失関数、第2損失関数及び第3損失関数に基づいて、ターゲット損失関数を生成するステップと、
ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行うステップと、を含むことができる。
第1判別器により、検証スタイル画像に対して真実性検出を行うステップであって、第1判別器は、第1敵対的損失関数を用いて訓練して得られた判別器である、ステップと、
第2判別器により、訓練スタイル画像に対して真実性検出を行うステップであって、第2判別器は、第2敵対的損失関数を用いて訓練して得られた判別器である、ステップと、を含んでもよい。
式LGAN(Dt,Gs-t)=Et~X(t)[log Dt(x)]+Es~X(s)[log(1-Dt(Gs-t(s)))]を用いて第1敵対的損失関数を取得するステップを更に含んでもよく、
ここで、LGAN(Dt,Gs-t)は、第1敵対的損失関数を表し、Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、Dt( )は、第1判別器を表し、sは、第1ドメインの画像を表し、Gs-t( )は、第1ドメインの画像を第2ドメインの画像に変換するネットワークを表し、xは、入力された画像を表す。
式LGAN(Ds,Gt-s)=Es~X(s)[log Ds(x)]+Et~X(t)[log(1-Ds(Gt-s(t)))]を用いて第2敵対的損失関数を取得するステップを更に含んでもよく、
ここで、LGAN(Ds,Gt-s)は、第2敵対的損失関数を表し、Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、Ds( )は、第2判別器を表し、tは、第2ドメインの画像を表し、Gt-s( )は、第2ドメインの画像を第1ドメインの画像に変換するネットワークを表し、xは、入力された画像を表す。
式Ldomain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]を用いて第2損失関数を決定するステップを含んでもよく、
ここで、Ldomainは、第2損失関数を表し、pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、dは、画像出所値を表す。
式Ldet(p,u,tm,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(tm rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(tm obj,vobj)を用いて第3損失関数を決定するステップを含んでもよく、
ここで、Ldet(p,u,tm,v)は、第3損失関数を表し、Lrpn-clsは、第2訓練待ちネットワークモデルにおける領域生成ネットワークRPNの分類損失関数を表し、prpnは、RPNの第1予測カテゴリ確率値を表し、urpnは、RPNの第1真実カテゴリ確率値を表し、Lrpn-locは、第2訓練待ちネットワークモデルにおけるRPNの位置決め損失関数を表し、tm rpnは、RPNの第1予測位置決め値を表し、vrpnは、RPNの第1真実位置決め値を表し、Lobj-clsは、第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、pobjは、ターゲット検出ネットワークの第2予測カテゴリ確率値を表し、uobjは、ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、Lobj-locは、第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの位置決め損失関数を表し、tm objは、ターゲット検出ネットワークの第2予測位置決め値を表し、vobjは、ターゲット検出ネットワークの第2真実位置決め値を表す。
Ldet(p,u,tm,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(tm rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(tm obj,vobj)
ここで、Ldet(p,u,tm,v)は、第3損失関数を表し、Lrpn-clsは、第2訓練待ちネットワークモデルにおける領域生成ネットワークRPNの分類損失関数を表し、prpnは、RPNの第1予測カテゴリ確率値を表し、urpnは、RPNの第1真実カテゴリ確率値を表し、Lrpn-locは、第2訓練待ちネットワークモデルにおけるRPNの位置決め損失関数を表し、tm rpnは、RPNの第1予測位置決め値を表し、vrpnは、RPNの第1真実位置決め値を表し、Lobj-clsは、第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、pobjは、ターゲット検出ネットワークの第2予測カテゴリ確率値を表し、uobjは、ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、Lobj-locは、第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの位置決め損失関数を表し、tm objは、ターゲット検出ネットワークの第2予測位置決め値を表し、vobjは、ターゲット検出ネットワークの第2真実位置決め値を表す。
式L=Lcyc(Gt-s,Gs-t)+Ldomain+Ldetを用いてターゲット損失関数を決定するステップを含んでもよく、
ここで、Lは、ターゲット損失関数を表し、Lcyc(Gt-s,Gs-t)は、第1損失関数を表し、Ldomainは、第2損失関数を表し、Ldetは、前記第3損失関数を表す。
取得モジュール301は、第1検出待ち画像を取得するように構成され、前記第1検出待ち画像は、第1ドメインに属し、
前記取得モジュール301は更に、第1検出待ち画像に対応する第2検出待ち画像を取得するように構成され、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
検出モジュール302は、クロスドメイン画像検出モデルにより、前記取得モジュールが取得した前記第2検出待ち画像に対応する検出結果を取得するように構成され、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる。
取得モジュール401は、訓練待ち画像及び検証待ち画像を取得するように構成され、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
前記取得モジュール401は更に、第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するように構成され、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属し、
前記取得モジュール401は更に、第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するように構成され、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、
前記取得モジュール401は更に、前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するように構成され、
訓練モジュール402は、前記取得モジュール401が取得した前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るように構成される。
前記訓練モジュール402は具体的には、前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定し、
前記予測確率値に基づいて、第2損失関数を決定し、
前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定し、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成し、
前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うように構成される。
前記訓練モジュール402は具体的には、
式Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(xt))-xt||]+Es~X(s)[||Gt-s(Gs-t(xs))-xs||]を用いて前記第1損失関数を決定するように構成され、
ここで、前記Lcys(Gt-s,Gs-t)は、前記第1損失関数を表し、前記xtは、前記検証待ち画像を表し、前記xsは、前記訓練待ち画像を表し、前記Gs-tは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Gt-sは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Gt-s(xt)は、前記訓練スタイル画像を表し、前記Gs-t(xs)は、前記検証スタイル画像を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。
前記検出モジュール403は、前記取得モジュール401が第1訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第1判別器により、前記検証スタイル画像に対して真実性検出を行うように構成され、前記第1判別器は、第1敵対的損失関数を用いて訓練して得られたものであり、
前記検出モジュール403は更に、前記取得モジュール401が第1訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第2判別器により、前記訓練スタイル画像に対して真実性検出を行うように構成され、前記第2判別器は、第2敵対的損失関数を用いて訓練して得られたものである。
前記取得モジュール401は更に、前記検出モジュール403が第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、
式LGAN(Dt,Gs-t)=Et~X(t)[log Dt(x)]+Es~X(s)[log(1-Dt(Gs-t(s)))]を用いて前記第1敵対的損失関数を取得するように構成され、
ここで、前記LGAN(Dt,Gs-t)は、前記第1敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Dt( )は、前記第1判別器を表し、前記sは、前記第1ドメインの画像を表し、前記Gs-t( )は、前記第1ドメインの画像を前記第2ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
前記取得モジュール401は更に、前記検出モジュール403が第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、
式LGAN(Ds,Gt-s)=Es~X(s)[log Ds(x)]+Et~X(t)[log(1-Ds(Gt-s(t)))]を用いて前記第2敵対的損失関数を取得するように構成され、
ここで、前記LGAN(Ds,Gt-s)は、前記第2敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ds( )は、前記第2判別器を表し、前記tは、前記第2ドメインの画像を表し、前記Gt-s( )は、前記第2ドメインの画像を前記第1ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
前記訓練モジュール402は具体的には、
式Ldomain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]を用いて前記第2損失関数を決定するように構成され、
ここで、前記Ldomainは、前記第2損失関数を表し、前記pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、前記dは、画像出所値を表す。
前記訓練モジュール402は具体的には、
式Ldet(p,u,tm,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(tm rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(tm obj,vobj)を用いて前記第3損失関数を決定するように構成され、
ここで、前記Ldet(p,u,tm,v)は、前記第3損失関数を表し、前記Lrpn-clsは、前記第2訓練待ちネットワークモデルにおける領域生成ネットワークRPNの分類損失関数を表し、前記prpnは、前記RPNの前記第1予測カテゴリ確率値を表し、前記urpnは、前記RPNの第1真実カテゴリ確率値を表し、前記Lrpn-locは、前記第2訓練待ちネットワークモデルにおける前記RPNの位置決め損失関数を表し、前記tm rpnは、前記RPNの前記第1予測位置決め値を表し、前記vrpnは、前記RPNの第1真実位置決め値を表し、前記Lobj-clsは、前記第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記pobjは、前記ターゲット検出ネットワークの前記第2予測カテゴリ確率値を表し、前記uobjは、前記ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、前記Lobj-locは、前記第2訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記tm objは、前記ターゲット検出ネットワークの前記第2予測位置決め値を表し、前記vobjは、前記ターゲット検出ネットワークの第2真実位置決め値を表す。
前記訓練モジュール402は具体的には、
式L=Lcyc(Gt-s,Gs-t)+Ldomain+Ldetを用いて前記ターゲット損失関数を決定するように構成され、
ここで、前記Lは、前記ターゲット損失関数を表し、前記Lcyc(Gt-s,Gs-t)は、前記第1損失関数を表し、前記Ldomainは、前記第2損失関数を表し、前記Ldetは、前記第3損失関数を表す。
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含む機能を更に有する。
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む機能を更に有する。
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む機能を更に有する。
前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
前記予測確率値に基づいて、第2損失関数を決定するステップと、
前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成するステップと、
前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うステップと、を実行するように構成される。
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含む機能を更に有する。
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含むモデル訓練ステップを実行するように構成される。
前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
前記予測確率値に基づいて、第2損失関数を決定するステップと、
前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成するステップと、
前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うステップと、を実行するように構成される。
式Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(xt))-xt||]+Es~X(s)[||Gt-s(Gs-t(xs))-xs||]を用いて前記第1損失関数を決定するステップを実行するように構成され、
ここで、前記Lcys(Gt-s,Gs-t)は、前記第1損失関数を表し、前記xtは、前記検証待ち画像を表し、前記xsは、前記訓練待ち画像を表し、前記Gs-tは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Gt-sは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Gt-s(xt)は、前記訓練スタイル画像を表し、前記Gs-t(xs)は、前記検証スタイル画像を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。
第1判別器により、前記検証スタイル画像に対して真実性検出を行うステップであって、前記第1判別器は、第1敵対的損失関数を用いて訓練して得られたものである、ステップと、
第2判別器により、前記訓練スタイル画像に対して真実性検出を行うステップであって、前記第2判別器は、第2敵対的損失関数を用いて訓練して得られたものである、ステップと、を実行するように構成される。
式LGAN(Dt,Gs-t)=Et~X(t)[log Dt(x)]+Es~X(s)[log(1-Dt(Gs-t(s)))]を用いて前記第1敵対的損失関数を取得するステップを更に含み、
ここで、前記LGAN(Dt,Gs-t)は、前記第1敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Dt( )は、前記第1判別器を表し、前記sは、前記第1ドメインの画像を表し、前記Gs-t( )は、前記第1ドメインの画像を前記第2ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
式LGAN(Ds,Gt-s)=Es~X(s)[log Ds(x)]+Et~X(t)[log(1-Ds(Gt-s(t)))]を用いて前記第2敵対的損失関数を取得するステップを実行するように構成され、
ここで、前記LGAN(Ds,Gt-s)は、前記第2敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ds( )は、前記第2判別器を表し、前記tは、前記第2ドメインの画像を表し、前記Gt-s( )は、前記第2ドメインの画像を前記第1ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
式Ldomain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]を用いて前記第2損失関数を決定するステップを実行するように構成され、
ここで、前記Ldomainは、前記第2損失関数を表し、前記pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、前記dは、画像出所値を表す。
式Ldet(p,u,tm,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(tm rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(tm obj,vobj)を用いて前記第3損失関数を決定するステップを実行するように構成され、
ここで、前記Ldet(p,u,tm,v)は、前記第3損失関数を表し、前記Lrpn-clsは、前記第2訓練待ちネットワークモデルにおける領域生成ネットワークRPNの分類損失関数を表し、前記prpnは、前記RPNの前記第1予測カテゴリ確率値を表し、前記urpnは、前記RPNの第1真実カテゴリ確率値を表し、前記Lrpn-locは、前記第2訓練待ちネットワークモデルにおける前記RPNの位置決め損失関数を表し、前記tm rpnは、前記RPNの前記第1予測位置決め値を表し、前記vrpnは、前記RPNの第1真実位置決め値を表し、前記Lobj-clsは、前記第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記pobjは、前記ターゲット検出ネットワークの前記第2予測カテゴリ確率値を表し、前記uobjは、前記ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、前記Lobj-locは、前記第2訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記tm objは、前記ターゲット検出ネットワークの前記第2予測位置決め値を表し、前記vobjは、前記ターゲット検出ネットワークの第2真実位置決め値を表す。
式L=Lcyc(Gt-s,Gs-t)+Ldomain+Ldetを用いて前記ターゲット損失関数を決定するステップを実行するように構成され、
ここで、前記Lは、前記ターゲット損失関数を表し、前記Lcyc(Gt-s,Gs-t)は、前記第1損失関数を表し、前記Ldomainは、前記第2損失関数を表し、前記Ldetは、前記第3損失関数を表す。
40 モデル訓練装置
301 取得モジュール
302 検出モジュール
401 取得モジュール
402 訓練モジュール
403 検出モジュール
510 RF回路
520 メモリ
530 入力ユニット
531 タッチパネル
532 他の入力装置
540 表示ユニット
541 表示パネル
550 センサ
560 オーディオ回路
561 スピーカー
562 マイクロホン
570 WiFiモジュール
580 プロセッサ
590 電源
600 サーバ
622 中央演算処理装置
626 電源
630 記憶媒体
632 メモリ
641 オペレーティングシステム
642 アプリケーションプログラム
644 データ
650 有線又は無線ネットワークインタフェース
658 入力出力インタフェース
Claims (20)
- モデル訓練方法であって、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む、モデル訓練方法。 - 前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うステップは、
前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
前記予測確率値に基づいて、第2損失関数を決定するステップと、
前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成するステップと、
前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うステップと、を含むことを特徴とする
請求項1に記載の方法。 - 前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップは、
Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(xt))-xt||]+Es~X(s)[||Gt-s(Gs-t(xs))-xs||]という式を用いて前記第1損失関数を決定するステップを含み、
前記Lcys(Gt-s,Gs-t)は、前記第1損失関数を表し、前記xtは、前記検証待ち画像を表し、前記xsは、前記訓練待ち画像を表し、前記Gs-tは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Gt-sは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Gt-s(xt)は、前記訓練スタイル画像を表し、前記Gs-t(xs)は、前記検証スタイル画像を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表すことを特徴とする
請求項2に記載の方法。 - 第1訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、前記方法は、
第1判別器により、前記検証スタイル画像に対して真実性検出を行うステップであって、前記第1判別器は、第1敵対的損失関数を用いて訓練して得られたものである、ステップと、
第2判別器により、前記訓練スタイル画像に対して真実性検出を行うステップであって、前記第2判別器は、第2敵対的損失関数を用いて訓練して得られたものである、ステップと、を更に含むことを特徴とする
請求項1から3のうちいずれか一項に記載の方法。 - 第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、前記方法は、
LGAN(Dt,Gs-t)=Et~X(t)[log Dt(x)]+Es~X(s)[log(1-Dt(Gs-t(s)))]という方式を用いて前記第1敵対的損失関数を取得するステップを更に含み、
前記LGAN(Dt,Gs-t)は、前記第1敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Dt( )は、前記第1判別器を表し、前記sは、前記第1ドメインの画像を表し、前記Gs-t( )は、前記第1ドメインの画像を前記第2ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表すことを特徴とする
請求項4に記載の方法。 - 第2判別器により前記訓練スタイル画像に対して真実性検出を行う前に、前記方法は、
LGAN(Ds,Gt-s)=Es~X(s)[log Ds(x)]+Et~X(t)[log(1-Ds(Gt-s(t)))]という方式を用いて前記第2敵対的損失関数を取得するステップを更に含み、
前記LGAN(Ds,Gt-s)は、前記第2敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ds( )は、前記第2判別器を表し、前記tは、前記第2ドメインの画像を表し、前記Gt-s( )は、前記第2ドメインの画像を前記第1ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表すことを特徴とする
請求項4に記載の方法。 - 前記予測確率値に基づいて第2損失関数を決定するステップは、
Ldomain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]という方式を用いて前記第2損失関数を決定するステップを含み、
前記Ldomainは、前記第2損失関数を表し、前記pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、前記dは、画像出所値を表すことを特徴とする
請求項2に記載の方法。 - 前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップは、
Ldet(p,u,tm,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(tm rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(tm obj,vobj)という方式を用いて前記第3損失関数を決定するステップを含み、
前記Ldet(p,u,tm,v)は、前記第3損失関数を表し、前記Lrpn-clsは、前記第2訓練待ちネットワークモデルにおける領域生成ネットワーク(RPN)の分類損失関数を表し、前記prpnは、前記RPNの前記第1予測カテゴリ確率値を表し、前記urpnは、前記RPNの第1真実カテゴリ確率値を表し、前記Lrpn-locは、前記第2訓練待ちネットワークモデルにおける前記RPNの位置決め損失関数を表し、前記tm rpnは、前記RPNの前記第1予測位置決め値を表し、前記vrpnは、前記RPNの第1真実位置決め値を表し、前記Lobj-clsは、前記第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記pobjは、前記ターゲット検出ネットワークの前記第2予測カテゴリ確率値を表し、前記uobjは、前記ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、前記Lobj-locは、前記第2訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記tm objは、前記ターゲット検出ネットワークの前記第2予測位置決め値を表し、前記vobjは、前記ターゲット検出ネットワークの第2真実位置決め値を表すことを特徴とする
請求項2に記載の方法。 - 前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成するステップは、
L=Lcyc(Gt-s,Gs-t)+Ldomain+Ldetという方式を用いて前記ターゲット損失関数を決定するステップを含み、
前記Lは、前記ターゲット損失関数を表し、前記Lcyc(Gt-s,Gs-t)は、前記第1損失関数を表し、前記Ldomainは、前記第2損失関数を表し、前記Ldetは、前記第3損失関数を表すことを特徴とする
請求項2に記載の方法。 - 画像に基づくターゲット検出方法であって、
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含む、
画像に基づくターゲット検出方法。 - ターゲット検出装置であって、取得モジュールと、検出モジュールと、を備え
取得モジュールは、第1検出待ち画像を取得するように構成され、前記第1検出待ち画像は、第1ドメインに属し、
前記取得モジュールは更に、第1検出待ち画像に対応する第2検出待ち画像を取得するように構成され、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
検出モジュールは、クロスドメイン画像検出モデルにより、前記取得モジュールが取得した前記第2検出待ち画像に対応する検出結果を取得するように構成され、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ターゲット検出装置。 - モデル訓練装置であって、取得モジュールと、訓練モジュールと、を備え、
取得モジュールは、訓練待ち画像及び検証待ち画像を取得するように構成され、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
前記取得モジュールは更に、第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するように構成され、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属し、
前記取得モジュールは更に、第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するように構成され、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、
前記取得モジュールは更に、前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するように構成され、
訓練モジュールは、前記取得モジュールが取得した前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るように構成される、モデル訓練装置。 - 端末機器であって、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムで、
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、端末機器。 - 前記プロセッサは、前記メモリにおけるプログラムで、
前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
前記予測確率値に基づいて、第2損失関数を決定するステップと、
前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成するステップと、
前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うステップと、を実行するように構成されることを特徴とする
請求項13に記載の端末機器。 - 前記プロセッサは、前記メモリにおけるプログラムで、
Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(xt))-xt||]+Es~X(s)[||Gt-s(Gs-t(xs))-xs||]という方式を用いて前記第1損失関数を決定するステップを実行するように構成され、
前記Lcys(Gt-s,Gs-t)は、前記第1損失関数を表し、前記xtは、前記検証待ち画像を表し、前記xsは、前記訓練待ち画像を表し、前記Gs-tは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Gt-sは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Gt-s(xt)は、前記訓練スタイル画像を表し、前記Gs-t(xs)は、前記検証スタイル画像を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表すことを特徴とする
請求項14に記載の端末機器。 - 前記プロセッサは、前記メモリにおけるプログラムで、
第1判別器により、前記検証スタイル画像に対して真実性検出を行うステップであって、前記第1判別器は、第1敵対的損失関数を用いて訓練して得られたものである、ステップと、
第2判別器により、前記訓練スタイル画像に対して真実性検出を行うステップであって、前記第2判別器は、第2敵対的損失関数を用いて訓練して得られたものである、ステップと、を実行するように構成されることを特徴とする
請求項13から15のうちいずれか一項に記載の端末機器。 - 前記プロセッサは、前記メモリにおけるプログラムで、
LGAN(Dt,Gs-t)=Et~X(t)[log Dt(x)]+Es~X(s)[log(1-Dt(Gs-t(s)))]という方式を用いて前記第1敵対的損失関数を取得するステップを実行するように構成され、
前記LGAN(Dt,Gs-t)は、前記第1敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Dt( )は、前記第1判別器を表し、前記sは、前記第1ドメインの画像を表し、前記Gs-t( )は、前記第1ドメインの画像を前記第2ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表すことを特徴とする
請求項16に記載の端末機器。 - サーバであって、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムで、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、サーバ。 - コンピュータ可読記憶媒体であって、プログラムコードを含み、該プログラムコードがコンピュータで実行される時、コンピュータに、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含むモデル訓練ステップを実行させる、コンピュータ可読記憶媒体。 - コンピュータ可読記憶媒体であって、プログラムコードを含み、該プログラムコードがコンピュータで実行される時、コンピュータに、
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含むターゲット検出ステップを実行させる、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910218444.5 | 2019-03-21 | ||
CN201910218444.5A CN109919251B (zh) | 2019-03-21 | 2019-03-21 | 一种基于图像的目标检测方法、模型训练的方法及装置 |
PCT/CN2020/079218 WO2020187153A1 (zh) | 2019-03-21 | 2020-03-13 | 目标检测方法、模型训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022504704A true JP2022504704A (ja) | 2022-01-13 |
JP7265003B2 JP7265003B2 (ja) | 2023-04-25 |
Family
ID=66966179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021519836A Active JP7265003B2 (ja) | 2019-03-21 | 2020-03-13 | ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (2) | US11763541B2 (ja) |
EP (1) | EP3944147A4 (ja) |
JP (1) | JP7265003B2 (ja) |
KR (1) | KR20210078539A (ja) |
CN (1) | CN109919251B (ja) |
WO (1) | WO2020187153A1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919251B (zh) * | 2019-03-21 | 2024-08-09 | 腾讯科技(深圳)有限公司 | 一种基于图像的目标检测方法、模型训练的方法及装置 |
EP3731154A1 (en) * | 2019-04-26 | 2020-10-28 | Naver Corporation | Training a convolutional neural network for image retrieval with a listwise ranking loss function |
CN110516707B (zh) * | 2019-07-19 | 2023-06-02 | 深圳力维智联技术有限公司 | 一种图像标注方法及其装置、存储介质 |
US11455531B2 (en) * | 2019-10-15 | 2022-09-27 | Siemens Aktiengesellschaft | Trustworthy predictions using deep neural networks based on adversarial calibration |
CN110738211B (zh) * | 2019-10-17 | 2024-09-03 | 腾讯科技(深圳)有限公司 | 一种对象检测的方法、相关装置以及设备 |
CN111061890B (zh) * | 2019-12-09 | 2023-04-07 | 腾讯云计算(北京)有限责任公司 | 一种标注信息验证的方法、类别确定的方法及装置 |
CN111091127A (zh) * | 2019-12-16 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、网络模型训练方法以及相关装置 |
CN111209947A (zh) * | 2019-12-31 | 2020-05-29 | 歌尔股份有限公司 | 图像识别方法、设备、存储介质及装置 |
CN113191378A (zh) * | 2020-01-14 | 2021-07-30 | 阿里巴巴集团控股有限公司 | 图像搜索的预测方法、装置和系统 |
CN111368878B (zh) * | 2020-02-14 | 2023-02-28 | 北京电子工程总体研究所 | 一种基于ssd目标检测的优化方法、计算机设备和介质 |
CN111401138B (zh) * | 2020-02-24 | 2023-11-07 | 上海理工大学 | 生成对抗神经网络训练过程的对抗优化方法 |
US11544503B2 (en) * | 2020-04-06 | 2023-01-03 | Adobe Inc. | Domain alignment for object detection domain adaptation tasks |
CN111881884B (zh) * | 2020-08-11 | 2021-05-28 | 中国科学院自动化研究所 | 基于跨模态转化辅助的人脸防伪检测方法、系统及装置 |
US20220122222A1 (en) | 2020-10-16 | 2022-04-21 | Adobe Inc. | Multi-scale output techniques for generative adversarial networks |
CN112333155B (zh) * | 2020-10-16 | 2022-07-22 | 济南浪潮数据技术有限公司 | 一种异常流量的检测方法、系统、电子设备及存储介质 |
CN112464461B (zh) * | 2020-11-20 | 2021-09-28 | 北京赛目科技有限公司 | 一种自动驾驶测试场景的构建方法及装置 |
CN112528862B (zh) * | 2020-12-10 | 2023-02-10 | 西安电子科技大学 | 基于改进的交叉熵损失函数的遥感图像目标检测方法 |
CN113139500B (zh) * | 2021-05-10 | 2023-10-20 | 重庆中科云从科技有限公司 | 烟雾检测方法、系统、介质及设备 |
CN113065614B (zh) * | 2021-06-01 | 2021-08-31 | 北京百度网讯科技有限公司 | 分类模型的训练方法和对目标对象进行分类的方法 |
CN113792853B (zh) * | 2021-09-09 | 2023-09-05 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备 |
CN113793325B (zh) * | 2021-09-22 | 2024-05-24 | 北京市商汤科技开发有限公司 | 一种检测方法、装置、计算机设备和存储介质 |
CN113962968B (zh) * | 2021-10-26 | 2024-06-04 | 北京临近空间飞行器系统工程研究所 | 面向复杂电磁环境下多源混合干扰雷达图像目标检测系统 |
CN114095269B (zh) * | 2021-11-29 | 2024-04-30 | 广东电网有限责任公司 | 系统检测方法、装置、电子设备及存储介质 |
CN115082299B (zh) * | 2022-07-21 | 2022-11-25 | 中国科学院自动化研究所 | 非严格对齐的小样本不同源图像转换方法、系统及设备 |
CN115588130B (zh) * | 2022-10-13 | 2024-08-16 | 成都卓视智通科技有限公司 | 一种基于域自适应的跨域yolo检测方法 |
CN115631178B (zh) * | 2022-11-03 | 2023-11-10 | 昆山润石智能科技有限公司 | 自动晶圆缺陷检测方法、系统、设备及存储介质 |
CN115731533B (zh) * | 2022-11-29 | 2024-04-05 | 淮阴工学院 | 一种基于改进YOLOv5的车载目标检测方法 |
CN116205905B (zh) * | 2023-04-25 | 2023-07-21 | 合肥中科融道智能科技有限公司 | 基于移动端的配电网施工安全及质量图像检测方法及系统 |
CN116226789B (zh) * | 2023-05-08 | 2023-08-18 | 锋睿领创(珠海)科技有限公司 | 基于人工智能的数据同分布判别方法、装置、设备及介质 |
CN116343144B (zh) * | 2023-05-24 | 2023-08-11 | 武汉纺织大学 | 一种融合视觉感知自适应去雾的实时目标检测方法 |
CN117336453B (zh) * | 2023-11-27 | 2024-01-30 | 湖南苏科智能科技有限公司 | 一种安检图像转换方法、系统、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710896A (zh) * | 2018-04-24 | 2018-10-26 | 浙江工业大学 | 基于产生式对抗学习网络的领域学习方法 |
JP2020119553A (ja) * | 2019-01-28 | 2020-08-06 | 株式会社ストラドビジョンStradvision,Inc. | ドメイン適応に適用され得るサイクルganを利用してリアルイメージ上の物体検出に使用される、リアル世界におけるリアルイメージをバーチャル世界におけるバーチャルイメージに変換するランタイム入力変換のための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729648B (zh) * | 2014-01-07 | 2017-01-04 | 中国科学院计算技术研究所 | 领域自适应模式识别方法及系统 |
US10318889B2 (en) * | 2017-06-26 | 2019-06-11 | Konica Minolta Laboratory U.S.A., Inc. | Targeted data augmentation using neural style transfer |
US20190130220A1 (en) * | 2017-10-27 | 2019-05-02 | GM Global Technology Operations LLC | Domain adaptation via class-balanced self-training with spatial priors |
CN108564127B (zh) * | 2018-04-19 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备及存储介质 |
US11429841B1 (en) * | 2018-07-27 | 2022-08-30 | Snap Inc. | Feedback adversarial learning |
US10915792B2 (en) * | 2018-09-06 | 2021-02-09 | Nec Corporation | Domain adaptation for instance detection and segmentation |
US11640519B2 (en) * | 2018-10-31 | 2023-05-02 | Sony Interactive Entertainment Inc. | Systems and methods for domain adaptation in neural networks using cross-domain batch normalization |
CN109919251B (zh) * | 2019-03-21 | 2024-08-09 | 腾讯科技(深圳)有限公司 | 一种基于图像的目标检测方法、模型训练的方法及装置 |
-
2019
- 2019-03-21 CN CN201910218444.5A patent/CN109919251B/zh active Active
-
2020
- 2020-03-13 WO PCT/CN2020/079218 patent/WO2020187153A1/zh active Application Filing
- 2020-03-13 JP JP2021519836A patent/JP7265003B2/ja active Active
- 2020-03-13 KR KR1020217015320A patent/KR20210078539A/ko not_active Application Discontinuation
- 2020-03-13 EP EP20772861.9A patent/EP3944147A4/en active Pending
-
2021
- 2021-05-06 US US17/313,497 patent/US11763541B2/en active Active
-
2023
- 2023-07-14 US US18/352,336 patent/US11978239B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710896A (zh) * | 2018-04-24 | 2018-10-26 | 浙江工业大学 | 基于产生式对抗学习网络的领域学习方法 |
JP2020119553A (ja) * | 2019-01-28 | 2020-08-06 | 株式会社ストラドビジョンStradvision,Inc. | ドメイン適応に適用され得るサイクルganを利用してリアルイメージ上の物体検出に使用される、リアル世界におけるリアルイメージをバーチャル世界におけるバーチャルイメージに変換するランタイム入力変換のための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 |
Non-Patent Citations (1)
Title |
---|
YUHU SHAN 他: "Pixel and Feature Level Based Domain Adaption for Object Detection in Autonomous Driving", ARXIV, JPN6022020634, 30 September 2018 (2018-09-30), ISSN: 0004935808 * |
Also Published As
Publication number | Publication date |
---|---|
US20210279513A1 (en) | 2021-09-09 |
CN109919251B (zh) | 2024-08-09 |
US20230360357A1 (en) | 2023-11-09 |
US11978239B2 (en) | 2024-05-07 |
WO2020187153A1 (zh) | 2020-09-24 |
EP3944147A1 (en) | 2022-01-26 |
CN109919251A (zh) | 2019-06-21 |
US11763541B2 (en) | 2023-09-19 |
JP7265003B2 (ja) | 2023-04-25 |
EP3944147A4 (en) | 2022-06-01 |
KR20210078539A (ko) | 2021-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022504704A (ja) | ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム | |
CN108304758B (zh) | 人脸特征点跟踪方法及装置 | |
CN111476306A (zh) | 基于人工智能的物体检测方法、装置、设备及存储介质 | |
CN111044045B (zh) | 基于神经网络的导航方法、装置及终端设备 | |
CN110852942B (zh) | 一种模型训练的方法、媒体信息合成的方法及装置 | |
CN113723378B (zh) | 一种模型训练的方法、装置、计算机设备和存储介质 | |
CN108198159A (zh) | 一种图像处理方法、移动终端以及计算机可读存储介质 | |
CN112036331A (zh) | 活体检测模型的训练方法、装置、设备及存储介质 | |
CN114418069A (zh) | 一种编码器的训练方法、装置及存储介质 | |
CN114882437A (zh) | 一种识别模型的训练方法、装置、电子设备和存储介质 | |
CN103105924A (zh) | 人机交互方法和装置 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN113887534B (zh) | 一种对象检测模型的确定方法和相关装置 | |
KR101995799B1 (ko) | 상황 인지 서비스를 제공하기 위한 장소 인식 장치 및 방법 | |
CN114612531A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN112818733B (zh) | 信息处理方法、装置、存储介质及终端 | |
CN108989666A (zh) | 拍摄方法、装置、移动终端及计算机可读取存储介质 | |
CN108230312A (zh) | 一种图像分析方法、设备和计算机可读存储介质 | |
CN114996487B (zh) | 媒体资源推荐方法、装置、电子设备以及存储介质 | |
WO2023137923A1 (zh) | 基于姿态指导的行人重识别方法、装置、设备及存储介质 | |
CN110197459A (zh) | 图像风格化生成方法、装置及电子设备 | |
KR102299902B1 (ko) | 증강현실을 제공하기 위한 장치 및 이를 위한 방법 | |
CN116824284A (zh) | 一种图像处理方法以及相关设备 | |
CN116152289A (zh) | 一种目标对象的跟踪方法、相关装置、设备以及存储介质 | |
CN113705309A (zh) | 一种景别类型判断方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210409 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210409 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230222 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20230222 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20230306 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20230313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7265003 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |