FR3115386A1

FR3115386A1 - Procédé de classification d’une image d’entrée représentant une particule dans un échantillon

Info

Publication number: FR3115386A1
Application number: FR2010741A
Authority: FR
Inventors: Pierre Mahé; Meriem El Azami; Elodie Degout-Charmette; Zohreh Sedaghat; Quentin JOSSO; Fabian Rol
Original assignee: Biomerieux SA; Bioaster
Current assignee: Biomerieux SA; Bioaster
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2022-04-22
Also published as: CN116868237A; EP4233014A1; JP2023546191A; US20240020949A1; WO2022084618A1

Abstract

Procédé de classification d’au moins une image d’entrée représentant une particule cible dans un échantillon La présente invention concerne un procédé de classification d’au moins une image d’entrée représentant une particule cible (11a-11f) dans un échantillon (12), le procédé étant caractérisé en ce qu’il comprend la mise en œuvre, par des moyens de traitement de données (20) d’un client (2), d’étapes de : (b) Extraction de ladite carte de caractéristiques de ladite particule cible (11a-11f) au moyen d’un réseau de neurones à convolution pré-entraîné sur une base d’images publique ; (c) Classification de ladite image d’entrée en fonction de ladite carte de caractéristiques extraite. Figure pour l’abrégé : Fig. 1

Description

Procédé de classification d’une image d’entrée représentant une particule dans un échantillon

DOMAINE TECHNIQUE GENERAL

La présente invention concerne le domaine de l’acquisition optique de particules biologiques. Les particules biologiques peuvent être des microorganismes tels que des bactéries, des champignons ou des levures par exemple. Il peut également s’agir de cellules, organismes multicellulaires, ou toute autre particule de type particule polluante, poussière.

L’invention trouve une application particulièrement avantageuse pour analyser l’état d’une particule biologique, par exemple pour savoir l’état métabolique d’une bactérie suite à l’application d’un antibiotique. L’invention permet, par exemple, de réaliser un antibiogramme d’une bactérie.

ETAT DE L’ART

Un antibiogramme est une technique de laboratoire visant à tester le phénotype d'une souche bactérienne vis-à-vis d'un ou plusieurs antibiotiques. Un antibiogramme est classiquement réalisé par culture d'un échantillon contenant des bactéries et un antibiotique.

La demande de brevet européen N° 2 603 601 décrit une méthode pour réaliser un antibiogramme en visualisant l'état des bactéries après une durée d'incubation en présence d'un antibiotique. Pour visualiser les bactéries, les bactéries sont marquées par des marqueurs fluorescents permettant de révéler leurs structures. La mesure de la fluorescence des marqueurs permet alors de déterminer si l'antibiotique a agi efficacement sur les bactéries.

Le processus classique pour déterminer les antibiotiques efficaces sur une souche bactérienne consiste à réaliser un prélèvement contenant ladite souche (e.g. sur un patient, un animal, un lot alimentaire, etc.) puis à transmettre le prélèvement à un centre d’analyse. Lorsque le centre d’analyse réceptionne le prélèvement, il procède tout d’abord à la culture de la souche bactérienne pour obtenir au moins une colonie de celle-ci, culture comprise entre 24 heures et 72 heures. Il prépare ensuite à partir de cette colonie plusieurs échantillons comprenant des antibiotiques différents et/ou des concentrations d’antibiotiques différentes, puis met à nouveau les échantillons à incuber. Après une nouvelle durée de culture comprise également entre 24 et 72 heures, chaque échantillon est analysé manuellement pour déterminer si l’antibiotique a agi efficacement. Les résultats sont alors retransmis au praticien pour appliquer l’antibiotique et/ou la concentration d’antibiotique le plus efficace.

Cependant, le processus de marquage est particulièrement long et complexe à réaliser et ces marqueurs chimiques ont un effet cytotoxique sur les bactéries. Il s'ensuit que ce mode de visualisation ne permet pas d'observer les bactéries à plusieurs instants de la culture des bactéries, d’où la nécessité d'utiliser un temps de culture suffisamment long, de l'ordre de 24 à 72 heures, pour garantir la fiabilité de la mesure. D'autres méthodes de visualisation de particules biologiques utilisent un microscope, permettant une mesure non destructive d'un échantillon.

La microscopie holographique numérique ou DHM (Digital Holographic Microscopy) est une technique d'imagerie permettant de s'affranchir des contraintes de profondeur de champ de la microscopie optique classique. Schématiquement, elle consiste à enregistrer un hologramme formé par l'interférence entre les ondes lumineuses diffractées par l'objet observé et une onde de référence présentant une cohérence spatiale. Cette technique est décrite dans l'article de revue de Myung K.Kim intitulé « Principles and techniques of digital holographic microscopy » publié dans SPIE Reviews Vol. 1, N°l, Janvier 2010.

Récemment, il a été proposé d'utiliser la microscopie holographique numérique pour identifier des micro-organismes de manière automatisée. Ainsi, la demande internationale WO2017/207184 décrit une méthode d'acquisition d'une particule intégrant une simple acquisition sans focalisation associée à une reconstruction numérique de la focalisation, permettant d'observer une particule biologique en limitant le temps d'acquisition.

Typiquement, cette solution permet de détecter les modifications structurelles d’une bactérie en présence d’un antibiotique après une incubation de seulement une dizaine de minute, et sa sensibilité au bout de deux heures (détection de la présence ou de l’absence d’une division ou d’un motif codant la division) contrairement au processus classique précédemment décrit qui peut prendre plusieurs jours. En effet, les mesures étant non destructives, il est possible de réaliser des analyses très tôt dans le processus de culture sans risquer de détruire l’échantillon et donc de prolonger le temps d’analyse.

Il même est possible de suivre une particule sur plusieurs images successives de sorte à former un film représentant l’évolution d’une particule au cours du temps (puisque les particules ne sont pas altérées après la première analyse) afin de visualiser son comportement, par exemple sa vitesse de déplacement ou son processus de division cellulaire.

On comprend donc que le procédé de visualisation donne d’excellents résultats. La difficulté tient dans l’interprétation en elle-même de ces images ou ce film si l’on souhaite par exemple conclure sur la susceptibilité d’une bactérie à l’antibiotique présent dans l’échantillon, en particulier de manière automatique.

Diverses techniques ont été proposées allant du simple comptage de bactéries au cours du temps à l’analyse dit morphologique visant à détecter par analyse d’image des « configurations » particulières. Par exemple, lorsqu’une bactérie se prépare à la division, il apparait deux pôles dans la distribution, bien avant la division elle-même qui se traduit par deux portions distinctes de la distribution.

Il a été proposé dans l’article Choi, J., Yoo, J., Lee, M., et al. (2014). A rapid antimicrobial susceptibility test based on single-cell morphological analysis.Science Translational Medicine,6(267). https://doi.org/10.1126/scitranslmed.3009650 de combiner les deux techniques pour évaluer un effet antibiotique. Cependant, comme souligné par les auteurs, leur approche nécessite une calibration très fine d’un certain nombre de seuils qui dépendent fortement de la nature des changements morphologiques provoqués par les antibiotiques.

Plus récemment, l’article Yu, H., Jing, W., Iriya, R., et al. (2018). Phenotypic Antimicrobial Susceptibility Testing with Deep Learning Video Microscopy. Analytical Chemistry, 90(10), 6314–6322. https://doi.org/10.1021/acs.analchem.8b01128 décrit une approche basée sur l’apprentissage profond (deep learning). Les auteurs proposent d’extraire les caractéristiques morphologiques ainsi que des caractéristiques liées au mouvement des bactéries au moyen d’un réseau de neurones à convolution (Convolutional Neural Network, CNN). Cette solution s’avère cependant d’une part très lourde en termes de ressources informatique, et requiert une vaste base d’images d’apprentissage pour entraîner le CNN.

Le problème technique objectif de la présente invention est, par conséquent, de pouvoir disposer d’une solution à la fois plus performante et plus légère de classification d’images d’une particule biologique.

PRESENTATION DE L’INVENTION

Selon un premier aspect, la présente invention concerne un procédé de classification d’au moins une image d’entrée représentant une particule cible dans un échantillon, le procédé étant caractérisé en ce qu’il comprend la mise en œuvre, par des moyens de traitement de données d’un client, d’étapes de :

(b) Extraction d’une carte de caractéristiques de ladite particule cible au moyen d’un réseau de neurones à convolution pré-entraîné sur une base d’images publique ;

(c) Classification de ladite image d’entrée en fonction de ladite carte de caractéristiques extraite.

Selon des caractéristiques avantageuses et non limitatives :

Les particules sont représentées d’une manière homogène dans l’image d’entrée et dans chaque image élémentaire, en particulier centrées et alignées selon une direction prédéterminée.

Le procédé comprend une étape (a) d’extraction de ladite image d’entrée d’une image globale de l’échantillon, de sorte à représenter ladite particule cible de ladite manière homogène.

L’étape (a) comprend la segmentation de ladite image globale de sorte à détecter ladite particule cible dans l’échantillon, puis le recadrage de l’image d’entrée sur ladite particule cible détectée.

L’étape (a) comprend l’obtention de ladite image globale à partir d’une image en intensité de l’échantillon acquise par un dispositif d’observation.

L’étape (b) est mise en œuvre au moyen d’un sous-réseau d’extraction de caractéristiques dudit réseau de neurones à convolution pré-entraîné.

Ledit réseau de neurones à convolution pré-entraîné est un réseau de classification d’images, en particulier du type VGG, AlexNet, Inception ou ResNet.

Une couche de mise en commun globale est ajoutée à la fin dudit sous-réseau d’extraction de caractéristiques de sorte que la carte de caractéristiques extraite présente une taille spatiale de 1x1.

L’étape (c) est mise en œuvre au moyen d’un classifieur, le procédé comprenant une étape (a0) d’apprentissage, par des moyens de traitement de données d’un serveur, des paramètres dudit classifieur à partir d’une base d’apprentissage de cartes de caractéristiques déjà classifiées de particules dans ledit échantillon.

Ledit classifieur est choisi parmi une machine à vecteur de support, un algorithme des k plus proches voisins, ou un réseau de neurones à convolution.

L’étape (c) comprend une réduction du nombre de variables de la carte de caractéristiques au moyen de l’algorithme t-SNE.

Le procédé est un procédé de classification d’une séquence d’images d’entrée représentant ladite particule cible dans un échantillon au cours du temps, dans lequel l’étape (b) comprend la concaténation des cartes de caractéristiques extraites pour chaque image d’entrée de ladite séquence.

Selon un deuxième aspect, est proposé un système de classification d’au moins une image d’entrée représentant une particule cible dans un échantillon comprenant au moins un client comprenant des moyens de traitement de données, caractérisé en ce que lesdits moyens de traitement de données sont configurés pour implémenter :

- l’extraction d’une carte de caractéristiques de ladite particule cible au moyen d’un réseau de neurones à convolution pré-entraîné sur une base d’images publique ;

- la classification de ladite image d’entrée en fonction de ladite carte de caractéristiques extraite.

Selon des caractéristiques avantageuses et non limitatives, le système comprend en outre un dispositif d’observation de ladite particule cible dans l’échantillon.

Selon un troisième et un quatrième aspect sont proposés un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon le premier aspect de classification d’au moins une image d’entrée représentant une particule cible dans un échantillon ; et un moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprend des instructions de code pour l’exécution d’un procédé selon le premier aspect de classification d’au moins une image d’entrée représentant une particule cible dans un échantillon.

PRESENTATION DES FIGURES

D’autres caractéristiques et avantages de la présente invention apparaîtront à la lecture de la description qui va suivre d’un mode de réalisation préférentiel. Cette description sera donnée en référence aux dessins annexés dans lesquels :

[Fig 1]la figure 1 est un schéma d’une architecture pour la mise en œuvre du procédé selon l’invention ;
[Fig 2]la figure 2a représente un exemple de dispositif d’observation de particules dans un échantillon utilisé dans un mode de réalisation préféré du procédé selon l’invention ;
[Fig 3a]la figure 3a illustre l’obtention de l’image d’entrée dans un mode de réalisation du procédé selon l’invention ;
[Fig 3b]la figure 3b illustre l’obtention de l’image d’entrée dans un mode de réalisation préféré du procédé selon l’invention ;
[Fig 4]la figure 4 représente les étapes d’un mode de réalisation préféré du procédé selon l’invention ;
[Fig 5]la figure 5 représente un exemple d’architecture de réseau de neurones à convolution utilisé dans un mode de réalisation préféré du procédé selon l’invention ;

[Fig 6]la figure 6 représente un exemple de projection t-SNE utilisée dans un mode de réalisation préféré du procédé selon l’invention.

DESCRIPTION DETAILLEE

Architecture

L’invention concerne un procédé de classification d’au moins une image d’entrée représentative d’une particule 11a-11f présente dans un échantillon 12, dite particule cible. A noter que le procédé peut être mis en œuvre en parallèle pour tout ou partie des particules 11a-11f présentes dans un échantillon 12, chacune étant considérée particule cible à tour de rôle.

Comme l’on verra, ce procédé peut comprendre une ou plusieurs composantes d’apprentissage automatique, et notamment un ou plusieurs classifieurs, y compris un réseau de neurones à convolution, CNN.

Les données d’entrée ou d’apprentissage sont de type image, et représentent la particule cible 11a-11f dans un échantillon 12 (en d’autres termes il s’agit d’images de l’échantillon dans lequel la particule cible est visible). Comme l’on verra, on peut avoir en entrée une séquence d’images de la même particule cible 11a-11f (et le cas échéant une pluralité de séquences d’images de particules 11a-11f de l’échantillon 12 si plusieurs particules sont considérées).

L’échantillon 12 consiste en un liquide tel que de l’eau, une solution tampon, un milieu de culture ou un milieu réactif (comprenant ou non un antibiotique), dans lequel se trouvent les particules 11a-11f à observer.

En variante, l’échantillon 12 peut se présenter sous la forme d’un milieu solide, de préférence translucide, tel qu’une gélose agar-agar, dans lequel se trouvent les particules 11a-11f. L’échantillon 12 peut également être un milieu gazeux. Les particules 11a-11f peuvent se situer à l’intérieur du milieu ou bien à la surface de l’échantillon 12.

Les particules 11a-11f peuvent être des microorganismes tels que des bactéries, des champignons ou des levures. Il peut également s’agir de cellules, organismes multicellulaires, ou toute autre particule de type particule polluante, poussière. Dans la suite de la description, on prendra l’exemple préféré dans laquelle la particule est une bactérie (et comme l’on verra l’échantillon 12 intègre un antibiotique) La taille des particules 11a-11f observées varie entre 500nm et plusieurs centaines de μm, voire quelques millimètres.

La « classification » d’une image d’entrée (ou d’une séquence d’images d’entrée) consiste en la détermination d’au moins une classe parmi un ensemble de clases possibles descriptives de l’image. Par exemple, dans le cas de particules de type bactérie, on peut avoir une classification binaire, i.e. deux classes possibles d’effet « division » ou « pas de division », témoignant respectivement d’une résistance ou non à un antibiotique. La présente invention ne sera limitée à aucune sorte de classification particulière, même si on décrira principalement l’exemple d’une classification binaire de l’effet d’un antibiotique sur ladite particule cible 11a-11f.

Les présents procédés sont mis en œuvre au sein d’une architecture telle que représentée par la , grâce à un serveur 1 et un client 2. Le serveur 1 est l’équipement d’apprentissage (mettant en œuvre le procédé d’apprentissage) et le client 2 est un équipement d’utilisation (mettant en œuvre le procédé de classification), par exemple un terminal d’un médecin ou d’un hôpital.

Il est tout à fait possible que les deux équipements 1, 2 soient confondus, mais de façon préférée le serveur 1 est un équipement distant, et le client 2 un équipement grand public, notamment un ordinateur du bureau, un portable, etc. L’équipement client 2 est avantageusement connecté à un dispositif d’observation 10, de sorte à pouvoir directement acquérir ladite image d’entrée (ou comme l’on verra plus loin des données « brutes » d’acquisition telles qu’une image globale de l’échantillon 12, voire des matrices électromagnétiques), typiquement pour la traiter en direct, alternativement on chargera l’image d’entrée sur l’équipement client 2.

Dans tous les cas, chaque équipement 1, 2 est typiquement un équipement informatique distant relié à un réseau local ou un réseau étendu tel que le réseau internet pour l’échange des données. Chacun comprend des moyens de traitement de données 3, 20 de type processeur, et des moyens de stockage de données 4, 21 telle qu’une mémoire informatique, par exemple une mémoire flash ou un disque dur. Le client 2 comprend typiquement une interface utilisateur 22 telle qu’un écran pour interagir.

Le serveur 1 stocke avantageusement une base de données d’apprentissage, i.e. un ensemble d’images de particules 11a-11f dans diverses conditions (voir plus loin) et/ou un ensemble de cartes de caractéristiques déjà classifiées (par exemple associées à des étiquettes « avec division » ou « sans division » signalant la sensibilité ou la résistance à l’antibiotique). A noter que les données d’apprentissage pourront être associés à des étiquettes définissant les conditions de test, par exemple indiquant pour des cultures de bactéries des « souches », « conditions de l’antibiotique », « temps », etc.

Acquisition

Même si comme expliqué le présent procédé peut directement prendre en entrée toute image de la particule cible 11a-11f, obtenue d’une manière quelconque. De manière préférée le présent procédé commence par une étape (a) d’obtention de l’image d’entrée à partir de données fournies par un dispositif d’observation 10.

De manière connue, l’homme du métier pourra utiliser des techniques de microscopie holographique numérique DHM, en particulier telles que décrites dans la demande internationale WO2017/207184. En particulier, on pourra acquérir une image en intensité de l’échantillon 12 appelée hologramme, qui n’est pas focalisée sur la particule cible (on parle d’image « out-of-focus »), et qui pourra être traitée par des moyens de traitement de données (intégrés au dispositif 10 ou ceux 20 du client 2 par exemple, voir plus loin). On comprend que l’hologramme « représente » d’une certaine manière toutes les particules 11a-11f dans l’échantillon.

La illustre un exemple de dispositif d’observation 10 d’une particule 11a-11f présente dans un échantillon 12. L’échantillon 12 est disposé entre une source lumineuse 15, spatialement et temporellement cohérente (e.g. un laser) ou pseudo-cohérente (e.g. une diode électroluminescente, une diode laser), et un capteur numérique 16 sensible dans la gamme spectrale de la source lumineuse. De préférence, la source lumineuse 15 comporte une faible largeur spectrale, par exemple inférieure à 200nm, inférieure à 100nm ou encore inférieure à 25 nm. Dans ce qui suit, il est fait référence à la longueur d’onde d’émission centrale de la source lumineuse, par exemple dans le domaine visible. La source lumineuse 15 émet un signal cohérent Sn orienté sur une première face 13 de l’échantillon, par exemple acheminé par un guide d’onde tel qu’une fibre optique.

L’échantillon 12 (comme expliqué typiquement un milieu de culture) est contenu dans une chambre d’analyse, délimitée verticalement par une lame inférieure et une lame supérieure, par exemple des lames de microscope conventionnelles. La chambre d’analyse est délimitée latéralement par un adhésif ou par tout autre matériau étanche. Les lames inférieure et supérieure sont transparentes à la longueur d’onde de la source lumineuse 15, l’échantillon et la chambre laissant passer par exemple plus de 50% la longueur d’onde de la source lumineuse sous incidence normale sur la lame inférieure.

De préférence, les particules 11a-11f sont disposées dans l’échantillon 12 au niveau de la lame supérieure. La face inférieure de la lame supérieure comprend à cet effet des ligands permettant d’accrocher les particules, par exemple des polycations (e.g. poly-Llysine) dans le cadre de microorganismes Ceci permet de contenir les particules dans une épaisseur égale à, ou proche de, la profondeur de champ du système optique, à savoir dans une épaisseur inférieure à 1mm (e.g. lentille à tube), et de préférence inférieure à 100μm (e.g. objectif de microscope). Les particules 11a-11f peuvent néanmoins se déplacer dans l’échantillon 12.

De préférence, le dispositif comprend un système optique 23 constitué, par exemple, d’un objectif de microscope et d’une lentille de tube, disposé dans l’air et à distance fixe de l’échantillon. Le système optique 23 est optionnellement équipé d’un filtre pouvant être situé devant l’objectif ou entre l’objectif et la lentille de tube. Le système optique 23 est caractérisé par son axe optique, son plan d’objet, également dénommé plan de mise au point, à une distance de l’objectif, et son plan d’image, conjugué du plan d’objet par le système optique. En d’autres termes, à un objet situé dans le plan d’objet, correspond une image nette de cet objet dans le plan image, également appelé plan focal. Les propriétés optiques du système 23 sont fixes (e.g. optique à focale fixe). Les plans objet et image sont orthogonaux à l’axe optique.

Le capteur d’image 16 est situé, en regard d’une seconde face 14 de l’échantillon, dans le plan focal ou à proximité de ce dernier. Le capteur, par exemple un capteur CCD ou CMOS, comprend un réseau bidimensionnel périodique de sites élémentaires sensibles, et une électronique de proximité qui règle le temps d’exposition et la remise à zéro des sites, d’une manière connue en soi. Le signal de sortie d’un site élémentaire est fonction de la quantité de rayonnement de la gamme spectrale incident sur ledit site pendant la durée d’exposition. Ce signal est ensuite converti, par exemple par l’électronique de proximité, en point image, ou « pixel », d’une image numérique. Le capteur produit ainsi une image numérique sous forme d’une matrice à C colonnes et L lignes. Chaque pixel de cette matrice, de coordonnées (c, l) dans la matrice, correspond d’une manière connue en soi à une position de coordonnées cartésiennes (x(c, l), y(c, l)) dans le plan focal du système optique 23, par exemple la position du centre du site sensible élémentaire de forme rectangulaire.

Le pas et le facteur de remplissage du réseau périodique sont choisis pour respecter le critère Shannon-Nyquist vis-à-vis de la taille des particules observées, de manière à définir au moins deux pixels par particule. Ainsi, le capteur d’image 16 acquiert une image en transmission de l’échantillon dans la gamme spectrale de la source lumineuse.

L’image acquise par le capteur d’image 16 comprend des informations holographiques dans la mesure où elle résulte de l’interférence entre une onde diffractée par les particules 11a-11f et une onde de référence ayant traversé l’échantillon sans avoir interagi avec lui. On comprend évidemment, comme décrit plus haut, que dans le cadre d’un capteur CMOS ou CCD, l’image numérique acquise est une image en intensité, l’information de phase étant donc ici codée dans cette image en intensité.

Alternativement, il est possible de diviser le signal cohérent Sn issu de la source lumineuse 15 en deux composantes, par exemple au moyen d’une lame semi-transparente. La première composante sert alors d’onde de référence et la seconde composante est diffractée par l’échantillon 12, l’image dans le plan image du système optique 23 résultant de l’interférence entre l’onde diffractée et l’onde de référence.

En référence à la , il est possible dans l’étape (a) de reconstruire à partir de l’hologramme au moins une image globale de l’échantillon 12, puis d’extraire ladite image d’entrée de l’image globale de l’échantillon.

On comprend en effet que la particule cible 11a-11f doit être représentée d’une manière homogène dans l’image d’entrée, en particulier centrée et alignée selon une direction prédéterminée (par exemple la direction horizontale). Les images d’entrée doivent en outre présenter une taille standardisée (Il est également souhaitable qu’on ne voie que la particule cible 11a-11f dans l’image d’entrée). On appelle ainsi « vignette » (en anglais thumbnail) l’image d’entrée, on peut définir par exemple une taille de 250x250 pixels. Dans le cas d’une séquence d’images d’entrée, on prend par exemple une image par minute pendant un intervalle de temps de 120 minutes, la séquence formant ainsi un « stack » 3D de taille 250x250x120.

La reconstruction de l’image globale est mise en œuvre comme expliqué par des moyens de traitement de données du dispositif 10 ou ceux 20 du client 2.

Typiquement, on construit (pour un instant d’acquisition) une série de matrices complexes nommées « matrices électromagnétiques », modélisant à partir de l’image en intensité de l’échantillon 12 (l’hologramme) le front d’onde lumineux propagé le long de l’axe optique pour une pluralité d’écarts par rapport au plan de mise au point du système optique 23, et en particulier des écarts positionnés dans l’échantillon.

Ces matrices peuvent être projetées dans l’espace réel (par exemple via la norme hermitienne), de sorte à constituer une pile d’images globales à diverses distances de focalisation.

A partir de là on peut déterminer une distance de focalisation moyenne (et sélectionner l’image globale correspondante, ou la recalculer à partir de l’hologramme), voire déterminer une distance de focalisation optimale pour la particule cible (et à nouveau sélectionner l’image globale correspondante, ou la recalculer à partir de l’hologramme).

Dans tous les cas, en référence à la , l’étape (a) comprend avantageusement la segmentation de ladite ou lesdites images globales de sorte à détecter ladite particule cible dans l’échantillon, puis le recadrage. En particulier, ladite image d’entrée peut être extraite de l’image globale de l’échantillon, de sorte à représenter ladite particule cible de ladite manière homogène.

En général, la segmentation permet de détecter toutes les particules d’intérêt, en supprimant les artefacts tels que des filaments ou des micro-colonies, de sorte à améliorer la ou les images globales, puis on sélectionne une des particules détectées comme la particules cible, et la vignette correspondante est extraite. Comme expliqué, on peut faire ce travail pour toutes les particules détectées.

La segmentation pourra être mise en œuvre de toute manière connue. Dans l’exemple de la figure 3b, on commence par une segmentation fine pour éliminer les artefacts, puis on met en œuvre une segmentation moins fine pour cette fois détecter les particules 11a-11f. L’homme du métier pourra utiliser toute technique de segmentation connue.

Si l’on souhaite obtenir une séquence d’images d’entrée pour une particule cible 11a-11f, on pourra mettre en œuvre des techniques de tracking pour suivre les éventuels déplacements de la particule d’une image globale à la suivante.

A noter que l’ensemble des images d’entrée obtenues pour un échantillon (pour plusieurs voire toutes les particules de l’échantillon 12, et ce dans le temps) peut être mis en commun pour former une base descriptive de l’échantillon 12 (en d’autres termes une base descriptive de l’expérience), comme l’on voit à droite de la figure 3a, notamment copiée sur les moyens de stockage 21 du client 2. On parle de niveau « champ », par opposition au niveau « particule ». Par exemple, si les particules 11a-11f sont des bactéries et l’échantillon 12 contient (ou non un antibiotique), cette base descriptive contient toutes les informations sur la croissance, la morphologie, la structure interne et les propriétés optiques de ces bactéries sur tout le champ de l’acquisition. Comme l’on verra, cette base descriptive peut être transmise au serveur 1 pour intégration dans ladite base d’apprentissage.

Extraction de caractéristiques

En référence à la , le présent procédé se distingue particulièrement en ce qu’il sépare une étape (b) d’extraction d’une carte de caractéristiques (« feature map ») à partir de l’image d’entrée, puis une étape (c) de classification de l’image d’entrée en fonction de ladite carte de caractéristiques, au lieu de tenter de classifier directement l’image d’entrée. Comme l’on verra, chaque étape peut impliquer un mécanisme indépendant d’apprentissage automatique, d’où le fait que ladite base d’apprentissage du serveur 1 puisse comprendre aussi bien des images de particules que des cartes de caractéristiques, et ce pas nécessairement déjà classifiés.

L’étape (b) principale est ainsi une étape d’extraction par les moyens de traitement de données 20 du client 2 d’une carte de caractéristiques de ladite particule cible, c’est-à-dire un « codage » de la particule cible.

Dans la suite de la présente description, on fera bien la distinction entre le nombre de « dimensions » des cartes de caractéristiques, au sens géométrique, c’est-à-dire le nombre de directions indépendantes dans lesquelles ces cartes s’étendent (par exemple un vecteur est un objet de dimension 1, et les présentes cartes de caractéristiques sont au moins de dimension 2, avantageusement de dimension 3), et le nombre de « variables » de ces cartes de caractéristiques, c’est-à-dire la taille selon chaque dimension, i.e. le nombre de degrés de liberté indépendants (qui correspond en pratique à la notion de dimension dans un espace vectoriel – plus précisément, l’ensemble des cartes de caractéristiques ayant un nombre de variables donné constitue un espace vectoriel de dimension égale à ce nombre de variables).

On décrira ainsi plus bas un exemple dans lequel la carte de caractéristique extraite à l’issue de l’étape (b) est un objet tridimensionnel (i.e. de dimension 3) de taille 7x7x512, ayant ainsi 25088 variables.

Ici, on propose d’utiliser un réseau de neurones à convolution, CNN, pour l’étape (b). On rappelle en effet que les CNN sont particulièrement adaptés pour les taches de vision. Généralement, un CNN est capable de classifier directement une image d’entrée (i.e. de faire à la fois les étapes (b) et (c)).

Ici le fait de découpler l’étape (b) et l’étape (c) permet de limiter l’utilisation du CNN à l’extraction de caractéristiques, et on peut pour cette étape (b) n’utiliser qu’un réseau de neurones à convolution pré-entraîné sur une base d’images publique, i.e. pour lesquels un apprentissage a déjà eu lieu de manière indépendante. C’est ce que l’on appelle « l’apprentissage par transfert ».

En d’autres termes, il n’est pas nécessaire d’entraîner ou réentraîner le CNN sur la base d’apprentissage d’images de particules 11a-11f, qui peut donc être exempte d’annotations. En effet, on comprend qu’annoter à la main des milliers d’images serait très long et très couteux. Cela pourrait en plus s’avérer complexe car dans le cas de bactéries cela nécessiterait de décider d’un temps de division pour chaque bactérie. Or celui-ci peut ne pas être bien défini à l’échelle de la bactérie individuelle.

En effet, pour réalisation la tâche d’extraction de caractéristiques, il suffit que le CNN soit discriminant, c’est-à-dire apte à repérer des différences entre images, y compris sur une base d’images publique qui n’a rien à voir avec les présentes images d’entrée. Avantageusement, ledit CNN est un réseau de classification d’images, dans la mesure où l’on sait que de tels réseaux vont manipuler des cartes de caractéristiques spécialement discriminantes vis-à-vis des classes des images, et donc particulièrement adaptées dans le présent contexte des particules 11a-11f à classifier même si ce n’est pas la tâche pour laquelle le CNN a été initialement entraîné. On comprendra que des réseaux de détection, reconnaissance ou encore segmentation d’image sont des cas particuliers de réseaux de classification, puisqu’ils réalisent en fait la tâche de classification (de toute l’images ou d’objets de l’image) plus une autre tâche (comme déterminer des coordonnées de boites englobantes d’objets classifiés pour un réseau de détection, ou générer un masque de segmentation pour un réseau de segmentation).

En ce qui concerne la base publique d’images d’apprentissage, on pourra par exemple prendre la célèbre base publique ImageNet, laquelle comprend plus de 1.5 millions d’images annotées, et qui est adaptée à l’apprentissage supervisé de quasiment tout CNN de traitement d’image (pour des tâches de classification reconnaissance, etc.).

Ainsi, on pourra avantageusement prendre un CNN « sur-étagère » sans la nécessité même de réaliser l’apprentissage. On connait des CNNs de classification, par exemple de type VGG (« Visual Geometry Group », par exemple le modèle VGG-16), AlexNet, Inception ou encore ResNet, pré-entraînés sur la base ImageNet (i.e. ils peuvent être récupérés avec les paramètres initialisées aux bonnes valeurs obtenues après un entraînement sur ImageNet). La représente l’architecture de VGG-16 (à 16 couches).

Généralement, un CNN comprend deux parties :

Un premier sous-réseau d’extraction de caractéristiques, comprenant le plus souvent une succession de blocs composés de couches de convolution et de couches d’activation (par exemple la fonction ReLU) pour augmenter la profondeur des cartes de caractéristiques, terminés par une couche de mise en commun (pooling) permettant de diminuer la taille de la carte de caractéristiques (généralement d’un facteur 2). Ainsi dans l’exemple de la figure 5, le VGG-16 a comme expliqué 16 couches réparties en 5 blocs. Le premier prend en entre l’image d’entrée (de taille spatiale 224x224, avec 3 canaux correspondant au caractère RGB de l’image) comprend 2 enchainements convolution+ReLU (une couche de convolution et une couche d’activation à fonction ReLU) montant la profondeur à 64 puis une couche de max pooling (on peut aussi utiliser du global average pooling), avec en sortie une carte de caractéristiques de taille 112x112x64 (les deux premières dimensions sont les dimensions spatiales, et la troisième dimension est la profondeur – ainsi on divise par deux chaque dimension spatiale). Le deuxième bloc a une architecture identique au premier bloc et génère en sortie du dernier ensemble convolution+ReLU une carte de caractéristiques de taille 112x112x128 (profondeur doublée) et en sortie de la couche de max pooling une carte de caractéristiques de taille 56x56x128. Le troisième bloc présente cette fois-ci trois ensembles convolution+ReLU et génère du dernier ensemble convolution+ReLU une carte de caractéristiques de taille 56x56x256 (profondeur doublée) et en sortie en sortie de la couche de max pooling une carte de caractéristiques de taille 28x28x256. Les quatrième et cinquième blocs ont une architecture identique au troisième bloc et génèrent successivement en sortie des cartes de caractéristiques de taille 14x14x512 et 7x7x512 (la profondeur n’augmente plus). Cette carte de caractéristique est la carte « finale ». On comprendra qu’on est limité à aucunes tailles de carte à quelque niveau que ce soit, et que les tailles citées-ci avant ne sont que des exemples.
Un deuxième sous-réseau de traitement des caractéristiques, et notamment un classifieur si le CNN est un réseau de classification. Ce sous-réseau prend en entrée la carte de caractéristiques finale générée par le premier sous-réseau, et renvoie le résultat escompté, par exemple la classe de l’image d’entrée si le CNN fait de la classification. Ce deuxième sous-réseau contient typiquement une ou plusieurs couches entièrement connectées (FC) et une couche d’activation finale, par exemple softmax (ce qui est le cas de VGG-16). Les deux sous-réseaux sont généralement entraînés en même temps de manière supervisée.

Ainsi, l’étape (b) est préférentiellement mise en œuvre au moyen du sous-réseau d’extraction de caractéristiques dudit réseau de neurones à convolution pré-entraîné, c’est-à-dire la première partie telle que mise en évidence sur la figure 5 pour l’exemple de VGG-16.

Plus précisément, ledit CNN pré-entrainé tel que VGG-16 n’est pas sensé renvoyer de cartes de caractéristiques, celle-ci n’étant qu’un état interne. En « tronquant » le CNN pré-appris, i.e. en utilisant seulement les couches du premier sous-réseau on obtient en sortie la carte de caractéristique finale contenant l’information la plus « profonde ».

On comprend qu’il est également tout à fait possible de prendre comme sous-réseau d’extraction de caractéristiques une partie n’allant pas jusqu’à la carte de caractéristiques finale, par exemple seulement les blocs 1 à 3 au lieu d’aller jusqu’au bloc 5. L’information est plus étendue mais moins profonde.

Dans le cas où l’on a une séquence d’images d’entrée, l’étape (b) comprend ainsi avantageusement l’extraction d’une carte de caractéristiques par image d’entrée, lesquels peuvent être combinés sous la forme d’une seule carte de caractéristiques appelée « profil » de la particule cible. Plus précisément, les cartes ont toutes la même taille et forment une séquence de cartes, il suffit donc de les concaténer selon l’ordre des images d’entrée de sorte à obtenir une carte de caractéristiques de « grande profondeur ».

Alternativement ou en complément, on peut sommer les cartes de caractéristiques correspondant à plusieurs images d’entrée associées à plusieurs particules 11a-11f de l’échantillon 12.

La présente technique permet ainsi d’obtenir une carte de caractéristiques de niveau sémantique élevé et ce sans nécessiter ni une forte puissance de calcul ni une base de données annotées.

A noter que le nombre de variables de la carte de caractéristiques peut rester énorme en particulier en cas de séquence d’images d’entrée.

De manière à réduire cela, on peut remarquer que la position des zones activées dans la carte de cartes de caractéristiques n’a pas d’importance. En effet, la particule 11a-11f est généralement seule au milieu de l’image d’entrée, même si on a parfois des petits amas. Dans tous les, cas vu qu’on ne cherche pas à localiser les particules 11a-11f, une information moyennée sur l’image suffit pour discriminer efficacement.

Ainsi on peut réduire la taille spatiale de la carte de caractéristiques jusqu’à 1x1 (sans toucher à la profondeur, c’est-à-dire que la carte extraite est de taille 1x1xP), i.e. on transforme cette carte en un vecteur (de même taille P que la profondeur de la carte de caractéristiques), par exemple au moyen d’une couche de mise en commun globale, notamment global average pooling, c’est-à-dire une moyennisation sur les deux dimensions spatiales.

En d’autres termes, on ajoute à la fin du sous-réseau d’extraction de caractéristiques ladite couche de mise en commun globale (après la couche de max pooling du dernier bloc). On peut faire ça à chaque bloc suivant la profondeur souhaitée de la carte de caractéristiques, et on comprend que le gain est d’autant plus fort que la couche de mise en commun globale est insérée « tôt », puisqu’on a des plus grandes dimensions spatiales et des plus faibles profondeurs.

Par exemple, en prenant VGG-16 tronqué après le bloc 5, on passe d’une carte de caractéristiques de taille 7x7x512 à une carte de caractéristiques de taille 1x1x512, soit un vecteur de taille 512. Dans le cas d’un stack de 120 images d’entrée, on obtient un vecteur de taille 512x120=61440. En prenant VGG-16 tronqué après le bloc 2, on passe d’une carte de caractéristiques de taille 56x56x128 à une carte de caractéristiques de taille 1x1x128, soit un vecteur de taille 128. Dans le cas d’un stack de 120 images d’entrée, on obtient un vecteur de taille 128x120=15360

Classification

Dans une étape (c), ladite image d’entrée est classifiée en fonction de ladite carte de caractéristiques extraite (le cas échéant la carte réduite).

On comprend que toute technique permettant une analyse descriptive du ou des cartes de caractéristiques pourra être utilisée, en particulier des classifieurs appris sur ladite base de données d’apprentissage, on en verra plusieurs exemples. A ce titre, à l’instar de l’étape (b0), le procédé peut comprendre une étape (a0) d’apprentissage, par les moyens de traitement de données 3 du serveur 1, à partir d’une base d’apprentissage, du classifieur. Cette étape est en effet typiquement mise en œuvre très en amont, en particulier par le serveur 1 distant. Comme expliqué, la base d’apprentissage peut comprendre un certain nombre de cartes de caractéristiques d’images d’apprentissage, ce qui prend très peu de place.

La carte de caractéristiques obtenue à l’étape (b) (en particulier en cas de stack d’images d’entrée) peut avoir un nombre de variables très élevé de sorte qu’il est préférable d’utiliser des techniques de réduction.

On peut à ce titre utiliser l'algorithme t-SNE (t-distributed stochastic neighbor embedding), qui est une méthode non-linéaire de réduction du nombre de variables pour la visualisation de données, permettant de représenter un ensemble de points d'un espace à grande dimension (l’espace de valeur des cartes de caractéristiques) dans un espace de deux ou trois dimensions, les données peuvent ensuite être visualisées avec un nuage de points. L'algorithme t-SNE tente de trouver une configuration optimale (dite projection t-SNE, en anglais « embedding ») selon un critère de théorie de l'information pour respecter les proximités entre points : deux points qui sont proches (respectivement éloignés) dans l'espace d'origine devront être proches (respectivement éloignés) dans l'espace de faible dimension.

L’algorithme t-SNE peut être mis en œuvre aussi bien au niveau particule (une particule cible 11a-11f par rapport aux particules individuelles pour lesquelles on dispose dans la base d’apprentissage d’une carte) qu’au niveau champ (pour tout l’échantillon 12 - cas d’une pluralité d’images d’entrée représentant une pluralité de particules 11a-11f), en particulier dans le cas d’images seules plutôt que de stacks.

A noter que la projection t-SNE de la base d’apprentissage peut être faite très en amont, il n’y a plus qu’à y placer la carte de caractéristiques de l’image d’entrée considérée. En pratique, on n’a pas nécessairement de formulation explicite de la fonction de projection de sorte qu’il peut rester nécessaire de recalculer les projections à chaque fois. On peut cependant accélérer les calculs et réduire l’empreinte mémoire, passer par une première étape de réduction linéaire du nombre de variables (par exemple l’ACP – Analyse aux Composantes Principales) avant de calculer la projection t-SNE des cartes de caractéristiques de la base d’apprentissage et de l’image d’entrée considérée. Dans ce cas on peut stocker en mémoire les projections par ACP de la base d’apprentissage.

Pour le classifieur à proprement parler, on peut utiliser la méthode des k plus proches voisins (k-nearest neighbors, k-NN), en particulier basée sur le résultat de l’algorithme t-SNE (la projection, ou « embedding » obtenue).

L’idée est de regarder les points voisins du point correspondant à la carte de caractéristiques de la ou les image d’entrée considérée, et de regarder leur classification. Par exemple, si les points voisins sont classés « pas de division », on peut supposer que l’image d’entrée considérée doit être classée « pas de division ». A noter qu’on peut éventuellement limiter les voisins considérés, par exemple en fonction de la souche, de l’antibiotique, etc. La montre deux exemples d’embeddings t-SNE obtenus au niveau du champ pour une souche d’E. Coli pour diverses concentrations de cefpodoxime. Dans l’exemple du haut on voit clairement deux blocs, permettant de montrer visuellement l’existence d’une concentration minimale inhibitrice (minimum inhibitory concentration (MIC)) à partir de laquelle on a un impact sur la morphologie et donc la division cellulaire. On pourra classer une carte tombant à proximité de la partie haute comme « division » et une carte tombant à proximité de la partie basse comme « pas de division ». Dans l’exemple du bas on voit qu’uniquement la concentration la plus élevée se détache (et semble donc avoir un effet antibiotique).

Selon un deuxième mode de réalisation, on utilise comme classifieur une machine à vecteur de support (support vector machine, SVM), toujours pour une classification binaire (par exemple à nouveau « division » ou « pas de division »). Cette méthode simple est particulièrement efficace sur les images d’entrée simples (SVM appliqué aux cartes de caractéristiques). L’hyper-paramètre C du SVM peut être optimisé en utilisant une recherche de grille et une validation croisée (dite « k-folds » avec en particulier k=5, dans laquelle on divise la base originale en k échantillons, puis on sélectionne un des k échantillons comme ensemble de validation et les k-1 autres échantillons constitueront l'ensemble d'apprentissage).

Selon un troisième mode de réalisation, dans le cas où l’on a des séquences d’images d’entrée (stack 3D) et donc des cartes de caractéristiques plus profondes, on utilise comme classifieur un réseau de neurones à convolution (CNN).

On pourra pour ce CNN choisir des architectures relativement simples, par exemple une succession de blocs d’une couche de convolution, une couche d’activation (fonction ReLU par exemple) et une couche de mise en commun (pooling, par exemple du max pooling). Deux tels blocs suffisent pour un classification binaire efficace. On peut par ailleurs sous-échantillonner les entrées (en particulier sur la dimension « temporelle ») pour encore réduire son empreinte mémoire.

L’apprentissage du CNN peut être réalisé de façon classique. La fonction de coût d’apprentissage peut être composée d’une attache aux données classique – entropie croisée – à minimiser via un algorithme de descente de gradient.

Dans tous les modes de réalisation, le classifieur appris peut être stocké le cas échéant sur des moyens de stockage de données 21 du client 2 pour utilisation en classification. A noter que le même classifieur peut être embarqué sur de nombreux clients 2, un seul apprentissage est nécessaire.

Produit programme d’ordinateur

Selon un deuxième et un troisième aspects, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution (en particulier sur les moyens de traitement de données 3, 20 du serveur 1 et/ou du client 2) d’un procédé de classification d’au moins une image d’entrée représentant une particule cible 11a-11f dans un échantillon 12, ainsi que des moyens de stockage lisibles par un équipement informatique (une mémoire 4, 21 du serveur 1 et/ou du client 2) sur lequel on trouve ce produit programme d’ordinateur.

Claims

Procédé de classification d’au moins une image d’entrée représentant une particule cible (11a-11f) dans un échantillon (12), le procédé étant caractérisé en ce qu’il comprend la mise en œuvre, par des moyens de traitement de données (20) d’un client (2), d’étapes de :
(b) Extraction d’une carte de caractéristiques de ladite particule cible (11a-11f) au moyen d’un réseau de neurones à convolution pré-entraîné sur une base d’images publique ;
(c) Classification de ladite image d’entrée en fonction de ladite carte de caractéristiques extraite.
Procédé selon la revendication 1, dans lequel les particules (11a-11f) sont représentées d’une manière homogène dans l’image d’entrée et dans chaque image élémentaire, en particulier centrées et alignées selon une direction prédéterminée.
Procédé selon la revendication 2, comprenant une étape (a) d’extraction de ladite image d’entrée d’une image globale de l’échantillon, de sorte à représenter ladite particule cible (11a-11f) de ladite manière homogène
Procédé selon la revendication 3, dans lequel l’étape (a) comprend la segmentation de ladite image globale de sorte à détecter ladite particule cible (11a-11f) dans l’échantillon (12), puis le recadrage de l’image d’entrée sur ladite particule cible (11a-11f) détectée.
Procédé selon l’une des revendications 3 et 4, dans lequel l’étape (a) comprend l’obtention de ladite image globale à partir d’une image en intensité de l’échantillon (12) acquise par un dispositif d’observation (10).
Procédé selon l’une des revendications 1 à 5, dans lequel l’étape (b) est mise en œuvre au moyen d’un sous-réseau d’extraction de caractéristiques dudit réseau de neurones à convolution pré-entraîné.
Procédé selon la revendication 6, dans lequel ledit réseau de neurones à convolution pré-entraîné est un réseau de classification d’images, en particulier du type VGG, AlexNet, Inception ou ResNet.
Procédé selon l’une des revendications 6 et 7, dans lequel une couche de mise en commun globale est ajoutée à la fin dudit sous-réseau d’extraction de caractéristiques de sorte que la carte de caractéristiques extraite présente une taille spatiale de 1x1.
Procédé selon l’une des revendications 1 à 8, dans lequel l’étape (c) est mise en œuvre au moyen d’un classifieur, le procédé comprenant une étape (a0) d’apprentissage, par des moyens de traitement de données (3) d’un serveur (1), des paramètres dudit classifieur à partir d’une base d’apprentissage de cartes de caractéristiques déjà classifiées de particules (11a-11f) dans ledit échantillon (12).
Procédé selon la revendication 9, dans lequel ledit classifieur est choisi parmi une machine à vecteur de support, un algorithme des k plus proches voisins, ou un réseau de neurones à convolution.
Procédé selon l’une des revendications 1 à 10, dans lequel l’étape (c) comprend une réduction du nombre de variables de la carte de caractéristiques au moyen de l’algorithme t-SNE.
Procédé selon l’une des revendications 1 à 11, de classification d’une séquence d’images d’entrée représentant ladite particule cible (11a-11f) dans un échantillon (12) au cours du temps, dans lequel l’étape (b) comprend la concaténation des cartes de caractéristiques extraites pour chaque image d’entrée de ladite séquence.
Système de classification d’au moins une image d’entrée représentant une particule cible (11a-11f) dans un échantillon (12) comprenant au moins un client (2) comprenant des moyens de traitement de données (20), caractérisé en ce que lesdits moyens de traitement de données (20) sont configurés pour implémenter :
- l’extraction d’une carte de caractéristiques de ladite particule cible (11a-11f) au moyen d’un réseau de neurones à convolution pré-entraîné sur une base d’images publique ;
- la classification de ladite image d’entrée en fonction de ladite carte de caractéristiques extraite.
Système selon la revendication 12, comprenant en outre un dispositif d’observation (10) de ladite particule cible (11a-11f) dans l’échantillon (12).
Produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 12 de classification d’au moins une image d’entrée représentant une particule cible (11a-11f) dans un échantillon (12), lorsque ledit programme est exécuté sur un ordinateur.
Moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprend des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 12 de classification d’au moins une image d’entrée représentant une particule cible (11a-11f) dans un échantillon (12).