15.0.214 Iso 13528 1
15.0.214 Iso 13528 1
15.0.214 Iso 13528 1
IC 15.0.214
Norme Marocaine 2023
ICS : 03.120.30
ne
Méthodes statistiques utilisées dans les essais d'aptitude par
ai
comparaison interlaboratoires
oc
ar
m
e
rm
no
Correspondance
oj
Droits d'auteur
Droit de reproduction réservés sauf prescription différente aucune partie de cette publication ne peut
être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé électronique ou
mécanique y compris la photocopie et les microfilms sans accord formel. Ce document est à usage
exclusif et non collectif des clients de l'IMANOR, Toute mise en réseau, reproduction et rediffusion, sous
quelque forme que ce soit, même partielle, sont strictement interdites.
Avant-Propos National
ne
Les normes marocaines sont élaborées et homologuées conformément aux dispositions de la Loi
N° 12-06 susmentionnée.
ai
La présente norme marocaine NM ISO 13528 a été examinée et adoptée par la commission de
normalisation des instruments de mesure (45).
oc
ar
m
e
rm
no
de
et
oj
pr
ISO 13528:2022(F)
Sommaire Page
Avant-propos................................................................................................................................................................................................................................v
0 Introduction........................................................................................................................................................................................................................ vi
1 Domaine d’application.................................................................................................................................................................................... 1
2 Références normatives................................................................................................................................................................................... 1
3 Termes et définitions....................................................................................................................................................................................... 1
e
4 Principes généraux............................................................................................................................................................................................. 5
in
4.1 Exigences générales relatives aux méthodes statistiques................................................................................ 5
4.2 Modèle de base........................................................................................................................................................................................ 5
4.3 Approches générales pour l’évaluation des performances.............................................................................. 6
ca
5 Lignes directrices pour le plan statistique des programmes d’essais d’aptitude........................... 6
5.1 Présentation du plan statistique de programmes d’essais d’aptitude................................................... 6
5.2 Base d’un plan statistique............................................................................................................................................................. 6
o
5.3 Considérations sur la distribution statistique des résultats.......................................................................... 7
5.4 Considérations sur les petits nombres de participants...................................................................................... 8
ar
5.5 Lignes directrices pour choisir le format de rendu................................................................................................ 9
5.5.1 Exigences générales relatives au format de rendu................................................................................ 9
5.5.2 Consignation des mesurages répétés............................................................................................................... 9
5.5.3 Consignation sous la forme «inférieur à» ou «supérieur à» une limite m
(données tronquées)..................................................................................................................................................... 10
5.5.4 Nombre de chiffres significatifs......................................................................................................................... 10
e
6 Lignes directrices pour la revue initiale des entités soumises à l’essai d’aptitude et
des résultats........................................................................................................................................................................................................... 11
rm
e
10.2 Histogrammes de résultats ou de scores de performance............................................................................ 35
10.3 Diagrammes de densité par la méthode du noyau............................................................................................... 36
in
10.4 Diagrammes en bâtons des scores de performance normalisés.............................................................. 38
10.5 Graphique de Youden...................................................................................................................................................................... 38
10.6 Graphiques d’écarts-types de répétabilité.................................................................................................................. 39
ca
10.7 Échantillons fractionnés.............................................................................................................................................................. 40
10.8 Méthodes graphiques de combinaison des scores de performance sur plusieurs
campagnes d’un programme d’essais d’aptitude................................................................................................... 41
o
11 Plan et analyse de programmes d’essais d’aptitude qualitatifs (y compris les
propriétés nominales et ordinales)............................................................................................................................................... 42
ar
11.1 Types de données qualitatives............................................................................................................................................... 42
11.2 Plan statistique.................................................................................................................................................................................... 42
Bibliographie............................................................................................................................................................................................................................98
et
oj
pr
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes
nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est
en général confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l’ISO participent également aux travaux.
L’ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
e
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
in
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents
critères d’approbation requis pour les différents types de documents ISO. Le présent document
a été rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2
ca
(voir www.iso.org/directives).
L’attention est attirée sur le fait que certains des éléments du présent document peuvent faire l’objet de
o
droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
ar
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l’élaboration du document sont indiqués dans l’Introduction et/ou dans la liste des déclarations de
brevets reçues par l’ISO (voir www.iso.org/brevets).
m
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
e
Pour une explication de la signification des termes et expressions spécifiques de l’ISO liés à l’évaluation de
rm
la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux principes de l’OMC concernant
les obstacles techniques au commerce (OTC), voir le lien suivant: www.iso.org/iso/fr/foreword.html.
Le comité chargé de l’élaboration du présent document est l’ISO/TC 69, Application des méthodes
no
— ajout de notes en 10.1, 10.4.3 et 10.5.3 pour attirer l’attention sur les méthodes graphiques
supplémentaires pouvant contribuer à satisfaire aux dispositions de 10.1;
— correction des Formules B.4 et B.8 afin d’utiliser st2 au lieu de wt2 ;
et
— correction de la Formule B.16 de sorte que le terme intégré à la racine carrée soit toujours une
valeur non négative;
— dans le Tableau C.2, correction en 0,399 4 du facteur de correction associé à p = 2;
oj
— ajout de références documentaires supplémentaires dans la Bibliographie comme source des valeurs
pr
du Tableau C.2, qui sont citées en référence dans les Notes 1 et 2 de C.5.2.1;
— harmonisation des styles de police (italique ou police Roman) utilisés dans les formules,
sur l’ensemble du document.
0 Introduction
0.1 Objectifs des essais d’aptitude
Les essais d’aptitude impliquent l’utilisation de comparaisons interlaboratoires pour déterminer les
performances de participants (qui peuvent être des laboratoires, des organismes de contrôle ou des
individus) pour des essais spécifiés ou des mesures et ainsi surveiller la continuité des performances
des participants. Il existe un certain nombre d’objectifs pour les essais d’aptitude, tels que décrits
dans l’Introduction de l’ISO/IEC 17043. Ces objectifs comprennent l’évaluation des performances
e
des laboratoires, l’identification de problèmes dans les laboratoires, la détermination de l’efficacité
et la comparabilité des méthodes d’essai ou de mesure, l’amélioration de la confiance des clients des
in
laboratoires, la validation des incertitudes revendiquées et la formation des laboratoires participants.
Le plan et les techniques statistiques appliqués doivent être appropriés à l’objectif ou aux objectifs
définis.
ca
0.2 Justification de l’évaluation par scores dans les programmes d’essais d’aptitude
Diverses stratégies d’évaluation par scores sont disponibles et utilisées pour les essais d’aptitude.
o
Bien que les calculs détaillés diffèrent, la plupart des programmes d’essais d’aptitude comparent
ar
l’écart du participant par rapport à une valeur assignée avec un critère numérique qui est utilisé pour
déterminer si cet écart est préoccupant ou non. Les stratégies utilisées pour les valeurs assignées et
pour le choix d’un critère d’évaluation des écarts des participants sont donc critiques. En particulier,
m
il est important de déterminer s’il convient que la valeur assignée et le critère d’évaluation des écarts
soient indépendants des résultats des participants ou s’il convient qu’ils soient obtenus à partir des
résultats soumis. Dans le présent document, les deux stratégies sont prévues. Toutefois, l’attention
est attirée sur la discussion figurant aux Articles 7 et 8 concernant les avantages et les inconvénients
e
associés au choix de valeurs assignées ou de critères d’évaluation des écarts qui ne sont pas obtenus
à partir des résultats des participants. On verra que, en général, le choix de valeurs assignées et de
rm
critères d’évaluation indépendamment des résultats des participants offre des avantages. Cela est
notamment le cas pour le critère utilisé pour évaluer les écarts par rapport à la valeur assignée – tel que
l’écart-type d’aptitude ou une tolérance sur l’erreur de mesure – pour lequel un choix cohérent fondé sur
la pertinence pour une utilisation finale particulière des résultats de mesure est particulièrement utile.
no
rendu des statistiques résumées. L’Annexe B de l’ISO/IEC 17043:2010 fournit une description succincte
des méthodes statistiques générales utilisées dans les programmes d’essais d’aptitude. Le présent
document est destiné à être complémentaire de l’ISO/IEC 17043, en fournissant des recommandations
détaillées ne figurant pas dans ce document sur des méthodes statistiques particulières pour les essais
d’aptitude.
et
La définition de l’essai d’aptitude donnée dans l’ISO/IEC 17043 est reprise dans le présent document,
avec des notes décrivant les différents types d’essais d’aptitude et l’étendue des conceptions pouvant
oj
être utilisées. Le présent document ne peut pas couvrir spécifiquement l’ensemble des objectifs,
des conceptions, des matrices et des mesurandes. Les techniques présentées dans le présent document
pr
sont destinées à être appliquées de façon étendue, notamment pour des programmes d’essais
d’aptitude nouvellement établis. Il est attendu que les techniques statistiques utilisées dans le cadre
d’un programme d’essais d’aptitude particulier évoluent au fur et à mesure que le programme gagne en
maturité; et les scores, les critères d’évaluation et les méthodes graphiques sont affinés afin de mieux
répondre aux besoins spécifiques d’un groupe cible de participants, d’organismes d’accréditation et
d’autorités réglementaires.
Le présent document incorpore des recommandations publiées pour les essais d’aptitude de
laboratoires d’analyses chimiques[32], mais inclut également une gamme plus étendue de procédures
à utiliser avec des méthodes de mesure et d’identifications qualitatives valides. La révision du présent
document contient la plupart des méthodes statistiques et recommandations issues de la première
édition, complétées autant que nécessaire par les documents précédemment cités en référence et par le
domaine d’application étendu de l’ISO/IEC 17043. L’ISO/IEC 17043 comprend des essais d’aptitude pour
les personnes et les organismes de contrôle, incluant l’Annexe B de l’ISO/IEC 17043:2010 qui comprend
des éléments d’appréciation pour les résultats qualitatifs.
Le présent document contient des techniques statistiques qui sont conformes à d’autres Normes
internationales, notamment à celles du TC69/SC6, et en particulier à la série de normes ISO 5725
portant sur l’Exactitude: justesse et fidélité. Les techniques sont également destinées à refléter d’autres
Normes internationales, le cas échéant, et à être en cohérence avec le Guide ISO/IEC 98-3 (GUM) et avec
le Guide ISO/IEC 99 (VIM).
e
0.4 Expertise en statistique
in
L’ISO/IEC 17043 exige que, pour être compétent, un organisateur d’essais d’aptitude doit avoir accès
à l’expertise statistique et doit autoriser du personnel spécifique à mener l’analyse statistique.
Ni l’ISO/IEC 17043 ni le présent document ne peuvent définir plus en détail en quoi consiste
ca
cette expertise nécessaire. Pour certaines applications, un niveau élevé en statistiques est utile,
mais généralement les besoins en expertise peuvent être assurés par des personnes ayant une
expertise technique dans d’autres domaines, connaissant les concepts et les techniques statistiques de
o
base et ayant une expérience ou une formation dans les techniques courantes applicables à l’analyse
des données issues de programmes d’essais d’aptitude. Si un consultant est responsable du plan et/
ar
ou de l’analyse statistique, il est très important que cette personne ait une expérience dans le domaine
des comparaisons interlaboratoires, même si elle a un niveau élevé dans le domaine des statistiques.
La formation classique en statistiques avancées n’inclut pas l’acquisition de connaissances dans le
m
domaine des comparaisons interlaboratoires, et les causes uniques d’erreur de mesure se produisant
durant les essais d’aptitude peuvent sembler obscures. Les recommandations données dans le présent
document ne peuvent pas fournir toute l’expertise nécessaire pour prendre en compte toutes les
applications, et ne peuvent pas remplacer l’expérience acquise lors de la pratique des comparaisons
e
interlaboratoires.
rm
0.5 Logiciels
Les logiciels nécessaires pour l’analyse statistique des données d’essais d’aptitude peuvent varier de
façon importante, allant de l’arithmétique simple d’un tableur pour les petits programmes d’essais
no
d’aptitude utilisant des valeurs de référence connues, jusqu’aux logiciels statistiques sophistiqués
utilisés pour les méthodes statistiques faisant appel à des calculs itératifs ou d’autres méthodes
numériques avancées. La plupart des techniques mentionnées dans le présent document peuvent être
mises en œuvre par des tableurs classiques, éventuellement avec des routines personnalisées pour
un programme d'essais d'aptitude ou une analyse spécial(e); certaines techniques nécessitent des
de
logiciels qui sont gratuits. Dans tous les cas, il est attendu des utilisateurs qu’ils vérifient la validité
et l’exactitude de leurs calculs, en particulier lorsque des programmes spéciaux ont été entrés par
l’utilisateur. Toutefois, même lorsque les techniques traitées dans le présent document sont appropriées
et correctement mises en œuvre par des logiciels adéquats, elles ne peuvent pas être appliquées sans la
et
surveillance d’une personne disposant d’une expertise technique et statistique suffisante pour cerner
la nature des applications et des hypothèses statistiques, et pour identifier et rechercher des anomalies
susceptibles de se produire lors de toute campagne d'un programme d’essais d’aptitude.
oj
pr
1 Domaine d’application
e
Le présent document fournit des descriptions détaillées de méthodes statistiques à utiliser par les
organisateurs d’essais d’aptitude pour concevoir des programmes d’essais d’aptitude et pour analyser
in
les données obtenues à partir de tels programmes. Le présent document donne des recommandations
sur l’interprétation des données d’essais d’aptitude par les participants à de tels programmes d'essais
ca
d'aptitude et par les organismes d’accréditation.
Les procédures du présent document peuvent être appliquées pour démontrer que les résultats de
mesure obtenus par des laboratoires, des organismes de contrôle et des personnes remplissent les
o
critères spécifiés pour des performances acceptables.
ar
Le présent document est applicable à des essais d’aptitude dans lesquels les résultats consignés sont
des observations quantitatives ou qualitatives sur des entités soumises à l’essai.
NOTE
m
Les procédures énoncées dans le présent document peuvent être également appliquées pour
l’évaluation d’un avis d’expert lorsque les avis ou les jugements sont consignés sous une forme qui peut être
comparée de manière objective avec une valeur de référence indépendante ou avec une statistique consensuelle.
Par exemple, lorsque des entités soumises à l’essai d’aptitude sont classées en catégories connues par contrôle –
e
ou lorsque l’on cherche à déterminer par contrôle si des entités soumises à l’essai d’aptitude proviennent ou non
de la même source d’origine – et lorsque les résultats de la classification sont comparés de manière objective,
les dispositions du présent document qui se rapportent à des propriétés (qualitatives) nominales peuvent être
rm
appliquées.
2 Références normatives
no
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur
contenu, des exigences du présent document. Pour les références datées, seule l’édition citée s’applique.
Pour les références non datées, la dernière édition du document de référence s’applique (y compris les
éventuels amendements).
de
ISO 3534-1, Statistique — Vocabulaire et symboles — Partie 1: Termes statistiques généraux et termes
utilisés en calcul des probabilités
ISO 3534-2, Statistique — Vocabulaire et symboles — Partie 2: Statistique appliquée
et
ISO 5725-1, Exactitude (justesse et fidélité) des résultats et méthodes de mesure — Partie 1: Principes
généraux et définitions
oj
ISO/IEC 17043, Évaluation de la conformité — Exigences générales concernant les essais d’aptitude
pr
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions de l’ISO 3534-1, l’ISO 3534-2, l’ISO 5725-1,
l’ISO/IEC 17043, le Guide ISO/IEC 99, le Guide ISO 30 ainsi que les suivants, s’appliquent. En cas de
différences entre ces références concernant l’utilisation des termes, les définitions de l’ISO 3534-1 et de
l’ISO 3534-2 s’appliquent. Les symboles mathématiques sont énumérés à l’Annexe A.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en
normalisation, consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https://w ww.iso.org/obp;
— IEC Electropedia: disponible à l’adresse https://w ww.electropedia.org/.
3.1
comparaison interlaboratoires
organisation, exécution et évaluation de mesurages ou d’essais sur la même entité ou sur des entités
e
similaires par deux laboratoires ou plus selon des conditions prédéterminées
in
3.2
essai d’aptitude
évaluation de la performance d’un participant par rapport à des critères préétablis au moyen d’une
ca
comparaison interlaboratoires (3.1)
Note 1 à l'article: Pour les besoins du présent document, le terme «essai d’aptitude» est considéré dans son sens le
plus large et il inclut, sans s’y limiter:
o
— les programmes quantitatifs, dans lesquels l’objectif est de quantifier un ou plusieurs mesurandes pour
ar
chaque entité soumise à l’essai d’aptitude;
— les programmes qualitatifs, dans lesquels l’objectif est d’identifier ou de décrire une ou plusieurs
—
m
caractéristiques qualitatives de l’entité soumise à l’essai d’aptitude;
les programmes séquentiels, dans lesquels une ou plusieurs entités soumises à l’essai d’aptitude sont
distribuées séquentiellement pour procéder à l’essai ou au mesurage, et reviennent par intervalles à
l’organisateur d’essais d’aptitude;
e
— les programmes simultanés, dans lesquels les entités soumises à l’essai d’aptitude sont réparties en vue
rm
d’essais ou de mesurages réalisés en même temps au cours d’une période de temps définie;
— les exercices de situation unique, dans lesquels les entités soumises à l’essai d’aptitude sont fournies à une
seule occasion;
no
— les programmes continus, dans lesquels les entités soumises à l’essai d’aptitude sont fournies à intervalles
réguliers;
— les échantillonnages, dans lesquels des échantillons sont prélevés en vue d’une analyse ultérieure et l’objectif
du programme d’essais d’aptitude inclut l’évaluation de l’exécution de l’échantillonnage; et
de
— les interprétations de données, dans lesquelles des ensembles de données ou d’autres informations sont
fournis et les informations sont traitées pour en effectuer une interprétation (ou obtenir un autre résultat).
3.3
et
valeur assignée
valeur attribuée à une propriété particulière d’une entité soumise à l’essai d’aptitude
oj
3.4
écart-type pour l’évaluation de l’aptitude
mesure de la dispersion utilisée dans l’évaluation des résultats d’un essai d’aptitude (3.2)
pr
Note 1 à l'article: Cela peut être interprété comme l’écart-type des résultats pour une population par rapport à
une population hypothétique de laboratoires œuvrant en totale conformité aux exigences.
Note 2 à l'article: L’écart-type pour l’évaluation de l’aptitude ne s’applique qu’aux résultats sur une échelle linéaire
ou sur une échelle d’intervalle.
Note 3 à l'article: Les programmes d’essais d’aptitude n’évaluent pas tous la performance en se fondant sur la
dispersion des résultats.
[SOURCE: ISO/IEC 17043:2010, modifiée — Dans la définition «fondée sur les informations disponibles»
a été supprimé. La Note 1 à l’article a été rajoutée, et les Notes 2 et 3 légèrement modifiées.]
3.5
erreur de mesure
différence entre la valeur mesurée d’une grandeur et une valeur de référence
[SOURCE: Guide ISO/IEC 99:2007, modifié — Les notes ont été supprimées.]
3.6
erreur maximale tolérée
valeur extrême de l’erreur de mesure (3.5), par rapport à une valeur de référence connue, qui est tolérée
par les spécifications ou règlements pour un mesurage, un instrument de mesure ou un système de
e
mesure donné
in
[SOURCE: Guide ISO/IEC 99:2007, modifié — Les notes ont été supprimées.]
3.7
ca
score z
mesure normalisée de la performance, calculée à partir du résultat du participant, de la valeur assignée
(3.3) et de l’écart-type pour l’évaluation de l’aptitude (3.4)
o
Note 1 à l'article: Une variante commune du score z, souvent appelée z’ (communément prononcé z-prime),
est formée en combinant l’incertitude de la valeur assignée avec l’écart-type pour l’évaluation de l’aptitude avant
ar
de calculer le score z.
3.8
score zêta m
mesure normalisée de la performance, calculée à partir du résultat du participant, de la valeur assignée
(3.3) et des incertitudes-types composées associées au résultat et à la valeur assignée (3.3)
e
3.9
proportion du score limite admissible
rm
assignée (D ou D %).
3.10
signal d’action
indication de la nécessité d’une action à la suite du résultat d’un essai d’aptitude
de
EXEMPLE Par convention, un score z supérieur à 2 est considéré comme une indication de la nécessité de
rechercher les causes possibles; un score z de 3 ou supérieur à 3 est, par convention, considéré comme un signal
d’action indiquant la nécessité d’une action corrective.
3.11
et
valeur consensuelle
valeur obtenue à partir de l’ensemble des résultats lors d’une comparaison interlaboratoires (3.1)
oj
Note 1 à l'article: L’expression «valeur consensuelle» est généralement utilisée pour décrire des estimations de
position et de dispersion obtenues à partir des résultats des participants à une campagne du programme d’essais
pr
d’aptitude, mais peut aussi être utilisée pour désigner des valeurs obtenues à partir des résultats d’un sous-
ensemble spécifié de ces résultats ou, par exemple, d’un certain nombre de laboratoires experts.
3.12
valeur aberrante
élément d’un ensemble de valeurs qui est incohérent avec les autres éléments de cet ensemble
Note 1 à l'article: Une valeur aberrante peut apparaître par hasard dans la population attendue, provenir d’une
population différente ou résulter d’un enregistrement incorrect ou d’une autre faute.
Note 2 à l'article: De nombreux programmes d'essais d'aptitude utilisent le terme «valeur aberrante» pour
désigner un résultat qui génère un signal d’action. Il ne s’agit pas là de l’utilisation prévue du terme. Bien que les
valeurs aberrantes génèrent habituellement des signaux d’action, il est possible d’avoir des signaux d’action issus
de résultats qui ne sont pas des valeurs aberrantes.
[SOURCE: ISO 5725‑1:1994, modifiée — Les notes à l’article ont été ajoutées.]
3.13
participant
laboratoire, organisme ou particulier, recevant les entités soumises à l’essai d’aptitude et soumettant
e
ses résultats à l’organisateur d’essais d’aptitude (3.2)
3.14
in
entité soumise à l’essai d’aptitude
échantillon, produit, artéfact, matériau de référence, élément d’un matériel, étalon, ensemble de
ca
données ou autres informations utilisées pour évaluer la performance d’un participant (3.13) dans des
essais d’aptitude (3.2)
Note 1 à l'article: Dans la plupart des cas, les entités soumises à l’essai d’aptitude sont conformes à la définition de
o
«matériau de référence» (3.17) donnée dans le Guide ISO 30.
ar
3.15
organisateur d’essais d’aptitude
organisme ayant la responsabilité de toutes les tâches d’élaboration et d’exécution d’un programme
d’essais d’aptitude (3.2)
3.16
m
programme d’essais d’aptitude
e
essai d’aptitude (3.2) conçu et exécuté en une ou plusieurs campagnes dans un domaine spécifié d’essai,
de mesurage, d’étalonnage ou d’inspection
rm
Note 1 à l'article: Un programme d’essais d’aptitude peut recouvrir un type particulier d’essai, d’étalonnage,
d’inspection ou un certain nombre d’essais, d’étalonnages ou d’inspections sur des entités soumises à l’essai
d’aptitude.
no
3.17
matériau de référence
MR
matériau, suffisamment homogène et stable quant à une ou plusieurs propriétés spécifiées, qui a été
de
préparé pour être adapté à son utilisation prévue dans un processus de mesure
Note 1 à l'article: MR est un terme générique.
Note 2 à l'article: Les propriétés peuvent être quantitatives ou qualitatives, par exemple l’identité de substances
et
ou d’espèces.
Note 3 à l'article: Les utilisations prévues peuvent être l’étalonnage d’un système de mesure, l’évaluation d’une
oj
3.18
matériau de référence certifié
MRC
matériau de référence (MR) (3.17) caractérisé par une procédure métrologiquement valide applicable à
une ou plusieurs propriétés spécifiées et accompagné d’un certificat de MR qui indique la valeur de la
propriété spécifiée, son incertitude associée, et une expression de la traçabilité métrologique
Note 1 à l'article: Le concept de valeur inclut une propriété nominale ou un attribut qualitatif tels que l’identité
ou la séquence. Les incertitudes concernant ces propriétés peuvent être exprimées par des probabilités ou des
niveaux de confiance.
[SOURCE: Guide ISO 30:2015, modifié — Les Notes 2, 3 et 4 ont été supprimées.]
4 Principes généraux
4.1.1 Les méthodes statistiques utilisées doivent être adaptées à l’objectif et statistiquement
correctes. Toutes les hypothèses statistiques sur lesquelles les méthodes ou le plan sont fondés doivent
être indiquées dans le plan ou dans une description écrite du programme d’essais d’aptitude et il doit
être démontré qu’elles sont raisonnables.
e
NOTE Une méthode statistiquement valide a une solide base théorique, a des performances connues dans les
conditions d’utilisation prévues et repose sur des hypothèses ou des conditions dont on peut démontrer qu’elles
in
s’appliquent suffisamment bien aux données pour l’objectif considéré.
ca
4.1.2 Le plan statistique et les méthodes d’analyse statistiques des données doivent être en cohérence
avec les objectifs annoncés pour le programme d’essais d’aptitude.
4.1.3 L’organisateur d’essais d’aptitude doit fournir aux participants une description des méthodes
o
de calcul utilisées, une explication de l’interprétation générale des résultats et un énoncé des limites
ar
associées à l’interprétation. Cette description doit figurer dans chaque rapport relatif à chaque
campagne du programme d’essais d’aptitude ou dans un récapitulatif séparé des procédures mis à la
disposition des participants.
m
4.1.4 L’organisateur d’essais d’aptitude doit s’assurer que tous les logiciels ont fait l’objet d’une
validation adéquate.
e
4.2 Modèle de base
rm
4.2.1 Pour les résultats quantitatifs de programmes d’essais d’aptitude dans lesquels un seul résultat
est consigné pour une entité donnée soumise à l’essai d’aptitude, le modèle de base est donné dans la
Formule (1):
no
xi = µ + ε i (1)
où
de
et une variance constante ou différente pour chaque laboratoire; ou plus couramment, une distribution «normale
contaminée par des valeurs aberrantes» consistant en un mélange d’une loi normale avec une distribution plus
étendue représentant la population de résultats erronés.
pr
NOTE 2 La base de l’évaluation de la performance avec les scores z et σpt est que dans une population
«idéalisée» de laboratoires compétents, l’écart-type des résultats des essais d’aptitude serait inférieur ou égal à
σpt .
NOTE 3 Ce modèle diffère du modèle de base de l’ISO 5725, en ce qu’il ne contient pas le terme de biais du
laboratoire Bi. Cela est dû au fait qu’il n’est pas possible de faire la distinction entre les termes de biais du
laboratoire et d’erreur résiduelle lorsqu’une seule observation est consignée. Toutefois, lorsque les résultats d’un
participant issus de plusieurs campagnes ou entités soumises à un programme d’essais d'aptitude sont pris en
compte, il peut être utile d’inclure un terme distinct pour le biais du laboratoire.
4.2.2 Pour des résultats ordinaux ou qualitatifs, d’autres modèles peuvent être appropriés ou il peut
n’exister aucun modèle statistique.
4.3.1 Il existe trois approches générales différentes pour l’évaluation des performances dans un
programme d’essais d’aptitude. Ces approches sont utilisées pour atteindre des buts différents dans le
cadre du programme d’essais d’aptitude. Les approches sont énumérées ci-dessous:
e
a) performances évaluées par comparaison à des critères déduits de manière externe;
in
b) performances évaluées par comparaison à d’autres participants;
c) performances évaluées par comparaison à l’incertitude de mesure revendiquée.
ca
4.3.2 Les approches générales peuvent être appliquées différemment pour déterminer la valeur
assignée et pour déterminer les critères d’évaluation des performances, par exemple, lorsque la valeur
o
assignée est la moyenne robuste des résultats des participants et que l’évaluation des performances
est déduite de σpt ou de δE, où δE est une tolérance prédéfinie sur l’erreur de mesure et σpt = δE/3; de la
ar
même manière; dans certaines situations, la valeur assignée peut être une valeur de référence, mais σpt
peut être un écart-type robuste de résultats de participants. Dans l’approche c) utilisant l’incertitude de
mesure, la valeur assignée est généralement une valeur de référence appropriée.
m
5 Lignes directrices pour le plan statistique des programmes d’essais d’aptitude
e
5.1 Présentation du plan statistique de programmes d’essais d’aptitude
rm
Les essais d’aptitude portent sur l’évaluation des performances des participants et, en tant que tels,
ils ne traitent pas spécifiquement de biais ni de fidélité (bien que ceux-ci puissent être évalués avec
des plans spécifiques). Les performances des participants sont évaluées par le biais de l’évaluation
statistique de leurs résultats à la suite des mesurages ou des interprétations qu’ils effectuent sur les
no
entités soumises à l’essai d’aptitude. Les performances sont souvent exprimées sous forme de scores
de performance permettant une interprétation cohérente sur une gamme de mesurandes et pouvant
permettre la comparaison, sur la même base, des résultats relatifs à différents mesurandes. Les scores
de performance sont généralement obtenus en comparant la différence entre le résultat consigné
de
par le participant et une valeur assignée avec une dispersion admissible ou avec une estimation
de l’incertitude de mesure de la différence. L’examen des scores de performance sur de nombreuses
campagnes d’un programme d’essais d’aptitude peut fournir des informations permettant de savoir
si des laboratoires démontrent la présence ou non d’effets systématiques constants «biais» ou d’une
fidélité médiocre à long terme.
et
Les Articles 5 à 10 suivants donnent des recommandations relatives à la conception des programmes
d’essais d’aptitude quantitatifs et aux traitements statistiques des résultats, y compris le calcul et
oj
l’interprétation de divers scores de performance. Les éléments d’appréciation relatifs aux programmes
d’essais d’aptitude qualitatifs (y compris les programmes ordinaux) sont donnés à l’Article 11.
pr
5.2.1 Conformément à l’ISO/IEC 17043:2010, 4.4.4.1, le plan statistique «doit être élaboré pour
répondre aux objectifs du programme d’essais d’aptitude, sur la base de la nature des données
(quantitatives ou qualitatives, y compris ordinales et nominales), des hypothèses statistiques, de
la nature des erreurs et du nombre attendu de résultats». Par conséquent, des programmes d’essais
d’aptitude avec des objectifs différents et des sources d’erreurs différentes peuvent avoir des plans
différents.
Des considérations relatives au plan pour des objectifs courants sont énumérées ci-après.
D’autres objectifs sont possibles.
EXEMPLE 1 Pour un programme d’essais d’aptitude comparant le résultat d’un participant avec une valeur
de référence prédéterminée, dans des limites spécifiées avant le début de la campagne, le plan doit inclure
une méthode permettant d’obtenir une valeur de référence définie de manière externe, une méthode fixant les
valeurs limites et une méthode d’attribution de scores.
e
EXEMPLE 2 Pour un programme d’essais d’aptitude comparant les résultats d’un participant avec des
résultats combinés provenant d’un groupe issu de la même campagne, dans des limites spécifiées avant le début
in
de la campagne, le plan doit prendre en considération la façon dont la valeur assignée sera déterminée à partir
des résultats combinés ainsi que les méthodes de détermination des valeurs limites et d’attribution de scores.
ca
EXEMPLE 3 Pour un programme d’essais d’aptitude comparant les résultats d’un participant avec des
résultats combinés provenant d’un groupe au cours de la même campagne, dans des limites déterminées par la
variabilité des résultats des participants, le plan doit prendre en compte le calcul d’une valeur assignée et une
o
mesure appropriée de la dispersion ainsi que la méthode d’attribution de scores.
EXEMPLE 4 Pour un programme d’essais d’aptitude comparant les résultats d’un participant avec la valeur
ar
assignée, en utilisant les incertitudes de mesure du participant, le plan doit prendre en compte la façon dont
la valeur assignée et son incertitude doivent être obtenues et la façon dont les incertitudes de mesure des
participants doivent être utilisées dans l’attribution de scores.
EXEMPLE 5
m
Pour un programme d’essais d’aptitude ayant pour objectif de comparer les performances de
différentes méthodes de mesure, le plan doit prendre en compte les statistiques résumées pertinentes et les
méthodes permettant de les calculer.
e
5.2.2 Divers types de données sont utilisés dans les essais d’aptitude, y compris des données
rm
peuvent être traités par des techniques applicables à des variables quantitatives continues.
NOTE 1 Pour des valeurs quantitatives, une échelle d’intervalle est une échelle sur laquelle les intervalles
(différences) sont significatifs, mais pas les ratios, telle que l’échelle de température Celsius. Une échelle
linéaire est une échelle sur laquelle les intervalles et les ratios sont tous deux significatifs, telle que l’échelle de
de
NOTE 2 Pour des valeurs qualitatives, une échelle nominale a des valeurs distinctes pour lesquelles l’ordre
n’est pas significatif, telle que les noms d’espèces bactériennes. Les valeurs sur une échelle ordinale ont un ordre
significatif, mais les différences ne sont pas significatives; par exemple, une échelle telle que «grand, moyen,
et
petit» peut être ordonnée, mais les différences entre les valeurs ne sont pas définies autrement qu’en termes du
nombre de valeurs intermédiaires.
oj
5.2.3 Les programmes d’essais d’aptitude peuvent être utilisés à d’autres fins que celles mentionnées
ci-dessus, comme indiqué en 0.1 et dans l’ISO/IEC 17043. Le plan doit être approprié pour tous les
pr
5.3.1 L’ISO/IEC 17043:2010, 4.4.4.2, exige une cohérence entre les techniques d’analyse statistiques et
les hypothèses statistiques concernant les données. Pour les essais d’aptitude, les techniques d’analyse
les plus courantes présument qu’un ensemble de résultats fourni par des participants compétents
sera approximativement distribué selon une loi normale, ou au moins unimodale et raisonnablement
symétrique (après transformation si nécessaire). Il existe une hypothèse supplémentaire habituelle
selon laquelle la distribution des résultats de mesurages déterminés par des participants compétents est
mélangée avec (ou «contaminée par ») des résultats issus d’une population de valeurs erronées pouvant
générer des valeurs aberrantes. Habituellement, l’interprétation des scores s’appuie sur l’hypothèse de
normalité, mais uniquement pour la distribution sous-jacente présumée des participants compétents.
5.3.2 En général, il n’est pas nécessaire de vérifier que les résultats suivent une distribution normale,
mais il est important de vérifier, au moins visuellement, la symétrie approximative. Si la symétrie ne
peut pas être vérifiée, il convient alors que l’organisateur d’essais d’aptitude utilise des techniques
robustes par rapport à l’asymétrie.
5.3.3 Lorsque la distribution prévue pour le programme d’essais d’aptitude n’est pas suffisamment
e
symétrique (compte tenu d’une contamination par des valeurs aberrantes), il convient que
l’organisateur d’essais d’aptitude choisisse des méthodes d’analyse de données qui tiennent dûment
in
compte de l’asymétrie prévue et qui soient insensibles aux valeurs aberrantes, ainsi que des méthodes
d’attribution de scores qui tiennent aussi dûment compte de la distribution prévue des résultats fournis
ca
par des participants compétents. Les méthodes d’analyse des données peuvent inclure:
o
— des méthodes d’estimation insensibles à l’asymétrie;
ar
— des méthodes d’estimation qui incorporent des hypothèses de distribution appropriées (par exemple,
adéquation du maximum de vraisemblance avec des hypothèses de distribution adaptées et, si
nécessaire, élimination des valeurs aberrantes).
EXEMPLE 1 m
Étant donné que des résultats fondés sur une dilution, par exemple pour les comptages
microbiologiques quantitatifs ou les techniques d’immunodosages, sont souvent distribués selon la distribution
normale logarithmique, une transformation logarithmique peut donc être appropriée en tant que première étape
de l’analyse.
e
EXEMPLE 2 Les comptages de petits nombres de particules peuvent être distribués selon une distribution
rm
de Poisson et, par conséquent, les critères d’évaluation des performances peuvent être déterminés à l’aide
d’une table de distribution de probabilités de Poisson, en se fondant sur le comptage moyen pour le groupe de
participants.
no
NOTE 1 La transformation des données peut affecter le traitement et l’interprétation des incertitudes
associées aux résultats des participants et à la valeur assignée.
NOTE 2 L'Annexe C donne des informations supplémentaires sur le traitement des distributions asymétriques
aberrantes et l'Exemple E.6 fournit un exemple de méthode d'estimation résistant à l'aysmétrie.
de
5.3.4 Dans certains domaines d’étalonnage, les résultats des participants peuvent suivre des
distributions statistiques qui sont décrites dans la procédure de mesure (par exemple, exponentielle
ou sinusoïdale); il convient que ces distributions définies soient prises en compte dans tout protocole
d’évaluation.
et
5.3.5 Conformément à l’ISO/IEC 17043:2010, 4.4.4.2, l’organisateur d’essais d’aptitude doit indiquer
oj
les bases de toutes hypothèses statistiques et démontrer que les hypothèses sont raisonnables.
Cette démonstration peut être fondée, par exemple, sur les données observées, sur les résultats obtenus
lors de campagnes antérieures du programme d’essais d’aptitude ou sur la documentation technique.
pr
NOTE La démonstration du caractère raisonnable d’une hypothèse de distribution est moins rigoureuse que
la démonstration de la validité de l’hypothèse en question.
5.4.1 Le plan statistique relatif à un programme d’essais d’aptitude doit définir le nombre minimal de
participants nécessaires pour atteindre les objectifs du plan et doit indiquer des approches alternatives
qui seront utilisées si le nombre minimal de participants n’est pas atteint (ISO/IEC 17043:2010,
4.4.4.3 b)). Des méthodes statistiques appropriées pour des nombres importants de participants
peuvent ne pas convenir pour des nombres limités de participants. Le souci est que les statistiques
déterminées à partir des résultats sur de petits nombres de participants peuvent ne pas être assez
fiables et qu’un participant peut être évalué par rapport à un groupe de comparaison inapproprié.
NOTE Le Rapport technique de l’Union internationale de chimie pure et appliquée (UICPA)/de la Coopération
sur la traçabilité internationale en chimie analytique (CITAC, Cooperation on International Traceability in
Analytical Chemistry): Selection et use of proficiency testing schemes for a limited number of participants[24] fournit
des recommandations utiles pour les programmes d’essais d’aptitude comportant peu de participants. En résumé,
le rapport UICPA/CITAC recommande que la valeur assignée soit basée sur des mesures indépendantes fiables;
par exemple, en utilisant un matériau de référence certifié, ou une valeur indépendante obtenue par étalonnage
ou par un institut national de métrologie, ou par préparation gravimétrique. Le rapport indique également que
e
l’écart-type pour l’évaluation de l’aptitude ne peut pas être basé sur la dispersion observée parmi les résultats
des participants pour une seule campagne du programme d’essais d’aptitude.
in
5.4.2 Le nombre minimal de participants requis pour les diverses méthodes statistiques dépendra
d’une grande variété de situations:
ca
— les méthodes statistiques utilisées, par exemple la méthode robuste particulière ou la stratégie
d’élimination des valeurs aberrantes choisie;
o
— l’expérience des participants concernant le programme particulier d’essais d’aptitude;
ar
— l’expérience de l’organisateur d’essais d’aptitude par rapport à la matrice, au mesurande,
aux méthodes et au groupe de participants;
m
— si le but est de déterminer la valeur assignée ou l’écart-type (ou les deux).
D’autres recommandations relatives aux techniques adaptées au traitement d’un petit nombre de
participants sont données en D.1.
e
5.5 Lignes directrices pour choisir le format de rendu
rm
5.5.1.1 L’ISO/IEC 17043:2010, 4.6.1.2, exige que les organisateurs d’essais d’aptitude fournissent des
instructions aux participants pour qu’ils effectuent des mesures et consignent les résultats concernant
les entités soumises à l’essai d’aptitude, de la même manière que les mesures habituellement effectuées
en routine, sauf dans certaines situations particulières.
de
5.5.1.2 Cette exigence peut, dans certaines situations, rendre difficile l’obtention d’une évaluation
exacte de la justesse et de la fidélité des participants, ou de la compétence sur une méthode de mesure. Il
convient que l’organisateur d’essais d’aptitude adopte un format de rendu cohérent pour le programme
d’essais d’aptitude, mais il convient qu’il utilise si possible des unités connues de la majorité des
et
participants et qu’il choisisse un format de rendu réduisant le plus possible les erreurs de transcription
et d’autres erreurs. Cela peut inclure un avertissement automatique d’unités inappropriées lorsque les
participants sont connus pour consigner habituellement les résultats dans d’autres unités que celles
oj
NOTE 1 Pour certains programmes d’essais d’aptitude, un objectif est d’évaluer l’aptitude d’un participant
à suivre une méthode normalisée (par exemple une méthode officiellement requise, ou reconnue par les
organismes de la normalisation internationale) pouvant inclure l’utilisation d’une unité de mesure particulière
ou d’un nombre particulier de chiffres significatifs.
NOTE 2 Les erreurs de transcription lors de la collecte des résultats par l’organisateur d’essais d’aptitude
peuvent être nettement réduites, voire éliminées, par l’utilisation de systèmes électroniques de production de
rapports permettant aux participants de saisir directement leurs propres données.
Si un programme d’essais d’aptitude nécessite la répétition de mesures sur des entités soumises à
l’essai, il convient que le participant fasse état de toutes les valeurs répétées telles que spécifiées par
l’organisateur. Cela peut se produire, par exemple, lorsque l’un des objectifs consiste à évaluer la fidélité
du participant sur des entités répétées connues soumises à l’essai d’aptitude, ou lorsqu’une procédure
de mesure exige la consignation séparée de plusieurs observations. Dans ces situations, l’organisateur
d’essais d’aptitude peut être également amené à demander au participant de lui indiquer sa valeur
moyenne (ou une autre estimation de la position) et l’incertitude associée pour faciliter l’analyse des
données par l’organisateur d’essais d’aptitude.
e
5.5.3.1 Lorsque la pratique de consignation conventionnelle consiste à consigner les résultats sous la
in
forme «inférieur à» ou «supérieur à» une limite (par exemple, un niveau d’étalonnage ou une limite de
quantification) et lorsque des résultats numériques sont requis pour attribuer des scores, l’organisateur
ca
d’essais d’aptitude doit déterminer la manière dont les résultats seront traités.
5.5.3.2 Il convient que l’organisateur d’essais d’aptitude adopte des procédures validées de traitement
des données et d’attribution de scores adaptées aux données tronquées (voir E.1) ou demande aux
o
participants de consigner la valeur mesurée du résultat à la place ou en complément de la valeur
conventionnelle rapportée.
ar
NOTE 1 Une option de procédure d’attribution de scores pourrait consister à ne pas noter ces données et/
ou à indiquer si la limite supérieure (ou inférieure) consignée par le participant est en cohérence avec la valeur
assignée.
NOTE 2
m
Exiger des participants qu’ils consignent les valeurs numériques situées en dehors de la plage
normalement rapportée (par exemple, en deçà du seuil de quantification du participant) permettra d’utiliser des
e
méthodes statistiques exigeant des valeurs numériques, mais pourra aboutir à des scores qui ne reflètent pas la
prestation habituellement fournie par le participant aux clients.
rm
5.5.3.3 Lorsque des statistiques consensuelles sont utilisées, il est possible que l’on ne puisse pas
évaluer les performances si le nombre de valeurs tronquées est suffisamment important pour qu’une
méthode robuste soit affectée par la troncature. Dans des situations où le nombre de résultats tronqués
no
est suffisamment important pour affecter une méthode robuste, il convient alors d’évaluer les résultats
au moyen de méthodes statistiques permettant une estimation sans biais en présence de données
tronquées[21], ou de ne pas évaluer les résultats. En cas de doute sur l’effet de la procédure choisie,
il convient que l’organisateur d’essais d’aptitude calcule des statistiques résumées et des évaluations
de
5.5.3.4 Lorsque des résultats tronqués, tels que des énoncés «inférieur à», sont prévus ou ont été
observés, il convient que le plan du programme d’essais d’aptitude contienne des dispositions pour
et
l’attribution de scores et/ou une autre action sur les valeurs tronquées consignées par les participants,
et il convient que les participants soient informés de ces dispositions.
oj
NOTE E.1 fournit un exemple de certaines méthodes d’analyse pour les données tronquées. Cet exemple
présente des statistiques consensuelles robustes selon trois méthodes différentes: en éliminant les valeurs
tronquées; en conservant les valeurs, mais en supprimant le signe «<»; et en remplaçant les résultats par la moitié
pr
de la valeur limite.
5.5.4.1 Habituellement, le nombre de chiffres significatifs à consigner est déterminé par le plan du
programme d’essais d’aptitude.
5.5.4.2 Lors de la spécification des nombres de chiffres significatifs à consigner, il convient que
l’erreur d’arrondi soit négligeable par rapport à la variation prévue entre les participants.
NOTE Dans certaines situations, la consignation correcte fait partie de la détermination de la compétence
du participant, et le nombre de chiffres significatifs et de décimales peut varier.
5.5.4.3 Lorsque le nombre de chiffres consignés dans des conditions de mesure habituelles a une
influence défavorable notable sur le traitement des données par l’organisateur d’essais d’aptitude
(par exemple, lorsque les procédures de mesure exigent une consignation des résultats avec un nombre
limité de chiffres significatifs), l’organisateur d’essais d’aptitude peut spécifier le nombre de chiffres
significatifs devant être consignés.
EXEMPLE Une procédure de mesure peut spécifier une consignation des résultats à 0,1 g, conduisant
e
à une forte proportion (>50 %) de résultats identiques qui compromettront à leur tour le calcul de moyennes
et d’écarts-types robustes. L’organisateur d’essais d’aptitude peut alors exiger que les participants consignent
in
les résultats avec deux ou trois décimales pour obtenir des estimations suffisamment fiables du paramètre de
position et de variation.
ca
5.5.4.4 S’il est admis que différents participants consignent des résultats en utilisant des nombres
différents de chiffres significatifs, il convient que l’organisateur d’essais d’aptitude prenne cela en
considération lorsqu’il produit des statistiques consensuelles (telles que la valeur assignée et l’écart-
o
type pour l’évaluation de l’aptitude).
ar
6 Lignes directrices pour la revue initiale des entités soumises à l’essai
d’aptitude et des résultats
m
6.1 Homogénéité et stabilité des entités soumises à l’essai d’aptitude
e
6.1.1 L’organisateur d’essais d’aptitude doit s’assurer que les lots d’entités soumis à l’essai d’aptitude
sont suffisamment homogènes et stables pour les objectifs du programme d’essais d’aptitude.
rm
L’organisateur doit évaluer l’homogénéité et la stabilité en utilisant des critères assurant qu’une
non-homogénéité et une instabilité des entités soumises à l’essai d’aptitude n’ont pas une incidence
défavorable sur l’évaluation des performances. Il convient que l’évaluation de l’homogénéité et de la
stabilité utilise une ou plusieurs des techniques suivantes:
no
a) les études expérimentales telles que décrites dans l’Annexe B ou d’autres méthodes expérimentales
assurant une homogénéité et une stabilité équivalentes ou supérieures;
b) les connaissances acquises concernant le comportement d’entités très similaires soumises à l’essai
de
une variation évidente dans le temps ou selon l’ordre de production ou toute dispersion inattendue
imputable à la non-homogénéité ou à l’instabilité.
oj
NOTE 1 Ces approches peuvent être adoptées au cas par cas, au moyen de techniques statistiques et d’une
justification technique appropriées. L’approche variera souvent au cours de la durée de vie d’un programme
pr
d’essais d’aptitude, par exemple lorsque les connaissances accumulées réduisent l’exigence initiale relative à une
étude expérimentale.
NOTE 2 S’appuyer sur les connaissances acquises (comme en b ci-dessus) n’est raisonnable que dans la mesure
où:
a) le procédé de production des lots d’entités soumises à l’essai d’aptitude ne varie d’aucune manière susceptible
d’influer sur l’homogénéité;
b) les matériaux utilisés pour la production d’entités soumises à l’essai d’aptitude ne varient d’aucune manière
susceptible d’influer sur l’homogénéité;
c) aucun «défaut» d’homogénéité n’est identifié par des essais d’homogénéité ou les réponses des participants;
et
d) les exigences d’homogénéité du matériau sont passées en revue régulièrement, en tenant compte de
l’utilisation prévue du matériau au moment de la revue, afin de s’assurer que l’homogénéité obtenue par le
procédé de production reste adaptée à l’objectif.
EXEMPLE Si des campagnes précédentes d’un programme d’essais d’aptitude ont utilisé des entités qui
se sont avérées suffisamment homogènes et stables, et avec les mêmes participants que ceux des campagnes
précédentes, alors si l’écart-type des résultats des essais d’aptitude dans la campagne d’essais actuelle n’est pas
supérieur à l’écart-type déterminé au cours des campagnes précédentes, cela signifie qu’il y a une homogénéité et
e
une stabilité suffisantes au cours de la campagne actuelle.
in
6.1.2 Pour des programmes d’essais d’aptitude d’étalonnage dans lesquels le même artéfact est utilisé
par de nombreux participants, l’organisateur d’essais d’aptitude doit assurer la stabilité pendant toute
ca
la durée de la campagne, ou disposer de procédures pour identifier et prendre en compte l’instabilité
pendant le déroulement d’une campagne du programme d’essais d’aptitude. Pour cela, il convient que
les procédures tiennent compte des tendances pour des entités soumises à l’essai d’aptitude et des
mesurandes particuliers, par exemple une dérive. Le cas échéant, il convient que la garantie de stabilité
o
tienne compte des effets d’expéditions multiples du même artéfact.
ar
6.1.3 Il convient normalement de vérifier l’homogénéité et la stabilité de tous les mesurandes (ou de
toutes les propriétés). Toutefois, lorsqu’il est possible de démontrer que le comportement d’un sous-
m
ensemble de propriétés donne une bonne indication de stabilité et/ou d’homogénéité pour toutes les
propriétés consignées lors d’une campagne de programme d'essais d'aptitude, l’évaluation décrite
en 6.1.1 peut être limitée à ce sous-ensemble de propriétés. Il convient que les mesurandes vérifiés
soient sensibles aux sources de non-homogénéité ou d’instabilité lors du traitement de l’entité soumise
e
à l’essai d’aptitude. Quelques cas importants sont donnés ci-dessous:
rm
a) lorsque la mesure est une proportion, une caractéristique qui est une petite proportion peut être
plus difficile à homogénéiser et donc plus sensible dans un processus de vérification d’homogénéité;
b) si une entité soumise à l’essai d’aptitude est chauffée lors du traitement, choisir alors un mesurande
no
EXEMPLE Dans un programme d’essais d’aptitude relatif à la teneur en métaux toxiques des sols, la teneur
en métaux mesurée est principalement affectée par la teneur en humidité. Une vérification de la constance de la
teneur en humidité peut alors être jugée suffisante pour assurer une stabilité adéquate des métaux toxiques.
et
NOTE Un exemple de vérifications de l’homogénéité et de la stabilité est donné en E.2, en utilisant les
méthodes statistiques recommandées dans l’Annexe B.
oj
6.2.1 Lorsque l’on demande à tous les participants de consigner une valeur pour le même mesurande,
il convient normalement que la valeur assignée pour les essais d’aptitude soit la même pour tous les
participants. Cependant, lorsque des participants sont autorisés à choisir leur propre méthode de
mesure, il est possible qu’une même valeur assignée pour chaque analyte ou propriété ne soit pas
appropriée pour tous les participants. Cela peut se produire, par exemple, lorsque des méthodes de
mesure différentes fournissent des résultats qui ne sont pas comparables. Dans ce cas, l’organisateur
d’essais d’aptitude peut utiliser une valeur assignée différente pour chaque méthode de mesure.
EXEMPLES
a) des essais médicaux pour lesquels différentes méthodes de mesure approuvées sont connues pour répondre
différemment au même matériau d’essai et utilisent différents intervalles de référence pour le diagnostic;
b) les mesurandes dont le résultat est protocole-dépendant, tels que le dosage des métaux toxiques lessivables
dans les sols, pour lesquels différentes méthodes normales sont disponibles et ne sont pas supposées être
directement comparables, mais où le programme d’essais d’aptitude spécifie le mesurande sans référence à
une méthode d’essai spécifique.
e
6.3 Élimination des valeurs aberrantes
in
6.3.1 L’ISO/IEC 17043:2010, B.2.5, et le protocole international harmonisé de l’UICPA recommandent
ca
d’éliminer, à un stade précoce, les valeurs aberrantes évidentes d’un ensemble de données lors d’une
analyse, avant d’utiliser toute procédure robuste ou tout essai pour identifier des valeurs statistiquement
aberrantes. En général, ces résultats sont traités séparément (par exemple en contactant le participant).
Il est possible de corriger certaines valeurs aberrantes, mais il convient de ne réaliser cette opération
o
que selon un principe et une procédure approuvés.
ar
NOTE Des valeurs aberrantes évidentes, par exemple des résultats rapportés dans des unités incorrectes ou
des résultats intervertis pour des entités différentes soumises à l’essai d’aptitude, apparaissent dans la plupart
des campagnes d’essais d’aptitude, et ces résultats n’affectent que la performance des méthodes statistiques
ultérieures. m
6.3.2 En cas de doute concernant un résultat, il convient de le conserver dans l’ensemble de données
et de le soumettre à un traitement ultérieur, comme décrit en 6.4 à 6.6.
e
rm
6.4.1 Comme première étape d’une analyse de données, il convient que l’organisateur d'essais
d'aptitude prenne des dispositions en vue d’un examen visuel des données, réalisé par une personne
no
disposant d’une expertise technique et statistique adéquate. Le but de ce contrôle est de confirmer
la distribution statistique des résultats et de déceler les anomalies ou les sources non prévues de
variabilité. Par exemple, une distribution bimodale peut mettre en évidence un mélange de populations
de résultats causé par des méthodes différentes, des échantillons pollués ou des instructions mal
rédigées. Dans ce cas, il convient de résoudre le problème avant de procéder à l’analyse ou à l’évaluation.
de
NOTE 1 Une procédure utile et largement disponible d’examen des données consiste à réaliser un histogramme
des valeurs des participants, afin de vérifier si la distribution est unimodale et symétrique, et de déceler la
présence de valeurs aberrantes inhabituelles (10.2). Toutefois, comme les intervalles utilisés pour combiner
les résultats dans un histogramme sont sensibles aux nombres de résultats et aux points de découpage, ils
et
peuvent être difficiles à créer. Une courbe de densité par la méthode du noyau est souvent plus utile pour déceler
d’éventuelles bimodalités ou un manque de symétrie (voir 10.3).
oj
NOTE 2 D’autres techniques d’examen peuvent être utiles, par exemple une courbe de distribution cumulée ou
un diagramme arborescent. Certaines méthodes graphiques d’examen des données sont illustrées en E.3 et E.4.
pr
6.4.2 Lorsqu’il n’est pas possible de procéder à un examen visuel de tous les ensembles de données
étudiés, il doit y avoir une procédure pour avertir de la présence d’une variabilité inattendue dans
un ensemble de données; par exemple, en examinant l’incertitude de la valeur assignée par rapport
aux critères d’évaluation, ou en effectuant une comparaison avec des campagnes précédentes du
programme d’essais d’aptitude.
6.5.1 Des méthodes statistiques robustes peuvent être utilisées pour décrire la partie centrale
d’un ensemble de résultats distribués selon une loi normale, mais ne nécessitant pas l’identification
de valeurs spécifiques comme étant des valeurs aberrantes à exclure des analyses ultérieures.
De nombreuses techniques robustes utilisées sont fondées (dans la première étape) sur la médiane et
la plage des 50 % des résultats centraux – ce sont des mesures du centre et de l’étendue des données,
similaires à la moyenne et à l’écart-type. Il convient en général d’utiliser des méthodes robustes plutôt
que des méthodes dans lesquelles les résultats identifiés en tant que valeurs aberrantes sont supprimés.
NOTE Les stratégies qui appliquent des statistiques classiques, telles que l’écart-type après élimination des
valeurs aberrantes, conduisent généralement à des sous-estimations de la dispersion des données distribuées
selon une loi quasi normale; les statistiques robustes sont généralement ajustées pour obtenir des estimations
sans biais de la dispersion.
e
6.5.2 La médiane, l’écart absolu médian (MADe) pondéré et l’intervalle interquartile normalisé
in
(nIQR) sont admis en tant qu’estimateurs simples. L’algorithme A transforme les données initiales par
un processus appelé «winsorisation» pour fournir d’autres estimateurs de la moyenne et de l’écart-type
ca
pour les données distribuées selon une loi quasi normale; il est très utile lorsque la proportion attendue
de valeurs aberrantes est inférieure à 20 %. Les méthodes Qn et Q (décrites dans l’Annexe C) d’estimation
de l’écart-type sont particulièrement utiles dans les situations où une grande proportion (>20 %) des
résultats peut être divergente ou lorsque des données ne peuvent pas être revues de manière fiable par
o
des experts. D’autres méthodes décrites dans l’Annexe C offrent également de bonnes performances
lorsque la proportion attendue de valeurs extrêmes est supérieure à 20 % (voir D.2).
ar
NOTE La médiane, l’intervalle interquartile et l’écart absolu médian pondéré présentent une variance
plus élevée que la moyenne et l’écart-type lorsqu’ils sont appliqués à des données distribuées selon une loi
m
approximativement normale. Des estimateurs robustes plus sophistiqués offrent de meilleures performances
pour des données distribuées selon une loi approximativement normale tout en conservant en grande partie
l’insensibilité aux résultats aberrants offerte par la médiane et l’intervalle interquartile.
e
6.5.3 Il appartient à l’organisateur d’essais d’aptitude de choisir les méthodes statistiques.
La moyenne et l’écart-type robustes peuvent être utilisés à diverses fins, parmi lesquelles l’évaluation
rm
des performances. Les moyennes et écarts-types robustes peuvent être également utilisés comme des
statistiques résumées pour différents groupes de participants ou pour des méthodes spécifiques.
NOTE Les détails relatifs à des procédures robustes sont fournis dans l’Annexe C. E.3 et E.4 fournissent
no
des exemples complets illustrant l’utilisation de différentes techniques statistiques robustes présentées dans
l’Annexe C.
6.6 Techniques de détection des valeurs aberrantes pour des résultats individuels
de
6.6.1 Des tests de détection des valeurs aberrantes peuvent être utilisés soit à l’appui de l’examen
visuel de recherche d’anomalies soit, couplés à l’élimination des valeurs aberrantes, pour obtenir une
certaine résistance aux valeurs extrêmes lors du calcul de statistiques résumées. Lorsque des techniques
de détection de valeurs aberrantes sont utilisées, il convient de démontrer que les hypothèses sous-
et
NOTE L’ISO 16269-4[10] et l’ISO 5725-2[1] fournissent plusieurs méthodes d’identification des valeurs
aberrantes qui sont applicables aux données interlaboratoires.
pr
6.6.2 Des stratégies d’élimination des valeurs aberrantes, fondées sur l’élimination des valeurs
aberrantes détectées par un test de détection de valeurs aberrantes à un niveau de confiance élevé,
suivie de l’application de statistiques simples telles que la moyenne et l’écart-type, sont admises lorsque
les méthodes robustes ne sont pas applicables (voir 6.5.1). Lorsque des stratégies d’élimination des
valeurs aberrantes sont utilisées, l’organisateur d’essais d’aptitude doit:
c) démontrer que les estimations obtenues de position et (le cas échéant) d’échelle présentent des
performances suffisantes (y compris efficacité et biais) pour les objectifs du programme d’essais
d’aptitude.
NOTE L’ISO 5725-2 donne des recommandations concernant le niveau de confiance approprié pour
l’élimination des valeurs aberrantes lors d’études interlaboratoires visant à déterminer la fidélité de méthodes
d’essai. L’ISO 5725-2 recommande notamment une élimination uniquement à un niveau de 99 %, à moins qu’il
n’existe une autre raison impérative d’éliminer un résultat particulier.
6.6.3 Lorsque l’élimination des valeurs aberrantes fait partie de la procédure de traitement des
e
données et qu’un résultat est éliminé en tant que valeur aberrante, il convient de continuer à évaluer la
performance du participant selon les critères utilisés pour tous les participants au programme d’essais
in
d’aptitude.
ca
NOTE 1 Les valeurs aberrantes parmi les valeurs consignées sont souvent identifiées en effectuant un test
de Grubbs pour les valeurs aberrantes, comme indiqué dans l’ISO 5725-2. Dans cette procédure, l’évaluation
est appliquée en utilisant l’écart-type de tous les participants, y compris les valeurs aberrantes potentielles.
Par conséquent, cette procédure est à appliquer idéalement lorsque les performances des participants sont
o
conformes aux attentes compte tenu des résultats obtenus lors des campagnes précédentes de programme
d'essais d'aptitude et qu’il y a un faible nombre de valeurs aberrantes (une ou deux valeurs aberrantes de part et
ar
d’autre de la moyenne). Les tables classiques pour le test de Grubbs présument une application unique pour une
ou deux valeurs aberrantes possibles dans un emplacement défini et non une application séquentielle illimitée. Si
les tests de Grubbs sont appliqués séquentiellement, les probabilités d’erreurs de première espèce pour les essais
ne s’appliquent pas.
NOTE 2
m
Lorsque des résultats répétés sont fournis ou lorsque des entités identiques sont incluses dans
une campagne d’un programme d’essais d’aptitude, il est habituel d’utiliser le test de Cochran pour les valeurs
aberrantes de répétabilité, ce test étant également décrit dans l’ISO 5725-2.
e
NOTE 3 Les valeurs aberrantes peuvent également être identifiées par des techniques robustes et non
rm
paramétriques; par exemple, si une moyenne et un écart-type robustes sont calculés, les valeurs s’écartant de la
moyenne robuste de plus de trois fois l’écart-type robuste peuvent être identifiées en tant que valeurs aberrantes.
7.1.1 Cinq façons de déterminer la valeur assignée xpt sont décrites en 7.3 à 7.7. Il appartient à
l’organisateur d’essais d’aptitude de choisir entre ces méthodes.
NOTE 7.3 à 7.6 décrivent des approches très similaires à celles utilisées pour déterminer les valeurs des
propriétés de matériaux de référence certifiés, comme décrit dans le Guide ISO 35[13].
et
7.1.2 D’autres méthodes de détermination de la valeur assignée et de son incertitude peuvent être
utilisées à condition qu’elles soient fondées sur une base statistique éprouvée, que la méthode utilisée
oj
soit décrite dans le plan documenté du programme d’essais d’aptitude et que sa description détaillée soit
fournie aux participants. Indépendamment de la méthode utilisée pour déterminer la valeur assignée,
pr
il est toujours approprié de vérifier la validité de la valeur assignée pour la campagne concernée d’un
programme d’essais d’aptitude. Ce point est traité en 7.8.
7.1.3 Les méthodes de détermination des valeurs qualitatives assignées sont traitées en 11.3.
7.1.4 La méthode de détermination de la valeur assignée et de son incertitude associée doit être
spécifiée dans chaque rapport transmis aux participants ou clairement décrite dans un protocole de
programme d'essais d'aptitude mis à la disposition de tous les participants.
7.2.1 Le Guide ISO/IEC 98-3[14] fournit des recommandations relatives à l’évaluation des incertitudes
de mesure. Le Guide ISO 35 fournit des recommandations relatives à l’incertitude de la valeur assignée
pour des valeurs de propriétés certifiées, qui peuvent être appliquées pour un grand nombre de
programmes d’essais d’aptitude.
7.2.2 Un modèle général concernant la valeur assignée et son incertitude est décrit dans les
Formules (2) et (3):
e
Le modèle concernant la valeur assignée peut être exprimé comme suit:
in
x pt = x char + δ hom + δ trans + δ stab (2)
ca
où
xpt
o
désigne la valeur assignée;
xchar
ar
désigne la valeur de la propriété obtenue par la caractérisation (détermination de la valeur
assignée);
δhom désigne l’erreur due à la différence entre les entités soumises à l’essai d’aptitude;
m
δtrans désigne l’erreur due à l’instabilité dans des conditions de transport;
u( x pt ) = uchar
2
+ uhom
2
+ utrans
2
+ ustab
2
(3)
no
où
uhom désigne l’incertitude-type due aux différences entre les entités soumises à l’essai d’apti-
tude (les «non-homogénéités »);
utrans désigne l’incertitude-type due à l’instabilité provoquée par le transport des entités sou-
et
ustab
oj
différent pour des applications spécifiques. Dans certaines situations, n’importe laquelle des composantes
d’incertitude peut être égale à zéro ou avoir une valeur négligeable.
NOTE 2 Lorsque σpt est calculé en tant qu’écart-type des résultats des participants, les composantes
d’incertitude dues à la non-homogénéité, au transport et à l’instabilité se reflètent en grande partie dans la
variabilité des résultats des participants. Dans ce cas, l’incertitude de la caractérisation, telle que décrite en 7.3
à 7.7, est suffisante.
NOTE 3 L’organisateur d’essais d’aptitude est normalement tenu de s’assurer que les variations liées à
l’instabilité ou survenant pendant le transport sont négligeables par rapport à l’écart-type pour l’évaluation de
l’aptitude, c’est-à-dire s’assurer que δtrans et δstab sont négligeables. Lorsque cette exigence est satisfaite, ustab et
utrans peuvent être fixés à zéro.
7.2.3 Dans la valeur assignée, il peut y avoir un biais qui n’est pas pris en compte dans l’expression
ci-dessus. Cela doit, si possible, être pris en considération lors de la planification du programme d’essais
d’aptitude. En cas d’ajustement du biais dans la valeur assignée, l’incertitude associée à cet ajustement
doit être incluse dans l’évaluation de l’incertitude de la valeur assignée.
7.3 Formulation
7.3.1 L’entité soumise à l’essai d’aptitude peut être préparée en mélangeant des matériaux avec
différents niveaux connus d’une propriété dans des proportions spécifiées, ou en ajoutant une
e
proportion spécifiée d’une substance à un matériau de base.
in
7.3.2 La valeur assignée xpt est calculée à partir des masses des propriétés utilisées. Cette approche
est notamment intéressante lorsque des entités individuelles soumises à l’essai d’aptitude sont
ca
préparées de la sorte, et qu’il s’agit de déterminer la proportion des propriétés.
o
a) le matériau de base ne comporte effectivement aucune trace de l’additif ou que la proportion de
ar
l’additif dans le matériau de base est connue avec exactitude;
b) les constituants sont mélangés de manière homogène (si cela est requis);
c) m
toutes les sources d’erreur significatives sont identifiées (par exemple, le fait que le verre absorbe
les composés du mercure n’est pas toujours pris en compte, de sorte que la concentration d’une
solution aqueuse d’un composé du mercure puisse être altérée par son contenant);
e
d) il n’y a aucune interaction défavorable entre les constituants et la matrice;
rm
e) le comportement des entités soumises à l’essai d’aptitude contenant le matériau ajouté est similaire
à celui des échantillons du client habituellement soumis à essai. Par exemple, des matériaux
purs ajoutés à une matrice naturelle sont souvent extraits plus aisément que la même substance
naturellement présente dans le matériau. Si cela pose problème, il convient que l’organisateur
no
d’essais d’aptitude s’assure de l’adéquation des entités soumises à l’essai d’aptitude pour les
méthodes qui seront utilisées.
7.3.4 Lorsque la formulation donne des entités soumises à l’essai d’aptitude dans lesquelles le
de
mélange est moins homogène que dans les échantillons habituellement soumis à essai, ou se présente
dans une forme différente, il peut être préférable d’utiliser une autre approche pour préparer les entités
soumises à l’essai d’aptitude.
7.3.5 La détermination de la valeur assignée par formulation est un cas de l’approche générale pour la
et
caractérisation des matériaux de référence certifiés décrit dans le Guide ISO 35, où un seul laboratoire
détermine une valeur assignée en utilisant une méthode de mesure primaire. D’autres utilisations d’une
oj
méthode primaire par un seul laboratoire peuvent être employées pour déterminer la valeur assignée
pour les essais d’aptitude (voir 7.5).
pr
7.3.6 Lorsque la valeur assignée est calculée à partir de la formulation de l’entité soumise à l’essai
d’aptitude, l’incertitude-type due à la caractérisation (uchar) est estimée par la combinaison des
incertitudes en utilisant un modèle approprié. Par exemple, lors d’essais d’aptitude pour des mesurages
chimiques, les incertitudes seront généralement associées à des mesurages gravimétriques et
volumétriques et à la pureté de tous les matériaux utilisés dans la formulation. L’incertitude-type de la
valeur assignée (u(xpt)) est ensuite calculée selon la Formule (3).
7.4.1 Lorsqu’une entité soumise à l’essai d’aptitude est un matériau de référence certifié (MRC),
sa valeur de propriété certifiée, xMRC, est utilisée en tant que valeur assignée xpt .
e
ce qui risque de compromettre la commutabilité des entités soumises à l’essai d’aptitude;
in
— un MRC peut être connu des participants, d’où l’importance de ne pas révéler l’identité de l’entité
soumise à l’essai d’aptitude.
ca
7.4.2 Lorsqu’un matériau de référence certifié (MRC) est utilisé comme entité soumise à l’essai
d’aptitude, l’incertitude-type de la valeur assignée est déduite des informations sur l’incertitude de la
valeur de propriété figurant sur le certificat. Il convient que les informations figurant sur le certificat
o
comprennent les composantes indiquées dans la Formule (3) et que leur usage prévu soit approprié à
l’objectif du programme d’essais d’aptitude.
ar
7.5 Résultats provenant d’un seul laboratoire
m
7.5.1 Une valeur assignée peut être déterminée par un seul laboratoire utilisant une méthode de
référence telle que, par exemple, une méthode primaire. Il convient que la méthode de référence utilisée
soit entièrement décrite et comprise et qu’elle soit accompagnée d’un bilan complet d’incertitude et
e
d’une traçabilité métrologique documentée, appropriée au programme d’essais d’aptitude. Il convient
que la méthode de référence soit commutable pour toutes les méthodes de mesure utilisées par les
rm
participants.
7.5.1.1 Il convient que la valeur assignée soit la moyenne obtenue lors d’une étude planifiée utilisant
no
7.5.2 La valeur assignée xpt de l’entité soumise à l’essai d’aptitude peut être déduite par un seul
laboratoire utilisant une méthode de mesure appropriée, à partir d’un étalonnage par rapport aux
valeurs de référence d’un matériau de référence certifié correspondant. Cette approche présume que le
et
MRC est commutable pour toutes les méthodes de mesure utilisées par les participants.
7.5.2.1 Cette détermination nécessite une série d’essais à effectuer dans un seul laboratoire, sur les
oj
entités soumises à l’essai d’aptitude et le MRC, en appliquant la même méthode de mesure et dans des
conditions de répétabilité. Lorsque
pr
di est la différence entre la moyenne des résultats pour l’entité soumise à l’essai d’aptitude et le
MRC sur les ièmes échantillons;
alors
x pt = x MRC + d (4)
NOTE xMRC et d sont indépendants, excepté dans la rare situation où le laboratoire expert produit également
le MRC.
e
métrologiquement traçable par rapport à la valeur certifiée du MRC, avec une incertitude-type pouvant
être calculée à l’aide de la Formule (5):
in
uchar = uMRC
2
+ u2 (5)
ca
d
L’exemple donné en E.5 illustre la manière dont l’incertitude requise peut être calculée dans le cas
simple où la valeur assignée d’une entité soumise à l’essai d’aptitude est déterminée par comparaison
o
directe à un seul MRC.
ar
7.5.3 Lorsqu’une valeur de référence est assignée avant le début d’une campagne d’un programme
d’essais d’aptitude séquentiel et que la valeur de référence est ensuite vérifiée en utilisant le même
système de mesure, la différence entre les valeurs doit être inférieure à deux fois l’incertitude de cette
m
différence (c’est-à-dire que les résultats doivent être métrologiquement compatibles). Dans ces cas,
l’organisateur d’essais d’aptitude peut choisir d’utiliser une moyenne des mesures en tant que valeur
assignée, avec l’incertitude appropriée. Si les résultats ne sont pas métrologiquement compatibles,
e
il convient que l’organisateur d’essais d’aptitude recherche les raisons de cette différence et prenne les
mesures appropriées, y compris l’utilisation d’autres méthodes pour déterminer la valeur assignée et
rm
7.6.1 Les valeurs assignées peuvent être déterminées en utilisant une étude comparative
interlaboratoires réalisée à partir de laboratoires experts, comme décrit dans le Guide ISO 35 utilisant
de
des comparaisons interlaboratoires pour caractériser un MRC. Les entités soumises à l’essai d’aptitude
sont d’abord préparées et prêtes à être distribuées aux participants. Certaines de ces entités soumises à
l’essai d’aptitude sont ensuite sélectionnées de manière aléatoire et analysées par un groupe d’experts,
en utilisant un protocole qui spécifie le nombre d’entités soumises à l’essai d’aptitude, le nombre de
et
répétitions, ainsi que toutes les autres conditions pertinentes. Chaque laboratoire expert est tenu de
fournir une incertitude-type avec ses résultats.
oj
7.6.2 Lorsque les laboratoires experts fournissent un résultat unique et ne sont pas tenus par le
protocole de mesurage de fournir avec les résultats des informations suffisantes sur l’incertitude, ou
pr
lorsque des preuves issues des résultats consignés ou d’autres éléments suggèrent que les incertitudes
consignées ne sont pas suffisamment fiables, il convient normalement que la valeur consensuelle
soit obtenue par les méthodes décrites en 7.7, appliquées à l’ensemble des résultats fournis par
les laboratoires experts. Lorsque les laboratoires experts consignent chacun plus d’un résultat
(par exemple en incluant les répétitions), l’organisateur d’essais d’aptitude doit établir une méthode
alternative de détermination de la valeur assignée et de l’incertitude associée qui soit statistiquement
valide (voir 4.1.1) et tienne compte de la possibilité de valeurs aberrantes ou d’autres écarts par rapport
à la distribution attendue des résultats.
7.6.3 Lorsque les laboratoires experts consignent les incertitudes avec les résultats, l’estimation
d’une valeur par consensus des résultats est un problème complexe et une grande variété d’approches
a été proposée, comprenant, par exemple, des moyennes pondérées, des moyennes non pondérées,
des méthodes tenant compte d’une dispersion excessive et des méthodes tenant compte de potentiels
résultats aberrants ou erronés et des estimations de l’incertitude[16]. L’organisateur d’essais d’aptitude
doit en conséquence établir une procédure d’estimation:
a) dont il convient qu’elle inclue des vérifications de la validité des estimations d’incertitude
consignées, par exemple en vérifiant si les incertitudes consignées tiennent entièrement compte de
la dispersion observée des résultats;
b) dont il convient qu’elle utilise une procédure de pondération adaptée à l’échelle et à la fiabilité des
e
incertitudes consignées, qui peut inclure une pondération égale si les incertitudes consignées sont
similaires ou faibles ou ayant une fiabilité inconnue (voir 7.6.2);
in
c) dont il convient qu’elle tienne compte de la possibilité que les incertitudes consignées ne prennent
pas totalement en compte la dispersion observée (« dispersion excessive »), par exemple en incluant
ca
un terme supplémentaire pour prendre en compte la dispersion excessive;
d) dont il convient qu’elle tienne compte de la possibilité de valeurs aberrantes inattendues pour le
o
résultat ou l’incertitude consignés;
e) dont il convient qu’elle soit fondée sur une base théorique solide;
ar
f) qui doit avoir atsoumis à essai de performances (par exemple sur des données d’essai ou de
simulations) suffisantes pour les objectifs du programme d’essais d’aptitude.
m
7.7 Valeur consensuelle déterminée à partir des résultats des participants
e
7.7.1 Avec cette approche, la valeur assignée xpt pour l’entité soumise à l’essai d’aptitude, utilisée
lors d’une campagne de programme d’essais d’aptitude, est l’estimation du paramètre de position
rm
(par exemple moyenne robuste, médiane ou moyenne arithmétique) obtenue à partir des résultats
consignés par les participants au cours de la campagne, calculée en utilisant une procédure appropriée
conforme au plan, comme décrit dans l’Annexe C. Il convient d’utiliser les techniques décrites en 6.2 à
6.6 pour confirmer l’existence d’une cohérence suffisante, avant de combiner les résultats.
no
7.7.2 Dans certaines situations, il est possible que l’organisateur d’essais d’aptitude souhaite utiliser
un sous-ensemble de participants considérés comme fiables, selon certains critères prédéfinis, tels
qu’une accréditation ou une performance antérieure. Les techniques du présent paragraphe s’appliquent
de
7.7.3 D’autres méthodes de calcul peuvent être utilisées à la place de celles décrites dans l’Annexe C,
dans la mesure où elles sont fondées sur une base statistique éprouvée et où le rapport précise la
et
méthode utilisée.
b) l’approche peut être particulièrement utile avec un mesurande normalisé et dont le résultat est
protocole-dépendant, car il n’existe souvent aucune autre méthode fiable permettant d’obtenir des
résultats équivalents.
c) la valeur consensuelle peut être biaisée en raison de l’effet d’un biais dans les méthodes utilisées
pour déterminer la valeur assignée;
d) il peut être difficile de déterminer la traçabilité métrologique de la valeur consensuelle. Bien que le
résultat soit toujours traçable par rapport aux résultats des laboratoires individuels, une déclaration
claire de traçabilité au-delà de cette limite ne peut être faite que lorsque l’organisateur d’essais
d’aptitude dispose d’informations complètes sur les étalons utilisés et le contrôle des autres
conditions pertinentes de la méthode par tous les participants contribuant à la valeur consensuelle.
e
globale s’avère nécessaire, il convient que l’organisateur des essais d’aptitude envisage l’utilisation de
in
techniques de rééchantillonnage (bootstrap) pour estimer une erreur type pour la valeur assignée.
Les Références [17] et [18] donnent des détails sur les techniques de bootstrap.
ca
NOTE Un exemple d’utilisation d’une technique de bootstrap est donné en E.6.
7.7.7 Si la valeur assignée est déduite comme étant une moyenne robuste calculée à l’aide des
procédures décrites en C.2, C.3, alors l’incertitude-type de la valeur assignée xpt peut être estimée par:
o
s∗
ar
u ( x pt ) = 1 , 25 × (6)
p
m
où s* est l’écart-type robuste des résultats. (Le «résultat» pour un participant est ici la moyenne de
l’ensemble des mesurages qu’il a effectués sur l’entité soumise à l’essai d’aptitude.)
NOTE 1 Dans ce modèle, lorsque la valeur assignée et l’écart-type robuste sont déterminés à partir des
e
résultats des participants, il est possible de présumer que l’incertitude de la valeur assignée comprend les effets
de l’incertitude due à la non-homogénéité, au transport et à l’instabilité.
rm
NOTE 2 Le facteur 1,25 est fondé sur l’écart-type de la médiane, ou l’efficacité de la médiane en tant
qu’estimation de la moyenne, dans un grand ensemble de résultats établis à partir d’une loi normale. Il est
vérifié que l’efficacité de méthodes robustes plus sophistiquées peut être nettement supérieure à celle de la
médiane, ce qui justifie un facteur de correction inférieur à 1,25. Toutefois, ce facteur a été recommandé car,
no
en général, les résultats d’essais d’aptitude ne sont pas distribués selon une loi strictement normale et ils
contiennent des proportions inconnues de résultats issus de distributions différentes (« résultats contaminés »).
Le facteur de 1,25 est considéré comme une estimation prudente (élevée), afin de tenir compte d’une éventuelle
contamination. Un facteur plus petit, ou une équation différente, peuvent être justifiés en fonction de l’expérience
et de la procédure robuste utilisée.
de
NOTE 3 Un exemple d’utilisation d’une valeur assignée déterminée à partir des résultats des participants est
donné en E.3.
7.8.1 Lorsque les méthodes décrites en 7.7 sont appliquées pour déterminer la valeur assignée (xpt) et
oj
qu’une estimation indépendante fiable (désignée xref ) est disponible, par exemple par une connaissance
de la préparation ou à partir d’une valeur de référence, il convient de comparer la valeur consensuelle
xpt à xref.
pr
Lorsque les méthodes décrites en 7.3 à 7.6 sont appliquées pour déterminer la valeur assignée, il convient
de comparer la moyenne robuste x* déduite des résultats de la campagne à la valeur assignée, après
chaque campagne d’un programme d’essais d’aptitude.
La différence est calculée comme étant xdiff = xref - xpt (ou x* - xpt)) et l’incertitude-type udiff de la
différence est estimée comme suit:
où
7.8.2 Si la différence est supérieure à deux fois son incertitude-type, il convient d’en rechercher les
raisons. Les causes possibles sont les suivantes:
e
— biais commun dans les résultats des participants;
in
— incapacité d’appréciation des limites de la méthode de mesure lors de l’utilisation de la méthode de
formulation décrite en 7.3;
ca
— biais dans les résultats des «experts» lors de l’utilisation des approches décrites en 7.5 ou en 7.6;
— la traçabilité de la valeur de comparaison et de la valeur assignée ne s’effectue pas selon la même
o
référence métrologique.
ar
7.8.3 Selon le motif de la différence, il convient que l’organisateur des essais d’aptitude décide
d’évaluer ou non les résultats, et (pour les programmes d’essais d’aptitude continus) de modifier le
m
plan pour des programmes d’essais d’aptitude ultérieurs. Lorsque la différence est suffisamment
importante pour affecter l’évaluation des performances ou pour suggérer un biais important dans les
méthodes de mesure utilisées par les participants, il convient de noter la différence dans le rapport
relatif à la campagne de programme d'essais d'aptitude. Dans ces cas, il convient de prendre en compte
e
la différence dans la planification des programmes d’essais d’aptitude ultérieurs.
rm
8.1.1 Pour tous les objectifs, l’approche fondamentale consiste à comparer un résultat relatif à une
entité soumise à l’essai d’aptitude (xi) avec une valeur assignée (xpt). Pour l’évaluation, la différence est
comparée à une erreur de mesure admissible. Cette comparaison est couramment effectuée en utilisant
de
une statistique de performance normalisée (par exemple z, z’, ζ, En), comme traité de 9.4 à 9.7. Cela
peut être également effectué en comparant la différence avec un critère défini (D ou D% par rapport
à δE) comme traité en 9.3. Il existe une autre approche pour l’évaluation qui consiste à comparer la
différence avec la revendication d’un participant portant sur l’incertitude de son résultat combinée
avec l’incertitude de la valeur assignée (En et ζ).
et
8.1.2 Si une exigence réglementaire ou une aptitude fixée est donnée en tant qu’écart-type, elle peut
oj
être utilisée directement en tant que σpt . Si l’exigence ou l’objectif porte sur une erreur maximale tolérée,
ce critère peut être divisé par la limite d’action pour obtenir σpt . Une erreur maximale tolérée spécifiée
peut être directement utilisée en tant que δE pour l’utilisation avec D ou D%. Pour des programmes
pr
d'essais d'aptitude continus, les avantages de cette approche sont les suivants:
a) les scores de performance ont une interprétation cohérente en matière d’adéquation à l’objectif
d’une campagne à l’autre de programme d'essais d'aptitude;
b) les scores de performance ne sont pas sujets à la variation attendue lors de l’estimation de la
dispersion à partir des résultats consignés.
EXEMPLE Si un critère réglementaire est spécifié comme erreur maximale tolérée et si 3,0 est une limite
d’action pour l’évaluation avec un score z, le critère spécifié est alors divisé par 3,0 pour déterminer σpt .
8.1.3 Lorsque le critère d’évaluation des performances est basé sur des statistiques consensuelles
issues de la campagne actuelle ou de campagnes antérieures du programme d’essais d’aptitude,
une estimation robuste de l’écart-type des résultats des participants constitue alors la statistique
préférentielle. Lorsque cette approche est utilisée, il est généralement plus pratique d’utiliser un score
de performance tel que le score z et de fixer l’écart-type pour l’évaluation de l’aptitude (σpt) à l’estimation
calculée de l’écart-type.
e
8.2.1 L’erreur maximale tolérée ou l’écart-type pour l’évaluation de l’aptitude peuvent être fixés
à une valeur correspondant au niveau de performance qu’une autorité réglementaire, un organisme
in
d’accréditation ou des experts techniques de l’organisateur d’essais d’aptitude jugent raisonnable pour
les participants.
ca
8.2.2 Une erreur maximale tolérée spécifiée peut être convertie en un écart-type pour l’évaluation
de l’aptitude en divisant la limite par le nombre de multiples de σpt qui sont utilisés pour définir un
signal d’action (ou un résultat inacceptable). De la même manière, un écart-type spécifié de σpt peut
o
être converti en δE .
ar
8.3 Détermination à partir de l’expérience acquise lors des campagnes précédentes
d’un programme d’essais d’aptitude
m
8.3.1 L’écart-type pour l’évaluation de l’aptitude (σpt) et l’erreur maximale tolérée (δE) peuvent
être déterminés grâce à l’expérience acquise lors de campagnes précédentes de programmes d’essais
e
d’aptitude pour le même mesurande avec des valeurs de propriétés comparables, et lorsque les
participants utilisent des procédures de mesure compatibles. Cela peut être utile lorsqu’il n’y a aucun
rm
accord entre les experts à propos de l’adéquation à l’objectif. Cette approche offre les avantages
suivants:
— les évaluations sont fondées sur des attentes raisonnables en matière de performances;
no
— les critères d’évaluation ne varient pas d’une campagne à l’autre du programme d’essais d’aptitude
en raison de la variation ou des changements aléatoires dans la population des participants;
— les critères d’évaluation ne varient pas entre les différents organisateurs d’essais d’aptitude,
de
lorsqu’au moins deux organisateurs d’essais d’aptitude approuvés interviennent dans un domaine
d’essai ou d’étalonnage.
8.3.2 Il convient que la revue des campagnes précédentes d’un programme d’essais d’aptitude tienne
compte des performances qui peuvent être atteintes par des participants compétents et qui ne sont pas
et
affectées par de nouveaux participants ou par une variation aléatoire due, par exemple, à des effectifs
de groupes de moindre importance ou à d’autres facteurs propres à une compagne particulière.
Les déterminations peuvent être effectuées de manière subjective par examen des campagnes
oj
précédentes de programmes d'essais d'aptitude portant sur la cohérence, ou de manière objective avec
des moyennes ou avec un modèle de régression qui corrige la valeur du mesurande. L’équation de la
pr
régression peut être une droite ou une courbe[31]. Il convient de prendre en compte les écarts-types
et les écarts-types relatifs, en basant la sélection sur ceux qui sont les plus cohérents pour les niveaux
du mesurande sur le domaine approprié. L’erreur maximale tolérée appropriée peut être également
obtenue de cette manière.
8.3.3 Lorsque le critère d’évaluation des performances est basé sur des statistiques consensuelles
issues de campagnes antérieures d’un programme d’essais d’aptitude, il convient d’utiliser des
estimations robustes de l’écart-type.
NOTE 1 L’algorithme S (voir C.4) fournit un écart-type combiné robuste qui est applicable lorsque toutes les
campagnes antérieures du programme d’essais d’aptitude considéré ont le même écart-type attendu ou (si les
écarts relatifs sont utilisés pour l’évaluation) le même écart-type relatif.
NOTE 2 Un exemple d’une valeur déduite de l’expérience acquise lors de campagnes précédentes d’un
programme d’essais d’aptitude est donné en E.8.
8.4.1 La valeur de l’écart-type pour l’évaluation de l’aptitude peut être déduite d’un modèle général
s’appliquant à la reproductibilité de la méthode de mesure. L’avantage de cette méthode est qu’elle est
objective, cohérente sur les mesurandes et fondée sur une approche empirique. Selon le modèle utilisé,
cette approche peut être considérée comme un cas particulier de critère d’adéquation à l’objectif.
e
8.4.2 Il convient que tout écart-type attendu choisi par un modèle général soit raisonnable. Si des
in
signaux d’action et d’avertissement sont affectés à de très grandes ou à de très petites proportions de
participants, il convient que l’organisateur d’essais d’aptitude s’assure que cela est en cohérence avec
ca
l’objectif du programme d’essais d’aptitude.
8.4.3 Une estimation spécifique tenant compte des spécificités du problème de mesurage est
généralement préférable à une approche générale. Par conséquent, avant d’utiliser un modèle général,
o
il convient d’explorer la possibilité d’utiliser les approches décrites en 8.2, 8.3 et 8.5.
ar
EXEMPLE Courbe de Horwitz.
Un modèle général commun pour les applications chimiques a été décrit par Horwitz[22] et modifié par
m
Thompson[31]. Cette approche donne un modèle général pour la reproductibilité de méthodes d’analyse,
qui peut être utilisé pour déduire l’expression suivante pour l’écart-type de reproductibilité:
0 , 01c c > 0 , 138
0 ,5
lorsque
où c est la fraction massique de la substance chimique à déterminer, avec 0 ≤ c ≤ 1.
no
NOTE 1 Le modèle de Horwitz est empirique, fondé sur des observations de nombreux paramètres faites sur
une période prolongée lors d’essais interlaboratoires. Les valeurs de σR sont les limites supérieures attendues de
la variabilité interlaboratoires lorsque l’essai interlaboratoires ne pose aucun problème significatif. Les valeurs
de σR peuvent donc ne pas être des critères appropriés pour déterminer la compétence dans un programme
de
d’essais d’aptitude.
NOTE 2 Un exemple d’une valeur déduite du modèle modifié de Horwitz est donné en E.9.
8.5.1 Lorsque la méthode de mesure à utiliser dans le programme d’essais d’aptitude est normalisée
oj
et que des informations sur la répétabilité (σr) et la reproductibilité (σR) de la méthode sont disponibles,
l’écart-type pour l’évaluation de l’aptitude (σpt) peut être calculé en utilisant ces informations, comme
pr
suit:
σ pt = σ R2 − σ r2 (1 − 1 / m ) (9)
où m est le nombre de mesurages répétés que chaque participant doit effectuer au cours d’une campagne
du programme d’essais d’aptitude.
NOTE Cette formule est dérivée d’un modèle de base à effets aléatoires de l’ISO 5725-2.
décrites dans l’ISO 5725-2. Il convient que ces relations soient ensuite utilisées pour calculer les valeurs
des écarts-types de répétabilité et de reproductibilité appropriées pour la valeur assignée à utiliser
dans le cadre du programme d’essais d’aptitude.
8.5.3 Pour que les techniques mentionnées ci-dessus soient valides, l’étude collaborative doit avoir
été réalisée conformément aux exigences de l’ISO 5725-2 ou d’une procédure équivalente.
NOTE Un exemple est présenté en E.10.
e
8.6 Détermination à partir de données obtenues lors d’une même campagne d’un
programme d’essais d’aptitude
in
8.6.1 Avec cette approche, l’écart-type pour l’évaluation de l’aptitude (σpt) est calculé à partir des
ca
résultats des participants pendant la même campagne du programme d’essais d’aptitude. Lorsque cette
approche est utilisée, il est généralement plus pratique d’utiliser un score de performance tel que le
score z. Pour calculer σpt, il convient normalement d’utiliser une estimation robuste de l’écart-type
des résultats consignés par tous les participants, calculée en utilisant une technique indiquée dans
o
l’Annexe C. Dans les programmes d'essais d'aptitude qui utilisent δE et D ou D%, il est possible d’utiliser
le pourcentage d’écart toléré, PA , comme score normalisé, pour effectuer la comparaison des différents
ar
mesurandes et campagnes (voir 9.3.6).
m
8.6.2 L’utilisation des résultats des participants peut conduire à des critères d’évaluation des
performances qui ne sont pas appropriés. Il convient que l’organisateur d’essais d’aptitude s’assure que
la valeur de σpt utilisée pour les évaluations de performance est adaptée à l’objectif.
e
8.6.2.1 Il convient que l’organisateur d’essais d’aptitude fixe une limite à la valeur la plus basse de σpt
qui sera utilisée, dans le cas où l’écart-type robuste est très petit. Il convient de choisir cette limite de
rm
sorte que, lorsque l’erreur de mesure est adaptée à l’utilisation prévue la plus contraignante, le score de
performance soit z < 3,0.
EXEMPLE Dans un programme d’essais d’aptitude relatif à un tissu, un mesurande est le nombre de fils
no
par centimètre. L’écart-type robuste peut être faible dans certaines campagnes (<1 fil par cm) et les erreurs
inférieures à 4 fils/cm sont considérées comme non significatives. L’organisateur d’essais d’aptitude détermine
que l’écart-type robuste est utilisé en tant que σpt , à moins qu’il ne soit inférieur à 1,3 fil/cm, auquel cas σpt = 1,3
est utilisé.
de
8.6.2.2 Il convient que l’organisateur d’essais d’aptitude fixe une limite à la valeur la plus élevée de
σpt qui sera utilisée, ou aux résultats de mesure qui peuvent être évalués comme «acceptables» (pas de
signal), dans le cas où l’écart-type robuste est très grand. Il convient de choisir cette limite de sorte que
les résultats qui ne sont pas adaptés à l’objectif soient associés à un signal d’action.
et
8.6.2.3 Dans certains cas, l’organisateur d’essais d’aptitude peut fixer des limites supérieures
ou inférieures sur l’intervalle de résultats qui peut être évalué comme «acceptable» (pas de signal
oj
d’avertissement ou d’action), lorsque des intervalles symétriques contiennent des résultats qui ne sont
pas adaptés à l’objectif.
pr
EXEMPLE Pour un programme d’essais d’aptitude réglementaire relatif à une eau non potable, les
réglementations spécifient que les résultats doivent se situer à 3 σpt de la moyenne robuste des résultats des
participants. Toutefois, la plage des résultats acceptables pouvant dans certains cas inclure 0 µg/l, tout résultat
inférieur à 10 % d’une valeur formulée doit générer un signal d’action (ou «inacceptable »). Une entité soumise à
l’essai d’aptitude est formulée avec 4,0 µg/l d’une substance réglementée. La moyenne robuste des participants
est de 3,2 µg/l et σpt est de 1,1 µg/l. Par conséquent, il est possible pour un participant de soumettre un
résultat de 0,0 µg/l et d’être dans les limites de 3 σpt , mais tout résultat inférieur à 0,4 µg/l sera évalué comme
«inacceptable».
8.6.3 Les principaux avantages de cette approche sont la simplicité et l’acceptation conventionnelle
due à une utilisation satisfaisante dans de nombreuses situations. Cette approche peut constituer la
seule approche envisageable.
a) la valeur de σpt peut varier considérablement d’une campagne à l’autre d’un programme d’essais
d’aptitude. Ainsi, il est difficile pour un participant d’utiliser des valeurs de score z pour rechercher
les tendances persistantes sur plusieurs campagnes;
e
b) les écarts-types peuvent être considérés comme non fiables lorsque le nombre de participants au
programme d’essais d’aptitude est faible ou lorsque des résultats obtenus par différentes méthodes
in
sont combinés. Par exemple, si p = 20, l’écart-type pour des données distribuées selon une loi
normale peut varier d’environ ±30 % par rapport à sa valeur vraie d’une campagne à l’autre d’un
ca
programme d’essais d’aptitude;
c) l’utilisation des mesures de dispersion obtenues à partir des données peut conduire à une
proportion approximativement constante de scores apparemment acceptables. Des performances
o
généralement médiocres ne seront pas détectées par l’examen des scores, et des performances
généralement bonnes conduiront à l’attribution de scores médiocres à des participants satisfaisants;
ar
d) il n’y a pas d’interprétation utile en matière d’adéquation pour toute utilisation finale des résultats.
NOTE
en E.3.
m
Des exemples d’utilisation de données de participants sont fournis dans l’exemple détaillé donné
8.7.1 Pour vérifier les performances des participants et évaluer l’avantage que le programme d’essais
d’aptitude leur procure, il convient que l’organisateur d’essais d’aptitude applique une procédure pour
surveiller la concordance interlaboratoires, suivre les variations de performance et s’assurer de la
pertinence des méthodes statistiques.
no
8.7.2 Il convient que les résultats obtenus lors de chaque campagne d’un programme d’essais
d’aptitude soient utilisés pour calculer des estimations des écarts-types de reproductibilité (et de
répétabilité, le cas échéant) de la méthode de mesure, en appliquant les méthodes robustes décrites à
l’Annexe C. Il convient que ces estimations soient représentées sur des graphiques séquentiellement ou
de
en tant que séries temporelles, avec les valeurs des écarts-types de répétabilité et de reproductibilité
obtenus dans des expériences de fidélité issues de l’ISO 5725-2 (le cas échéant), et/ou de σpt, si les
techniques décrites en 8.2 à 8.4 sont utilisées.
et
8.7.3 Il convient ensuite que l’organisateur des essais d’aptitude examine ces graphiques. Si
les graphiques révèlent que les valeurs de fidélité obtenues lors d’une campagne spécifique d’un
programme d’essais d’aptitude sont supérieures selon un facteur ≥ 2 aux valeurs attendues issues
oj
même manière, il convient qu’une tendance vers des valeurs de fidélité meilleures ou plus médiocres
incite à en rechercher les causes les plus probables.
9.1.1 Les statistiques utilisées pour la détermination des performances doivent être en cohérence
avec l’objectif ou les objectifs du programme d’essais d’aptitude.
NOTE Les statistiques de performances sont très utiles lorsque les statistiques et leur calcul sont compris
par les participants et les autres parties intéressées.
9.1.2 Il convient que la revue des scores de performance soit aisée, sur l’ensemble des niveaux de
mesurandes et lors de différentes campagnes du programme d’essais d’aptitude.
9.1.3 Il convient de passer en revue les résultats des participants et de déterminer s’ils sont en
cohérence avec les hypothèses utilisées dans la planification du programme d’essais d’aptitude, afin
d’obtenir des statistiques de performances significatives. Par exemple, il n’existe aucune preuve de
e
détérioration de l’entité soumise à l’essai d’aptitude, ni d’un mélange de populations de participants, ni
de violations graves des hypothèses statistiques concernant la nature des données.
in
9.1.4 En général, il n’est pas approprié d’utiliser des méthodes d’évaluation qui classent
ca
intentionnellement une proportion fixe de résultats comme générateurs d’un «signal d’action».
o
9.2.1 Si l’incertitude-type u(xpt) de la valeur assignée est trop grande par rapport au critère
ar
d’évaluation de performance, certains participants risquent de recevoir des signaux d’action et
d’avertissement en raison d’une inexactitude dans la détermination de la valeur assignée et non pas
pour une raison quelconque liée au participant lui-même. C’est pour cette raison que l’incertitude-type
m
de la valeur assignée doit être déterminée et communiquée aux participants (voir l’ISO/IEC 17043:2010,
4.4.5 et 4.8.2).
Si le critère suivant est rempli, alors l’incertitude de la valeur assignée peut être considérée comme
e
négligeable et ne nécessite pas d’être incluse dans l’interprétation des résultats de la campagne de
programme d’essais d’aptitude:
rm
NOTE 0,3 σpt équivaut à 0,1 δE lorsque |z| ≥ 3,0 génère un signal d’action.
9.2.2 Si ce critère n’est pas rempli, il convient alors que l’organisateur d’essais d’aptitude tienne
compte des éléments suivants, tout en s’assurant que chaque action entreprise reste en cohérence avec
la politique convenue d’évaluation des performances pour le programme d’essais d’aptitude:
de
a) rechercher une méthode pour déterminer la valeur assignée de sorte que son incertitude réponde
au critère de la Formule (10);
b) utiliser l’incertitude de la valeur assignée dans l’interprétation des résultats du programme d’essais
et
d’aptitude (voir 9.5 sur le score z’, 9.6 sur les scores ζ ou 9.7 sur les scores En;
c) si la valeur assignée est déduite à partir des résultats des participants et si l’incertitude élevée
oj
NOTE Le protocole international harmonisé de l’UICPA[32] décrit une procédure spécifique pour la
détection de la bimodalité, fondée sur l’examen d’une courbe de densité par la méthode du noyau avec une
largeur de bande spécifiée.
d) informer les participants que l’incertitude de la valeur assignée n’est pas négligeable et que les
évaluations pourraient en être affectées.
Si aucun des éléments a) à d) ne s’applique, les participants doivent alors être informés du fait qu’aucune
valeur assignée fiable ne peut être déterminée et qu’aucun score de performance ne peut être fourni.
NOTE Les techniques présentées dans le présent paragraphe sont démontrées en E.3 et E.4.
9.3.1 Soit xi le résultat (ou la moyenne des répétitions) consigné(e) par un participant i pour la
mesure d’une propriété de l’entité soumise à l’essai d’aptitude lors d’une campagne d’un programme
d’essais d’aptitude. Une simple mesure de la performance du participant peut alors être calculée comme
la différence entre le résultat xi et la valeur assignée xpt:
Di = x i − x pt (11)
e
Di peut être interprétée comme l’erreur de mesure pour le résultat concerné, dans la mesure où la
valeur assignée peut être considérée comme une valeur conventionnelle ou une valeur d’une grandeur
in
de référence.
La différence Di peut être exprimée dans les mêmes unités que la valeur assignée ou en tant que
ca
différence en pourcentage, calculée comme suit:
( )
Di % = 100 x i − x pt / x pt % (12)
o
ar
NOTE La Formule (12) ne peut pas être appliquée lorsque xpt = 0.
9.3.3 δE est étroitement lié à σpt tel qu’il est utilisé pour les scores z (voir 9.4), lorsque σpt est
déterminé par l’adéquation à l’objectif ou par les prévisions fondées sur les campagnes précédentes
de programmes d'essais d'aptitude. La relation est déterminée par le critère d’évaluation des scores z.
Par exemple, si z ≥ 3 crée un signal d’action, alors δE = 3 σpt, ou de manière équivalente, σpt = δE/3.
no
Diverses expressions de δE sont utilisées de manière conventionnelle dans des essais d’aptitude pour
des applications médicales et dans des spécifications de performances pour des méthodes de mesure et
des produits.
9.3.4 L’avantage offert par l’utilisation de D en tant que statistique de performance et δE en tant que
de
critère de performance est que les participants ont une compréhension intuitive de ces statistiques
puisqu’elles sont directement liées à l’erreur de mesure et elles sont couramment utilisées comme
critères pour déterminer l’adéquation à l’objectif. L’avantage de D % est que la compréhension est
intuitive, qu’elle est normalisée pour un niveau du mesurande et qu’elle est liée à des causes courantes
et
9.3.5 Les inconvénients résident dans le fait qu’elles ne sont pas utilisées de manière conventionnelle
oj
pour les essais d’aptitude dans de nombreux pays ou domaines de mesurage et que D n’est pas
normalisée pour permettre un simple examen des rapports relatifs à des signaux d’action lors de
pr
programmes d’essais d’aptitude portant sur plusieurs analytes ou lorsque les critères d’adéquation à
l’objectif peuvent varier selon le niveau du mesurande.
NOTE L’utilisation de D et D % présume généralement une symétrie de la distribution des résultats des
participants dans le sens où le domaine acceptable est -δE < D < δE .
9.3.6 À des fins de comparaison entre des niveaux de mesurandes, lorsque les critères d’adéquation
à l’objectif peuvent varier; ou pour une combinaison entre des campagnes ou des mesurandes, D et
D % dans les programmes d'essais d'aptittude peuvent être transformées en un score de performance
normalisé qui montre les différences par rapport aux critères de performance pour les mesurandes.
Pour cela, calculer le «pourcentage d’écart toléré» (PA) pour chaque résultat, comme suit:
Par conséquent, PA ≥ 100 % ou PA ≤ −100 % indique un signal d’action (ou une «performance
inacceptable »).
NOTE 1 Les scores PA peuvent être comparés entre des niveaux et des campagnes différentes d’un programme
e
d’essais d’aptitude, ou suivis dans des diagrammes. Ces scores de performance sont similaires, en ce qui concerne
l’utilisation et l’interprétation, aux scores z qui ont un critère d’évaluation commun tel que z ≤ −3 ou z ≥ 3 pour
in
des signaux d’action.
NOTE 2 Des variations de cette statistique sont couramment utilisées, notamment dans des applications
ca
médicales, où la fréquence d’essais d’aptitude est généralement plus élevée et le nombre d’analytes plus grand.
NOTE 3 Il peut être approprié d’utiliser la valeur absolue de PA pour refléter de manière cohérente des
résultats acceptables (ou inacceptables) par rapport à la valeur assignée.
o
9.4 Scores z
ar
9.4.1 Le score z d’un résultat d’essai d’aptitude xi est calculé par:
zi =
x i − x pt
σ pt
m (14)
e
où
rm
9.4.2 L’interprétation conventionnelle des scores z est la suivante (voir l’ISO/IEC 17043:2010, B.4.1.1):
— un résultat donnant |z| ≥ 3,0 est considéré comme inacceptable (ou générant un signal d’action).
Il convient de conseiller aux participants de vérifier leurs méthodes de mesure après des signaux
d’avertissement au cas où ceux-ci indiquent un problème naissant ou récurrent.
et
NOTE 1 Dans certaines applications, les organisateurs d’essais d’aptitude utilisent 2,0 comme signal d’action
pour les scores z.
oj
NOTE 2 Il convient normalement que le critère σpt soit choisi de manière à permettre l’interprétation ci-dessus
qui est largement utilisée pour l’évaluation de l’aptitude et qui est également très similaire aux limites familières
pr
NOTE 3 L’utilisation des limites 2,0 et 3,0 pour les scores z se justifie comme suit. Les mesurages effectués
correctement sont présumés générer des résultats qui peuvent être décrits (après transformation si nécessaire)
par une loi normale avec une moyenne xpt et un écart-type de la population σpt . Les scores z sont donc distribués
selon une loi normale avec une moyenne de la population de zéro et un écart-type de la population de 1,0.
Dans ces circonstances, on s’attendrait à ce que seulement 0,3 % environ des scores se situent en dehors des
limites −3,0 ≤ z ≤ 3,0 et à ce que seulement 5 % environ des scores se situent en dehors des limites −2,0 ≤ z ≤ 2,0.
La probabilité que z se situe en dehors de l’intervalle ±3,0 étant très faible, il est peu probable que les signaux
d’action apparaissent par hasard lorsqu’aucun problème réel n’existe; donc il est probable qu’il existe une cause
identifiable d’une anomalie quand un signal d’action apparaît.
NOTE 4 L’hypothèse sur laquelle est fondée cette interprétation s’applique uniquement à une distribution
prenant pour hypothèse des laboratoires compétents, et non à toute hypothèse concernant la distribution des
résultats observés. Il n’est pas nécessaire de faire d’hypothèse concernant les résultats observés eux-mêmes.
NOTE 5 Si la vraie variabilité interlaboratoires (écart-type de la population) est inférieure à σpt , alors les
probabilités d’erreur de classement sont réduites.
NOTE 6 Lorsque l’écart-type pour l’évaluation de l’aptitude est fixé par l’une ou l’autre des méthodes
décrites en 8.2 ou en 8.4, il peut être très différent de l’écart-type (robuste) des résultats, et les proportions de
résultats se situant en dehors des intervalles de ±2,0 et ±3,0 peuvent différer considérablement de 5 % et 0,3 %
respectivement.
e
in
9.4.3 L’organisateur d’essais d’aptitude doit déterminer l’arrondi approprié pour les scores z, sur la
base du nombre de chiffres significatifs pour les résultats, ainsi que pour la valeur assignée et l’écart-
type de l’essai d’aptitude. Les règles de détermination de l’arrondi doivent être incluses dans les
ca
informations du plan mises à la disposition des participants.
NOTE Il est rarement utile d’avoir plus de deux décimales pour les scores z.
o
9.4.4 Lorsque l’écart-type des résultats des participants est utilisé en tant que σpt et que les
ar
programmes d’essais d’aptitude font intervenir un très grand nombre de participants, il est possible
que l’organisateur d’essais d’aptitude souhaite vérifier la normalité de la distribution, en utilisant
les résultats réels ou les scores z. À l’autre extrême, en présence d’un petit nombre de participants
m
seulement, il se peut qu’aucun signal d’action ne soit généré. Dans ce cas, les méthodes graphiques
combinant les scores de performance sur plusieurs campagnes de programmes d'essais d'aptitude
peuvent fournir des indications plus utiles sur les performances des participants que les résultats de
chacune des campagnes.
e
9.5 Scores z′
rm
9.5.1 Lorsque l’incertitude d’une valeur assignée u(xpt) est préoccupante, par exemple lorsque
u(xpt) > 0,3 σpt, l’incertitude peut alors être prise en compte en élargissant le dénominateur du score de
no
performance. Cette statistique est appelée score z′ et calculée comme suit (avec les mêmes notations
qu’en 9.4):
x i − x pt
zi′ = (15)
de
σ pt
2
+ u2 ( x pt )
NOTE Lorsque xpt et/ou σpt sont calculés à partir des résultats des participants, le score de performance
est corrélé avec les résultats individuels des participants, car les résultats individuels ont une incidence sur
une moyenne et un écart-type robustes. La corrélation pour un participant individuel dépend de la pondération
et
attribuée à ce participant dans la statistique combinée. Pour cette raison, des scores de performance incluant
l’incertitude de la valeur assignée sans inclure une contribution pour la corrélation représentent des sous-
estimations des scores qui auraient résulté si la covariance avait été incluse. Par exemple, lorsque u(xpt) = 0,3 σpt ,
une sous-estimation d’environ 10 % du score z’ est observée. Par conséquent, la Formule (15) peut être utilisée
oj
lorsque xpt et/ou σpt sont déterminés à partir des résultats des participants.
pr
9.5.2 Les scores D et D% peuvent être également modifiés pour tenir compte de l’incertitude de la
valeur assignée, en utilisant la Formule (16) suivante pour élargir δE à δE’:
δ E' = δ E2 + U 2 ( x pt ) (16)
où U(xpt) désigne l’incertitude élargie de la valeur assignée xpt calculée avec le facteur d’élargissement
k = 2.
9.5.3 Les scores z′ peuvent être interprétés de la même manière que les scores z (voir 9.4), en utilisant
les mêmes valeurs critiques 2,0 et 3,0, selon le plan prévu pour le programme d’essais d’aptitude. De la
même manière, les scores D et D% seraient ensuite comparés à δE’ (voir 9.3).
9.5.4 En comparant les formules du score z et du score z′ en 9.4 et 9.5, il ressort que les scores z′
d’une campagne d’un programme d’essais d’aptitude seront toujours plus petits que les scores z
correspondants, selon un facteur constant donné par la Formule (17):
σ pt
e
(17)
σ pt
2
+u 2
(x pt )
in
Lorsque les lignes directrices limitant l’incertitude de la valeur assignée décrites en 9.2.1 sont
satisfaites, ce facteur se situe dans l’intervalle donné par la Formule (18):
ca
σ pt
0, 96 < < 1, 00 (18)
σ pt
2
+u 2
(x pt )
o
Par conséquent, dans ce cas, les scores z′ sont presque identiques aux scores z, et l’on peut en conclure
ar
que l’incertitude de la valeur assignée est négligeable pour l’évaluation des performances.
Lorsque les lignes directrices décrites en 9.2.1 pour l’incertitude de la valeur assignée ne sont pas
m
respectées, la différence d’ordre de grandeur entre les scores z′ et les scores z peut être telle que certains
scores z dépassent les valeurs critiques 2,0 et 3,0 et génèrent ainsi des «signaux d’avertissement» ou
des «signaux d’action», alors que les scores z′ correspondants ne dépassent pas les valeurs critiques et
ne génèrent pas de signaux.
e
En général, pour des situations où la valeur assignée et/ou σpt ne sont pas déterminés à partir des
rm
résultats des participants, z’ peut être préféré car, lorsque le critère décrit en 9.2.1 est satisfait,
la différence entre z et z’ est négligeable.
9.6.1 Les scores zêta peuvent être utiles lorsqu’un objectif du programme d’essais d’aptitude est
d’évaluer l’aptitude d’un participant à fournir des résultats proches de la valeur assignée dans les
limites de l’incertitude revendiquée.
de
Avec les notations décrites en 9.4, les scores ζ sont calculés comme suit:
x i − x pt
ζi = (19)
u2 ( x i ) + u2 ( x pt )
et
où
oj
NOTE 2 Les scores ζ diffèrent des scores En (voir 9.7) parce qu’ils utilisent les incertitudes-types u(xi) et
u(xpt) au lieu des incertitudes élargies U(xi) et U(xpt). Les scores ζ peuvent être particulièrement utiles lorsque
les participants utilisent différentes procédures de mesure, ce qui conduit à des incertitudes de mesure très
différentes. Les scores ζ supérieurs à 2 ou inférieurs à −2 peuvent être dus à des méthodes systématiquement
biaisées ou à une mauvaise estimation de l’incertitude de mesure par le participant. Les scores ζ fournissent donc
une évaluation rigoureuse du résultat complet soumis par le participant.
9.6.2 L’utilisation des scores ζ permet une évaluation directe de l’aptitude des laboratoires à fournir
des résultats corrects, c’est-à-dire des résultats conformes à xpt dans les limites de leurs incertitudes
de mesure. Les scores ζ peuvent être interprétés en utilisant les mêmes valeurs critiques 2,0 et 3,0 que
e
pour les scores z, ou avec des multiples issus du facteur d’élargissement du participant utilisé lors de
l’estimation de l’incertitude élargie. Toutefois, un score ζ défavorable peut indiquer un écart important
in
de xi par rapport à xpt, une sous-estimation de l’incertitude de la part du participant, ou une combinaison
des deux.
ca
NOTE Il peut être utile pour l’organisateur d’essais d’aptitude de donner des informations supplémentaires
sur la validité des incertitudes consignées. Des lignes directrices pour une telle évaluation sont proposées en 9.8.
o
9.6.3 Les scores ζ peuvent être utilisés conjointement avec les scores z, comme une aide pour
améliorer les performances des participants, comme expliqué ci-après. Si un participant obtient des
ar
scores z dépassant de manière répétitive la valeur critique 3,0, il peut trouver judicieux d’examiner sa
procédure d’essai, étape par étape, et d’en déduire une évaluation de l’incertitude pour cette procédure.
L’évaluation de l’incertitude permet d’identifier les étapes de la procédure où apparaissent les plus
m
grandes incertitudes, de sorte que le participant puisse voir où déployer des efforts pour obtenir des
améliorations. Si les scores ζ du participant dépassent aussi de manière répétitive la valeur critique 3,0,
cela implique que l’évaluation de l’incertitude du participant n’inclut pas toutes les sources d’incertitude
e
significatives (c’est-à-dire que des paramètres importants lui échappent). Inversement, si un participant
obtient de manière répétitive des scores z ≥ 3 mais des scores ζ < 2, cela démontre que le participant
rm
peut avoir évalué l’incertitude de ses résultats avec exactitude, mais que ses résultats n’atteignent pas
les performances attendues pour le programme d’essais d’aptitude. Cela peut être le cas, par exemple,
pour un participant qui utilise une méthode de détection alors que les autres participants appliquent
des méthodes quantitatives. Aucune action n’est nécessaire si le participant considère que l’incertitude
no
de l’adéquation à l’objectif peut être effectuée séparément (par exemple par le participant ou par un organisme
d’accréditation) en examinant l’écart x-xpt ou les incertitudes-types composées par rapport à une incertitude
cible.
9.7 Scores En
et
9.7.1 Les scores En peuvent être utiles lorsqu’un objectif du programme d’essais d’aptitude est
oj
d’évaluer l’aptitude d’un participant à obtenir des résultats proches de la valeur assignée dans les
limites de l’incertitude élargie revendiquée. Cette statistique est utilisée de manière conventionnelle
pour les essais d’aptitude dans le domaine de l’étalonnage, mais elle peut être utilisée pour d’autres
pr
Cette statistique de performance est calculée comme donné par la Formule (20):
x i − x pt
( E n )i = (20)
U ( xi ) + U
2 2
( x pt )
où
9.7.2 Il convient d’interpréter les scores En avec précaution parce qu’ils représentent des rapports de
deux mesures de performance séparées (mais liées). Le numérateur est l’écart du résultat par rapport à
e
la valeur assignée, et son interprétation est discutée en 9.3. Le dénominateur est une incertitude élargie
in
composée dont il convient qu’elle ne soit pas plus élevée que l’écart présent dans le numérateur, si le
participant a déterminé U(xi) correctement et si l’organisateur d’essais d’aptitude a déterminé U(xpt)
correctement. Par conséquent, les scores En ≥ 1,0 ou En ≤ −1,0 pourraient indiquer la nécessité de revoir
ca
les estimations d’incertitude ou de corriger un problème de mesure; de la même manière, il convient de
ne pas prendre −1,0 < En < 1,0 comme un indicateur de performance satisfaisante, sauf si les incertitudes
sont correctes et si l’écart-type xi-xpt est inférieur à la valeur requise par les clients du participant.
o
NOTE Bien que l’interprétation des scores En puisse être difficile, cela n’empêche pas leur utilisation.
L’intégration des informations sur l’incertitude dans l’interprétation des résultats d’essais d’aptitude peut jouer
ar
un rôle majeur dans l’amélioration de la compréhension de l’incertitude de mesure et de son évaluation par les
participants.
m
9.8 Évaluation des incertitudes d’essais des participants
9.8.1 Le recours croissant à l’ISO/IEC 17025 permet une meilleure compréhension de l’incertitude de
e
mesure. L’utilisation des évaluations d’incertitude en laboratoire pour l’évaluation des performances
est devenue courante dans les programmes d’essais d’aptitude pour différents domaines d’étalonnage,
rm
par exemple avec les scores En, mais elle ne l’est pas devenue dans les essais d’aptitude pour les
laboratoires d’essais. Les scores ζ décrits en 9.6 et les scores En décrits en 9.7 constituent des options
pour l’évaluation des résultats par rapport à l’incertitude revendiquée.
no
9.8.2 Certains organisateurs d’essais d’aptitude ont reconnu l’utilité de demander aux laboratoires
de fournir l’incertitude des résultats relatifs aux essais d’aptitude. Cela peut être utile, même lorsque
les incertitudes ne sont pas utilisées dans l’évaluation par scores. De telles informations peuvent être
collectées pour plusieurs raisons:
de
a) les organismes d’accréditation peuvent s’assurer que les participants fournissent des incertitudes
qui sont en cohérence avec leur portée d’accréditation;
b) les participants peuvent procéder à la revue de l’incertitude qu’ils ont consignée conjointement
et
avec celles d’autres participants, afin d’évaluer la cohérence (ou non) et de pouvoir ainsi déterminer
si leur évaluation de l’incertitude tient compte de toutes les composantes pertinentes ou si elle
surévalue certaines composantes;
oj
c) les essais d’aptitude peuvent être utilisés pour confirmer des incertitudes revendiquées et,
pour cela, le moyen le plus pratique est de consigner l’incertitude en même temps que le résultat.
pr
NOTE Un exemple d’analyse des données lorsque des incertitudes sont consignées est donné en E.4.
9.8.3 Lorsque xpt est déterminé en utilisant les procédures décrites en 7.3 à 7.6 et que u(xpt) répond
au critère spécifié en 9.2.1, il est alors peu probable que le résultat d’un participant soit associé à
une incertitude-type plus faible que celle-ci; de ce fait, u(xpt) pourrait être utilisée comme une limite
inférieure pour le contrôle, désignée par umin. Si la valeur assignée est déterminée à partir des résultats
des participants (7.7), il convient alors que l’organisateur d’essais d’aptitude détermine les limites de
contrôle pratiques pour umin.
NOTE Si u(xpt) comprend la variabilité due à la non-homogénéité ou à l’instabilité, la valeur u(xi) du
participant peut être inférieure à umin.
9.8.4 Il est également peu probable qu’une incertitude-type consignée par un participant soit
supérieure à 1,5 fois l’écart-type robuste des participants (1,5s*); de ce fait, elle pourrait être utilisée
comme une limite supérieure pratique pour le contrôle des incertitudes consignées, appelée umax.
NOTE 1 Le facteur 1,5 est la limite supérieure de la variabilité des écarts-types qui peut être attendue pour
un écart-type consensuel avec 10 résultats ou plus, basée sur la racine carrée des percentiles de la distribution F.
Un organisateur d’essais d’aptitude adoptant cette procédure peut utiliser un autre facteur.
NOTE 2 Des ratios supérieurs à 1,5 sont possibles lorsque les participants utilisent une grande variété de
méthodes.
e
9.8.5 Si umin ou umax, ou d’autres critères, sont utilisés pour identifier des incertitudes aberrantes,
in
il convient que l’organisateur d’essais d’aptitude explique cela aux participants et indique clairement
qu’une incertitude consignée, u(xi), peut être correcte même si elle est inférieure à umin ou supérieure à
umax; et lorsque cela se produit, il convient que les participants et les autres parties intéressées vérifient
ca
le résultat ou l’estimation de l’incertitude. De la même manière, une incertitude consignée peut être
supérieure à umin et inférieure à umax, tout en n’étant pas correcte. Il s’agit seulement d’indicateurs
informatifs.
o
9.8.6 Les organisateurs d’essais d’aptitude peuvent également attirer l’attention sur des incertitudes
ar
anormalement élevées ou faibles, basées par exemple sur:
— les quantiles spécifiés pour les incertitudes consignées (par exemple en dessous du 5e percentile et
m
au-dessus du 95e percentile des incertitudes-types ou élargies consignées);
— des limites basées sur une distribution prenant pour hypothèse une échelle basée sur la dispersion
des incertitudes consignées;
e
— une incertitude de mesure exigée.
rm
NOTE Comme une distribution des incertitudes selon une loi normale est peu probable, il est probable
qu’une transformation soit nécessaire lorsque les limites utilisées reposent sur une normalité approximative
ou sous-jacente; par exemple, les limites des moustaches, dans un tracé de type boîte à moustaches, basées sur
no
l’intervalle interquartile, ont une interprétation probabiliste uniquement lorsque la distribution suit une loi
approximativement normale.
9.9.1 Avec un programme d’essais d’aptitude à une seule campagne, il est courant d’obtenir des
résultats pour plusieurs entités soumises à l’essai d’aptitude ou pour plusieurs mesurandes. Dans cette
situation, il convient que les résultats relatifs à chaque entité soumise à l’essai d’aptitude et à chaque
mesurande soient interprétés comme décrit en 9.3 à 9.7, c’est-à-dire qu’il convient que les résultats
et
relatifs à chaque entité soumise à l’essai d’aptitude et à chaque mesurande soient évalués séparément.
9.9.2 Il existe des applications dans lesquelles deux entités, ou plus, soumises à l’essai d’aptitude
oj
avec des niveaux de conception particuliers sont incluses dans un programme d’essais d’aptitude
pour mesurer d’autres aspects de la performance, tels que l’évaluation de la répétabilité, de l’erreur
pr
systématique ou de la linéarité. Par exemple, il est permis d’utiliser, dans un programme d’essais
d’aptitude, deux entités similaires soumises à l’essai d’aptitude avec l’intention de les traiter avec un
graphique de Youden, comme décrit en 10.5. Dans de tels cas, il convient que l’organisateur d’essais
d’aptitude fournisse aux participants des descriptions complètes des procédures et du plan statistique
utilisés.
9.9.3 Il convient d’utiliser les méthodes graphiques décrites à l’Article 10 lorsque les résultats sont
obtenus pour plus d’une entité soumise à l’essai d’aptitude ou pour plusieurs mesurandes, sous réserve
qu’ils soient étroitement liés et/ou obtenus par la même méthode. Ces procédures combinent des scores
de performance de manière à ne pas dissimuler les valeurs élevées des scores individuels, et elles
peuvent révéler des informations supplémentaires sur les performances des participants - telles que
la corrélation entre les résultats pour différents mesurandes – qui n’apparaissent pas dans les tableaux
des scores individuels.
9.9.4 Dans les programmes d’essais d’aptitude impliquant un grand nombre de mesurandes, un
comptage ou une proportion du nombre de signaux d’action et d’avertissement peut être utilisé pour
évaluer la performance.
9.9.5 Il convient d’utiliser seulement avec précaution les scores composés de performance ou les
scores de récompense ou de pénalité, car il peut être difficile de décrire les hypothèses statistiques
e
sous-jacentes aux scores. Tandis que les scores composés de performance pour les résultats obtenus
sur différentes entités soumises à l’essai d’aptitude pour le même mesurande peuvent avoir les
in
distributions attendues et peuvent être utiles pour détecter un biais persistant, les scores moyennés
ou cumulés sur différents mesurandes sur la même entité soumise à l’essai d’aptitude ou sur différentes
ca
entités soumises à l’essai d’aptitude peuvent dissimuler un biais dans les résultats pour des mesurandes
uniques. La méthode de calcul, l’interprétation et les limites de tout score composé ou de pénalité utilisé
doivent donc être indiquées clairement aux participants.
o
10 Méthodes graphiques de description des scores de performance
ar
10.1 Application de méthodes graphiques
m
Il convient normalement que l’organisateur d’essais d’aptitude utilise les scores de performance
obtenus lors de chaque campagne d’un programme d’essais d’aptitude pour préparer des graphiques,
tels que ceux décrits en 10.2 et 10.3. L’utilisation de scores de performance, tels que des scores PA , z,
z’, ζ, ou En dans ces graphiques a pour avantage que ces scores peuvent être représentés à l’aide d’axes
e
normalisés, ce qui simplifie leur présentation et leur interprétation. Il convient que les graphiques soient
rm
mis à la disposition des participants, permettant à chacun d’entre eux de voir où se situent ses propres
résultats par rapport à ceux obtenus par les autres participants. Des lettres ou des chiffres peuvent être
utilisés comme codes pour désigner les participants afin que chacun d’entre eux puisse reconnaître
ses propres résultats sans pouvoir identifier ceux des autres. Les graphiques peuvent également être
no
utilisés par l’organisateur d’essais d’aptitude et par tout organisme d’accréditation pour leur permettre
de juger l’efficacité globale du programme d’essais d’aptitude et de voir s’il est nécessaire de revoir les
critères utilisés pour évaluer les performances.
NOTE Les paragraphes suivants donnent une liste non exhaustive des techniques graphiques sélectionnées
de
qui se sont avérées utiles dans les exercices d’essais d’aptitude. D’autres méthodes graphiques peuvent être
utiles, y compris les graphiques de type boîte à moustaches et les tracés des résultats des participants par
rapport à l’incertitude consignée. Les graphiques de type boîte à moustaches sont décrits, par exemple, dans
l’ISO 16269-4[38]. Une représentation graphique utile des résultats des participants et des incertitudes est décrite
dans la Référence [39].
et
10.2.1 L’histogramme est un outil statistique courant qui est utile en deux différents moments de
l’analyse des résultats d’essais d’aptitude. Le graphique est utile lors de l’étape d’analyse préliminaire
pr
pour vérifier si les hypothèses statistiques sont raisonnables, ou s’il y a une anomalie – telle qu’une
distribution bimodale, une grande proportion de valeurs aberrantes, ou une asymétrie inhabituelle qui
n’avait pas été prévue.
Les histogrammes peuvent également être utiles dans les rapports relatifs au programme d’essais
d’aptitude pour décrire les scores de performance ou pour comparer les résultats, par exemple, sur
des méthodes différentes ou sur des entités différentes soumises à l’essai d’aptitude. Les histogrammes
sont notamment utiles dans les rapports individuels concernant des programmes d’essais d’aptitude de
taille réduite ou moyenne (moins de 100 participants) pour permettre aux participants d’évaluer leurs
performances par rapport à celles d’autres participants, par exemple, en mettant en évidence un bloc
dans une barre verticale pour représenter le résultat d’un participant ou, dans des petits programmes
d’essais d’aptitude (moins de 50 participants), en utilisant des caractères individualisés pour chaque
participant.
10.2.2 Les histogrammes peuvent être élaborés à l’aide des résultats ou des scores de performance
réels des participants. Les résultats des participants ont l’avantage d’être directement liés aux données
soumises et de pouvoir être évalués sans autre calcul ni transformation inverse, du score de performance
jusqu’à l’erreur de mesure. Les histogrammes basés sur les scores de performance ont l’avantage de
relier directement les évaluations de performances et de pouvoir être facilement comparés entre les
mesurandes et entre les campagnes d’un programme d’essais d’aptitude.
e
Il convient de déterminer l’étendue et la taille des barres d’un histogramme pour chaque ensemble de
in
données, sur la base de la variabilité et du nombre de résultats. Il est souvent possible de faire cela
en se basant sur l’expérience acquise dans le domaine des essais d’aptitude, mais dans la plupart des
situations, les regroupements doivent être ajustés après la première revue. Si les scores de performance
ca
sont utilisés dans l’histogramme, il est utile d’avoir une échelle basée sur l’écart-type pour l’évaluation
de l’aptitude et des seuils pour les signaux d’avertissement et d’action.
o
10.2.3 Il convient de choisir l’échelle et les intervalles graphiques de manière à pouvoir détecter
une bimodalité (le cas échéant), sans générer de faux signaux d’avertissement dus à la résolution des
ar
résultats de mesure ou à un petit nombre de résultats.
NOTE 1 L’aspect des histogrammes est sensible à la largeur de barre choisie et à l’emplacement des limites des
m
barres (pour une largeur de barre constante, celui-ci dépend largement du point de départ). Si la largeur de barre
est trop petite, le graphique montrera un grand nombre de petits modes; des modes trop grands et notables à
proximité de la masse principale sont susceptibles de ne pas être suffisamment distincts. L’aspect des modes
étroits et les hauteurs relatives des barres adjacentes peuvent varier de façon notable en cas de changement de la
e
position de départ ou de la largeur de barre, en particulier lorsque l’ensemble de données est petit et/ou présente
des grappes.
rm
10.3.1 Un diagramme de densité par la méthode du noyau, souvent désigné de façon abrégée par
«diagramme de densité», fournit une courbe lisse décrivant la forme générale de la distribution d’un
ensemble de données. L’idée sous-jacente à l’estimation par noyau est que chaque point de données est
remplacé par une distribution spécifiée (suivant généralement une loi normale), centrée sur le point
de
et ayant un écart-type σk; σk est généralement appelé la «largeur de bande». Ces distributions sont
additionnées et la distribution ainsi obtenue, mise à l’échelle pour avoir une aire unitaire, donne une
«estimation de densité» qui peut être tracée sous forme d’une courbe lisse.
et
10.3.2 Il est permis de suivre les étapes suivantes pour préparer un diagramme de densité par la
méthode du noyau. Il est présumé qu’un ensemble de données X constitué de p valeurs x1, x2, ..., xp doit
être inclus dans le diagramme. Il s’agit généralement de résultats de participants, mais il peut aussi
oj
i) choisir une largeur de bande appropriée σk . Deux options sont particulièrement utiles:
pr
a) pour un contrôle général, définir σk = 0,9 s*/p0,2, où s* est un écart-type robuste des valeurs x1,
..., xp calculé selon les procédures décrites en C.2 ou C.3;
b) pour examiner l’ensemble de données pour les modes bruts qui sont importants comparé au
critère d’évaluation des performances, définir σk = 0,75σpt en cas d’utilisation des scores z ou ζ,
ou σk = 0,25δE en cas d’utilisation de D ou D%;
NOTE 1 L’option a) ci-dessus est conforme à Silverman[30] qui recommande de baser s* sur
l’intervalle interquartile normalisé (nIQR). Les autres règles de sélection de la largeur de bande
donnant des résultats similaires comprennent celles de Scott[29], qui remplace le facteur de 0,9 par 1,06.
La Référence [29] décrit une méthode quasi optimale, mais beaucoup plus complexe, de sélection de la
largeur de bande. Dans la pratique, les différences pour un examen visuel sont légères et le choix dépend
de la disponibilité d’un logiciel.
ii) soit une étendue de mesurage qmin à qmax telle que qmin ≤ min(x1, ... xp) - 3σk et
qmax ≥ max( x1, ... xp ) + 3σk;
e
iii) choisir un nombre de points nk pour la courbe tracée. nk = 200 est généralement suffisant,
in
sauf lorsque des valeurs aberrantes extrêmes se situent dans l’étendue du diagramme;
iv) calculer les positions de traçage q1 à qnk comme donné par la Formule (21):
ca
qi = qmin + ( i − 1)
(qnk − q1 ) (21)
nk − 1
o
v) calculer nk densités h1 à hnk comme donné par la Formule (22):
ar
x − q
1 p j i
hi =
p
∑ ϕ
j =1 σ
pour i = 1 à i = nk m (22)
k
NOTE 1 Une courbe de densité s’étend généralement au-delà de l’étendue des données; l’étendue de mesurage
q1 à qnk est généralement choisie comme étant d’au moins 3σk au-delà des extrêmes de l’ensemble de données.
Dans les cas où celle-ci s’étend au-delà de la plage réalisable pour les données (par exemple en dessous de zéro),
le tracé peut si nécessaire être tronqué à la limite de la plage possible, afin d’éviter toute mauvaise interprétation.
no
NOTE 2 Il peut être utile d’ajouter au diagramme les positions des données individuelles. Pour cela, on reporte
le plus souvent les positions au-dessous de la courbe de densité tracée sous forme de petits repères verticaux
(parfois appelés «tapis »), mais il est également possible de placer les données sur les points appropriés le long de
la courbe de densité calculée.
de
NOTE 3 Les diagrammes de densité sont mieux réalisés à l’aide d’un logiciel. Le calcul pas-à-pas décrit ci-
dessus peut être effectué à l’aide d’une feuille de calcul pour des ensembles de données ayant un effectif modeste.
Un logiciel statistique propriétaire et librement disponible contient souvent des diagrammes de densité basés
sur des choix par défaut similaires de la largeur de bande. Les applications logicielles avancées des diagrammes
et
de densité peuvent utiliser cet algorithme ou des calculs plus rapides basés sur des méthodes de convolution.
NOTE 4 Des exemples de diagrammes de densité par la méthode du noyau sont donnés en E.3, E.4 et E.6.
oj
10.3.3 La forme de la courbe est considérée comme une indication de la distribution d’où sont tirées
les données. Des modes distincts apparaissent sous forme de pics séparés. Les valeurs aberrantes
pr
apparaissent sous forme de pics bien séparés de la masse principale des données.
NOTE 1 Un diagramme de densité est sensible à la largeur de bande σk choisie. Si la largeur de bande est trop
petite, le diagramme montrera un grand nombre de petits modes; des modes trop grands et notables à proximité
de la masse principale sont susceptibles de ne pas être suffisamment distincts.
NOTE 2 Comme les histogrammes, les diagrammes de densité sont plus utiles avec des ensembles de données
d’effectif moyen à élevé parce que les petits ensembles de données (ayant un effectif inférieur ou égal à dix)
peuvent par hasard contenir des valeurs aberrantes moyennes ou des modes apparents, en particulier lorsqu’un
écart-type robuste est utilisé comme base pour la largeur de bande.
10.4.1 Le diagramme en bâtons est une méthode appropriée de présentation des scores de performance
pour un certain nombre de caractéristiques semblables sur un même graphique. Ce type de diagramme
révèle la présence de toute caractéristique commune dans les scores d’un participant, par exemple si
un participant enregistre plusieurs scores z élevés, indiquant généralement de faibles performances, le
participant en question peut avoir un biais positif.
10.4.2 Pour préparer un diagramme en bâtons, rassembler les scores de performance normalisés,
e
comme indiqué à la Figure E.10, sur un diagramme regroupant les scores de chaque participant. D’autres
scores de performance normalisés, tels que D% ou PA , peuvent être reportés sur un diagramme dans le
in
même but.
ca
10.4.3 Lorsque des déterminations répétées sont effectuées pendant une campagne d’un programme
d’essais d’aptitude, les résultats peuvent être utilisés pour établir un graphique de mesures de fidélité;
par exemple, la statistique k telle que décrite dans l’ISO 5725-2, ou une mesure associée mise à l’échelle
par rapport à l’écart-type moyen robuste tel que celui défini dans l’Algorithme S (voir C.4).
o
NOTE 1 Un diagramme à barres ou un autre tracé des scores de performance par ordre de score croissant
ar
peut aider les participants à comparer rapidement leurs performances par rapport à la majorité des autres
participants.
NOTE 2
d’essais d’aptitude, le graphique de Youden fournit une méthode graphique très instructive pour
étudier les résultats. Ce graphique peut être utile pour démontrer la corrélation (ou l’indépendance)
des résultats sur différentes entités soumises à l’essai d’aptitude et pour identifier les raisons qui ont
conduit à la génération de signaux d’action.
no
10.5.2 Le graphique est construit en traçant les résultats des participants, ou les scores z, obtenus
sur l’une des entités soumises à l’essai d’aptitude par rapport à ceux obtenus sur l’autre entité soumise
à l’essai d’aptitude. Des lignes verticales et des lignes horizontales sont en général tracées pour créer
de
quatre carrés de valeurs, destinés à faciliter l’interprétation du graphique. Les lignes tracées passent
par les valeurs assignées ou par les médianes pour les deux distributions de résultats, ou passent par
l’origine si des scores z sont reportés.
NOTE Pour une interprétation appropriée des graphiques de Youden, il est important que les deux entités
et
soumises à l’essai d’aptitude aient des niveaux similaires (ou identiques) à ceux du mesurande, de sorte que la
nature de toute erreur de mesure systématique soit la même dans la zone concernée de l’intervalle de mesure.
Les graphiques de Youden peuvent être utiles pour des niveaux très différents d’un mesurande en présence d’une
oj
erreur systématique cohérente, mais ils peuvent être trompeurs si une erreur d’étalonnage n’est pas positive ou
négative de manière cohérente sur toute la gamme de niveaux du mesurande.
pr
10.5.3 Lorsqu’un graphique de Youden est construit, son interprétation se déroule comme suit:
a) vérifier les points qui sont bien séparés du reste des données. Si un participant ne suit pas la
méthode d’essai correctement, si bien que ses résultats entraînent une erreur systématique, alors
un point se situera très loin dans le carré inférieur gauche ou le carré supérieur droit. Les points
situés loin des autres dans le carré supérieur gauche et le carré inférieur droit représentent des
participants dont la répétabilité est plus grande que celle de la plupart des autres participants, dont
les méthodes de mesure présentent une sensibilité différente à la composition de l’entité soumise à
l’essai d’aptitude ou, parfois, des participants ayant accidentellement échangé les entités soumises
à l’essai d’aptitude;
b) vérifier s’il est prouvé qu’il existe une relation générale entre les résultats relatifs aux deux entités
soumises à l’essai d’aptitude (par exemple s’ils se situent approximativement le long d’une ligne
oblique). S’il est prouvé qu’il existe une relation, cela prouve qu’il existe un biais du participant qui
affecte de la même manière les différentes entités soumises à l’essai d’aptitude. S’il n’y a aucune
relation visuelle apparente entre les résultats (par exemple les points sont distribués de façon
approximativement uniforme dans une zone circulaire, généralement avec une plus forte densité
vers le centre), les erreurs de mesure pour les deux entités soumises à l’essai d’aptitude sont alors
largement indépendantes. Si l’examen visuel n’est pas concluant, cela peut être vérifié à l’aide d’une
statistique de corrélation de rangs;
e
c) rechercher dans le graphique des groupes de participants proches, le long des diagonales ou ailleurs.
Des groupes nets sont susceptibles d’indiquer des différences entre des méthodes différentes.
in
NOTE 1 Dans les études où tous les participants utilisent la même méthode de mesure, ou bien où les
graphiques de résultats sont obtenus à partir d’une seule méthode de mesure, si les résultats se situent le long
ca
d’une ligne, cela peut prouver que la méthode de mesure n’a pas été spécifiée de manière adéquate. Un examen
approfondi de la méthode d’essai peut alors permettre d’améliorer de manière globale la reproductibilité de la
méthode.
o
NOTE 2 Un exemple de graphique de Youden est donné en E.12.
ar
NOTE 3 Une méthode générale de construction des ellipses de confiance qui peut être utilisée pour faciliter
l’interprétation d’un graphique de Youden est fournie dans la Référence [36]. Les estimateurs du coefficient de
corrélation et de covariance résistants aux valeurs aberrantes pour les ellipses de confiance, en présence de
m
valeurs aberrantes, sont abordés et comparés dans la Référence [40].
programme d’essais d’aptitude, les résultats peuvent être utilisés pour générer un graphique afin
d’identifier les participants dont la moyenne et l’écart-type sont inhabituels.
par rapport à la moyenne correspondante xi pour le même participant. En variante, l’étendue des
résultats répétés peut être utilisée à la place de l’écart-type. Si:
x* = la moyenne robuste de x1, x2, ..., xp, telle que calculée par l’Algorithme A;
de
w* = la moyenne combinée robuste de s1, s2, ..., sp, telle que calculée par l’Algorithme S;
et
oj
pr
et si l’on prend pour hypothèse que les données sont distribuées selon une loi normale. Sous l’hypothèse
nulle, il n’y a pas de différence entre les participants ni pour les moyennes, ni pour les écarts-types
intraparticipants; la statistique:
2 s
2
x i − x ∗
m + 2 (m − 1) ln i (23)
w ∗ w ∗
suit approximativement une distribution χ2 avec deux degrés de liberté. Par conséquent, une zone
critique avec un niveau de signification d’environ 1 % peut donc être dessinée sur le graphique,
e
en traçant:
in
2
∗
∗ 1 x − x
s = w exp ± χ 2;0,99 − m
2
(24)
ca
∗
2 (m − 1) w
sur l’axe de l’écart-type par rapport à x sur l’axe de la moyenne pour:
o
χ 22;0,99 χ 22;0,99
ar
∗ ∗ ∗ ∗
x = x −w à x +w (25)
m m
NOTE
m
Cette procédure est fondée sur la technique du cercle introduite par van Nuland[36]. La méthode
décrite utilisait une approximation simple par une loi normale de la distribution de l’écart-type qui peut donner
une zone critique contenant des écarts-types négatifs. La méthode indiquée ici utilise une approximation pour
la distribution de l’écart-type évitant ce problème, mais la zone critique n’est pas un cercle comme à l’origine.
e
De plus, des valeurs robustes sont utilisées pour le point central à la place de simples moyennes comme dans la
méthode d’origine.
rm
10.6.3 Le graphique peut révéler les participants ayant un biais qui est généralement important,
compte tenu de leur répétabilité. S’il y a un grand nombre de répétitions, cette technique peut
également identifier les participants présentant une répétabilité exceptionnellement faible. Toutefois,
no
10.7.1 Des échantillons fractionnés sont utilisés lorsqu’il est nécessaire d’effectuer une comparaison
détaillée entre deux participants, ou lorsque des essais d’aptitude ne sont pas disponibles et qu’une
vérification externe est nécessaire. Des échantillons de plusieurs matériaux sont obtenus, représentant
et
un large domaine de niveaux de la propriété étudiée. Chaque échantillon est fractionné en deux parties
et chaque laboratoire réalise un certain nombre (au moins deux) de mesures répétées sur une partie de
chaque échantillon.
oj
Lorsque plus de deux participants sont impliqués, il convient que l’un d’entre eux soit traité comme le
participant de référence auquel sont comparés les autres à l’aide des techniques décrites ici.
pr
NOTE 1 Ce type d’étude est courant, mais souvent désigné différemment, par exemple «échantillons appariés»
ou «comparaisons bilatérales».
NOTE 2 Ce plan à échantillons fractionnés ne doit pas être confondu avec le plan à «deux niveaux» utilisé
dans l’ISO 5725, qui implique de fournir à tous les participants deux entités soumises à l’essai ayant des niveaux
légèrement différents.
10.7.2 Les données d’un plan à échantillons fractionnés peuvent être utilisées pour générer des
graphiques affichant la variation entre les mesures répétées pour les deux participants, ainsi que la
différence entre les moyennes des résultats de ces participants pour chaque entité soumise à l’essai
d’aptitude. Les graphiques à deux variables, utilisant la gamme complète de concentrations, peuvent
avoir une échelle qui rend difficile l’identification de différences importantes entre participants; de ce
fait, des graphiques des différences ou des différences en pourcentage entre les résultats fournis par les
deux participants peuvent s’avérer plus utiles. L’analyse est poursuivie en fonction de l’analyse de ces
graphiques.
10.8.1 Lorsque des scores normalisés doivent être combinés sur plusieurs campagnes d’un programme
e
d’essais d’aptitude, l’organisateur d’essais d’aptitude peut envisager la préparation de graphiques comme
décrit en 10.8.2 ou en 10.8.3. L’utilisation de ces graphiques, dans lesquels les scores de performance de
in
plusieurs campagnes d’un programme d’essais d’aptitude sont combinés, peut permettre d’identifier
des tendances et d’autres caractéristiques des résultats qui ne sont pas visibles quand les scores de
ca
performance de chaque campagne sont examinés séparément.
NOTE En cas d’utilisation des «scores provisoires» ou des «scores cumulés» combinant les scores de
performance obtenus par un participant sur plusieurs campagnes d’un programme d’essais d’aptitude,
o
la représentation graphique des scores de performance peut en faciliter l’interprétation. Le participant peut
présenter une anomalie sur une entité soumise à l’essai d’aptitude lors d’une campagne, mais pas dans les autres;
ar
un score provisoire risque de cacher cette anomalie. Toutefois, dans certaines circonstances (par exemple en cas
de campagnes fréquentes), un «lissage» des scores aberrants occasionnels peut être utile pour démontrer plus
clairement la performance sous-jacente.
m
10.8.2 La carte de contrôle de Shewhart est une méthode efficace pour identifier les problèmes
générant de grandes valeurs irrégulières des scores z. Voir l’ISO 7870-2[6] pour des conseils sur
l’établissement de cartes de contrôle de Shewhart et pour les règles relatives aux limites d’action.
e
10.8.2.1 Pour préparer cette carte, les scores normalisés, tels que les scores z ou les scores PA , d’un
rm
participant sont tracés comme des points individuels, avec les limites d’action et d’avertissement
définies en cohérence avec le plan du programme d’essais d’aptitude. Lorsque plusieurs caractéristiques
sont mesurées lors de chaque campagne de programme d’essais d’aptitude, les scores de performance
no
des différentes caractéristiques peuvent être reportés sur le même graphique, mais il convient que les
points de ces différentes caractéristiques soient reportés en utilisant des symboles graphiques distincts
et/ou des couleurs différentes. Lorsque plusieurs entités soumises à l’essai d’aptitude sont incluses dans
la même campagne du programme d’essais d’aptitude, les scores de performance peuvent être reportés
sur le graphique avec de multiples points à chaque période. Les lignes joignant les scores moyens à
de
10.8.2.2 Selon les règles classiques d’interprétation de la carte de contrôle de Shewhart, un signal hors
de contrôle est donné quand:
et
a) un seul point tombe en dehors des limites d’action (±3,0 pour les scores z ou 100 % pour PA);
b) deux points successifs sur trois se situent en dehors d’une limite d’avertissement (±2,0 pour les
oj
10.8.2.3 Lorsqu’une carte de contrôle de Shewhart donne un signal hors de contrôle, il convient que le
participant en recherche les causes possibles.
NOTE Dans la mesure où l’écart-type pour l’évaluation de l’aptitude σpt n’est généralement pas l’écart-type
des différences (xi − xpt), il est possible que les niveaux de probabilité généralement associés aux limites d’action
et d’avertissement d’une carte de contrôle de Shewhart ne s’appliquent pas toujours.
10.8.3 Lorsque le niveau d’une propriété varie d’une campagne de programme d’essais d’aptitude à
une autre, les graphiques des scores de performance normalisés, tels que les scores z et PA , par rapport
à la valeur assignée indiquent si le biais du participant varie avec le niveau. Si au moins deux entités
soumises à l’essai d’aptitude sont incluses dans la même campagne de programme d’essais d’aptitude,
les scores de performance peuvent tous être tracés séparément.
NOTE 1 Il peut être utile d’avoir un symbole graphique différent ou une couleur différente pour représenter
les résultats obtenus lors de la campagne actuelle de programme d’essais d’aptitude afin de les distinguer du ou
des points issus de campagnes précédentes.
NOTE 2 Un exemple de graphique de ce type, utilisant des scores PA , est donné en E.14. Ce graphique pourrait
facilement utiliser des scores z, en changeant uniquement l’échelle verticale.
e
11 Plan et analyse de programmes d’essais d’aptitude qualitatifs (y compris les
in
propriétés nominales et ordinales)
ca
Un nombre important d’essais d’aptitude sont effectués pour des propriétés mesurées ou identifiées sur
des échelles qualitatives. Cela comprend les programmes suivants:
o
— programmes d’essais d’aptitude nécessitant une consignation sur une échelle catégorielle (parfois
ar
appelée «nominale »), où la valeur de la propriété n’a pas d’ordre de grandeur (par exemple, un type
de substance ou d’organisme);
m
— programmes d’essais d’aptitude concernant la présence ou l’absence d’une propriété, qu’elle soit
déterminée par des critères subjectifs ou par l’ordre de grandeur d’un signal obtenu à partir d’une
procédure de mesure. Cela peut être considéré comme un cas particulier d’échelle catégorielle ou
ordinale, avec seulement deux valeurs (également appelée «dichotomique» ou «binaire »);
e
— programmes d’essais d’aptitude nécessitant de reporter les résultats sur une échelle ordinale, ces
rm
résultats pouvant être ordonnés en fonction de leur grandeur mais pour lesquels il n’existe aucune
relation arithmétique entre les différents résultats. Par exemple, «élevé», «moyen» et «faible»
forment une échelle ordinale.
no
Les programmes d’essais d’aptitude de ce type nécessitent de porter une attention particulière aux
étapes de planification, d’attribution de valeurs et d’évaluation des performances (par scores), car:
— les valeurs assignées sont très souvent basées sur un avis d’expert; et
— le traitement statistique prévu pour les données à valeur continue et les données de comptage ne
de
s’applique pas aux données qualitatives. Par exemple, il n’est pas utile de calculer les moyennes et les
écarts-types des résultats sur une échelle ordinale, même lorsqu’ils peuvent être classés par ordre.
En conséquence, les paragraphes suivants fournissent des recommandations relatives à la planification,
et
NOTE Les recommandations relatives aux données ordinales ne s’appliquent pas aux résultats de mesure
basés sur une échelle quantitative avec des indications discontinues (telles que les dilutions ou les titres);
voir 5.2.2.
pr
11.2.1 Pour les programmes d’essais d’aptitude dans lesquels l’avis d’un expert est essentiel pour
l’attribution d’une valeur ou pour l’évaluation des rapports des participants, il est normalement
nécessaire de constituer un panel d’experts dûment qualifiés et de prévoir un temps de débat suffisant
pour atteindre un consensus sur l’attribution de valeur appropriée. Lorsqu’il est nécessaire de faire
appel à des experts individuels pour l’évaluation par scores ou l’attribution de valeurs, il convient que
l’organisateur d’essais d’aptitude prévoie également l’évaluation et le contrôle de la cohérence des avis
des différents experts.
EXEMPLE Dans un programme d’essais d’aptitude clinique reposant sur la microscopie pour le diagnostic,
un avis d’expert est utilisé pour évaluer les lamelles fournies aux participants et pour donner un diagnostic
clinique approprié pour les entités soumises à l’essai d’aptitude. L’organisateur d’essais d’aptitude peut choisir
de transmettre les entités soumises à l’essai d’aptitude «en aveugle» aux différents membres du panel d’experts
pour assurer la cohérence du diagnostic, ou de réaliser des exercices périodiques pour évaluer la concordance au
sein du panel.
11.2.2 Pour des programmes d’essais d’aptitude qui consignent des résultats catégoriels ou ordinaux
simples à valeur unique, il convient que l’organisateur d’essais d’aptitude envisage de:
e
— fournir au moins deux entités soumises à l’essai d’aptitude pour chaque campagne; ou
in
— demander les résultats du nombre d’observations répétées sur chaque entité soumise à l’essai
d’aptitude, en spécifiant à l’avance le nombre de répétitions.
ca
L’une ou l’autre de ces stratégies permet d’obtenir des décomptes de résultats pour chaque participant,
pouvant être utilisés pour la revue des données ou pour l’évaluation par scores. La fourniture d’au moins
deux entités soumises à l’essai d’aptitude peut permettre d’obtenir des informations supplémentaires
o
sur la nature des erreurs et permet également une évaluation par scores plus sophistiquée des
performances des essais d’aptitude.
ar
EXEMPLE 1 Dans un programme d’essais d’aptitude destiné à rapporter la présence ou l’absence d’un polluant,
la fourniture d’entités soumises à l’essai d’aptitude contenant une gamme de concentrations du polluant permet
à l’organisateur d’essais d’aptitude d’examiner le nombre de détections positives à chaque niveau en fonction
m
de la concentration de polluant présente. Cela peut être utilisé, par exemple, pour fournir des informations aux
participants sur la capacité de détection de la méthode d’essai qu’ils ont choisie, ou d’obtenir une probabilité
moyenne de détection qui peut à son tour permettre d’attribuer des scores de performance aux participants sur
la base des probabilités estimées de formes particulières de réponse.
e
EXEMPLE 2 Les essais d’aptitude en comparaisons médicolégales exigent souvent d’apparier les entités
rm
soumises à l’essai d’aptitude selon qu’elles proviennent de la même source ou de sources différentes (par exemple
empreintes digitales, ADN, douilles, traces de pas, etc.). Dans de nombreux cas, «indéterminé» est une réponse
admise. Un programme d’essais d’aptitude est susceptible d’inclure plusieurs entités soumises à l’essai d’aptitude
provenant de différentes sources, et il est demandé aux participants de déterminer pour chaque paire si elles
no
proviennent de la «même source», de «sources différentes» ou si elles sont «indéterminées». On obtient ainsi des
scores objectifs du nombre (ou %) de réponses correctes ou incorrectes, ou du nombre (ou %) de correspondances
correctes ou de rejets corrects. Des critères de performance peuvent ensuite être déterminés en ce qui concerne
l’aptitude à l’emploi ou le degré de difficulté de la procédure d’identification.
de
11.2.3 Il convient de démontrer l’homogénéité par une revue d’un échantillon approprié d’entités
soumises à l’essai d’aptitude, dont il convient qu’elles présentent toutes la valeur attendue de la propriété.
Pour certaines propriétés qualitatives, par exemple présence ou absence, il se peut qu’il soit possible de
vérifier l’homogénéité par des mesures quantitatives; par exemple, une numération microbiologique ou
une absorbance spectrale supérieure à un seuil. Dans ces situations, un test classique d’homogénéité
et
peut être approprié, ou une démonstration que tous les résultats se situent au-dessus ou en dessous
d’une valeur seuil.
oj
11.3.1 Des valeurs peuvent être attribuées aux entités soumises à l’essai d’aptitude:
Toute autre méthode d’attribution de valeurs s’avérant fournir des résultats fiables peut également être
utilisée. Les paragraphes suivants étudient chacune des stratégies indiquées ci-dessus.
NOTE Il n’est généralement pas approprié de fournir des informations quantitatives sur l’incertitude de la
valeur assignée dans les programmes d’essais d’aptitude qualitatifs. Néanmoins, chacun des paragraphes 11.3.2
à 11.3.5 nécessite la fourniture d’informations fondamentales concernant la confiance dans la valeur assignée, de
sorte que les participants puissent juger si un mauvais résultat peut raisonnablement être attribué à une erreur
dans l’attribution de la valeur.
11.3.2 Il convient normalement que les valeurs attribuées sur avis d’expert soient fondées sur le
e
consensus d’un panel d’experts dûment qualifiés. Il convient de consigner dans le rapport relatif à la
campagne de programme d’essais d’aptitude tout désaccord important au sein du panel. Si le panel ne
in
peut parvenir à un consensus pour une entité particulière soumise à l’essai d’aptitude, l’organisateur
d’essais d’aptitude peut envisager une autre méthode d’attribution de la valeur parmi celles énumérées
ca
en 11.3.1. Si cela n’est pas approprié, il convient de ne pas utiliser l’entité soumise à l’essai d’aptitude
pour l’évaluation des performances des participants.
NOTE Dans certains cas, il est possible qu’un expert unique détermine la valeur assignée.
o
11.3.3 Lorsqu’un matériau de référence est fourni aux participants en tant qu’entité soumise à l’essai
ar
d’aptitude, il convient normalement d’utiliser la valeur certifiée ou la valeur de référence associée
comme valeur assignée pour la campagne de programme d’essais d’aptitude. Après la campagne, il
convient de mettre à la disposition des participants toute information succincte fournie avec le matériau
NOTE
m
de référence et se rapportant à la confiance dans la valeur assignée.
Les limites de cette méthode sont énumérées en 7.4.1.
e
11.3.4 Lorsque les entités soumises à l’essai d’aptitude sont préparées à partir d’une source
rm
connue, la valeur assignée peut être déterminée en se fondant sur l’origine du matériau. Il convient
que l’organisateur d’essais d’aptitude conserve des enregistrements de l’origine, du transport et du
traitement du ou des matériaux utilisés. Des précautions particulières doivent être prises pour éviter
toute contamination pouvant aboutir à l’obtention de résultats incorrects par les participants. Après
no
la campagne, il convient de mettre à la disposition des participants les preuves de l’origine et/ou le
détail de la préparation, sur demande ou dans le cadre du rapport relatif à la campagne de programme
d’essais d’aptitude.
EXEMPLE Des entités soumises à l’essai d’aptitude d’un vin, mises en circulation pour un programme
de
d’essais d’aptitude relatif à l’authenticité, pourraient être fournies directement par un producteur approprié
dans la région d’origine désignée, ou par le biais d’un grossiste en mesure de fournir une garantie d’authenticité.
11.3.4.1 Des tests de confirmation ou des mesurages sont recommandés, si possible, en particulier
lorsqu’une contamination peut compromettre l’utilisation en tant qu’entité soumise à l’essai d’aptitude.
et
Par exemple, il convient normalement de soumettre à essai la réponse d’une entité soumise à l’essai
d’aptitude identifiée comme un exemple représentatif d’une espèce microbienne, végétale ou animale
unique à des tests pour d’autres espèces pertinentes. Il convient que ces tests soient aussi sensibles que
oj
possible pour s’assurer que les espèces contaminantes sont absentes ou que le niveau de contamination
est quantifié.
pr
11.3.4.2 Il convient que l’organisateur d’essais d’aptitude fournisse des informations sur toute
contamination détectée ou les doutes concernant l’origine, susceptibles de compromettre l’utilisation
de l’entité soumise à l’essai d’aptitude.
NOTE Des détails supplémentaires concernant la caractérisation de ces entités soumises à l’essai d’aptitude
ne relèvent pas du domaine d’application du présent document.
11.3.5 Le mode (observation la plus courante) peut être utilisé comme valeur assignée pour les
résultats sur une échelle catégorielle ou ordinale, alors que la médiane peut être utilisée comme valeur
assignée pour les résultats sur une échelle ordinale. Lorsque ces statistiques sont utilisées, il convient
que le rapport relatif à la campagne de programme d’essais d’aptitude contienne une déclaration de
la proportion des résultats utilisés pour l’attribution de la valeur qui correspond à la valeur assignée.
Il n’est jamais approprié de calculer des moyennes ou des écarts-types pour des résultats d’essais
d’aptitude relatifs à des propriétés qualitatives, y compris des valeurs ordinales. La raison à cela est
qu’il n’existe aucune relation arithmétique entre les différentes valeurs sur chaque échelle.
11.3.6 Lorsque les valeurs assignées sont basées sur des mesures (par exemple, présence ou absence),
la valeur assignée peut généralement être déterminée de façon définitive, c’est-à-dire avec une faible
incertitude. Les calculs statistiques relatifs à l’incertitude peuvent être appropriés pour des niveaux
e
«indéterminés» ou «équivoques» du mesurande.
in
11.4 Évaluation des performances et attribution de scores pour les programmes d’essais
d’aptitude qualitatifs
ca
11.4.1 L’évaluation des performances des participants à un programme d’essais d’aptitude qualitatif
dépend en partie de la nature du rapport requis. Dans certains programmes d’essais d’aptitude, où
o
une quantité importante d’évaluation des participants est requise et où les conclusions exigent une
attention et une formulation particulières, les rapports des participants peuvent être transmis aux
ar
experts pour estimation et peuvent se voir attribuer une note globale. À l’autre extrême, les participants
peuvent être jugés uniquement sur le fait que leur résultat coïncide exactement ou non avec la valeur
assignée pour l’entité soumise à l’essai d’aptitude pertinente. En conséquence, les paragraphes suivants
m
fournissent des recommandations relatives à l’évaluation des performances et l’attribution de scores
dans différentes circonstances.
11.4.2 L’évaluation d’expert des rapports des participants nécessite qu’un ou plusieurs experts
e
individuels procèdent à la revue de chaque rapport des participants pour chaque entité soumise à l’essai
d’aptitude, et qu’ils attribuent une note ou un score de performance. Dans un tel programme d’essais
rm
— le participant n’est pas connu de l’expert. En particulier, il convient que le rapport transmis à
l’expert ou aux experts ne contienne aucune information permettant raisonnablement d’identifier
no
le participant;
— la revue, la notation et l’évaluation des performances suivent un ensemble de critères préalablement
convenus et aussi objectifs que raisonnablement possible;
de
11.4.3 Deux systèmes peuvent être utilisés pour l’attribution d’un score à un résultat qualitatif unique
consigné par rapport à une valeur assignée:
oj
a) chaque résultat est noté comme acceptable (ou évalué comme un succès) s’il correspond exactement
à la valeur assignée et, sinon, est noté comme inacceptable ou reçoit un score de performance
pr
défavorable;
EXEMPLE Dans un programme d'essais d'aptitude visant à déterminer la présence ou l’absence d’un
contaminant, un score de 1 est attribué aux résultats corrects et un score de 0 aux résultats incorrects.
b) les résultats correspondant exactement à la valeur assignée sont notés comme acceptables et se
voient attribuer le score correspondant; le score attribué aux résultats qui ne correspondent pas
exactement à la valeur assignée dépend de la nature du désaccord. Il convient que de tels modèles
d’attribution de scores assignent de faibles scores aux meilleures performances pour être en
cohérence avec d’autres types de scores de performance (par exemple score z, score PA , ζ et En).
EXEMPLE 2 Dans un programme d’essais d’aptitude pour lequel six réponses ordonnées sur une échelle
ordinale sont possibles, un score de 0 est attribué à un résultat correspondant à la valeur assignée et le
score est augmenté de 2 pour chaque différence de rang jusqu’à ce que le score atteigne un maximum de 6
e
(ainsi, un résultat proche de la valeur assignée obtiendrait un score de 2).
in
Il convient que des scores de performance individuels pour chaque entité soumise à l’essai d’aptitude
soient fournis aux participants. Lorsque des observations répétées sont réalisées, il est permis de
ca
fournir un score de performance global pour chaque résultat.
11.4.4 Lorsque de multiples répétitions sont consignées pour chaque entité soumise à l’essai d’aptitude
ou lorsque de multiples entités soumises à l’essai d’aptitude sont fournies à chaque participant,
o
l’organisateur d’essais d’aptitude peut calculer et utiliser des scores de performance composés ou des
scores globaux pour l’évaluation des performances. Les scores de performance composés ou les scores
ar
globaux peuvent être calculés par exemple par:
— la simple somme des scores de performance obtenus pour toutes les entités soumises à l’essai
d’aptitude;
— le dénombrement de chaque niveau de performance attribué;
m
e
— la proportion de résultats corrects; et
rm
— une mesure de distance basée sur les différences entre les résultats et les valeurs assignées.
EXEMPLE Une mesure très générale de la différence, parfois utilisée pour les données qualitatives, est le
coefficient de Gower[20]. Il peut combiner des variables quantitatives et qualitatives basées sur une combinaison
no
de scores de similitude. Pour des données catégorielles ou binaires, l’indice attribue un score de 1 pour des
catégories exactement correspondantes et sinon de 0; pour des échelles ordinales, il attribue un score égal
à 1 moins la différence de rang divisé par le nombre de rangs disponibles, et pour des données sur une échelle
d’intervalle ou linéaire, il attribue un score égal à 1 moins la différence absolue divisée par l’étendue observée de
l’ensemble des valeurs. Ces scores, qui sont tous nécessairement compris entre 0 et 1, sont additionnés et le total
est divisé par le nombre de variables utilisées. Une variante pondérée peut également être utilisée.
de
Les scores de performance composés peuvent être associés à une évaluation globale des performances.
Par exemple, une proportion particulière (généralement élevée) de scores corrects peut être considérée
comme une performance «acceptable», si cela est en cohérence avec les objectifs du programme d’essais
d’aptitude.
et
11.4.5 Des méthodes graphiques peuvent être utilisées pour fournir aux participants des informations
oj
sur les performances ou pour fournir des informations récapitulatives dans le rapport relatif à une
campagne de programme d’essais d’aptitude.
pr
Annexe A
(normative)
Symboles
e
di Différence entre une valeur de mesurage d’une entité soumise à l’essai d’aptitude et une
valeur assignée pour un MRC
in
d Différence moyenne entre des valeurs mesurées et la valeur assignée pour un MRC
D Différence du résultat du participant par rapport à la valeur assignée (x-xpt)
ca
D% Différence du résultat du participant par rapport à la valeur assignée, exprimée en pour-
centage de xpt
δE Critère d’erreur maximale tolérée pour les différences
o
δhom Erreur due à la différence entre les entités soumises à l’essai d’aptitude
ar
δstab Erreur due à l’instabilité durant la période de l’essai d’aptitude
δtrans Erreur due à l’instabilité dans des conditions de transport
En
g
la valeur assignée
m
Score «Écart normalisé» incluant les incertitudes associées au résultat du participant et à
l’essai d’aptitude
p Nombre de participants prenant part à une campagne d’un programme d’essais d’aptitude
PA Proportion d’erreur autorisée (D/δΕ), pouvant être exprimée en pourcentage
sr
no
noyau
σL Écart-type interlaboratoires (ou interparticipants)
σpt Écart-type pour l’évaluation de l’aptitude
oj
σr Écart-type de répétabilité
σR Écart-type de reproductibilité
pr
e
U(xi) Incertitude-type d’un résultat du participant i
U(xpt) Incertitude élargie de la valeur assignée
in
U(xref ) Incertitude élargie d’une valeur de référence
wt Étendue entre les prises d’essai
ca
w* Estimation robuste de la répétabilité des participants
x Résultat du mesurage (générique)
xchar Valeur d’une propriété obtenue par la détermination de la valeur assignée
o
xMRC Valeur certifée pour une propriété d’un matériau de référence certifié
ar
xdiff Différence entre une valeur de référence indépendante ou une moyenne robuste et une
valeur assignée
xi Résultat du mesurage du participant i
xpt
xref
Valeur assignée
Valeur de référence pour un objectif défini
m
e
x* Estimation robuste de la moyenne des participants
x Moyenne arithmétique d’un ensemble de résultats
rm
à la valeur assignée
NOTE Il est entendu que les références dans le présent document au calcul de paramètres tels que la
moyenne, l’écart-type, etc. désignent des estimations d’échantillons pour des paramètres correspondants de la
population. La qualification «estimation de» ou «estimé» a cependant été omise par souci de concision.
de
et
oj
pr
Annexe B
(informative)
e
B.1 Procédure générale de vérification de l’homogénéité
in
B.1.1 Pour procéder à une évaluation de l’homogénéité pour la préparation globale d’entités soumises
à l’essai d’aptitude, suivre la procédure décrite ci-dessous.
ca
Choisir une ou des propriétés ou un ou des mesurandes à soumettre à la vérification de l’homogénéité.
Choisir un laboratoire pour effectuer la vérification de l’homogénéité et une méthode de mesure à
o
utiliser. Il convient que la méthode ait un écart-type de répétabilité (sr) suffisamment faible de sorte
que toute non-homogénéité significative puisse être détectée. Il convient que le rapport entre l’écart-
ar
type de répétabilité de la méthode et l’écart-type pour l’évaluation de l’aptitude soit inférieur à 0,5,
comme recommandé dans le protocole international harmonisé de l’UICPA (ou 1/6 de δE). Il est reconnu
que cela n’est pas toujours possible; auquel cas, il convient que l’organisateur d’essais d’aptitude utilise
un plus grand nombre de répétitions. m
Préparer et emballer les entités d’essai d’aptitude pour une campagne du programme d’essais d’aptitude,
en s’assurant qu’il y a suffisamment d’entités soumises à l’essai d’aptitude pour les participants au
e
programme d’essais d’aptitude et pour la vérification de l’homogénéité.
rm
Sélectionner un nombre g d’entités soumises à l’essai d’aptitude sous leur forme emballée finale,
en utilisant un processus de sélection aléatoire approprié, où g ≥ 10. Le nombre d’entités soumises à
l’essai d’aptitude incluses dans la vérification de l’homogénéité peut être réduit si des données utiles
sont disponibles à partir des vérifications d’homogénéité précédentes sur des entités similaires
no
B.1.2 S’il n’est pas possible d’effectuer des mesures répétées, par exemple avec des essais destructifs,
l’écart-type des résultats peut alors être utilisé comme ss. Dans cette situation, il est important d’avoir
une méthode avec un écart-type de répétabilité sr suffisamment faible.
pr
B.2.1 Il convient d’utiliser les trois vérifications suivantes pour s’assurer que les données d’essai
d’homogénéité sont correctes pour l’analyse:
a) examiner les résultats relatifs à chaque prise d’essai selon l’ordre de mesurage afin de déceler
une tendance (ou une dérive) dans l’analyse; si une tendance est observée, entreprendre l’action
corrective appropriée concernant la méthode de mesure ou interpréter les résultats avec
précaution;
b) examiner les résultats relatifs aux moyennes des entités soumises à l’essai d’aptitude selon l’ordre
de production des échantillons; si l’on observe une tendance sérieuse provoquant le dépassement
par l’entité soumise à l’essai d’aptitude du critère spécifié en B.2.2, ou empêchant d’une quelque
autre manière l’utilisation de l’entité soumise à l’essai d’aptitude, alors:
1) assigner des valeurs individuelles à chaque entité soumise à l’essai d’aptitude; ou
2) écarter un sous-ensemble d’entités soumises à l’essai d’aptitude affectées de manière
significative et répéter l’essai sur les autres entités pour une homogénéité suffisante; ou
e
3) si la tendance affecte toutes les entités soumises à l’essai d’aptitude, suivre les dispositions
de B.2.4;
in
c) comparer la différence entre les répétitions (ou l’étendue, s’il y a plus de deux répétitions)
et, si nécessaire, utiliser le test de Cochran pour vérifier l’existence ou non d’une différence
ca
statistiquement significative entre les répétitions (voir l’ISO 5725-2). Si la différence entre les
répétitions est importante pour une paire, procéder à une revue technique pour expliquer la
différence et, le cas échéant, supprimer le groupe aberrant de l’analyse ou, si m > 2 et si la variance
o
élevée est due à une seule valeur aberrante, supprimer le point aberrant.
Si m > 2 et si une seule observation est supprimée, le calcul ultérieur de sw et de ss doit prendre en
ar
compte le déséquilibre résultant.
m
B.2.2 Comparer l’écart-type interéchantillons ss à l’écart-type pour l’évaluation de l’aptitude σpt .
Les entités soumises à l’essai d’aptitude peuvent être considérées comme suffisamment homogènes si:
contribue pas à plus de 10 % de la variance pour l’évaluation des performances, et il est donc peu probable que
l’évaluation des performances soit affectée.
ss ≤ 0,1δE (B.2)
B.2.3 Il peut être utile d’étendre le critère pour tenir compte de l’erreur d’échantillonnage et de la
de
répétabilité réelles lors de la vérification de l’homogénéité. Dans ces cas, suivre les étapes suivantes:
= ( 0,3σ pt ) ;
2
a) calculer σ allow
2
et
F1 et F2 proviennent des tables statistiques normales, reproduites dans le Tableau B.1, pour le
nombre d’entités choisies pour l’essai d’aptitude et chaque entité soumise à l’essai étant
pr
dupliquée[32].
Tableau B.1 — Facteurs F1 et F2 devant être utilisés lors des essais de vérification
de l’homogénéité
g 20 19 18 17 16 15 14 13 12 11 10 9 8 7
F1 1,59 1,60 1,62 1,64 1,67 1,69 1,72 1,75 1,79 1,83 1,88 1,94 2,01 2,10
F2 0,57 0,59 0,62 0,64 0,68 0,71 0,75 0,80 0,86 0,93 1,01 1,11 1,25 1,43
Lorsque m > 2, F2 en B.2.3 b) et dans le Tableau B.1 doit être remplacé par Fm = (Fg - 1, g(m-1), 0,95 -
1)/m, où Fg - 1, G(m - 1), 0,95 est la valeur dépassée avec une probabilité de 0,05 par une variable
aléatoire suivant une loi de F avec g - 1 et g (m - 1) degrés de liberté.
NOTE Les deux constantes du Tableau B.1 sont calculées à partir des tables statistiques normales comme
suit:
F1 = χ 20,95(g – 1)/(g–1), où χ 20,95(g – 1) est la valeur dépassée avec une probabilité de 0,05 par une variable
aléatoire chi deux avec g – 1 degrés de liberté; et
e
F2 = (F0,95 (g– 1;g)-1)/2, où F0,95(g-1;g) est la valeur dépassée avec une probabilité de 0,05 par une variable
aléatoire suivant une loi de F avec g – 1 et g degrés de liberté.
in
c) Si ss > √c, alors il existe une preuve indiquant que le lot d’entités soumises à l’essai d’aptitude n’est
pas suffisamment homogène.
ca
B.2.4 Lorsque σpt n’est pas connu à l’avance, par exemple lorsque σpt est l’écart-type robuste des
résultats du participant, il convient que l’organisateur d’essais d’aptitude choisisse d’autres critères
pour déterminer si l’homogénéité est suffisante. De telles procédures pourraient inclure:
o
a) une vérification des différences statistiquement significatives entre les entités soumises à l’essai
ar
d’aptitude en utilisant, par exemple, un test F d’analyse de la variance à α = 0,05;
b) l’utilisation des informations issues de campagnes antérieures du programme d’essais d’aptitude
c)
pour estimer σpt; m
l’utilisation des données issues d’une expérience de fidélité (telles que l’écart-type de reproductibilité
décrit dans l’ISO 5725-2);
e
d) l’acceptation du risque de distribution d’entités soumises à l’essai d’aptitude qui ne sont pas
rm
B.2.5 Si les critères d’homogénéité suffisante ne sont pas satisfaits, l’organisateur d’essais d’aptitude
doit envisager d’adopter l’une des actions suivantes:
no
′ = σ pt
σ pt 2
+ ss2 (B.3)
b) inclure ss dans l’incertitude de la valeur assignée et utiliser z’ ou δE’ pour évaluer la performance
et
(voir 9.5);
c) lorsque σpt est l’écart-type robuste des résultats du participant, alors la non-homogénéité entre les
oj
entités soumises à l’essai d’aptitude est incluse dans σpt et le critère d’acceptabilité de l’homogénéité
peut être assoupli, mais avec précaution.
pr
Si aucune des actions a) à c) ne s’applique, écarter l’entité soumise à l’essai d’aptitude et répéter la
préparation après avoir corrigé la cause de la non-homogénéité.
e
m
∑ k =1 ( x k − xt )2
1
in
st2 = (B.5)
( m − 1)
ca
Calculer la moyenne générale:
1 g
x=
g ∑ t =1 xt (B.6)
o
L’estimation de la variance de la moyenne des échantillons:
ar
g
∑ t =1 ( xt − x )2
1
s 2x = (B.7)
( g − 1)
et la variance intra-échantillon:
m
g
∑ t =1 st2
1
e
sw
2
= (B.8)
g
rm
( g − 1)
Enfin, estimer la variance interéchantillons comme suit:
1 g 1 2
( g − 1) ∑ t =1 t
(x − x )
2
s s2 = s s,w
2
− sw
2
= − s (B.10)
de
m w
Pour un plan courant, lorsque m est égal à 2, les formules suivantes peuvent être utilisées.
et
oj
pr
xt = ( xt ,1 + xt ,2 ) / 2 (B.11)
wt = xt ,1 − xt ,2 (B.12)
e
1 g
∑ t =1 xt
in
x= (B.13)
g
ca
Estimer l’écart-type de la moyenne des échantillons:
g
∑ t =1 ( x t − x )
2
sx = ( g − 1) (B.14)
o
et l’écart-type intra-échantillon:
ar
g
sw = ∑ t =1 wt2 (2 g ) (B.15)
m
où les sommations des Formules B.13, B.14 et B.15 se font sur les échantillons (t = 1, 2, ..., g).
Enfin, estimer l’écart-type interéchantillons comme suit:
e
(
s s = max 0 , s 2x − sw
2
)
rm
2 (B.16)
NOTE 1 L’estimation de la variance interéchantillons ss2 devient souvent négative lorsque ss est relativement
inférieur à sw. On peut s’attendre à cela lorsque les entités soumises à l’essai d’aptitude sont très homogènes.
no
Dans ce cas, ss = 0.
NOTE 2 Au lieu d’utiliser des étendues, il est possible d’utiliser des écarts-types entre prises d’essai tels que:
st = wt 2
de
B.4.1.1 Les paragraphes suivants donnent des recommandations pour satisfaire aux exigences de
pr
stabilité spécifiées en 6.1. Les dispositions de 6.1.3 concernant les propriétés à étudier s’appliquent à
toute vérification expérimentale de la stabilité pendant toute la durée de la campagne de programme
d’essais d’aptitude et de la stabilité pendant le transport.
B.4.1.2 Lorsque des études expérimentales précédentes, l’expérience acquise ou les connaissances
antérieures laissent raisonnablement penser qu’une instabilité est peu probable, les vérifications
expérimentales de la stabilité peuvent se limiter à la recherche de toute variation significative au
cours de la campagne de programme d’essais d’aptitude, effectuée pendant et après la campagne
elle-même. Dans d’autres circonstances, les études des effets du transport et de la stabilité pendant
la durée habituelle d’une campagne d’essais d’aptitude peuvent prendre la forme d’études planifiées
avant la mise en circulation des entités soumises à l’essai d’aptitude, pour chaque campagne ou pendant
les études préalables de planification et de faisabilité permettant d’établir des conditions de transport
et de stockage cohérentes. Les organisateurs d’essais d’aptitude peuvent également rechercher des
preuves d’instabilité en vérifiant les résultats consignés pour déceler une tendance en fonction de la
date de mesurage.
— il convient que toutes les propriétés utilisées dans le cadre du programme d’essais d’aptitude
fassent l’objet d’un contrôle ou d’une quelconque autre vérification de la stabilité. Pour ce faire, il est
e
possible de s’appuyer sur une expérience antérieure et sur une justification technique basée sur une
connaissance de la matrice (ou de l’artéfact) et du mesurande;
in
— il convient de soumettre à essai plus de deux entités soumises à l’essai d’aptitude si la variabilité
entre les entités soumises à l’essai d’aptitude est importante; il convient d’utiliser un nombre plus
ca
important d’entités soumises à l’essai d’aptitude ou de répétitions en cas de doute concernant la
répétabilité (par exemple, si sw ou sr > 0,5 σpt).
NOTE Le Guide ISO 35 fournit des stratégies pour réduire le plus possible l’effet sur les études de stabilité
o
d’une variation à long terme du processus de mesure, telles que des études isochrones ou l’utilisation de
matériaux de référence stables.
ar
B.4.2 Procédure de vérification de la stabilité au cours d’une campagne de programme
d’essais d’aptitude
m
B.4.2.1 Un modèle pratique pour l’essai de stabilité lors des essais d’aptitude consiste à soumettre
à l’essai un petit échantillon des entités d’essai d’aptitude à la fin d’une campagne de programme
e
d’essais d’aptitude et de les comparer avec les entités soumises à l’essai d’aptitude avant la campagne
pour s’assurer qu’aucun changement n’est intervenu durant la campagne. La vérification peut inclure
rm
un contrôle des effets des conditions de transport en exposant également les entités soumises à l’essai
d’aptitude conservées pendant la durée de l’étude à des conditions représentatives des conditions de
transport. Pour les études destinées uniquement à vérifier les effets du transport, la comparaison est
faite entre d’une part des entités soumises à l’essai d’aptitude expédiées, et d’autre part des entités
no
NOTE 2 Ce modèle s’applique également aux programmes d’essais d’aptitude lors des essais et de l’étalonnage.
B.4.2.2 Si un organisateur d’essais d’aptitude inclut des entités soumises à l’essai d’aptitude expédiées
dans l’évaluation de la stabilité telle que décrite en B.4.2.1, les effets du transport sont alors inclus dans
et
l’évaluation de la stabilité. Si les effets du transport sont vérifiés séparément, il convient alors d’utiliser
la procédure décrite en B.6.
oj
B.4.2.3 Une procédure de vérification de la stabilité de base utilisant des mesures avant et après une
campagne de programme d’essais d’aptitude est la suivante:
pr
e) dès que raisonnablement possible après la date butoir de retour des résultats des participants,
mesurer les g entités soumises à l’essai d’aptitude restantes, en utilisant le même laboratoire,
la même méthode de mesure et le même nombre de répétitions qu’en a) ci-dessus, toutes les
répétitions étant effectuées dans un ordre aléatoire;
f) calculer les moyennes y 1 et y 2 des résultats respectivement pour les deux groupes (avant et
après).
B.4.2.4 Les variations suivantes à la procédure décrite en B.4.2.3 peuvent être utilisées:
e
a) le premier groupe de g entités soumises à l’essai d’aptitude peut être omis si d’autres mesurages
in
réalisés par le même laboratoire et selon la même méthode d’essai sur l’ensemble d’entités soumises
à l’essai d’aptitude sont disponibles. Par exemple, il est permis d’utiliser les données obtenues lors
d’une vérification antérieure de l’homogénéité;
ca
b) des conditions susceptibles d’accélérer la variation peuvent être utilisées pour assurer une stabilité
supérieure;
o
c) le deuxième ensemble d’entités soumises à l’essai d’aptitude peut de plus être soumis aux conditions
attendues lors du transport, afin d’inclure un essai de l’effet du transport;
ar
d) il est permis d’utiliser tout autre plan et toutes autres conditions qui, associés au critère choisi de
vérification de la stabilité, assurent une stabilité équivalente ou supérieure.
NOTE
m
Des procédures utilisant des observations à intervalles réguliers entre le début et la fin d’une
campagne de programme d’essais d’aptitude peuvent également être utilisées et peuvent se révéler avantageuses
si la variation du système de mesure dans le temps est suffisamment importante pour compromettre l’évaluation
e
décrite en B.5.
rm
B.5.1 Comparer la moyenne générale des mesurages obtenus lors de la vérification effectuée avant la
no
distribution à la moyenne générale des résultats obtenus lors de la vérification de la stabilité. Les entités
soumises à l’essai d’aptitude peuvent être considérées comme suffisamment stables si:
y 1 − y 2 ≤ 0, 3σ pt ou ≤ 0,1 δE (B.17)
de
B.5.2 S’il est probable que la fidélité intermédiaire de la méthode de mesure (ou l’incertitude du
mesurage de l’entité) a contribué à l’inaptitude à répondre au critère, il convient d’adopter l’une des
options suivantes:
et
b) augmenter l’incertitude de la valeur assignée pour tenir compte d’une possible instabilité;
c) étendre le critère d’acceptation en ajoutant l’incertitude de la différence par rapport à σpt en
pr
y 1 − y 2 ≤ 0, 3σ pt + 2 u 2 ( y 1 ) + u 2 ( y 2 ) (B.18)
NOTE 1 Le facteur de 2 dans la Formule (B.18) est un facteur d’élargissement pour l’incertitude élargie de la
différence, fournissant une confiance d’environ 95 %, et le calcul de l’incertitude composée a intentionnellement
présumé que y 1 et y 2 sont indépendants.
NOTE 2 Il est entendu que les incertitudes u 2 ( y 1 ) et u 2 ( y 2 ) dans la Formule (B.18) incluent la variation du
système de mesure pendant la durée intermédiaire, ainsi que la répétabilité.
B.5.3 Si le critère de la Formule (B.17) ou (B.18) n’est pas satisfait, il convient d’envisager les options
suivantes:
— quantifier l’effet de l’instabilité et en tenir compte lors de l’évaluation (par exemple avec des
scores z’); ou
— examiner les procédures de préparation et de conservation des entités soumises à l’essai d’aptitude
pour voir si des améliorations sont possibles; ou
— ne pas évaluer les performances des participants.
e
B.5.4 Le critère spécifié en B.5.1 ou B.5.2 peut être remplacé par un test statistique approprié pour
in
une différence entre les deux ensembles de données à condition que le test tienne dûment compte de la
répétition et offre une assurance d’identification de la stabilité au moins équivalente à celle fournie par
ca
la Formule (B.18).
NOTE Un test t pour une différence significative à un niveau de confiance de 95 %, en utilisant les moyennes
pour chaque entité soumise à l’essai d’aptitude, offre généralement une assurance de détection de l’instabilité
o
équivalente ou supérieure à celle de la Formule (B.18) à condition que le nombre d’unités soumises à essai soit
supérieur ou égal à 3.
ar
B.6 Stabilité dans des conditions de transport
m
B.6.1 Il convient que l’organisateur d’essais d’aptitude vérifie les effets du transport sur des entités
soumises à l’essai d’aptitude au moins lors des premières étapes du programme d’essais d’aptitude.
Il convient si possible qu’une telle vérification compare des entités soumises à l’essai d’aptitude
e
conservées dans les locaux de l’organisateur d’essais d’aptitude à des entités soumises à l’essai
d’aptitude ayant été transportées et retournées. Il est également permis d’utiliser des études basées,
rm
par exemple, sur une exposition aux conditions de transport raisonnablement prévisibles.
B.6.2 Il convient de tenir compte de tous les effets connus du transport lors de l’évaluation des
no
de transport et un groupe ne l’étant pas, le critère pour une stabilité suffisante pendant le transport est
le même qu’en B.5.1 ou B.5.2.
NOTE 1 Si la valeur assignée et l’écart-type pour l’évaluation de l’aptitude sont déterminés à partir des
résultats des participants (par exemple par des méthodes robustes), la moyenne et l’écart-type pour l’évaluation
et
de l’aptitude reflètent (respectivement) tout biais éventuel et la variabilité accrue engendrés par les conditions
de transport.
oj
Annexe C
(informative)
Analyse robuste
e
C.1 Généralités
in
Les comparaisons interlaboratoires soulèvent des défis uniques en matière d’analyse des données.
Alors que la plupart des comparaisons interlaboratoires fournissent des données qui présentent une
ca
distribution unimodale et approximativement symétrique, la plupart des ensembles de données d’essais
d’aptitude contiennent une proportion de résultats qui sont inopinément distants de la majorité. Les
raisons sont diverses, par exemple liées à des participants moins expérimentés, à des méthodes de
mesure moins précises ou peut-être nouvelles ou à des participants qui n’ont pas compris les instructions
o
ou qui ont traité les entités soumises à l’essai d’aptitude de façon incorrecte. De tels résultats aberrants
peuvent être extrêmement variables et rendent non fiables les techniques statistiques conventionnelles,
ar
y compris la moyenne et l’écart-type.
Il est recommandé (voir 6.5.1) aux organisateurs d’essais d’aptitude d’utiliser des techniques
m
statistiques robustes en ce qui concerne les valeurs aberrantes. De nombreuses techniques de ce type
ont été proposées dans les publications relatives à la statistique, et nombre d’entre elles ont été utilisées
avec succès pour les essais d’aptitude. La plupart des techniques robustes confèrent également une
résistance aux distributions asymétriques de valeurs aberrantes.
e
La présente annexe décrit plusieurs techniques qui ont été largement appliquées dans les essais
rm
d’aptitude et présentent des capacités différentes en matière de robustesse par rapport à des populations
contaminées (par exemple, efficacité et point de rupture) et de simplicité d’application. Elles sont
présentées ici par ordre de simplicité (de la plus simple à la plus complexe), laquelle est généralement
inversement proportionnelle à l’efficacité, car les estimateurs plus complexes ont tendance à être
no
NOTE 2 L’adjectif «robuste» qualifie l’algorithme d’estimation et non pas l’estimation qu’il produit. Il n’est
donc pas exact de désigner comme «robustes» les moyennes et les écarts-types calculés par un tel algorithme.
Cependant, pour éviter les lourdeurs de la terminologie, il est entendu dans le présent document que les termes
«moyenne robuste» et «écart-type robuste» désignent les estimations de la moyenne de la population ou de
et
C.2.1 Médiane
La médiane est un estimateur simple et très résistant aux valeurs aberrantes de la moyenne de la
population pour des distributions symétriques. Pour déterminer la médiane, désignée med(x):
a) désigner les p éléments de données, rangés en ordre croissant, par:
x{1}, x{2}, ..., x{p}
b) calculer:
x p impair
{(p+1) 2}
med ( x ) = x (C.1)
{p 2} + x {1+ p 2}
p pair
2
C.2.2 Écart absolu médian pondéré MADe
L’écart absolu médian pondéré MADe(x) fournit une estimation de l’écart-type de la population pour
des données distribuées selon une loi normale et est extrêmement résistant aux valeurs aberrantes.
e
Pour calculer MADe(x):
in
a) calculer les différences absolues di (pour i = 1 à p) comme suit:
d i = x i − med ( x ) (C.2)
ca
b) calculer MADe(x) comme suit:
o
MADe(x) = 1,483 med(d) (C.3)
ar
Si 50 % ou plus des résultats des participants sont identiques, alors MADe(x) est nul, et il peut être
nécessaire d’utiliser l’intervalle interquartile normalisé (nIQR) décrit en C.2.3, un écart-type
m
arithmétique (après suppression des valeurs aberrantes) ou la procédure décrite en C.5.2.
entre le 75e percentile (ou 3e quartile) et le 25e percentile (ou 1er quartile) des résultats des participants.
Cette statistique est communément désignée par le terme «intervalle interquartile normalisé» (ou
nIQR) et elle est calculée par la Formule (C.4):
no
où
de
comme MADe(x)) et il convient d’utiliser une autre procédure pour calculer l’écart-type robuste, telle
qu’un écart-type arithmétique (après suppression des valeurs aberrantes) ou la procédure décrite
en C.5.2.
oj
NOTE 1 L’intervalle interquartile normalisé (nIQR) nécessite de ranger les données une seule fois, comparé à
MADe, mais présente un point de rupture de 25 % (voir Annexe D), alors que MADe a un point de rupture de 50 %.
pr
MADe peut donc tolérer une proportion nettement plus élevée de valeurs aberrantes que nIQR.
NOTE 2 Les deux estimateurs nIQR et MADe présentent un biais négatif notable à p < 30, qui peut affecter
défavorablement les scores si ces estimations sont utilisées pour attribuer des scores aux résultats des
participants.
NOTE 3 Des progiciels statistiques différents peuvent utiliser des algorithmes différents pour calculer les
quartiles et peuvent donc produire un nIQR légèrement différent.
NOTE 4 Un exemple utilisant des estimateurs robustes simplifiés est inclus en E.3.
e
in
Désigner par x* et s* la moyenne robuste et l’écart-type robuste de ces données.
Calculer les valeurs initiales de x* et s* comme suit:
ca
x* = médiane de xi (i = 1, 2, ..., p) (C.5)
o
s* = 1,483 médiane de x i − x ∗ avec (i = 1, 2, ..., p) (C.6)
ar
NOTE 1 Les algorithmes A et S donnés dans la présente annexe sont repris de l’ISO 5725-5, avec un petit ajout
à l’Algorithme A pour spécifier un critère d’arrêt: aucun changement du 3e chiffre significatif de la moyenne
robuste et de l’écart-type robuste.
NOTE 2
m
Dans certains cas, plus de la moitié des résultats xi sont identiques (par exemple comptage des fils dans
un tissu, ou électrolytes dans du sérum). Dans ces cas, la valeur initiale de s* est nulle et la procédure robuste
n’est pas exécutée correctement. Dans le cas où la valeur initiale s* = 0, il est permis de remplacer l’écart-type
e
de l’échantillon, après avoir vérifié la présence ou non de valeurs aberrantes grossières susceptibles de rendre
l’écart-type de l’échantillon anormalement élevé. Ce remplacement est uniquement effectué pour le s* initial, et
rm
δ = 1,5s* (C.7)
i
x i∗ = x ∗ + δ lorsque x i > x ∗ + δ (C.8)
x sinon
i
Calculer les nouvelles valeurs de x* et de s* comme suit:
et
p
x∗ = ∑ i =1 x i∗ / p (C.9)
oj
∑ i =1 ( x i∗ − x ∗ ) / (p − 1)
p 2
pr
s ∗ = 1, 134 (C.10)
l’autre. D’autres critères de convergence peuvent être déterminés conformément aux exigences du plan
et de la consignation des résultats d’essais d’aptitude.
NOTE 3 Des exemples d’utilisation de l’Algorithme A à échelle itérative sont donnés en E.1 et E.3.
e
aberrantes en présence de sévères valeurs aberrantes dans l’ensemble de données. Il convient
d’envisager les variantes suivantes lorsque la proportion de valeurs aberrantes attendue est supérieure
in
à 20 % dans un ensemble de données ou lorsque la valeur initiale de s* est affectée défavorablement par
des valeurs aberrantes extrêmes:
ca
a) remplacer MADe par med x i − x( ) lorsque MADe = 0, ou utiliser un autre estimateur tel que celui
décrit en C.5.1 ou l’écart-type arithmétique (après suppression des valeurs aberrantes);
o
b) lorsque l’écart-type robuste n’est pas utilisé dans l’attribution de scores, utiliser MADe (modifié
ar
comme en i) ci-dessus) et ne pas mettre à jour s* pendant l’itération. Lorsque l’écart-type robuste
est utilisé dans l’attribution de scores, remplacer s* par l’estimateur Q décrit en C.5 et ne pas mettre
à jour s* pendant l’itération.
NOTE
de faire face à une proportion plus élevée de valeurs aberrantes.
m
La variante b) améliore le point de rupture de l’Algorithme A à 50 %[25], permettant ainsi à l’algorithme
e
C.4 Analyse robuste: algorithme S
rm
Cet algorithme est appliqué aux écarts-types (ou aux étendues), qui sont calculés lorsque les participants
soumettent m résultats répétés pour un mesurande dans une entité soumise à l’essai d’aptitude, ou
dans une étude avec m entités identiques soumises à l’essai d’aptitude. Il fournit une valeur combinée
robuste des écarts-types, ou étendues, auxquels il est appliqué.
no
Désigner par w* la valeur combinée robuste et les degrés de liberté associés à chaque wi par ν. (Si wi est
une étendue, ν = 1. Si wi est l’écart-type de m résultats d’essai, ν = m - 1.) Prendre les valeurs de ξ et η
nécessaires pour l’algorithme dans le Tableau C.1.
et
NOTE Si plus de la moitié des valeurs de wi sont nulles, alors la valeur initiale de w* est nulle et la procédure
pr
robuste n’est pas exécutée correctement. Si la valeur initiale de w* est nulle, remplacer l’écart-type de la moyenne
combinée arithmétique (ou étendue moyenne) après élimination de toute valeur aberrante extrême susceptible
d’influencer la moyenne. Ce remplacement ne concerne que le w* initial, après quoi la procédure se poursuit
comme décrit.
e
Calculer la nouvelle valeur de w* comme suit:
in
∑ i =1 ( )
p 2
w∗ = ξ w i∗ /p (C.14)
ca
L’estimation robuste w* est déterminée par un calcul par itération en mettant à jour plusieurs fois la
valeur de w* jusqu’à ce que le processus converge. Il peut être présumé que la convergence est assurée
lorsque le troisième chiffre significatif de l’estimation robuste ne change plus d’une itération sur l’autre.
o
NOTE L’Algorithme S fournit une estimation de l’écart-type de la population lorsqu’il est fourni avec des
ar
écarts-types issus d’une seule loi normale, et fournit donc une estimation de l’écart-type de répétabilité lorsque
les hypothèses de l’ISO 5725-2 s’appliquent.
Degrés de liberté
m
Tableau C.1 — Facteurs nécessaires pour l’analyse robuste: algorithme S
Facteur de limite Facteur d’ajustement
ν η ξ
e
1 1,645 1,097
rm
2 1,517 1,054
3 1,444 1,039
4 1,395 1,032
no
5 1,359 1,027
6 1,332 1,024
7 1,310 1,021
8 1,292 1,019
de
9 1,277 1,018
10 1,264 1,017
NOTE Les valeurs de ξ et η sont dérivées de l’ISO 5725-5:1998, Annexe B.
et
des personnes compétentes avant l’évaluation des performances, mais il existe des cas où cela peut ne
pas être possible.
En outre, certaines techniques robustes décrites en C.2 et C.3 présentent des carences en matière
d’efficacité statistique: si le nombre de participants est inférieur à 50 et si la moyenne et/ou l’écart-type
robustes sont utilisés pour l’attribution de scores, il y a un risque considérable d’erreurs de classement
des participants en raison de l’utilisation de méthodes statistiques inefficaces.
Des techniques robustes combinant une bonne efficacité (c’est-à-dire une variabilité comparativement
faible) et la tolérance d’une proportion élevée de valeurs aberrantes tendent à être plus complexes
e
et nécessitent des ressources de calcul plus puissantes, mais les techniques sont citées en référence
dans la littérature et les Normes internationales disponibles. Certaines de ces techniques permettent
in
également des gains de performance utiles lorsque la distribution sous-jacente des données est
asymétrique ou lorsque certains résultats sont considérés comme inférieurs à une limite de détection
ca
ou de consignation.
Les paragraphes suivants décrivent certaines méthodes très efficaces et très fiables pour estimer
l’écart-type et le paramètre de position (moyenne) qui sont utiles pour des données comportant
o
des proportions élevées de valeurs aberrantes et qui présentent une plus faible variabilité que des
estimateurs plus simples. L’un des estimateurs décrits peut également être utilisé pour estimer un
ar
écart-type de reproductibilité lorsque les participants consignent de multiples observations.
par paire au sein de l’ensemble de données et ne dépend donc pas d’une estimation de la moyenne
ou de la médiane des données. La mise en œuvre décrite ici inclut des corrections pour s’assurer que
l’estimation ne présente pas de biais pour tous les effectifs d’ensembles de données pratiques.
no
Pour calculer Qn pour un ensemble de données (x1, x2, … xp) avec p résultats consignés:
a) calculer les p(p-1)/2 différences absolues:
c) calculer:
oj
h ( h − 1)
k= (C.17)
2
pr
c’est-à-dire que k est le nombre de paires distinctes choisies parmi h objets, où:
p / 2 p pair
h = (C.18)
(p − 1) / 2 p impair
Q n = 2, 221 9d {k }b p (C.19)
où bp est choisi dans le Tableau C.2 pour un nombre particulier p de points de données ou, pour
p > 12, est calculé comme suit:
1
bp = (C.20)
rp + 1
où
e
p p p
rp = (C.21)
1 1 1 77
in
3, 675 6 + 1, 965 + 6, 987 − p pair
p p p p
ca
NOTE 1 Le facteur de 2,221 9 est un facteur de correction pour obtenir une estimation sans biais de l’écart-
type pour une valeur élevée de p. Les facteurs de correction bp pour une faible valeur de p sont indiqués dans
le Tableau C.2 et le calcul de rp pour p > 12 est effectué comme indiqué dans la Référence [41] à partir d’une
simulation exhaustive suivie d’une analyse de régression.
o
NOTE 2 L’algorithme simple décrit ci-dessus nécessite des ressources de calcul considérables pour de grands
ensembles de données, par exemple p > 1 000. Une implémentation rapide et économe en mémoire, capable de
ar
traiter des ensembles de données beaucoup plus grands a été publiée avec son code machine complet[42] pour une
utilisation avec de grands ensembles de données; la Référence [42] mentionnait des performances acceptables
pour p supérieur à 8 000 au moment de sa publication.
m
Tableau C.2 — Facteur de correction bp pour 2 ≤ p ≤ 12
p
e
2 3 4 5 6 7 8 9 10 11 12
bp 0,399 4 0,993 7 0,513 2 0,844 0 0,612 2 0,858 8 0,669 9 0,873 4 0,720 1 0,889 1 0,757 4
rm
C.5.2.2 La méthode Q produit une estimation très fiable et très efficace de l’écart-type des résultats
d’essais d’aptitude consignés par différents laboratoires. La méthode Q est non seulement robuste vis-
à-vis des résultats aberrants, mais aussi vis-à-vis d’une situation dans laquelle de nombreux résultats
no
d’essai sont identiques, par exemple en raison de données quantitatives sur une échelle discontinue ou
en raison de distorsions dues à des arrondis. Dans une telle situation, d’autres méthodes similaires à la
méthode Q peuvent échouer car de nombreuses différences par paire sont nulles.
La méthode Q peut être utilisée pour des essais d’aptitude avec des résultats uniques pour chaque
de
participant (y compris une moyenne ou une médiane de répétitions) et pour des répétitions. L’utilisation
directe de répétitions dans le calcul améliore l’efficacité de la méthode.
Le calcul repose sur l’utilisation de différences par paire au sein de l’ensemble de données et ne dépend
donc pas d’une estimation de la moyenne ou de la médiane des données. La méthode est connue en
et
tant que méthode Q/Hampel lorsqu’elle est utilisée avec l’algorithme à nombre fini d’étapes relatif à
l’estimateur de Hampel décrit en C.5.3.3.
oj
1 if y − y
jm ≤ x
{
où I y ik − y jm ≤ x =
0 } ik
sinon
désigne la fonction de l’indicateur.
G1 ( x i ) = (
0, 5 ⋅ H x + H x
1( i) )
1 ( i −1 ) si i ≥2
(C.24)
0, 5 ⋅ H 1 ( x 1 ) si i = 1; x 1 > 0
e
et soit
in
G1(0)=0
ca
Calculer la fonction G1(x) pour tous les x hors de l’intervalle [0, xr] par interpolation linéaire entre les
points de discontinuité 0 ≤ x1 < x2 < … < xr.
Calculer l’écart-type robuste s* des résultats d’essai des différents laboratoires:
o
( )
G1−1 0, 25 + 0, 75 ⋅ H 1 (0)
ar
∗
s = (C.25)
2Φ −1 (0, 625 + 0, 375 ⋅ H 1 (0))
m
où H1(0) est calculé comme dans la Formule (C.23) et est égal à zéro, sauf en cas de liens exacts dans
l’ensemble de données, et où Φ−1(q) est le qième quantile de la distribution normale conventionnelle.
NOTE 1 Cet algorithme ne dépend pas d’une valeur moyenne; il peut être utilisé avec une valeur issue de
e
résultats combinés de participants ou avec une valeur de référence spécifiée.
rm
NOTE 2 D’autres variantes de la méthode Q fournissent des estimations robustes de l’écart-type de répétabilité
et de l’écart-type de reproductibilité[25][34].
NOTE 3 Les bases théoriques de la méthode Q, y compris la performance asymptotique et le point de rupture
d’un échantillon fini, sont décrites dans les références [26] et [34].
no
NOTE 4 Si les données sous-jacentes des participants représentent des résultats de mesure uniques obtenus
avec une seule méthode de mesure spécifique, l’écart-type robuste est une estimation de l’écart-type de
reproductibilité comme dans la Formule (C.21).
de
NOTE 5 L’écart-type de reproductibilité n’est pas nécessairement l’écart-type le plus approprié à utiliser dans
les essais d’aptitude car il s’agit généralement d’une estimation de la dispersion de résultats uniques et non d’une
estimation de la dispersion des moyennes ou des médianes de résultats répétés de chaque participant. Toutefois,
la dispersion des moyennes ou des médianes de résultats répétés n’est que légèrement inférieure à la dispersion
des résultats uniques de différents laboratoires, si le rapport de l’écart-type de reproductibilité à l’écart-type de
et
répétabilité est supérieur à 2. Si ce rapport est inférieur à 2, pour l’attribution de scores lors des essais d’aptitude,
m-1 2
il peut être utile de remplacer l’écart-type de reproductibilité sR par la valeur corrigée s R2 - s r , où m
m
oj
désigne le nombre de répétitions et sr2 la variance de répétabilité telle que calculée dans la Référence [35], ou
d’utiliser non pas les répétitions, mais la moyenne des répétitions pour chaque participant pour la méthode Q.
pr
NOTE 6 La Note 5 ne s’applique que si les scores sont attribués sur la base des moyennes ou des médianes
de résultats répétés. Si les répétitions sont des entités soumises à l’essai d’aptitude en double à l’aveugle, il est
présumé que des scores sont attribués à chaque répétition. Dans ce cas, l’écart-type de reproductibilité est l’écart-
type le plus approprié.
C.5.3.1 L’estimation de Hampel est une estimation très robuste et efficace de la moyenne globale
des résultats consignés par différents laboratoires. Étant donné qu’il n’existe aucune formule explicite
permettant d’obtenir l’estimation de Hampel, deux algorithmes sont fournis dans le présent paragraphe.
Le premier peut être plus facile à mettre en œuvre, mais peut conduire à des résultats divergents dans
des implémentations différentes. Le deuxième fournit des résultats uniques dépendant uniquement de
l’écart-type sous-jacent.
e
b) soit x* égal à med(x) (voir C.2.1);
in
c) soit s* égal à une estimation robuste appropriée de l’écart-type, par exemple MADe, Qn ou s* de la
méthode Q;
ca
d) pour chaque point de données xi, calculer qi comme donné dans la Formule (C.26):
xi − x *
qi = (C.26)
o
s*
ar
e) calculer les pondérations wi comme donné dans la Formule (C.27):
0 q > 4 ,5
( 4 , 5 − q ) q 3 < q ≤ 4 , 5
wi =
1,5 / q 1 , 5 < q ≤ 3, 0
m (C.27)
e
1 q ≤ 1,5
f) recalculer x* comme donné dans la Formule (C.28):
rm
p
∑ wi x i
i =1
x* = (C.28)
no
p
∑ wi
i =1
g) répéter les étapes d) à f) jusqu’à ce que x* converge. Il peut être présumé que la convergence est
de
donne la meilleure solution, car un mauvais choix de la position initiale x* et/ou s* peut exclure des
parties importantes de l’ensemble de données. En conséquence, il convient que l’organisateur d’essais
d’aptitude mette en place des mesures pour vérifier l’éventualité d’une mauvaise solution ou fournisse
oj
des règles non ambiguës pour choisir la position. La règle la plus courante consiste à choisir la solution
la plus proche de la médiane. Passer en revue les résultats pour s’assurer qu’une partie importante de
pr
l’ensemble de données ne se situe pas en dehors de l’intervalle |q| > 4,5 peut également aider à confirmer
une solution viable.
NOTE 1 Cette mise en œuvre de l’estimateur de Hampel présente une efficacité d’environ 96 % pour des
données distribuées selon une loi normale.
NOTE 3 Pour une plus grande efficacité ou une plus grande résistance vis-à-vis des valeurs aberrantes,
l’estimateur de Hampel peut être adapté en modifiant la fonction de pondération. La forme générale de la fonction
de pondération est:
q >c
0
a (c − q) q(c − b) b < q ≤ c
wi =
a/q a< q ≤b
1 q ≤a
où a, b et c sont des paramètres d’adaptation. Pour la mise en œuvre considérée, a = 1,5, b = 3,0 et
c = 4,5. Une plus grande efficacité est obtenue en augmentant l’intervalle; une résistance améliorée vis-
à-vis des valeurs aberrantes ou des modes mineurs est obtenue en réduisant l’intervalle.
e
C.5.3.3 L’algorithme suivant à nombre fini d’étapes donne l’estimation de Hampel de la position sans
repondération itérative[25].
in
Calculer les moyennes arithmétiques pour chaque laboratoire, alors désignées y1, y2, …yp.
ca
Calculer la moyenne robuste, x*, en résolvant la Formule (C.29):
p y i − x ∗
∑
o
Ψ = 0 (C.29)
i =1
s ∗
ar
où
0 q ≤ −4, 5
−4, 5 − q −4, 5 < q ≤ −3
−1, 5 −3 < q ≤ −1, 5
m
Ψ (q) = q
e
−1, 5 < q ≤ 1, 5 (C.30)
1, 5 1, 5 < q ≤ 3
rm
4, 5 − q 3 < q ≤ 4, 5
0 q > 4, 5
no
d1 = y 1 − 4, 5s ∗, d 2 = y 1 − 3s ∗, d 3 = y 1 − 1, 5s ∗, d 4 = y 1 + 1, 5s ∗,
d5 = y 1 + 3s ∗, d 6 = y 1 + 4, 5s ∗
oj
d7 = y 2 − 4, 5s ∗, d 8 = y 2 − 3s ∗, d 9 = y 2 − 1, 5s ∗, d 10 = y 2 + 1, 5s ∗,
d11 = y 2 + 3s ∗, d12 = y 2 + 4, 5s ∗
— et ainsi de suite pour toutes les valeurs y3, …, yp.
e
b) pm+1 = 0. Dans ce cas, d{m+1} est une solution de la Formule (C.29);
in
m p
c) pm ⋅ pm+1 < 0 . Dans ce cas, xm = d
{m} − p est une solution de la Formule (C.29);
m+1 − p m
ca
d
(m+1) − d(m)
soit S l’ensemble de toutes les solutions de la Formule (C.29).
o
La solution x ∗ ∈ S la plus proche de la médiane est utilisée comme paramètre de position x*, c’est-à-
ar
dire:
( ) { (
x ∗ − med y 1, y 2, , y p = min x − med y 1, y 2, , y p ; x ∈ S
m ) }
Plusieurs solutions peuvent exister. S’il y a deux solutions proches de la médiane, ou s’il n’y a pas de
solution du tout, la médiane elle-même est utilisée comme paramètre de position x*.
e
NOTE 1 Cette mise en œuvre de l’estimateur de Hampel présente une efficacité d’environ 96 % pour des
rm
NOTE 2 Si cette méthode d’estimation est utilisée, les résultats de laboratoire qui s’écartent de la moyenne de
plus de 4,5 fois l’écart-type de reproductibilité n’ont plus d’effet sur le résultat du calcul, c’est-à-dire qu’ils sont
traités comme des résultats aberrants.
no
Les méthodes décrites dans la présente annexe ne constituent pas un ensemble exhaustif des
approches valides, et aucune d’elle n’est garantie comme étant optimale pour toutes les situations.
D’autres estimateurs robustes peuvent être utilisés à la discrétion de l’organisateur d’essais d’aptitude,
sous réserve qu’il soit démontré par référence à une efficacité, un point de rupture et toute autre
propriété appropriée connus, qu’ils satisfont aux exigences particulières du programme d’essais
d’aptitude.
Annexe D
(informative)
e
in
D.1 Procédures pour de petits nombres de participants
D.1.1 Considérations générales
ca
De nombreux programmes d’essais d’aptitude impliquent un petit nombre de participants, ou ont
des groupes de comparaison comprenant un petit nombre de participants et ce, même s’ils disposent
o
d’un grand nombre de participants au programme d'essais d'aptitude. Cela peut se produire souvent
lorsque des participants sont regroupés et qu’un score leur est attribué par la méthode, comme cela est
ar
couramment pratiqué lors des essais d’aptitude pour les laboratoires médicaux, par exemple.
Lorsque le nombre de participants est faible, il convient idéalement de déterminer la valeur assignée
m
par une procédure métrologiquement correcte, indépendante des participants, comme par formulation
ou par un laboratoire de référence. Il convient que les critères d’évaluation des performances soient
également basés sur des critères externes, tels que le jugement d’un expert, ou sur des critères basés
sur l’adéquation à l’objectif. Dans ces situations idéales, les performances sont évaluées en utilisant
e
la valeur assignée et le critère de performance prédéterminés, de sorte que les essais d’aptitude
peuvent être réalisés avec un seul participant. Ce type de comparaison interlaboratoires peut être
rm
appelé comparaison bilatérale, ou audit de mesurage, et peut être très utile dans bien des situations,
par exemple lors de l’étalonnage.
Lorsque ces conditions idéales ne peuvent pas être réunies, il peut être nécessaire de calculer la valeur
no
assignée et/ou la dispersion à partir des résultats des participants. Si le nombre de participants est
trop faible pour les procédures particulières utilisées, l’évaluation des performances peut ne plus être
fiable; il est donc important de déterminer s’il convient de fixer un nombre minimal de participants
pour l’évaluation des performances.
de
Les paragraphes suivants présentent des recommandations pour les cas avec de petits nombres
de participants, lorsque les critères d’évaluation des performances sont déterminés en utilisant les
résultats des participants.
Bien que des statistiques robustes soient fortement recommandées pour les populations contaminées
oj
par des valeurs aberrantes, elles ne sont pas souvent recommandées pour de très petits ensembles de
données (voir les exceptions ci-après). Des tests de valeurs aberrantes sont néanmoins possibles pour
de très petits ensembles de données. Le rejet des valeurs aberrantes suivi, par exemple, d’un calcul de la
pr
moyenne ou de l’écart-type peut donc être préférable dans le cas de très petits groupes ou programmes
d'essais d'aptitude.
Différents tests relatifs aux valeurs aberrantes sont applicables selon la taille des ensembles de données.
L’ISO 5725-2 fournit des tableaux pour le test de Grubbs, relatifs à une valeur aberrante unique et à deux
valeurs aberrantes simultanées dans la même direction. Le test de Grubbs et d’autres tests nécessitent
de spécifier préalablement le nombre de valeurs aberrantes possibles et peuvent échouer en cas de
valeurs aberrantes multiples, ce qui les rend plus utiles pour p > 10 (selon la proportion probable de
valeurs aberrantes).
NOTE 1 Il convient de prendre des précautions lors de l’estimation de la dispersion après le rejet de valeurs
aberrantes, car la dispersion sera sous-estimée. Le biais n’est généralement pas important si le rejet est effectué
uniquement à un niveau de confiance supérieur ou égal à 99 %.
NOTE 2 La plupart des estimateurs robustes à une seule variable pour le paramètre de position et de
dispersion fonctionnent de manière acceptable pour p ≥ 12.
e
D.1.3 Procédures pour les estimations du paramètre de position
in
D.1.3.1 Il convient, si possible, que les valeurs assignées calculées à partir de petits ensembles de
données des participants répondent au critère d’incertitude de la valeur assignée spécifié en 9.2.1.
ca
Pour une situation utilisant une moyenne simple comme valeur assignée et un écart-type des résultats
comme écart-type pour l’évaluation de l’aptitude, ce critère ne peut pas être rempli pour une distribution
normale avec p ≤ 12, après l’élimination de valeurs aberrantes. En cas d’utilisation de la médiane comme
valeur assignée (en considérant l’efficacité égale à 0,64), le critère ne peut pas être rempli pour p ≤ 18.
o
D’autres estimateurs robustes, tels que l’Algorithme A (C.3), ont une efficacité intermédiaire et peuvent
répondre au critère pour p > 12 si les dispositions de la Note 2 de 7.7.7 sont prises en compte.
ar
D.1.3.2 L’applicabilité de certains estimateurs de position est soumise à des limites de taille de
l’ensemble de données. Quelques estimateurs robustes de la moyenne nécessitant de puissants moyens
m
de calcul sont recommandés pour de petits ensembles de données; une limite inférieure type est p ≥ 15,
bien que les organisateurs puissent être en mesure de démontrer des performances acceptables pour
des hypothèses spécifiques sur de plus petits ensembles de données. La médiane est applicable jusqu’à
e
p = 2 (lorsqu’elle est égale à la moyenne), mais à 3 ≤ p ≤ 5, la médiane présente peu d’avantages par
rapport à la moyenne, sauf s’il existe un risque anormalement élevé de mauvais résultats.
rm
D.1.4.1 L’utilisation de critères de performance basés sur la dispersion des résultats des participants
no
n’est pas recommandée pour de petits ensembles de données, compte tenu de la très grande variabilité
des estimations de la dispersion. Par exemple, pour p = 30, il est attendu que les estimations de l’écart-
type pour des données distribuées selon une loi normale varient d’environ 25 % de part et d’autre
de sa valeur vraie (sur la base d’un niveau de confiance de 95 %). Aucun autre estimateur n’offre
de
d’amélioration sur ce point pour des données distribuées selon une loi normale.
D.1.4.2 Lorsque des estimateurs de la dispersion sont requis à d’autres fins (par exemple, comme
statistiques résumées ou pour fournir une estimation de la dispersion pour des estimateurs robustes
de position), ou lorsque le programme d’essais d’aptitude peut tolérer une variabilité élevée des
et
NOTE 1 Il est entendu que l’expression «la plus élevée possible» prend en compte la disponibilité d’un logiciel
et d’une expertise appropriés.
pr
NOTE 2 L’estimateur Qn de l’écart-type décrit en C.5 est nettement plus efficace que le MADe ou le nIQR de C.1.
NOTE 3 Des recommandations spécifiques ont été faites pour les estimations robustes de la dispersion dans
de très petits ensembles de données[24], comme suit:
— p = 2: utiliser |x1-x2|/√2;
— p = 3, positions et échelle inconnues: utiliser l’écart absolu médian (MADe) pour éviter des estimations d’échelle
excessivement élevées de l’écart-type ou l’écart absolu moyen (Note 4 ci-après) pour éviter des estimations
indûment faibles de l’écart-type, par exemple lorsque l’arrondi peut donner deux valeurs identiques;
— p ≥ 4: une estimation M spécifique de l’écart-type basée sur une fonction de pondération logarithmique a été
recommandée dans la Référence [27]; l’Algorithme A est quasiment équivalent sans itération de position,
et en utilisant la médiane comme estimation de la position.
NOTE 4 Pour obtenir une estimation de l’écart-type à partir de l’écart absolu moyen par rapport à la médiane,
utiliser la Formule (D.1):
p
∑ i =1 xi − med( x )
1
s∗ = (D.1)
0 , 798 × p
e
NOTE 5 Le facteur de 0,798 dans la Formule (D.1) provient de la distance absolue moyenne par rapport à zéro
dans la distribution normale conventionnelle.
in
D.2 Efficacité et points de rupture pour les procédures robustes
ca
D.2.1 Différents estimateurs statistiques (par exemple techniques robustes) peuvent
être comparés sur trois caractéristiques clés:
o
Point de rupture — proportion de valeurs dans l’ensemble de données qui peuvent être remplacées par
ar
des valeurs arbitrairement élevées sans que l’estimation ne devienne elle aussi arbitrairement élevée.
Efficacité — variance d’un estimateur de variance minimale, divisée par la variance de l’estimateur
pour la distribution en question.
m
Résistance aux modes mineurs — aptitude d’un estimateur à résister au biais causé par un groupe
minoritaire de résultats divergents (généralement inférieur à 20 % de l’ensemble de données).
e
Ces caractéristiques dépendent fortement de la distribution sous-jacente des résultats pour une
population de participants compétents, et de la nature des résultats fournis par les participants non
rm
compétents (ou par les participants qui n’ont pas suivi les instructions ou la méthode de mesure).
Les données contaminées peuvent apparaître comme des valeurs aberrantes, des résultats présentant
une plus grande variance ou des résultats ayant une moyenne différente (par exemple bimodale).
no
Les points de rupture et les efficacités pour les différents estimateurs sont différents selon les situations,
et une revue approfondie ne relève pas du domaine d’application du présent document. Toutefois, il
est possible de procéder à de simples comparaisons dans l’hypothèse où les résultats fournis par des
laboratoires compétents sont distribués selon une loi normale, avec une moyenne égale à xpt et un écart-
type égal à σpt .
de
valeurs aberrantes sans que l’estimation en soit affectée défavorablement. Le point de rupture est une
mesure de la résistance aux valeurs aberrantes; un point de rupture élevé est associé à une résistance
à une forte proportion de valeurs aberrantes. Les points de rupture et la résistance aux modes mineurs
oj
pour les estimateurs de l’Annexe C sont présentés dans le Tableau D.1. Il convient de noter qu’il convient
que les procédures requises en 6.3 et 6.4 empêchent l’analyse des données d’ensembles de données
présentant de grandes proportions de valeurs aberrantes. Il existe toutefois des situations dans
pr
e
Moyenne et écart-type 50 % (très bonne pour les
Hampel modes mineurs plus
distants que 6 s*)
in
NOTE La définition du point de rupture utilisée ici est la proportion d’un grand ensemble de données
ca
distribuées selon une loi normale qui peut être déplacée vers +infini sans que l’estimation se déplace aussi vers
l’infini. Par exemple, si un peu moins de 50 % de l’ensemble de données sont remplacés par +infini, la médiane
reste dans les limites des données finies restantes.
o
En résumé, la moyenne et l’écart-type de l’échantillon peuvent présenter un point de rupture
correspondant à une seule valeur aberrante. Les méthodes robustes utilisant la médiane, l’écart absolu
ar
médian (MADe) et les méthodes Q/Hampel peuvent tolérer une très grande proportion de valeurs
aberrantes. L’Algorithme A avec un écart-type itéré et nIQR présentent un point de rupture de 25 %.
Dans toute situation avec une grande proportion de valeurs aberrantes (>20 %), toute procédure
m
conventionnelle ou robuste peut produire des estimations déraisonnables de la position et de la
dispersion, et il convient d’interpréter de telles valeurs avec précaution.
varier d’une campagne à l’autre d’un programme d’essais d’aptitude, même si tous les participants
sont compétents et qu’il n’y a pas de valeurs aberrantes ou de sous-groupes de participants ayant des
moyennes ou des variances différentes. Les estimateurs robustes modifient les résultats soumis qui
sont exceptionnellement éloignés du milieu de la distribution, sur la base d’hypothèses théoriques; de
no
ce fait, ces estimateurs présentent une variance plus élevée que les estimateurs de variance minimale
lorsque l’ensemble de données est en fait distribué selon une loi normale.
La moyenne et l’écart-type de l’échantillon sont les estimateurs de variance minimale de la moyenne
et de l’écart-type de la population, et ont de ce fait une efficacité de 100 %. Les estimateurs ayant
de
une plus faible efficacité ont une variance plus élevée, c’est-à-dire qu’ils peuvent varier davantage
d’une campagne de programme d'essais d'aptitude à l’autre, même s’il n’y a pas de valeurs aberrantes
ni différents sous-groupes de participants. Le Tableau D.2 fournit les efficacités relatives pour les
estimateurs présentés à l’Annexe C.
et
Tableau D.2 — Efficacité relative des estimateurs robustes pour la moyenne et l’écart-
type de la population, pour des ensembles de données distribuées selon une loi normale
oj
Moyenne et écart-type
100 % 100 % 100 % 100 %
de l’échantillon
Médiane et nIQR 66 % 65 % 38 % 37 %
Médiane et MADe 66 % 65 % 37 % 37 %
Algorithme A 97 % 97 % 74 % 73 %
Qn et Q/
96 % 96 % 73 % 81 %
Hampel
Ces résultats montrent qu’il n’y a pas de méthode statistique parfaite pour toutes les situations.
La moyenne et l’écart-type de l’échantillon sont optimaux avec une distribution suivant une loi
normale, mais sont défaillants en cas de valeurs aberrantes. Des méthodes robustes simples, telles que
la médiane, l’écart absolu médian (MADe) ou l’intervalle interquartile normalisé (nIQR), fonctionnent
comparativement moins bien pour des données distribuées selon une loi normale, mais peuvent être
efficaces lorsque des valeurs aberrantes sont présentes ou dans le cas d’un petit ensemble de données.
e
D.3.1 L’introduction de l’ISO/IEC 17043 stipule que l’évaluation des caractéristiques de performance
d’une méthode ne constitue généralement pas un objectif des essais d’aptitude. Toutefois, il est possible
in
d’utiliser les résultats de programmes d’essais d’aptitude pour vérifier, et peut-être déterminer,
la répétabilité et la reproductibilité d’une méthode de mesure[15] lorsque le programme d’essais
d’aptitude remplit les conditions suivantes:
ca
a) les entités soumises à l’essai d’aptitude sont suffisamment homogènes et stables;
b) les participants sont en mesure d’offrir des performances satisfaisantes et stables;
o
c) la compétence des participants (ou d’un sous-groupe de participants) a été démontrée avant la
ar
campagne de programme d’essais d’aptitude, et leur compétence n’est pas mise en doute par les
résultats d’une campagne.
m
D.3.2 Afin de fournir suffisamment de données pour l’évaluation de la répétabilité et de la
reproductibilité d’une méthode d’essai d’un programme d’essais d’aptitude, les conditions de plan
suivantes doivent être utilisées:
e
a) un nombre suffisant de participants pour satisfaire à une étude collaborative ont démontré leur
rm
compétence avec une méthode de mesure lors de campagnes antérieures d’un programme d’essais
d’aptitude, et se sont engagés à suivre la méthode de mesure sans la modifier;
b) lorsque la répétabilité doit être évaluée, il convient que chaque campagne de programmne d’essais
no
d’aptitude utilisée pour l’évaluation de la répétabilité comprenne au moins deux entités soumises à
l’essai d’aptitude ou exige des observations répétées;
c) lorsque cela est possible, il convient de fournir aux participants des échantillons en double à
l’aveugle, identifiés séparément, plutôt que de leur demander d’effectuer des mesurages répétés sur
de
e) il convient que les procédures d’analyse des données utilisées pour évaluer la répétabilité et la
reproductibilité soient en cohérence avec l’ISO 5725 ou le protocole utilisé pour l’étude collaborative.
oj
pr
Annexe E
(informative)
Exemples illustratifs
Ces exemples sont destinés à illustrer les procédures spécifiées dans le présent document, afin que
e
le lecteur puisse s’assurer que ses calculs sont corrects. Il convient de ne pas considérer les exemples
in
spécifiques comme des recommandations à utiliser dans des programmes d’essais d’aptitude
particuliers.
ca
E.1 Effet des valeurs tronquées (voir 5.5.3.3)
Le Tableau E.1 montre 23 résultats pour une campagne d’un programme d’essais d’aptitude, parmi
o
lesquels 5 résultats sont indiqués comme «inférieurs à» une certaine quantité. La moyenne robuste (x*)
et l’écart-type robuste (s*) obtenus par l’Algorithme A sont indiqués pour trois calculs différents, où les
ar
signes «<» sont supprimés et les données analysées en tant que données quantitatives; où les résultats
avec des valeurs «<» sont ignorés; et où 0,5 fois le résultat est inséré en tant qu’estimation du résultat
quantitatif. Dans chaque scénario, les résultats qui se situeraient en dehors de la limite d’acceptation
m
sont signalés par «#». Cela signifie que l’évaluation serait «inacceptable» (signal d’action) pour tout
résultat dans lequel la partie quantitative se situe en dehors de la limite x* ±3 s*. L’organisateur d’essais
d’aptitude pourrait disposer d’autres règles pour évaluer les résultats avec les signes «<» ou «>».
e
Tableau E.1 — Ensemble de données d’échantillon avec des résultats tronqués (<),
rm
A < 10 10 – 5
B < 10 10 – 5
C 12 12 12 12
D 19 19 19 19
de
E < 20 20 – 10
F 20 20 20 20
G 23 23 23 23
H 23 23 23 23
et
J 25 25 25 25
K 25 25 25 25
oj
L 26 26 26 26
M 28 28 28 28
pr
N 28 28 28 28
P < 30 30 – 15
Q 28 28 28 28
R 29 29 29 29
S 30 30 30 30
T 30 30 30 30
U 31 31 31 31
V 32 32 32 32
W 32 32 32 32
e
x* 26,01 26,81 23,95
in
s* 7,23 5,29 8,60
La méthode choisie pour traiter les échantillons «inférieurs à» a un effet significatif sur la moyenne et
ca
l’écart-type robustes ainsi que sur l’évaluation des performances. Il appartient à l’organisateur d’essais
d’aptitude de déterminer une méthode appropriée.
NOTE La Référence [21] inclut certaines méthodes, basées sur l’estimation du maximum de vraisemblance,
o
qui peuvent s’adapter correctement aux résultats cités comme étant «inférieurs à» une limite supérieure.
ar
E.2 Essai d’homogénéité et de stabilité – Arsenic (As) dans le chocolat (voir 6.1)
m
Des entités soumises à l’essai d’aptitude sont préparées dans le but d’être utilisées dans un programmen
d'essais d’aptitude international et de servir ensuite de matériaux de référence. 1 000 flacons sont
fabriqués.
e
Vérification de l’homogénéité: 10 entités soumises à l’essai d’aptitude sont sélectionnées selon une
méthode d’échantillonnage aléatoire stratifié des entités soumises à l’essai d’aptitude, en différents
rm
points du processus de fabrication. 2 prises d’essai sont extraites de chaque flacon et soumises à essai
selon un ordre aléatoire, dans des conditions de répétabilité. Les données sont présentées dans le
Tableau E.2 ci-dessous. La procédure décrite en B.3 est suivie et les statistiques résumées résultantes
sont énumérées. L’écart-type de l’adéquation à l’objectif σpt de l’arsenic (As) dans le chocolat est de 15 %.
no
Comme la valeur assignée pour la campagne de programme d'essais d'aptitude n’est pas disponible au
moment de la vérification de l’homogénéité, l’estimation de la variabilité des échantillons est vérifiée
par rapport à une estimation provisoire de σpt calculée comme étant égale à 15 % de la valeur moyenne
pour l’essai d’homogénéité.
de
Tableau E.2 — Données d’homogénéité pour des entités soumises à l’essai d’aptitude
relatif à l’arsenic dans le chocolat
Identifiant du Essai 1 Essai 2
flacon
et
3 0,185 0,194
111 0,187 0,189
oj
sw : 0,005 56
ss : 0,000 60
e
Valeur de contrôle: 0,3 σpt = 0,008 42
in
Conclusion ss est inférieur à la valeur de contrôle, donc l’homogénéité est suffisante.
Vérification de la stabilité: deux entités soumises à l’essai d’aptitude sont sélectionnées au hasard et
ca
conservées à une température élevée (60 °C) pendant toute la durée de la campagne du programme
d’essais d’aptitude (6 semaines). Les entités soumises à l’essai d’aptitude sont soumises à essai en double
(Tableau E.3), et les quatre résultats sont vérifiés par rapport aux valeurs d’homogénéité.
o
Tableau E.3 — Données de stabilité pour des entités soumises à l’essai d’aptitude
ar
relatif à l’arsenic dans le chocolat
Échantillon pour Essai 1 Essai 2
essai de stabilité
164
732
m 0,191
0,190
0,198
0,196
e
rm
pour plus de clarté. Le tableau indique les valeurs calculées pour la moyenne et l’écart-type robustes
selon l’Algorithme A, après 6 itérations, jusqu’à ce que le troisième chiffre significatif de la moyenne et
oj
de l’écart-type robustes ne change plus. Les données sont présentées sous forme d’un tracé de données
rangées à la Figure E.1 et sous forme d’un histogramme et d’un diagramme de densité par la méthode
du noyau respectivement à la Figure E.2 et à la Figure E.3.
pr
NOTE L’histogramme et le diagramme de densité présentent tous deux des modes mineurs apparents aux
deux extrêmes. Ceux-ci sont dus à un petit nombre de valeurs aberrantes plutôt qu’à une caractéristique de la
distribution sous-jacente des résultats valides.
Le Tableau E.5 indique les estimations de la position (moyenne) et de l’écart-type en utilisant diverses
techniques classiques et robustes. L’incertitude de l’estimation de la position est également indiquée.
Les statistiques relatives à la méthode de bootstrap sont obtenues selon les procédures mentionnées
dans les références [17] [18] à l’aide du progiciel R (voir l’exemple en E.6 et l’Annexe F pour obtenir un
exemple de script). La Figure E.4 montre les différentes estimations de la position et l’estimation de
l’incertitude élargie (2u(xpt)) sous forme d’un diagramme d’erreur en barres.
e
3 0,178 0 0,204 2 0,199 7 0,198 5 0,198 0 0,197 9 0,197 8
4 0,202 0 0,204 2 0,202 0 0,202 0 0,202 0 0,202 0 0,202 0
in
5 0,206 0 0,206 0 0,206 0 0,206 0 0,206 0 0,206 0 0,206 0
6 0,227 0 0,227 0 0,227 0 0,227 0 0,227 0 0,227 0 0,227 0
ca
7 0,228 0 0,228 0 0,228 0 0,228 0 0,228 0 0,228 0 0,228 0
8 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0
9 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0
o
10 0,235 0 0,235 0 0,235 0 0,235 0 0,235 0 0,235 0 0,235 0
ar
11 0,236 0 0,236 0 0,236 0 0,236 0 0,236 0 0,2360 0,236 0
12 0,237 0 0,237 0 0,237 0 0,237 0 0,237 0 0,237 0 0,237 0
13 0,243 0 0,243 0 0,243 0 0,243 0 0,243 0 0,243 0 0,243 0
14
15
0,244 0
0,245 0
0,244 0
0,245 0
0,244 0
0,245 0
m
0,244 0
0,245 0
0,244 0
0,245 0
0,244 0
0,245 0
0,244 0
0,245 0
16 0,255 5 0,255 5 0,255 5 0,255 5 0,255 5 0,255 5 0,255 5
e
17 0,260 0 0,260 0 0,260 0 0,260 0 0,260 0 0,260 0 0,260 0
rm
e
in
o ca
ar
m
e
rm
Légende
no
X code du laboratoire
Y concentration d’atrazine (mg l−1)
Figure E.1 — Résultats rangés des participants pour l’atrazine (données issues du Tableau E.4)
de
et
oj
pr
Légende
X concentration d’atrazine (mg l−1)
e
in
o ca
Légende
ar
X concentration d’atrazine (mg l−1)
Y densité par la méthode du noyau
m
Figure E.3 — Diagramme de densité par la méthode du noyau pour les résultats des
participants
e
rm
NOTE Les différents progiciels du commerce ont des procédures différentes pour calculer les quartiles, ce
et
qui peut entraîner des différences notables dans nIQR. Des divergences mineures par rapport aux figures ci-
dessus peuvent être dues à ces différences ou à des procédures d’arrondi différentes.
oj
pr
e
in
o ca
Légende
Y concentration d’atrazine (mg l−1)
ar
1 robuste: médiane,nIQR (MADe)
2 robuste: algorithme A (x*, s*)
3 robuste: Q/Hampel
4 bootstrap (pour la moyenne)
m
5 arithmétique, valeurs aberrantes éliminées
e
6 arithmétique, valeurs aberrantes incluses
rm
E.4 Exemple détaillé pour le mercure dans les aliments pour animaux
Au cours d’une campagne d’un programme d’essais d’aptitude, il est demandé aux participants de
consigner leurs résultats comme ils le font habituellement et de fournir leur incertitude élargie (Ulab)
ainsi que le facteur d’élargissement (k). L’incertitude-type (ulab) est ensuite calculée par l’organisateur
de
d’essais d’aptitude par Ulab/k. Des indications sont assignées aux incertitudes consignées, selon les
critères mentionnés en 9.8. Les données indiquées dans les Tableaux E.6 et E.7 concernent le mercure
total dans les aliments. Dans le Tableau E.6, l’incertitude-type ulab a été calculée à partir de l’incertitude
élargie du participant Ulab, en la divisant par le facteur d’élargissement consigné k; elle est indiquée sous
et
forme de valeur arrondie. Pour le calcul des statistiques de performance du Tableau E.7, des valeurs non
arrondies de ulab ont été utilisées. Pour le participant ayant le code L23, le facteur d’élargissement n’a
pas été consigné et 1,732 a été utilisé (racine carrée de 3, arrondie).
oj
Les scores de performance ont été calculés en utilisant les techniques décrites à l’Article 9. Pour tous les
calculs, une valeur de référence a été utilisée comme xpt, et σpt est une valeur d’adéquation à l’objectif
pr
basée sur l’expérience antérieure. L’incertitude de la valeur assignée est l’incertitude-type composée de
la valeur de référence plus l’incertitude due à la non-homogénéité:
xpt = 0,044 mg/kg; U(xpt) = 0,008 2 mg/kg; σpt = 0,006 6 mg/kg (=15 %)
Le diagramme de densité par la méthode du noyau de la Figure E.6 présente une distribution bimodale
très nette, due aux différences de méthode. Cela n’a pas eu d’impact sur l’évaluation des performances
parce qu’une valeur de référence a été utilisée comme xpt et qu’une valeur d’adéquation à l’objectif a été
utilisée comme σpt . Pour cette analyse, les résultats ayant une valeur «inférieur à» (<) ont été éliminés.
Tableau E.6 — Résultats des essais d’aptitude des 24 participants à l’étude IMEP 111
Code du labo-
Valeur Ulab k ulab Indication Méthode
ratoire
L04 0,013 0,003 2 0,002 b AMA
L05 0,013 0,007 2 0,004 a AMA
L23 0,013 5 0,001 08 1,732 0,000 62 b AMA
L02 0,014 0,004 2 0,002 b AMA
L15 0,014 0,000 5 2 0,000 3 b AMA
e
L17 < 0,015 CV-ICP-AES
in
L06 0,016 0,003 2 0,002 b AMA
L09 0,017 0,008 2 0,004 a AMA
ca
L26 0,019 0,003 2 0,002 b AAS
L12 0,023 9 0,003 6 2 0,001 8 b AMA
L13 < 0,034 TDA-AAS
o
L03 0,037 0,013 2 0,007 a CV-AAS
ar
L29 0,039 0,007 2 0,004 a CV-AAS
L07 0,04 0,008 2 0,004 a ICP-MS
L21 0,04 0,03 2 0,02 c HG-AAS
L25
L16
0,040
0,042 4
0,010
0,008
2
2
m0,005
0,004
a
a
CV-AAS
CV-AAS
L08 0,044 0,007 2 0,004 a CV-AAS
e
L10 0,045 0,007 2 0,004 a ICP-MS
rm
e
in
o ca
ar
Légende
X code du laboratoire
m
Y mercure total dans les aliments (mg kg−1)
e
rm
Figure E.5 — Résultats des participants et incertitudes pour les résultats de l’étude IMEP 111
(données du Tableau E.6)
Les lignes en tirets représentent xpt ± U(xpt) et les lignes en pointillés représentent xpt ±2σpt
no
Les points vides et les lignes verticales en tirets représentent des résultats entrés en tant que
«inférieur à»
de
et
oj
pr
e
in
o ca
Légende
ar
X concentration en mercure (mg kg−1)
Y densité par la méthode du noyau
m
Figure E.6 — Diagramme de densité par la méthode du noyau pour les résultats des
participants
e
Tableau E.7 — Statistiques de performances par diverses méthodes
rm
Code du labo-
D% PA z z’ ζ En
ratoire
L04 −70,5 % −156,6 % −4,70 −3,99 −7,10 −3,55
no
L17
L06 −63,6 % −141,4 % −4,24 −3,60 −6,41 −3,21
L09 −61,4 % −136,4 % −4,09 −3,47 −4,71 −2,36
L26 −56,8 % −126,3 % −3,79 −3,22 −5,73 −2,86
et
*Cet exemple est issu de l’étude 111 de l’International Measurement Évaluation Program (IMEP®),
avec l’aimable autorisation de l’Institut des matériaux et mesures de référence (IRMM, Institute for
Reference Materials et Measurements), rattaché au Centre commun de recherche de la Commission
e
européenne.
in
E.5 Valeur de référence provenant d’un seul laboratoire: valeur Los Angeles de
ca
granulats (voir 7.5)
Le Tableau E.8 donne un exemple des données pouvant être obtenues dans une série d’essais sur
une entité soumise à l’essai d’aptitude et un matériau de référence certifié (MRC) très similaire,
o
ayant une propriété certifiée de valeur 21,62 unités LA et une incertitude associée de 0,26 unité LA.
L’exemple montre comment une valeur de référence et l’incertitude sont obtenues pour l’entité soumise
ar
à l’essai d’aptitude. Noter que l’incertitude de la valeur certifiée pour le MRC comprend l’incertitude due
à la non-homogénéité, au transport et à la stabilité à long terme:
x pt = 21 , 62 + 1 , 73 = 23 , 35 unités LA m
et
e
u ( x pt ) = 0 , 262 + 0 , 242 = 0 , 35 unités LA
rm
Tableau E.8 — Calcul de la différence moyenne entre un MRC et une entité soumise à l’essai
d’aptitude, et de l’incertitude-type de cette différence
Entité soumise à l’essai Différence en valeurs
MRC
d’aptitude moyennes
de
e
15 24,0 24,2 22,1 21,5 2,30
in
16 24,5 24,4 22,3 22,5 2,05
17 24,8 24,7 22,0 21,9 2,80
ca
18 24,7 25,1 21,9 21,9 3,00
19 24,9 24,4 22,4 22,6 2,15
20 27,2 27,0 24,5 23,7 3,00
o
Différence moyenne, d 1,73
ar
Écart-type 1,07
Incertitude-type de d (écart-type / 20 ) 0,24
NOTE Les données sont des mesures de la résistance mécanique du granulat, obtenues à partir de l’essai Los Angeles
(LA). m
E.6 Exemple de technique de bootstrap pour les organismes coliformes dans un
e
échantillon d’aliment (voir 7.7.6)
rm
Un programme d’essais d’aptitude relatif aux organismes coliformes dans un échantillon d’aliment
(lait) a réuni 35 participants ayant effectué cinq mesures répétées indépendantes. La moyenne des
données log UFC de chaque participant a été utilisée pour estimer la valeur assignée et son incertitude.
Une valeur d’adéquation à l’objectif égale à «0,25 log CFU/ml» a été fixée comme σpt alors que l’écart-
no
type de la fonction du noyau était de 0,75 σpt (voir «bw» dans le code R). Le diagramme de densité
par la méthode du noyau (Figure E.7) présente une distribution asymétrique. La méthode bootstrap
(1 000 répétitions) a été appliquée pour estimer le mode et l’erreur type correspondante de la fonction
de densité par la méthode du noyau de la distribution des données, fixés respectivement comme xpt et
de
u(xpt). Le script informatique est donné à l’Annexe F. Les valeurs suivantes ont été obtenues:
xpt = 3,79 et u(xpt) = 0,092 2 en log CFU/ml
NOTE Étant donné que u(xpt) > 0,3 σpt , les performances des laboratoires ont été évaluées en utilisant les
et
scores z’.
oj
pr
e
in
o ca
ar
Légende
X organismes coliformes (log10CFU/ml)
Y densité par la méthode du noyau
m
e
Figure E.7 — Diagramme de densité par la méthode du noyau pour les résultats des
rm
participants
(voir 7.8)
À titre de démonstration de la procédure décrite en 7.8 pour comparer une valeur de référence à la
moyenne robuste des résultats des participants, considérer l’exemple E.4 et les données du Tableau E.6.
de
Au cours de cette campagne d’un programme d’essais d’aptitude, la moyenne robuste x* est de 0,031 61
et l’écart-type robuste s* est de 0,016 4, calculés avec l’Algorithme A, après élimination de 3 résultats
ayant des valeurs «inférieur à» (n = 21 après élimination des résultats tronqués). Par conséquent,
l’incertitude de la moyenne robuste est calculée comme suit:
et
( ) (
u x ∗ = 1 , 25 s ∗ / n )
oj
Selon la Formule (7) de 7.8, l’incertitude de la différence entre xref et x* est la suivante:
( )=
udiff = u2 ( x ref ) + u2 x ∗ 0 , 004 12 + 0 , 004 52 = 0,006 1
xdiff = xref – x* = 0,044 – 0,032 = 0,012; la différence est donc égale à deux fois l’incertitude de la
différence
Aucune action n’est recommandée car, dans certaines méthodes, le biais est compris.
e
Il y a deux organisateurs d’essais d’aptitude organisant des programmes d’essais d’aptitude pour
in
le toxaphène (un pesticide) dans l’eau potable. Sur une période de 5 ans, il y a eu 20 campagnes de
programmes d’essais d’aptitude auxquelles ont pris part 20 participants ou plus, couvrant des niveaux
réglementés de toxaphène compris entre 3 µg/l et 20 µg/l. Le Tableau E.9 montre les résultats des
ca
20 campagnes de programmes d’essais d’aptitude, présentés en allant des valeurs assignées les plus
faibles aux valeurs assignées les plus élevées. Les Figures E.8 et E.9 représentent les diagrammes de
dispersion de l’écart-type robuste relatif (RSD %) et de l’écart-type robuste (SD) pour chaque campagne
o
des programmes d’essais d’aptitude, par rapport à la valeur assignée (à partir de la formulation). Les
formules pour la droite de régression linéaire simple (méthode des moindres carrés) sont données
ar
pour chaque figure. Les droites de régression (méthode des moindres carrés) peuvent être déterminées
par des tableurs courants. (Un modèle polynomial du deuxième ordre a également été vérifié pour
la relation entre l’écart-type et la valeur assignée, mais le terme quadratique n’était pas significatif,
m
indiquant l’absence de courbe significative dans la droite; le modèle linéaire simple est donc approprié.).
Il apparaît que l’écart-type robuste relatif (RSD) est sensiblement constant à environ 19 % pour tous
les niveaux et que la droite de régression pour l’écart-type est assez fiable (coefficient de détermination
e
r2 = 0,82). Un organisme de réglementation peut choisir d’exiger que l’écart-type pour l’évaluation de
l’aptitude soit égal à 19 % de la valeur assignée (ou peut-être à 20 %), ou il peut exiger un calcul de
rm
Tableau E.9 — Campagnes de programme d’essais d’aptitude pour le toxaphène dans l’eau
potable et p ≥ 20 résultats
no
e
in
o ca
ar
m
e
Légende
rm
Figure E.8 — Écart-type relatif des résultats des participants (%) en fonction de la valeur
de référence assignée (µg/l)
de
et
oj
pr
e
in
o ca
Légende
ar
xpt (µg l−1)
Y SD (µg l−1)
m
Figure E.9 — Écart-type des résultats des participants (µg/l) en fonction
de la valeur assignée (µg/l)
e
E.9 À partir d’un modèle général: équation de Horwitz (voir 8.4)
rm
Un modèle général commun pour les applications chimiques a été décrit par Horwitz[22][31].
Cette approche donne un modèle général pour l’écart-type de reproductibilité de méthodes d’analyse,
qui peut être utilisé pour déduire l’expression suivante pour l’écart-type de reproductibilité:
no
σ R = 0 , 02 × c 0 ,849 5
Par exemple, un programme d’essais d’aptitude relatif à la mélamine dans le lait en poudre utilise deux
entités soumises à l’essai d’aptitude avec des niveaux de référence A = 1,195 mg/kg et B = 2,565 mg/kg
(0,000 001 195 et 0,000 002 565). Cela donne les écarts-types de reproductibilité attendus suivants:
et
Entité A soumise à l’essai d’aptitude à 1,195 mg/kg: σR = 0,186 mg/kg ou σR relatif = 15,6 %
Entité B soumise à l’essai d’aptitude à 2,565 mg/kg: σR = 0,356 mg/kg ou σR relatif = 13,9 %
oj
L’objectif d’avoir σpt < 25/2 kg/m3 = 12,5 kg/m3 est donc susceptible de ne pas être pratique.
NOTE Dans l’ISO 5725-2, σ R = σ L2 + σ r2 avec σL correspondant à la composante de variance due aux
différences entre laboratoires.
e
Dans cet exemple, σL pourrait être calculé comme suit: σ L = σ R2 − σ r2 = ( 23 , 22 − 14 , 32 ) = 18,3 kg/
in
m3 .
ca
E.11 Diagrammes en bâtons des biais normalisés: concentrations d’anticorps
(voir 10.4)
o
Les scores z provenant d’une campagne de programme d’essais d’aptitude avec trois mesurandes
liés (anticorps) sont présentés à la Figure E.10 sous la forme d’un diagramme en bâtons. Les données
ar
relatives à deux des trois allergènes sont indiquées dans le Tableau E.10. Sur ce graphique, les
laboratoires B et Z (par exemple) peuvent voir qu’il convient de rechercher la cause du biais affectant
les trois niveaux à peu près dans la même proportion, alors que les laboratoires K et P (par exemple)
m
peuvent voir que, dans leur cas, le signe du score z dépend du type d’anticorps.
e
rm
no
de
Légende
et
X code du laboratoire
Y score z
oj
Figure E.10 — Diagramme en bâtons de scores z (entre 4,0 et −4,0) pour une seule campagne
pr
d’un programme d’essais d’aptitude pendant lequel les participants ont déterminé
les concentrations de trois anticorps de classe IgE (immunoglobuline) spécifiques à un
allergène
L’examen de la Figure E.11 révèle deux participants (numéros 5 et 23) dans le quadrant supérieur droit,
pouvant donc avoir un biais positif cohérent. Le laboratoire 26 a un score z élevé sur l’entité B soumise
à l’essai d’aptitude et un score z négatif de −0,055 sur l’entité A soumise à l’essai d’aptitude; il pourrait
donc avoir une mauvaise répétabilité.
Il convient que les participants 5, 23 et 26 traitent leurs résultats comme s’ils généraient des signaux
«d’avertissement» et vérifient où leurs résultats se situent au cours de la campagne suivante du
programme d'essais d'aptitude. L’examen visuel et le coefficient de corrélation indiquent une tendance
pour les scores z cohérents (positifs ou négatifs); il pourrait donc y avoir une opportunité d’amélioration
de la méthode de mesure avec des instructions plus détaillées.
e
in
o ca
ar
m
e
rm
no
Légende
X score z pour l’allergène A
Y score z pour l’allergène B
de
Figure E.11 — Graphique de Youden des scores z indiqués dans le Tableau E.10
et
e
10 12,44 7,39 0,272 −0,093
in
11 6,93 7,78 −1,400 0,042
12 9,57 5,80 −0,599 −0,642
ca
13 11,73 5,77 0,057 −0,652
14 12,29 6,97 0,227 −0,238
15 10,95 6,23 −0,180 −0,493
o
16 10,95 5,90 −0,180 −0,607
ar
17 11,17 7,74 −0,113 0,028
18 11,20 8,63 −0,104 0,335
19 7,64 3,74 −1,185 −1,353
20
21
12,17
10,71
m
7,33
5,70
0,190
−0,253
−0,114
−0,676
22 7,84 6,07 −1,124 −0,549
e
23 20,47 15,66 2,710 2,762
rm
(voir 10.6)
Le Tableau E.11 donne les résultats de la détermination de la concentration d’un certain anticorps dans
des entités de sérum soumises à l’essai d’aptitude. Chaque participant procède à quatre déterminations
répétées, dans des conditions de répétabilité. Les formules indiquées ci-dessus sont utilisées pour
obtenir le graphique représenté à la Figure E.12. Ce graphique montre que plusieurs laboratoires
reçoivent des signaux d’action ou d’avertissement.
Tableau E.11 — Concentration de certains anticorps dans des entités de sérum soumises à
l’essai d’aptitude (quatre déterminations répétées sur une entité soumise à l’essai d’aptitude
par chaque participant)
Laboratoire Moyenne Écart-type
kU/l kU/l
1 2,15 0,13
2 1,85 0,21
3 1,80 0,08
e
4 1,80 0,24
in
5 1,90 0,36
6 1,90 0,32
ca
7 1,90 0,14
8 2,05 0,26
9 2,35 0,39
o
10 2,03 0,53
ar
11 2,08 0,25
12 1,25 0,24
13 1,13 0,72
14
15
1,00
1,08
m 0,26
0,17
16 1,20 0,32
e
17 1,35 0,4
rm
18 1,23 0,36
19 1,23 0,33
20 0,90 0,43
no
21 1,48 0,40
22 1,20 0,55
23 1,73 0,39
24 1,43 0,30
de
25 1,28 0,22
Moyenne robuste 1,57
Écart-type robuste 0,34
NOTE Les données sont des nombres exprimés en milliers (k) d’unités (U) par
et
litre (l) d’échantillon, une unité étant définie par la concentration d’un matériau
de référence international.
oj
pr
e
in
o ca
Légende
ar
X concentration moyenne (kU/l)
Y écart-type (kU/l)
a Niveau de 0,1 %.
b
c
Niveau de 1 %.
Niveau de 5 %.
m
e
Figure E.12 — Graphique de l’écart-type par rapport à la moyenne de 25 participants
(données issues du Tableau E.10)
rm
(voir 10.8)
Il peut être utile pour un participant de suivre ses propres performances dans le temps ou de les
faire suivre par l’organisateur d’essais d’aptitude. Une carte de contrôle de la qualité ou une carte
de Shewhart constitue un outil simple et classique. Cette méthode exige de disposer d’un score de
de
la valeur supérieure consignable (0,1 mmol/l), et non inférieure à ±0,2 mmol/l. L’organisateur d’essais
d’aptitude utilise des scores PA plutôt que des scores z.
oj
Tableau E.12 — Scores PA pour 5 campagnes d’un programme d’essais d’aptitude, portant
chacune sur 3 entités soumises à l’essai d’aptitude pour le potassium du sérum
pr
e
104 C 6,3 5,9 110
in
105 A 3,6 3,7 −50 −19
105 B 4,5 4,6 −33
ca
105 C 5,3 5,2 25
Les résultats peuvent être facilement reportés sur un graphique à des fins d’examen – 2 types de
graphiques sont recommandés:
o
— la carte de contrôle de la qualité du score de performance normalisé pour chaque campagne,
ar
montrant de multiples entités soumises à l’essai d’aptitude dans la même campagne de programme
d’essais d’aptitude. Celle-ci permet de mettre en évidence les performances dans le temps, y compris
d’éventuelles tendances; elle est représentée à la Figure E.13;
m
— le diagramme de dispersion des scores de performance normalisés en fonction de valeurs assignées,
pour voir si les performances sont liées au niveau de concentration et pour identifier d’éventuelles
tendances liées au niveau du mesurande; il est représenté à la Figure E.14.
e
rm
no
de
et
oj
Légende
X événement d’essai d’aptitude
pr
Y score PA
a «Action».
b PA moyen.
Figure E.13 — Scores de performance pour chaque campagne de programme d'essais d'aptitude
(données issues du Tableau E.12)
e
in
o ca
Légende
X valeur assignée (mmol/l)
ar
Y score PA
antérieur
courant
action
m
e
Figure E.14 — Scores de performance pour différents niveaux du mesurande
rm
a) aucune réaction;
b) rougeur modérée;
c) irritation significative ou gonflement;
et
Deux entités soumises à l’essai d’aptitude consistant en deux produits différents, sont distribuées,
étiquetées produit A et produit B, et il y a 50 participants pour chaque produit. Les résultats des
participants sont énumérés dans le Tableau E.13 et représentés graphiquement à la Figure E.15.
pr
Le mode et la médiane sont indiqués pour les résultats des participants pour chaque entité soumise à
l’essai d’aptitude.
Tableau E.13 — Résultats relatifs à deux entités soumises à l’essai d’aptitude, irritation cutanée
Réaction Produit A Produit B
1 20 (40 %) # 8 (16 %)
2 18 (36 %) @ 12 (24 %)
# mode
@ médiane
e
in
o ca
ar
m
e
Légende
X niveau de réaction
rm
ab #,@.
entité A soumise à l’essai d’aptitude
Figure E.15 — Diagrammes en bâtons des réponses en pourcentage aux deux entités soumises
à l’essai d’aptitude (irritation cutanée) — # mode, @ médiane
et
Il convient de noter que la médiane ou le mode peuvent être utilisés comme des statistiques résumées
pour ces entités soumises à l’essai d’aptitude et qu’elles suggèrent que le niveau de réaction au produit B
oj
était plus sévère que le niveau de réaction au produit A. L’organisateur d’essais d’aptitude peut
déterminer que des «signaux d’action» pourraient être générés pour tout résultat s’écartant de plus
d’une unité ordinale par rapport à la médiane; auquel cas, pour le produit A, des signaux d’action sont
pr
générés pour les 2 résultats de «4» (4 %), alors que pour le produit B, des signaux d’action sont générés
pour les 8 résultats de «1» (16 %).
Annexe F
(Informative)
e
in
Le script suivant a utilisé R version 3.1.1 pour produire les figures et les résultats de l’exemple donné
en E.6.
ca
################################
#LIBRARY TO DOWNLOAD AND TO USE
################################
o
library(boot) #for bootstrap estimates
library(pastecs) #for descriptive statistics
ar
#DATA
#DATA
m
colif<-c(3.80, 3.90, 3.07, 3.64, 4.06, 3.40, 3.59, 3.39, 3.47, 3.47, 3.77, 3.53, 2.83,
2.75, 2.06, 3.75, 3.73, 3.82, 3.86, 3.88, 3.97, 3.96, 3.80, 3.88, 3.25, 3.45, 3.64, 2.86,
3.17, 3.19, 3.17, 4.22, 3.82, 3.82, 3.95)
#DESCRIPTIVE STATISTICS
e
options(digits = 3) #number of decimal
stat.desc(colif)
rm
#CONDITIONS
sigmat<-0.25 #standard deviation "fitness for purpose"
bw=0.75*sigmat #standard deviation of kernel density
no
boot.statistics<- boot(colif,theta,R=1000)
boot.statistics #MODE AND STANDARD ERROR
pr
Bibliographie
[1] ISO 5725-2, Exactitude (justesse et fidélité) des résultats et méthodes de mesure — Partie 2:
Méthode de base pour la détermination de la répétabilité et de la reproductibilité d'une méthode de
mesure normalisée
[2] ISO 5725-3, Exactitude (justesse et fidélité) des résultats et méthodes de mesure — Partie 3:
Mesures intermédiaires de la fidélité d’une méthode de mesure normalisée
e
[3] ISO 5725-4, Exactitude (justesse et fidélité) des résultats et méthodes de mesure — Partie 4:
in
Méthodes de base pour la détermination de la justesse d'une méthode de mesure normalisée
[4] ISO 5725-5, Exactitude (justesse et fidélité) des résultats et méthodes de mesure — Partie 5:
ca
Méthodes alternatives pour la détermination de la fidélité d'une méthode de mesure normalisée
[5] ISO 5725-6, Exactitude (justesse et fidélité) des résultats et méthodes de mesure — Partie 6:
o
Utilisation dans la pratique des valeurs d'exactitude
ISO 7870-2, (2013), Cartes de contrôle — Partie 2: Cartes de contrôle de Shewhart
ar
[6]
[7] ISO 11352, Qualité de l'eau — Estimation de l'incertitude de mesure basée sur des données de
validation et de contrôle qualité
[8]
m
ISO 11843-1, Capacité de détection — Partie 1: Termes et définitions
[9] ISO 11843-2, Capacité de détection — Partie 2: Méthodologie de l'étalonnage linéaire
e
[10] ISO 16269-4, Interprétation statistique des données — Partie 4: Détection et traitement des valeurs
rm
aberrantes
[11] ISO/IEC 17011, Évaluation de la conformité — Exigences pour les organismes d'accréditation
procédant à l'accréditation d'organismes d'évaluation de la conformité
no
[12] ISO/IEC 17025, Exigences générales concernant la compétence des laboratoires d'étalonnages et
d'essais
[13] Guide ISO 35, Matériaux de référence — Lignes directrices pour la caractérisation et l'évaluation de
de
l'homogénéité et la stabilité
[14] Guide ISO/IEC 98-3, Incertitude de mesure — Partie 3: Guide pour l’expression de l’incertitude de
mesure (GUM:1995)
15
et
[15] Analytical Method Committee, Royal Society of Chemistry Accred Qual Assur. 2010,
pages 73–79
oj
[16] CCQM Guidance note: Estimation of a consensus KCRV and associated Degrees of Equivalence.
Version 10. Bureau International des Poids et Mesures, Paris (2013)
pr
[17] Davison A.C., Hinkley D.V., Bootstrap Methods and Their Application. Cambridge University
Press, 1997
[18] Efron B., Tibshirani R., An Introduction to the Bootstrap. Chapman & Hall, 1993
[19] Fresenius’ Journal of Analytical Chemistry, volume 360, pages 359-361
[20] Gower J.C., A general coefficient of similarity and some of its properties. Biometrics. 1971,
27 (4) pages 857–871
[21] Helsel D.R., Nondetects and data analysis: statistics for censored environmental data. Wiley
Interscience, 2005
[22] Horwitz W., Évaluation of analytical methods used for regulations of food and drugs. Analytical
Chemistry 1982, volume 54, pages 67A– 76A
[23] Jackson J.E., Quality control methods for two related variables. Industrial Quality Control. 1956,
volume 7, pages 2–6
[24] Kuselman I., Fajgelj A., IUPAC/CITAC Guide: Selection and use of proficiency testing schemes
for a limited number of participants—chemical analyticallaboratories (IUPAC Technical Report).
Pure and Applied Chemistry 2010, volume 82 (numéro 5), pages 1099–1135
e
[25] Maronna R.A., Martin R.D., Yohai V.J., Robust Statistics: Theory and methods. John Wiley &
Sons Ltd, Chichester, Angleterre, 2006
in
[26] Müller C.H., Uhlig S. Estimation of variance components with high breakdown point and high
efficiency; Biometrika; volume 88: numéro 2, pages 353-366, 2001
ca
[27] Rousseeuw P.J., Verboven S., Computational Statistics & Data Analysis 2002, volume 40,
pages 741–758
o
[28] Scott D.W., Multivariate Density Estimation: Theory, Practice, and Visualization. Wiley, 1992
ar
[29] Sheather S.J., Jones M.C., A reliable data-based bandwidth selection method for kernel density
estimation. Journal of the Royal Statistical Society., série B. 1991, volume 53, pages 683–690
[30]
[31]
m
Silverman B.W., Density Estimation. Chapman and Hall, Londres, 1986
Analyst Thompson M., Lond.). 2000, volume 125, pages 385–386
e
[32] Thompson M., Ellison S.L.R., Wood R., «The International Harmonized Protocol for the
proficiency testing of analytical chemistry laboratories» (IUPAC Technical Report). Pure and
rm
[34] Uhlig S., Robust estimation of variance components with high breakdown point in the 1-way
random effect model. Auteurs: Kitsos, C.P. et Edler, L.; Industrial Statistics; Physica, pages 65-73,
1997
de
[35] Uhlig S. Robust estimation of between and within laboratory standard deviation measurement
results below the detection limit, Journal of Consumer Protection and Food Safety, 2015
[36] van Nuland Y., ISO 9002 and the circle technique. Quality Engineering, 1992, volume 5,
pages 269–291
et
[37] https://quodata.de/en/web-services/QHampel.html
oj
[38] ISO 16269-4, Interprétation statistique des données — Partie 4: Détection et traitement des valeurs
aberrantes
pr
[39] Robouch P., Naji Y., Vermaercke P. The “Naji Plot”, a simple graphical tool for the evaluation of
inter-laboratory comparisons, auteurs: Richter D., Wöger W., Hässelbarth W., Data analysis of
key comparisons, Braunschweig et Berlin, 2003, numéro ISBN 3‑89701‑933-3
[40] Ellison S.L.R. Applications of robust estimators of covariance in examination of inter-
laboratory study data. Analytical methods 2019, volume 11, pages 2639-2649, https://doi.org/10
.1039/C8AY02724B
[41] Maechler M., Rousseeuw P., Croux C., Todorov V., Ruckstuhl A., Salibian-Barrera M. et
al., c(“Eduardo”, “L. T.”) Conceicao and Maria Anna di Palma (2021). robustbase: Basic Robust
Statistics, package R version 0.93-7. URL: http://CRAN.R-project.org/package=robustbase
[42] Christophe Croux and Peter J. Rousseeuw, «Time-Efficient Algorithms for Two Highly Robust
Estimators of Scale», dans Computational Statistics, volume 1. Y. Dodge et J. Whittaker,
Heidelberg: Physika-Verlag, 41 1-428, 1992
e
in
o ca
ar
m
e
rm
no
de
et
oj
pr