Verfahren und Vorrichtung zum Identifizieren chemischer Substanzen
Die vorliegende Erfindung betrifft ein Verfahren zum Identifizieren chemischer Substanzen mit den folgenden Schritten:
a) Untersuchen einer Gruppe von Referenzsubstanzen mit einer ersten Untersuchungsmethode und Erfassen eines ersten Satzes charakteristischer Eigenschaften für jede der Referenzsubstanzen, b) Speichern der ersten Sätze charakteristischer Eigenschaften in einer Referenzdatenbank, c) Erfassen eines Satzes der charakteristischen Eigenschaften einer zu untersuchenden Substanz mit Hilfe der ersten Untersuchungsmethode, d) Untersuchen der Gruppe von Referenzsubstanzen mit einer zweiten, von der ersten verschiedenen Untersuchungsmethode, um einen zweiten Satz von charakteristischen Eigenschaften für jede der Referenzsubstanzen zu erfassen, der sich von dem ersten Satz charak- teristischer Eigenschaften unterscheidet und Wiederholen der Schritte b) und c) bezüglich der zweiten Untersuchungsmethode.
Ebenso betrifft die vorliegende Erfindung auch eine entsprechende Vorrichtung, die zur Durchführung eines solchen Verfahrens geeignet ist.
Derartige Verfahren und Vorrichtungen sind im Prinzip bereits bekannt. Als Untersuchungsmethoden kommen dabei in erster Linie alle spektroskopischen Verfahren, wie z.B. NIR- und IR-Spektroskopie (Spektroskopie im nahen und mittleren Infrarotbereich), Raman-, UV-, NMR-, MS- (Massenspektroskopie), Röntgen-Spektroskopie und Fluorimetrie in Betracht. Die Vorrichtungen weisen entspre- chende Spektrometer zur Durchführung der spektroskopischen Untersuchungen auf.
In chemischen Betrieben, die eine Vielzahl unterschiedlicher chemischer Substanzen herstellen und/oder verwenden, wobei die einzelnen chemischen Substanzen auch in sehr unterschiedlicher Form vorliegen können, z.B. fest, flüssig oder gasförmig, grobkörnig, pulverig oder als Blockmaterial, etc., tritt häufig das Problem auf, eine gegebene Substanz genau zu identifizieren. Ein solches Problem kann z.B. dadurch auftreten, daß Beschriftungen von Behältern abfallen, entfernt oder vergessen wurden, daß die Substanzen teilweise verschüttet werden, ohne daß sofort bemerkt wurde, aus
welchem Behälter die Substanzen verloren gegangen sind, und schließlich werden entsprechende Untersuchungen auch durchgeführt zur Identitätskontrolle und eventuell Qualitätskontrolle im Prinzip bekannter Substanzen. Dabei gibt es selbstverständlich auch Mischsubstanzen, die jeweils unterschiedliche Anteile verschiedener Grundsubstanzen enthalten. Der konkrete Aggregatzustand (fest, flüssig, gasförmig) und auch die Tatsache, ob das Material eher pulverförmig oder eher grobkörnig (Morphologie) vorliegt, haben ebenfalls Einfluß auf die im Rahmen einer konkreten Untersuchungsmethode gewonnenen, charakteristischen Eigenschaften, wie z.B. die Form einzelner Banden bzw. Linien und deren Intensität in einem Spektrum. Während bei verschütteten Substanzen und abgefallenen Etiketten das Problem offensichtlich ist, besteht im übrigen auch permanent die Gefahr, daß z.B. falsche oder fehlerhafte Etiketten verwendet wurden oder eine Verwechslung aufgetreten ist. Im Rahmen eines maximalen Sicherheitsstandards wird daher eine vollständige Kontrolle gefordert (Kontrolle jeder Probe, die weiterverarbeitet wird). D.h. es muß eine sehr viel größere Anzahl Messungen bewältigt werden als bisher üblich. Daher spielt auch die Zeitdauer der Messungen und ihrer Auswertung für die Brauchbarkeit eines Identifikationsverfahrens eine erhebliche Rolle.
Bekanntermaßen haben unterschiedliche Substanzen auch unterschiedliche Spektren, das heißt Linien (Absorptions- oder Emissionslinien) bei unterschiedlichen Wellenlängen und von unterschiedlicher Intensität. Die Mehrzahl von Linien bei ganz bestimmten Wellenlängen (Frequenzen) sowie auch deren relative Intensität liefern im allgemeinen einen eindeutigen "Fingerabdruck" für eine ge- gebene chemische Substanz.
Die Unterschiede zwischen diesen verschiedenen "Fingerabdrücken" werden allerdings umso geringer, je ähnlicher die betreffenden Substanzen einander sind.
Noch ähnlicher werden sich die Spektren von Substanzen, die sich nur durch ihre Morphologie (Kristallstruktur, äußerer Zustand) unterscheiden, beispielsweise wenn ein- und dieselbe Substanz entweder als massiver Festkörper, als grobkörniges Material oder als feines Pulver vorliegt. In diesen Fällen sind die Spektren zwar im Prinzip identisch, jedoch durch Oberflächeneffekte beeinflußt. Moleküle und Atome im Inneren eines Festkörpers haben eine andere äußere Umgebung als an der Oberfläche des Festkörpers, so daß durch diese Unterschiede und durch das deutlich unterschiedliche Oberfläche/Volumen-Verhältnis zwischen z.B. grobkörnigem und feinpulverigem Material die Spektrallinien sich entweder verschieben, breiter werden oder auch relative Intensitäten sich verändern.
Weiterhin können die Substanzen, mit denen in der chemischen Industrie umgegangen wird, auch in Form von Mischungen verschiedener chemischer Komponenten vorliegen, so daß sich die Spektren der einzelnen Komponenten überlagert darstellen, wobei aber die relativen Intensitäten vom Mi-
schungsverhältnis abhängen. All diese unterschiedlichen Bedingungen erschweren selbstverständlich eine eindeutige Identifizierung von chemischen Substanzen. Eine einzige spektroskopische Messung reicht daher oftmals nicht aus, um anhand des spektroskopischen Ergebnisses sagen zu können, um welche chemische Substanz aus einer Vielzahl von Substanzen es sich handelt, zumin- dest dann nicht, wenn sich unter den in Frage kommenden Substanzen auch solche mit sehr ähnlichen Spektren befinden.
Man hat deshalb in der Vergangenheit bereits versucht, die Aussagekraft spektroskopischer Messungen dadurch zu verbessern, daß man unabhängige Spektralmessungen vorgenommen hat, bei- spielsweise neben einer Infrarot-Spektroskopie auch eine NMR-Spektroskopie (magnetische Kernresonanz). Oftmals wird neben einer lR-Spektroskopie auch eine Raman-Spektroskopie durchgeführt, da beide Spektren komplementäre Informationen enthalten. Die Raman-Spektroskopie liefert zu einer gegebenen Substanz zusätzliche Spektrallinien, die unabhängig von denen der IR- Spektroskopie sind, so daß man dadurch einen zusätzlichen Satz von charakteristischen Merkmalen erhält, die zur weiteren Diskriminierung von anderen chemischen Substanzen beitragen können.
Auch dies reicht jedoch nicht immer aus, um chemische Substanzen eindeutig zu identifizieren. Wenn auch der Aggregatzustand, die Farbe oder Korngröße der in Frage kommenden Substanzen keinen weiteren Aufschluß über die Identität einer Substanz liefern, bleibt letztlich nur noch eine chemische Analyse als letztes, allerdings sehr aufwendiges Mittel, um eine vorliegende Substanz zu identifizieren.
Gegenüber diesem Stand der Technik liegt der vorliegenden Erfindung die Aufgabe zugrunde, ein Verfahren und eine entsprechende Vorrichtung zu schaffen, welche mit einfachen Mitteln eine noch bessere Unterscheidung verschiedener, wenn auch teilweise sehr ähnlicher Substanzen ermöglicht.
Erfindungsgemäß wird diese Aufgabe bei dem eingangs beschriebenen Verfahren dadurch gelöst, daß es zusätzlich die Merkmale aufweist:
e) Zusammenfassen der ersten und zweiten Sätze von charakteristischen Eigenschaften der Referenzsubstanzen zu einem kombinierten Satz charakteristischer Eigenschaften und Speichern dieses kombinierten Satzes, f) Zusammenfassen des entsprechenden kombinierten Satzes von N charakteristischen Eigenschaften für die zu untersuchende Substanz, g) Festlegen eines Maßstabes für die Ähnlichkeit zwischen dem kombinierten Satz charakteristischer Eigenschaften der zu untersuchenden Substanz und dem kombinierten Satz charakteristischer Eigenschaften der Referenzsubstanzen,
h) Vergleichen des Satzes der charakteristischen Eigenschaften der zu untersuchenden Substanz mit dem kombinierten Satz von charakteristischen Eigenschaften der Referenzsubstanzen und i) Identifizieren der zu untersuchenden Substanz mit einer der Referenzsubstanzen, wenn der Ähnlichkeitsgrad zwischen dem kombinierten Satz der charakteristischen Eigenschaften der zu untersuchenden Substanz und dem kombinierten Satz von charakteristischen
Eigenschaften für genau eine der betreffenden Referenzsubstanzen einen vorgegebenen
Schwellenwert überschreitet.
Im Unterschied zu dem Stand der Technik, werden also nicht zwei unabhängige Identifizierungsmessungen vorgenommen, indem der Ähnlichkeitsgrad der zu untersuchenden Substanz mit entsprechenden Referenzsubstanzen jeweils unabhängig ermittelt wird und die Ergebnisse dann miteinander kombiniert werden, sondern die Ergebnisse der Messungen werden zu einem einheitlichen Satz charakteristischer Eigenschaften zusammengefaßt und auf der Basis des einheitlichen Satzes erfolgt erst eine Definition der Ähnlichkeit mit entsprechenden, zu einem einheitlichen Satz kombinierten charakteristischen Eigenschaften von Referenzsubstanzen.
Es hat sich nämlich herausgestellt, daß die Verknüpfung der Sätze charakteristischer Eigenschaften vor einem Ähnlichkeits- bzw. Identitätsvergleich mit Referenzsubstanzen zu einer höheren Treffer- genauigkeit führt als die nachträgliche Kombination von Ergebnisse aus getrennten, unabhängigen Messungen. Insbesondere, wenn die gewählten Untersuchungsmethoden auf sehr unterschiedlichen Prinzipien beruhen, kann es allerdings notwendig sein, eine Datenvorbehandlung, -transformation oder -reduktion in der Weise durchzuführen, daß die beiden Sätze charakteristischer Eigenschaften überhaupt sinnvoll zu einem gemeinsamen Satz von Eigenschaften zusammenge- führt werden können. Solche Datenvorbehandlung, -transformation oder -reduktion können beispielsweise erfolgen in Form einer sogenannten Wavelet-Transformation und im einfachsten Fall durch Erstellen eines Binärstrings für das Vorhandensein bzw. NichtVorhandensein bestimmter Eigenschaften. Im Fall eines IR- oder Raman-Spektrums kann also einfach das jeweils untersuchte Frequenz- bzw. Wellenlängenintervall in eine Vielzahl kleiner Segmente aufgeteilt werden und das Vorhandensein einer Spektrallinie in einem gegebenen Segment gilt dann als gegeben, wenn in diesem Segment der gemessene Spektralwert oberhalb eines vorgegebenen Grenzwertes liegt und die Eigenschaft gilt als nicht vorhanden, wenn der Spektralwert unterhalb dieses Grenzwertes liegt. Auf diese Weise erhält man für das gesamte Spektrum einen sogenannten Binärstring. Dies kann im Prinzip völlig unabhängig von der Meßmethode durchgeführt werden, so daß Raman-Spektren wie NIR-Spektren in gleicher Weise zu Binärstrings führen, die sehr einfach zu einem einheitlichen Binärstring zusammengefaßt werden können. Auch andere spektrale Messungen könnte man in gleicher Weise in Binärstrings umwandeln, so daß sehr einfach ein einheitlicher kombinierter Datensatz
erzeugt werden kann. Allerdings geht dabei ein Teil der in dem Spektrum an sich vorhandenen Informationen, nämlich insbesondere die relativen Intensitäten zwischen verschiedenen Linien, verloren. Andere Formen der Datenreduktion bzw. -transformation ermöglichen es jedoch, auch den Informationsgehalt der relativen Intensitäten in den einheitlichen Satz charakteristischer Eigenschaften zu übernehmen. Hierzu kommt insbesondere die Wavelet-Transformation in Frage, die einer abschnittweisen Fourier-Transformation entspricht.
Darüber hinaus ist es auch möglich, einzelne Abschnitte der Spektren bzw. einzelne Datenwerte oder -bereiche mit unterschiedlichen Wichtungen zu versehen, da Messungen in bestimmten Berei- chen womöglich präziser sind als in anderen Bereichen oder da z.B. generell eine Meßmethode eine bessere Unterscheidungskraft für eine gegebene chemische Substanz hat als eine andere. Eine solche Wichtung kann gegebenenfalls in Abhängigkeit von den erhaltenen Meßwerten bzw. deren Qualität auch automatisch erfolgen.
In der bevorzugten Ausführungsform der Erfindung wird die Definition der Ähnlichkeit zweier chemischer Substanzen durch Zuordnen des Satzes von N charakteristischen Eigenschaften zu einem N- dimensionalen Vektor vorgenommen, wobei die Ähnlichkeit durch die Berechnung des Abstandes zwischen zwei entsprechenden Vektoren gegeben ist, die aus zwei zu vergleichenden Sätzen charakteristischer Eigenschaften abgeleitet wurden.
Eine Identität wird dann festgestellt, wenn die beiden Vektoren (Vektorspitzen) innerhalb eines vorgegebenen Abstandsbereiches liegen.
Ein solcher Abstandsbereich wird sinnvollerweise anhand der Referenzsubstanzen in der Weise ermittelt, daß mehrere Muster ein- und derselben Referenzsubstanz mehrfach gemessen werden und aus diesen verschiedenen Messungen jeweils entsprechende Sätze von charakteristischen Eigenschaften erzeugt werden, die z.B. in Vektoren in einem N-dimensionalen Vektorraum umgewandelt werden können. Auf diese Weise ergibt sich eine gewisse Varianz bei der Messung ein- und derselben Substanz. Gegebenenfalls können die Messungen an derselben Substanz auch in unter- schiedlichen Morphologien, also z.B. in pulveriger oder grobkörniger Form erfolgen und entweder in die Varianz einbezogen werden oder aber zur Diskriminierung zwischen Pulver und grobkörnigen Materialien getrennten Ähnlichkeitsbereichen zugeordnet werden. Dies setzt selbstverständlich voraus, daß die Varianz von Referenzsubstanzen derselben Gruppe (derselben Morphologie) nicht größer ist als der Abstand der Mittelwerte der beiden durch die Morphologie unterschiedenen Grup- pen von Referenzsubstanzen ist.
Grundsätzlich hat sich aber bei dem Verfahren gemäß der vorliegenden Erfindung herausgestellt, daß bei einer Erhöhung der Datenbasis, das heißt bei einer Vergrößerung der Zahl N der charakteristischen Eigenschaften und damit einer entsprechenden Erweiterung des Vektorraumes die zu einer gegebenen Referenzsubstanz gemessene Varianz (bei Messungen verschiedener Proben ein- und derselben Substanz) weniger stark zunimmt als die Abstände der Mittelwerte unterschiedlicher, und insbesondere nur geringfügig unterschiedlicher Referenzsubstanzen. Die vorherige Kombination und Vereinheitlichung der Datensätze liefert auf diesem Weg über die Statistik einen gewissen "Synergieeffekt".
Wenn eine Unterscheidung (z.B. unterschiedlicher Morphologie einer chemischen Substanz) auf diesem Wege dennoch nicht möglich ist, werden die verschiedenen Referenzsubstanzen sinnvollerweise zu einer Identifikationsgruppe zusammengefaßt. Bei der Identifizierung einer konkret zu untersuchenden Substanz, die derselben Identifikationsgruppe zugeordnet wird, kann deren Zuordnung zu einer bestimmten Referenzsubstanz dann gegebenenfalls noch durch zusätzliche Sichtung vorgenommen werden, da sich z.B. grobkörniges und pulveriges Material leicht unterscheiden lassen, so daß dann die Zuordnung letztlich doch eindeutig erfolgen kann.
Vor der Erstellung des Satzes charakteristischer Eigenschaften können die Rohdaten der Messung gegebenenfalls auch noch aufbereitet werden. Z.B. kann oder muß unter Umständen die Korrektur um ein Basis- bzw. Untergrundsignal vorgenommen werden. Dies kann z.B. durch Subtraktion eines Leerkanals oder durch Bilden der ersten oder zweiten Ableitung eines gemessenen Spektrums erfolgen. Durch Bilden der ersten Ableitung wird ein konstantes Untergrundsignal entfernt. Durch Bilden der zweiten Ableitung wird ein Untergrundsignal entfernt, welches über den Spektralbereich hinweg monoton variiert, während die übrigen, aussagekräftigen Strukturen des Spektrums im we- sentlichen erhalten bleiben.
Besonders bevorzugt ist eine Ausgestaltung des erfindungsgemäßen Verfahrens, bei welcher die Ähnlichkeit zwischen einer zu untersuchenden Substanz und den zugehörigen Referenzsubstanzen auf einer Anzeigeeinrichtung visuell, z.B. auf einem zweidimensionalen Tableau, angezeigt wird.
Die Erfindung wird nunmehr erläutert anhand eines Ausführungsbeispiels und der dazugehörigen Figuren. Es zeigen:
Figur 1 die NIR-Spektren dreier chemisch eng verwandter Natriumsalze,
Figur 2 die Raman-Spektren der Natriumsalze aus Figur 1 ,
Figur 3 eine Wavelet-Transformation der NIR-Spektren aus Figur 1 , sowie einen vergrößerten Ausschnitt hieraus,
Figur 4 die Wavelet-Transformierte des Raman-Spektrums nach Figur 2,
Figur 5 die drei Spektren aus Figur 1 nach einer Binärcodierung,
Figur 6 die drei Spektren aus Figur 2 getrennt nach einer Binärcodierung und
Figur 7 die Kombination der binär codierten Spektren nach den Figuren 1 und 2.
In Figur 1 erkennt man die NIR-Spektren der Natriumsalze von Pentansulfonsäure (A), Hexansul- fonsäure (B) und Heptansulfonsäure (C). Ein Teilbereich der Spektren ist rechts in Figur 1 vergrößert dargestellt, um die geringfügigen Unterschiede zwischen diesen drei Spektren A, B und C sichtbar zu machen. Dabei ist zu beachten, daß eine vertikale Verschiebung der Spektren oder eine Multiplikation der Spektren mit festen Faktoren normalerweise nicht zur Unterscheidung der Spektren beiträgt, da nur die Lage der einzelnen Linien und bestenfalls ihre relativen Intensitäten ein halbwegs verläßlicher Anhaltspunkt für die Identität einer Substanz sind. Demzufolge bedeutet die Verschiebung der Linie A gegenüber den Linien B, C kein hinreichendes Unterscheidungskriterium.
Wie man sieht, sind die verschiedenen Linien A, B, C einander außerordentlich ähnlich. Dies gilt ebenso für die in Figur 2 dargestellten Raman-Spektren. Auch hier sind erst in einer rechts dargestellten Ausschnittsvergrößerung an einer Stelle marginale Unterschiede zu erkennen.
Dabei sind z. B. auch die Banden im Raman-Spektrum zwischen 2900 und 3000 cm"1 zur Auswertung wenig geeignet, da sie sehr intensiv sind, so daß bei der Erfassung die Grenzen des Detektors erreicht werden. Im Bereich zwischen 100 und 500 cm"1 ist im Prinzip eine Differenzierung der Spektren möglich, jedoch sind die Unterschiede auch hier sehr gering und für eine eindeutige Identifizierung innerhalb einer Gruppe von z.B. ca. 1000 Substanzen nicht ausreichend. Eine direkte Kombi- nation beider Spektren ist nicht möglich, da sich die absoluten Intensitäten der Spektren deutlich unterscheiden.
Der einfachste Weg, die beiden Spektren miteinander zu kombinieren und die kombinierten Spektren auszuwerten liegt z. B. in einer Binärcodierung. Eine solche Binärcodierung wurde sowohl für das NIR-Spektrum aus Figur 1 als auch für das Raman-Spektrum aus Figur 2 durchgeführt. Die Ergebnisse der Binärcodierung sind in den Figuren 5 bzw. 6 wiedergegeben. Wegen der Ähnlichkeit der Ausgangsspektren sind selbstverständlich auch die binär codierten Spektren einander immer
noch sehr ähnlich. Sie haben jedoch den Vorteil, daß sie unmittelbar miteinander kombiniert werden können, d. h., daß die binär codierten Spektren der Figuren 5 und 6 ohne weiteres in einem gemeinsamen Spektrum dargestellt werden können, wie dies in Figur 7 geschehen ist. Hierdurch können NIR- und Raman-Spektren gemeinsam ausgewertet werden, wobei sich aus statistischen Gründen eine höhere Signifikanz für eventuell erhaltene Diskriminierungsergebnisse ergibt.
In den Figuren 3 und 4 sind Wavelet-Transformierte des NIR-Spektrums nach Figur 1 bzw. des Ra- man-Spektrums nach Figur 2 dargestellt. Auch in diesem Fall sieht man, daß die Unterschiede in den Transformierten relativ gering sind.
Die beiden Transformierten gemäß Figur 3 und Figur 4 können jedoch wiederum unmittelbar kombiniert werden und in Kombination miteinander ausgewertet werden, so daß sich hierdurch wiederum eine verbesserte Unterscheidungsmöglichkeit ergibt, auch wenn jedes der Spektren für sich möglicherweise diese Unterscheidung noch nicht eindeutig liefert.