SMILES
A SMILES széles körben használt leíró nyelv a molekulák ASCII-karakterekkel történő tömör kódolására. A név mozaikszó, az angol simplified molecular input line entry specification (egyszerűsített, begépelhető molekulaleíró rendszer) kifejezés rövidítése. A legtöbb molekula-szerkesztő elfogadja bemenetként a SMILES kódokat, és képes őket kétdimenziós rajzokká vagy háromdimenziós modellekké alakítani. A SMILES-t Arthur és David Weininger fejlesztette ki az 1980-as években.[1][2] Azóta többen is bővítették és fejlesztették, elsősorban a Daylight Chemical Information Systems égisze alatt.[3] A Blue Obelisk csoport 2007-ben létrehozta a SMILES egy nyílt forráskódú megvalósítását OpenSMILES néven.[4]
A SMILES képes atomok, izotópok, vegyületek és kémiai reakciók leírására, beleértve a vegyületek térszerkezetét és aromás voltát. A nyelv kizárólag a hagyományos betűkészletet használja (32−127 közötti ASCII-kódok), és (különösen egyszerű molekuláknál) hasonlít a szokásos kémiai képletekre.
Atomok
szerkesztésAz atomok SMILES-a a vegyjel szögletes zárójelben. Pl.: [Au]
az arany SMILES-kódja. A vegyjelek első betűje nagy-, a második kisbetű. (Néhány egybetűs vegyjel kisbetűvel írható, ha aromás gyűrű tagja; lásd alább.)
A szögletes zárójelben megadható:
- az atom töltése, pl.
[H+]
a proton,[Fe++]
vagy[Fe+2]
a vas(II)-ion, - az izotóp, pl.
[2H]
a deutérium, - megadhatók az atomhoz kapcsolódó hidrogénatomok, pl.
[NH3]
az ammónia,[OH-]
a hidroxidion kódja.
A hidrogénatom
szerkesztésAtom | Vegyjel | Vegyértékek |
---|---|---|
Bór | B | 3 |
Szén | C | 4 |
Nitrogén | N | 3, 5 |
Oxigén | O | 2 |
Foszfor | P | 3, 5 |
Kén | S | 2, 4, 6 |
Halogének | F, Cl, Br, I | 1 |
A szerves kémiában a képletek egyszerűsítése végett a hidrogénatomokat sokszor nem tüntetik fel. Ezt a gyakorlatot a SMILES is átvette. A szerves kémiában gyakori atomok szögletes zárójel nélkül írhatók. Az atomot ilyenkor hidrogénatomokkal a kémiai kötések figyelembe vételével a legkisebb „szabályos” vegyértékűre egészítik ki.
Példák:
Elem | SMILES | Képlet | Név |
---|---|---|---|
Szén | [C] | C | elemi szén |
C | CH4 | metán | |
Foszfor | [P] | P | elemi foszfor |
P | PH3 | foszfin | |
[PH5] | PH5 | foszforán(en) | |
Oxigén | [O] | O | oxigénatom |
O | H2O | víz | |
Klór | [Cl] | Cl | klóratom |
Cl | HCl | sósav |
Kémiai kötések
szerkesztésAz egyes kötés jele: -
, a kettesé =
, a hármasé #
, az aromásé :
. Az egyes és aromás kötés jele elhagyható, és a gyakorlatban nem is használják őket.
Példák (az etánt négyféleképp is lehet írni):
Név | SMILES | Képlet |
---|---|---|
etán | [CH3]-[CH3]; [CH3][CH3]; C-C; CC | CH3—CH3 |
2-butin | CC#CC | CH3—C≡C—CH3 |
formaldehid | C=O | HCHO |
etén | C=C | CH2=CH2 |
szén-dioxid | O=C=O | CO2 |
dimetil-éter | COC | CH3—O—CH3 |
hidrogén-cianid | C#N | HCN |
etil-alkohol | CCO | CH3—CH2—OH |
molekuláris hidrogén | [H][H] | H2 |
A pont azt jelzi, hogy két atom között nincsen kötés. Pl.: Cu2+SO2−4 SMILES-alakja: [O-]S(=O)(=O)[O-].[Cu+2]
Elágazó láncok
szerkesztésAz oldalláncot zárójellel jelölik az után az atom után, amelyikből elágazik. A főlánc az (utolsó) oldallánc záró zárójele után folytatódik. A SMILES nem írja elő, melyik láncot tekintjük fő- ill. oldalláncnak. A lánc nem feltétlenül tartalmaz szénatomot. Az oldalláncban újabb oldallánc(ok) lehet(nek) (egymásba ágyazott zárójelezés).
Példák:
Gyűrűs vegyületek
szerkesztésSMILES-ban nyílt vegyületeknél új kémiai kötést mindig egy új atommal együtt adják meg. Gyűrű lezárásakor egy új és egy korábban már előfordult atom között kell megadni kötést. Az ilyen atomokat megcímkézik. Ugyanaz a címke pontosan kétszer kell szerepeljen: a második előfordulás a gyűrűzárás.
A címke egy természetes szám. Az 1–9 közötti címkét közvetlenül a vegyjel után írják. Például a ciklopropán SMILES-kódja C1CC1
. Az 1-es címke adja meg az első és harmadik szénatom közötti kötést.
Hasonlóan a ciklohexán SMILES-kódja C1CCCCC1
.
Aromás vegyületek megadhatók váltakozó kettőskötésekkel (Kekulé-alak), vagy az aromás gyűrű atomjainak kisbetűs megadásával:
-
Benzol – Kekulé-alak
C1=CC=CC=C1
-
Benzol – aromás alak
c1ccccc1
A gyűrűzáró atom oldalláncban is lehet:
Egy atomnak több címkéje is lehet, és a címke is lehet 9-nél nagyobb. Ilyenkor %-jelet kell használni. Pl. a C2%13%24
SMILES-részletben a szénatomnak három címkéje van: 2, 13 és 24.
A címkék újrahasznosíthatók. Ha már mindkét előfordulásuk megvolt, akkor új gyűrűzáró kötés adható meg velük.
Egy bonyolultabb példa:
Királis vegyületek
szerkesztésA térszerkezet megadására a SMILES a /
, \
, @
és @@
szimbólumot használja.
Jegyzetek
szerkesztés- ↑ Weininger, D. (1988), SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules, J. Chem. Inf. Comput. Sci. 28, 31-36.
- ↑ Weininger, D.; Weininger, A.; Weininger, J.L. (1989) SMILES. 2. Algorithm for generation of unique SMILES notation J. Chem. Inf. Comput. Sci. 29, 97-101.
- ↑ SMILES - A Simplified Chemical Language
- ↑ Az OpenSMILES honlapja
- ↑ m-cyanoanisole (ChemSpider)
Források
szerkesztés- SMILES Tutorial (daylight.com)