Međunarodni hemijski identifikator
InChI | |
---|---|
Programer(i) | InChI Trust |
Prvo izdanje | 15. april 2005.[1][2] |
Stabilna verzija | 1.04
/ septembar 2011 |
Centralna arhiva | github |
Razvojno stanje | Aktivno |
Operativni sistem | Microsoft Windows i Unix |
Platforma | IA-32 i x86-64 |
Veličina | 4,3 MB |
Licenca | IUPAC / InChI Trust |
Veb-sajt | http://www.iupac.org/home/publications/e-resources/inchi.html |
Međunarodna hemijski Identifikator IUPAC-a (International Chemical Identifier), skraćeno InChI, jest tekstovni identifikator za hemijskih supstance, dizajniran da pruži standardni i čitljiv način za kodiranje molekulske informacije, kako bi se olakšala potraga za takvim informacijama u bazama podataka i na webu. U početku su ga razvijali Međunarodna unija za čistu i primenjenu hemiju (IUPAC) i Nacionalni institut za standarde i tehnologiju (NIST), a od 2000. do 2005. godine format i algoritmi su nezaštićeni. Kontinuirani razvoj standarda je podržan od 2010. godine podržao neprofitni InChI Trust, čiji je član i IUPAC. Sadašnja verzija 1.04, a realizira se od septembra 2011. Prije softvera 1.04, softver je bio slobodno dostupan pod open source LGPL licencom,[3] ali sada se koristi prilagođena licenca pod nazivom IUPAC-InChI Trust Licence[4]
Pregled
[uredi | uredi izvor]InChI identifikatori opisuju hemijske supstance u obliku informacijskih slojeva, kao što su atomi i hemijske veze, tautomerska i izotopna informacija, stereohemija, ionizacija. Svi slojevi nisu uvek neophodni. Naprimjer, tautomerski sloj se može izostaviti, ako je nevažna takva vrsta informacija. .[5]
InChI identifikatori se razlikuje od CAS brojeva u tri elementa:
- nisu zaštićeni,
- mogu se formirati na osnovu hemijske strukture,
- njihov najveći dio InChI se može relativno lahko čitati (uz nešto prakse).
Ovi identifikatori se smatraju općenitom i veoma formalnom verzijom IUPAC imena. Mogu sadržavati veći sadržaj informacija nego jednostavnija SMILES notacija. Kao i kanonski SMILES oni su jedinstveni nizovi znakova, a prikladni su za upotrebu u bazama podataka. Trodimenzijske – 3D koordinate atoma nisu uključene format InChI-ija.
Strukturiranu informaciju, InChI algoritam pretvara u jedinstveni InChI identifikator u tri koraka:
- normalizacija (odstranjivanje nepotrebnih podataka),
- kanonizacija (stvaranje jedinstvene numeričke oznake atoma), i
- formiranje niza znakova.
Dostupan je i InChIKey, koji je kaširani InChI identifikator sa fiksnom dužinom od 25 znakova. Ova specifikacija je objavljena u septembru 2007. godine da se omoguće web-pretraživanja hemijskih spojeva, jer je to bilo problematično u korištenju InChI.[6] U januaru 2009. godine objavljena je konačna 1.02 verzija softvera InChI. Ova pruža sredstvo za stvaranje tzv. InChI standarda , koji ne dozvoljava korisničke opcije koje su u suočavanju sa stereohemijskim i tautomernim slojevima InChI niza. Standardni InChIKey je kaširana verzija standarda InChI niza. Standardni InChI će pojednostaviti usporedbu InChI niza i ključeva koji su generirani pomoću različitih grupa, a potom pristupili preko različitih izvora, kao što su baze podataka i web resursi.
Format i slojevi
[uredi | uredi izvor]Svaki InChI počinje niz "InChI =" a slijedi broj verzije, trenutno 1. Nakon toga slijedi slovo S za standardne InChI. Preostale Informacijeje su strukturirane kao niz slojeva i podslojeva, a sa svakim slojem pružaju jednu specifičnu vrstu informacija. Slojevi i podslojevi su odvojeni graničnikom "/" i počinju s karakterističnim prefiksnim slovom (osim za hemijsku formulu podsloj glavnog sloja). Šest slojeva sa važnim podslojevima su:
- glavni sloj;
- hemijska formula (bez prefiksa). To je jedini podsloj koji se mra pojaviti u svakom InChI.
- Atomske veze (prefiks: "c"). Atomi u hemijskoj formuli (osim vodika) su brojevi u nizu; ovaj podsloj opisuje koji atomi su spojeni vezama i za koje druge.
- Vodikovi atomi (prefiks: "h"). Opisuje koloko je vodikovih atoma i za koji je svaki od njih vezan za druge atome.
- Sloj električnog naboja:
- protonski podsloj (prefiks: "p" za "protoni")
- podsloj naboja (prefiks: "q")
- Stereohemijski sloj
- dvostruke i kumulen veze (prefiks: "b")
- tetraedarska stereohemija atoma i alena (prefiksi: "t", "m")
- tip stereohemijske informacije (prefiks: "s")
- Izotopni sloj (prefiksi: "i", "h", as well as "b", "t", "m", "s" za izotopnu stereohemiju)
- Fiksni-H sloj (prefiks: "f"); sadrži neke ili sve tipove slojevaco izuzev atomskih veza; može se završavati sa podslojem "o"; nikad nije uključen u standard InChI-ija
- Ponovno vezani sloj (prefiks: "r"); sadrži čitavu InChI strukture sa ponovo vezanimm atomima metala; nikada nije uključen u standardni InChI
Format prefiksa graničnika ima tu prednost da korisnik lahko može upotrebiti džoker za pretragu identifikatora koji se podudaraju samo u određenim slojevima.
Primjeri
[uredi | uredi izvor]CH3CH2OH etanol |
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3 InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (standard InChI) |
L-askorbinska kiselina |
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (standard InChI) |
InChIKey
[uredi | uredi izvor]Sažeto uzevši, 27 karaktera standarda InChIKey je kaširana verzija punog standardnog InChI (pomoću SHA-256 algoritma), dizajniran kako bi se omogućilo lahko web pretraživanje hemijskih spojeva.[6] Većina hemijskih struktura na web stranicama, do 2007. su predstavljene kao GIF datoteke, koje nisu pretražive za hemijske sadržaja. Ispostavilo se da kompletan InChI predug za lahko pretraživanje, a samim tim i InChIKey koji je razvijen. Tu je vrlo mala ili nula šansa da postoje dvije različite molekule koje imaju isti InChIKey. Procijenjeno je da vjerovatnoća za dupliranje samo prvih 14 znakova ima jedno dupliranje u 75 baza podataka od kojih svaka sadrži milijardu jedinstvenih struktura. U svim bazama podataka koje trenutno imaju ispod 50 miliona struktura, dupliranje u ovom trenutku nije vjerovatno. Nedavna opširnija studija proučavala je stopu kolizije i zaključila da je eksperimentalna stopa sudara u suglasnosti s teorijskim očekivanjima[7]
InChIKeys sadrži 14 karaktera koji proizilaze iz smjese informacija za povezanost InChI; slijedi crtica, a zatim 10 znakova koji su rezultat smjese preostalih slojeva InChI, zatim jedan znak ukazuje na korištenu verziju InChI, pa druga crtica, a zatim jedan karakter provjere zbira.
Primjer: Morfin ima strukturu koja je prikazana desno. Standard InChI za morfin je InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1, standard InChIKey za morfin je BQJCRHHNABKAKU-KBQPJGBKSA-N.[8]
InChI resolveri
[uredi | uredi izvor]Kako se InChI ne može rekonstruirati iz InChIKey, jedan InChIKey uvijek treba biti povezan s izvornom InChI da se vrati na izvornu strukturu. InChI resolveri djeluju kao posmatrački servisi koji prave ove veze, a prototipni servisi su dostupni na Nacionalnom institutu za rak (National Cancer Institute), UniChem service, na Europsom instititu za bioinfoematiku (European Bioinformatics Institute), a PubChem. ChemSpider je imao resolver do jula 2015., kada je prestao s radom.[9]
Ime
[uredi | uredi izvor]Format koji je originalno nazvan IChI (IUPAC Chemical Identifier), preimenovan je, jula 2004. u INChI (IUPAC-NIST Chemical Identifier), a ponovo u novembru 2004, u InChI (IUPAC International Chemical Identifier), kao zaštitni znak IUPAC-a.
Nastavak razvoja
[uredi | uredi izvor]Naučni smjer standarda InChI provodi IUPAC-ova Divizija VIII Pododbor financirajući istraživanja podskupina, a definiranje širenja standarda obavljaju i IUPAC i InChI Trust. InChI Trust financira razvoj, testiranje i dokumentiranje InChI. Trenutni ekstenzije su definirane za rukovanje polimerima i smjesa, Markush struktura, reakcije i organometale, a jednom kad su prihvaćeni u Diviziji VIII Pododbora, bit će dodani u algoritam.
Usvajanje
[uredi | uredi izvor]InChI su usvojile mnoge veće i manje baza podataka, uključujući ChemSpider, ChEMBL, Golm Metabolome Database, OpenPHACTS i PubChem.[10] Međutim, usvajanje nije jednostavno, a mnoge baze podataka pokazuju neslaganja između hemijske strukture i one koju sadrži InChI, što je problem za povezivanje baza podataka.[11]
Također pogledajte
[uredi | uredi izvor]Reference
[uredi | uredi izvor]- ^ "IUPAC International Chemical Identifier Project Page". IUPAC. Arhivirano s originala, 27. 5. 2012. Pristupljeno 5. 12. 2012.
- ^ Heller, S.; McNaught, A.; Stein, S.; Tchekhovskoi, D.; Pletnev, I. (2013). "InChI - the worldwide chemical structure identifier standard". Journal of Cheminformatics. 5 (1): 7. doi:10.1186/1758-2946-5-7. PMC 3599061. PMID 23343401.
- ^ McNaught, Alan (2006). "The IUPAC International Chemical Identifier:InChl". Chemistry International. 28 (6). IUPAC. Pristupljeno 18. 9. 2007.
- ^ http://www.inchi-trust.org/download/104/LICENCE.pdf
- ^ Heller, S.R.; McNaught, A.; Pletnev, I.; Stein, S.; Tchekhovskoi, D. (2015). "InChI, the IUPAC International Chemical Identifier". Journal of Cheminformatics. 7. doi:10.1186/s13321-015-0068-4.
- ^ a b "The IUPAC International Chemical Identifier (InChI)". IUPAC. 5. 9. 2007. Arhivirano s originala, 30. 10. 2007.
- ^ Pletnev, I.; Erin, A.; McNaught, A.; Blinov, K.; Tchekhovskoi, D.; Heller, S. (2012). "InChIKey collision resistance: An experimental testing". Journal of Cheminformatics. 4 (1): 39. doi:10.1186/1758-2946-4-39. PMC 3558395. PMID 23256896.
- ^ "InChI=1/C17H19NO3/c1-18..." Chemspider. Pristupljeno 18. 9. 2007.
- ^ InChI resolver od 27. jula 2015, http://www.chemspider.com/InChiResolverDecommissioned.aspx
- ^ Warr, W.A. (2015). "Many InChIs and quite some feat". Journal of Computer-Aided Molecular Design. doi:10.1007/s10822-015-9854-3.
- ^ Akhondi, S. A.; Kors, J. A.; Muresan, S. (2012). "Consistency of systematic chemical identifiers within and between small-molecule databases". Journal of Cheminformatics. 4 (1): 35. doi:10.1186/1758-2946-4-35. PMC 3539895. PMID 23237381.
Vanjski linkovi
[uredi | uredi izvor]Dokumentacija i predstavljanje
[uredi | uredi izvor]- InChI Trust site
- IUPAC InChI site
- Unofficial InChI FAQ Arhivirano 6. 3. 2012. na Wayback Machine
- InChI Technical Manual
- IUPAC InChI (Google TechTalk)
- Description of the canonicalization algorithm
- Googling for InChIs a presentation to the W3C.
- The Semantic Chemical Web: GoogleInChI and other Mashups Arhivirano 27. 3. 2012. na Wayback Machine, Google Tech Talk by Peter Murray-Rust, 13 Sept 2006
- IUPAC InChI Arhivirano 25. 11. 2011. na Wayback Machine, Google Tech Talk by Steve Heller and Steve Stein, 2 November 2006
- InChI Release 1.02 InChI final version 1.02 and explanation of Standard InChI, January 2009
Softver i servisi
[uredi | uredi izvor]- NCI/CADD Chemical Identifier Resolver Generates and resolves InChI/InChIKeys and many other chemical identifiers
- ChemSketch Arhivirano 18. 10. 2006. na Wayback Machine, free chemical structure drawing package that includes input and output in InCHI format
- PubChem online molecule editor that supports SMILES/SMARTS and InChI
- ChemSpider Services that allows generation of InChI and conversion of InChI to structure (also SMILES and generation of other properties)
- MarvinSketch from ChemAxon, implementation to draw structures (or open other file formats) and output to InChI file format
- BKchem Arhivirano 9. 6. 2007. na Wayback Machine implements its own InChI parser and uses the IUPAC implementation to generate InChI strings
- CompoundSearch implements an InChI and InChI Key search of spectral libraries
- JNI-InChI Java library that wraps the InChI library
- the Chemistry Development Kit uses JNI-InChI to generate InChIs, can convert InChIs into structures, and generate tautomers based on the InChI algorithms
- Bioclipse generates InChI and InChIKeys for drawn structures or opened files