화학 데이터베이스

Chemical database

화학 데이터베이스화학 정보를 저장하도록 특별히 설계된 데이터베이스다. 이 정보는 화학 및 결정 구조, 스펙트럼, 반응 및 합성, 열물리학적 데이터에 관한 것이다.

화학 데이터베이스 유형

생물 활동 데이터베이스

생체활동 데이터베이스는 구조 또는 기타 화학 정보를 문헌, 특허 및 선별 프로그램의 생물분석에서 얻은 생물활동 결과와 상관관계를 가진다.

이름 개발자 초기 릴리즈
스크럽켐 제이슨 브렛 해리스 2016[1][2]
펍켐비오아세이 NIH 2004[3][4]
켐벨 엠블-에비 2009[5]

화학구조

화학적 구조는 전통적으로 원자 사이의 화학적 결합을 나타내는 선을 사용하여 종이에 그려진다(2D 구조 공식). 이것들은 화학자에게 이상적인 시각적 표현이지만, 그것들은 컴퓨터 사용과 특히 검색저장에는 적합하지 않다. 작은 분자(약물 설계 용도에서 리간드라고도 함)는 보통 원자와 그 연결부의 목록을 사용하여 표현된다. 그러나 단백질과 같은 큰 분자는 아미노산 구성블록의 순서를 이용하여 더욱 압축적으로 표현된다. 구조를 위한 대형 화학 데이터베이스는 테라바이트의 물리적 메모리를 차지하는 수백만 개의 분자에 대한 정보의 저장과 검색을 처리할 것으로 예상된다.

문헌 데이터베이스

화학 문헌 데이터베이스는 구조나 기타 화학 정보를 학술 논문이나 특허와 같은 관련 참고 자료와 연관시킨다. 이 유형의 데이터베이스는 STN, Scifinder, Reaxys를 포함한다. 문학에 대한 링크 또한 화학적 특성화에 초점을 맞춘 많은 데이터베이스에 포함되어 있다.

결정 데이터베이스

결정학적 데이터베이스는 X선 결정 구조 데이터를 저장한다. 일반적인 예로는 단백질 데이터 뱅크캠브리지 구조 데이터베이스가 있다.

NMR 스펙트럼 데이터베이스

NMR 스펙트럼 데이터베이스는 화학 구조와 NMR 데이터의 상관 관계를 분석한다. 이러한 데이터베이스는 종종 FTIR질량분석과 같은 다른 특성화 데이터를 포함한다.

반응 데이터베이스

대부분의 화학 데이터베이스는 안정적인 분자에 대한 정보를 저장하지만, 반응을 위한 데이터베이스에는 중간자 및 일시적으로 생성된 불안정한 분자가 저장된다. 반응 데이터베이스는 제품, 교련 및 반응 메커니즘에 대한 정보를 포함하고 있다.

열물리학 데이터베이스

열물리학 데이터는 에 관한 정보다.

화학구조 표현

디지털 데이터베이스에서 화학 구조를 나타내는 두 가지 주요 기법이 있다.

이러한 접근방식은 입체 화학적 차이와 전하뿐만 아니라 유기-금속 화합물에서 볼 수 있는 것과 같은 특수한 종류의 결합을 나타낼 수 있도록 개선되었다. 컴퓨터 표현의 가장 큰 장점은 저장 공간을 늘리고 빠르고 유연한 검색을 할 수 있다는 것이다.

검색

하부구조

화학자는 구조의 일부, IUPAC 이름의 일부를 사용하여 데이터베이스를 검색할 수 있으며 속성에 대한 제약조건에 기초한다. 화학 데이터베이스는 하위 구조 검색을 지원하는 다른 범용 데이터베이스와 특히 다르다. 이러한 종류의 검색은 서브그래프 이소모르프리즘(일원형주의라고도 함)을 찾음으로써 이루어지며, 널리 연구되고 있는 그래프 이론의 응용이다. 검색 알고리즘은 연산 집약적이며, 종종 O(n3) 또는 O(n4) 시간 복잡성이 있다(여기서 n은 관련 원자의 수입니다). 검색의 집약적 구성요소를 원자별 검색(ABAS)이라고 하는데, 이를 통해 검색 하부구조 원자와 대상 분자의 결합의 매핑을 모색한다. ABAS 검색은 일반적으로 Ulman 알고리즘이나[6] 그것의 변형(예: SMSD )을 사용한다. 속도 상승은 시간 상각, 즉 검색 작업에 대한 시간의 일부를 사전 계산된 정보를 사용하여 절약한다. 이 사전 컴퓨팅은 일반적으로 분자 조각의 존재 또는 부재를 나타내는 비트스트링의 생성을 포함한다. 검색 구조에 존재하는 파편을 보면, 검색 구조에 존재하는 파편을 보유하지 않는 대상 분자와 ABAS 비교의 필요성을 없앨 수 있다. 이러한제거를 선별(마약 발견에 사용되는 선별 절차와 혼동해서는 안 된다)이라고 한다. 이러한 용도에 사용되는 비트 스트링을 구조 키라고도 한다. 그러한 키의 성능은 키를 구성하는 데 사용되는 조각의 선택과 데이터베이스 분자에 존재하는 조각의 가능성에 따라 달라진다. 또 다른 종류의 키는 계산적으로 파생된 단편들을 바탕으로 해시코드를 사용한다. 구조용 키와 동의어로 사용되기도 하지만, 이것들을 '지문'이라고 부른다. 이러한 구조용 키와 지문을 저장하는 데 필요한 메모리 양은 '폴딩'을 통해 줄일 수 있는데, 이는 비트 연산을 사용하여 키의 일부를 결합하여 전체 길이를 줄임으로써 달성된다.[8]

순응

분자의 3D 순응을 일치시키거나 공간적 제약조건을 명시하여 검색하는 것도 약물 설계에서 특히 사용되는 특징이다. 이런 종류의 검색은 계산적으로 매우 비쌀 수 있다. 예를 들어 BCUTS, 특수 함수 표현, 관성 모멘트, 레이트레이싱 히스토그램, 최대 거리 히스토그램, 형상 다중점 등 많은 대략적인 방법이 제안되었다.[9][10][11][12][13]

기가 검색

합성 가능한 가상 화학 물질 데이터베이스는 매년 커지고 있으므로 이를 효율적으로 채굴하는 능력은 약물 발견 프로젝트에 매우 중요하다. 몰소프트의 몰카트 기가 서치(http://www.molsoft.com/giga-search.html))는 수십억 개의 화학물질을 하위 구조로 검색하기 위해 고안된 최초의 방법이다.

설명자

그 구조를 벗어난 분자의 모든 성질은 물리적 화학적 속성이나 설명자라고도 하는 약리학적 속성으로 나눌 수 있다. 그 위에 다소 모호한 이름과 동의어를 공급하는 분자에 대해 인위적이고 다소 표준화된 다양한 명명 체계가 존재한다. IUPAC 명칭은 비록 더 큰 분자를 다루기 어려워지지만 일반적으로 사람이 읽을 수 있고 독특한 으로 분자의 구조를 표현하는데 좋은 선택이다. 반면에 사소한 이름에는 동음이의어와 동의어가 풍부하므로 정의 데이터베이스 키로서 잘못된 선택이다. 분자량, (부분) 전하, 용해성 등 물리화학적인 서술자는 대부분 분자의 구조에 따라 직접 계산할 수 있지만, 약리학적 서술자는 관련된 다변량 통계나 실험(screaming, bioassay) 결과를 사용해서만 간접적으로 도출할 수 있다. 이러한 모든 설명자들은 계산적인 노력의 이유로 분자의 표현과 함께 저장될 수 있으며, 대개 그러하다.

유사성

분자 유사성에 대한 단일의 정의는 없지만, 그 개념은 응용 프로그램에 따라 정의될 수 있고 종종 설명자 공간의 거리 측정역순으로 설명된다. 예를 들어 두 분자는 분자량 차이가 다른 분자와 비교했을 때보다 낮은 경우 더 유사한 것으로 간주될 수 있다. 다변량 거리 측정을 생성하기 위해 다양한 다른 측정치를 결합할 수 있다. 거리 측정은 흔히 삼각불평등이 유지되는지에 따라 유클리드 측정과 비유클리드 측정으로 분류된다. MCS(Maximum Common Subgraph) 기반 하부구조 검색(동일성 또는 거리 측정)도 매우 일반적이다. MCS는 공통 서브그래프(하위구조)를 공유하는 분자를 타격해 화합물과 같은 약물을 선별하는 데도 쓰인다.[14]

데이터베이스의 화학물질은 유사성에 근거하여 '유사한' 분자 그룹으로 분류될 수 있다. 계층적 클러스터링 접근법과 비계층적 클러스터링 접근법 모두 복수의 속성을 가진 화학적 실체에 적용할 수 있다. 이러한 속성 또는 분자 속성은 경험적으로 또는 계산적으로 파생된 설명자로 결정될 수 있다. 가장 인기 있는 클러스터링 접근법 중 하나는 Jarvis-Patrick 알고리즘이다.[15]

약리학적으로 지향하는 화학 저장소에서 유사성은 대개 QSAR 방법을 사용하여 물리화학 설명자의 유사한 조합으로부터 반자동적으로 추론될 수 있는 화합물(ADmE/tox)의 생물학적 효과 측면에서 정의된다.

등록제도

화학 화합물에 대한 고유한 기록을 유지하기 위한 데이터베이스 시스템을 등록 시스템이라고 한다. 이것들은 종종 화학 지수화, 특허 시스템 및 산업 데이터베이스에 사용된다.

등록 시스템은 일반적으로 고유한 표현을 사용하여 데이터베이스에 표시된 화학 물질의 고유성을 강제한다. 문자열로 표기된 표기 생성에 우선 순위 규칙을 적용하면 '캐논어 스마일즈'와 같은 고유/'캐논어적' 문자열 표현을 얻을 수 있다. CAS 시스템과 같은 일부 등록 시스템은 알고리즘을 사용하여 동일한 목적을 달성하기 위해 고유한 해시 코드를 생성한다.

등록 시스템과 간단한 화학 데이터베이스 사이의 중요한 차이점은 알려진 것, 알려지지 않은 것, 부분적으로 알려진 것을 정확하게 나타내는 능력이다. 예를 들어 화학 데이터베이스는 스테레오화학이 지정되지 않은 분자를 저장할 수 있는 반면, 화학 등록 시스템은 등록 담당자에게 스테레오 구성을 알 수 없는지, 특정(알려진) 혼합물인지 또는 인종적 혼합물인지 여부를 명시하도록 요구한다. 이들 각각은 화학 등록 시스템에서 다른 기록으로 간주될 것이다.

등록 시스템은 또한 화학 물질에서 할로겐 이온의 차이와 같은 사소한 차이점을 고려하지 않기 위해 분자를 사전 처리한다.

화학추상서비스(CAS) 등록제가 대표적이다. CAS 레지스트리 번호도 참조하십시오.

화학 카트리지 목록

  • 어코드
  • 직접
  • 제이 켐
  • 케임브리지소프트
  • 빙고
  • 핀포인트

화학 등록 시스템 목록

  • 켐레그
  • 등록하다[22]
  • 레그몰
  • 복합 등록
  • 앙상블

웹 기반

이름 개발자 초기 릴리즈
CDD 볼트 공동의약물 발견 2018[26][27][28]

도구들

계산적 표현은 대개 데이터를 그래픽으로 표시하여 화학자들에게 투명하게 만들어진다. 또한 화학구조 편집기를 이용하여 데이터 입력도 단순화된다. 이러한 편집자들은 내부적으로 그래픽 데이터를 계산적 표현으로 변환한다.

다양한 표현 형식의 상호 변환을 위한 알고리즘도 많이 있다. 변환을 위한 오픈 소스 유틸리티는 OpenBabel이다. 이러한 검색 및 변환 알고리즘은 데이터베이스 시스템 자체 내에서 또는 현재와 같이 표준 관계형 데이터베이스 시스템에 적합한 외부 구성요소로 구현된다. Oracle과 Postgre 모두SQL 기반 시스템은 사용자 정의 데이터 유형을 허용하는 카트리지 기술을 사용한다. 이를 통해 사용자는 화학적 검색 조건의 SQL 조회를 할 수 있다(예를 들어, SLIGHCOL 열에서 SLIGHY 문자열로 표현되는 구조에 페닐 링이 있는 레코드를 검색하기 위한 조회는 다음과 같을 수 있다).

 선택 * From 켐테이블 어디에 스마일즈콜.포함하다('c1ccc1') 

IUPAC 이름을 구조 표현으로 변환하기 위한 알고리즘과 그 반대의 경우도 텍스트에서 구조 정보를 추출하는 데 사용된다. 그러나 IUPAC의 여러 방언의 존재로 인해 어려움이 있다. 고유한 IUPAC 표준을 확립하기 위한 작업이 진행 중이다(InChiI 참조).

참고 항목

참조

  1. ^ http://www.scrubchem.org
  2. ^ Harris, JB (2019). "Post-processing of Large Bioactivity Data". Bioinformatics and Drug Discovery. Methods Mol Biol. Vol. 1939. pp. 37–47. doi:10.1007/978-1-4939-9089-4_3. ISBN 978-1-4939-9088-7. PMID 30848455.
  3. ^ https://pubchem.ncbi.nlm.nih.gov/
  4. ^ Wang, Y; Bryant, SH; Cheng, T; Wang, J; Gindulyte, A; Shoemaker, BA; Thiessen, PA; He, S; Zhang, J (2017). "PubChem BioAssay: 2017 update". Nucleic Acids Res. 45 (D1): D955–D963. doi:10.1093/nar/gkw1118. PMC 5210581. PMID 27899599.
  5. ^ "ChEMBL Database".
  6. ^ Ullmann, Julian R. (1976), "An algorithm for subgraph isomorphism", Journal of the ACM, 23 (1): 31–42, CiteSeerX 10.1.1.361.7741, doi:10.1145/321921.321925, S2CID 17268751
  7. ^ a b Rahman, S. A.; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. (2000). "Small Molecule Subgraph Detector (SMSD) toolkit". Journal of Cheminformatics. 1 (1): 12. doi:10.1186/1758-2946-1-12. PMC 2820491. PMID 20298518.
  8. ^ Cummings, Maxwell D.; Maxwell, Alan C.; DesJarlais, Renee L. (2007). "Processing of Small Molecule Databases for Automated Docking". Medicinal Chemistry. 3 (1): 107–113. doi:10.2174/157340607779317481. PMID 17266630.
  9. ^ Pearlman, R.S.; Smith, K.M. (1999). "Metric Validation and the Receptor-Relevant Subspace Concept". J. Chem. Inf. Comput. Sci. 39: 28–35. doi:10.1021/ci980137x.
  10. ^ Lin, Jr., Hung; Clark, Timothy (2005). "An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties". Journal of Chemical Information and Modeling. 45 (4): 1010–1016. doi:10.1021/ci050059v. PMID 16045295.
  11. ^ Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J (2006). "Shape Signatures: speeding up computer aided drug discovery". DDT 2006. 19–20 (19–20): 895–904. doi:10.1016/j.drudis.2006.08.014. PMID 16997139.
  12. ^ Grant, J. A; Gallardo, M. A.; Pickup, B. T. (1996). "A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape". Journal of Computational Chemistry. 17 (14): 1653–1666. doi:10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k.
  13. ^ Ballester, P. J.; Richards, W. G. (2007). "Ultrafast shape recognition for similarity search in molecular databases". Proceedings of the Royal Society A. 463 (2081): 1307–1321. Bibcode:2007RSPSA.463.1307B. doi:10.1098/rspa.2007.1823. S2CID 12540483.
  14. ^ Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. (2009). "Small Molecule Subgraph Detector (SMSD) Toolkit". Journal of Cheminformatics. 1 (1): 12. doi:10.1186/1758-2946-1-12. PMC 2820491. PMID 20298518.
  15. ^ Butina, Darko (1999). "Unsupervised Data Base Clustering Based on Daylight's Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets". Chem. Inf. Comput. Sci. 39 (4): 747–750. doi:10.1021/ci9803381.
  16. ^ "BIOVIA Direct - BIOVIA - Dassault Systèmes®".
  17. ^ "JChem Engines ChemAxon".
  18. ^ "Chemistry – Oracle Cartridge Inside Informatics".
  19. ^ Pavlov, D.; Rybalkin, M.; Karulin, B. (2010). "Bingo from SciTouch LLC: Chemistry cartridge for Oracle database". Journal of Cheminformatics. 2 (Suppl 1): F1. doi:10.1186/1758-2946-2-S1-F1. PMC 2867114.
  20. ^ "Small Molecule Drug Discovery // Drug Development".
  21. ^ "BIOVIA Chemical Registration - BIOVIA - Dassault Systèmes®".
  22. ^ "Register".
  23. ^ "Scilligence RegMol Scilligence". 6 June 2016.
  24. ^ "Compound Registration ChemAxon".
  25. ^ "Registration".
  26. ^ "CDD Vault Update: CDD Vault is Now an ELN". 16 February 2018.
  27. ^ "CDD Electronic Lab Notebook (ELN)". 14 August 2019.
  28. ^ "Electronic Lab Notebooks: What they are (And why you need one)". 4 August 2019.