화학 파일 형식
Chemical file format이 글은 분자 파일 형식 중 사용과 변환을 포함한 몇 가지 일반적인 분자 파일 형식을 논한다.
구분 형식
화학 정보는 보통 파일이나 스트림으로 제공되며 많은 형식이 생성되었으며 문서화 정도가 다양하다.형식은 세 가지 방법으로 표시된다(화학 MIME 섹션 참조).
- 파일 확장명(보통 3글자).이것은 널리 쓰이지만, ".mol"과 ".dat"과 같은 일반적인 접미사가 비화학적인 접미사를 포함한 많은 시스템에서 사용되고 있기 때문에 연약하다.
- 형식 정보가 파일에 포함된 자동 압축 파일.예를 들어 CIF와 CML이 있다.
- 화학적으로 인식되는 서버에 의해 추가된 화학/MIME 유형.
화학 마크업 언어
화학 마크업 언어(CML)는 분자 및 기타 화학 데이터를 나타내는 개방형 표준이다.오픈 소스 프로젝트에는 XML 스키마, CML 데이터 구문 분석 및 작업용 소스 코드, 활성 커뮤니티 등이 포함된다.화학 마크업 언어와 화학 및 생물학을 위한 XML로 작업하는 도구 기사는 CML에 대해 자세히 설명한다.CML 데이터 파일은 JChemPaint, Jmol, XDrawChem 및 MarvinView를 포함한 많은 도구에서 허용된다.
단백질 데이터 뱅크 형식
단백질 데이터 뱅크 형식은 일반적으로 단백질에 사용되지만 다른 종류의 분자에도 사용될 수 있다.이것은 원래 고정 기둥 폭 형식으로 설계되었고, 따라서 공식적으로 최대 원자 수, 잔류물 및 체인의 내장형이다. 이는 리보솜과 같은 매우 큰 구조를 여러 파일로 분할하는 결과를 낳았다.그러나 많은 도구는 이러한 제한을 초과하는 파일을 읽을 수 있다.예를 들어 2009년 대장균 70S 리보솜은 3I1M, 3I1N, 3I1O, 3I1P의 4개의 PDB 파일로 표현되었다.2014년에 그들은 단일 파일인 4V6C로 통합되었다.
일부 PDB 파일에는 위치뿐만 아니라 원자 연결을 설명하는 선택적 섹션이 포함되어 있다.이 파일들은 때때로 명시적 용매로 대표되는 고분자 조립체나 분자를 설명하기 위해 사용되기 때문에, 그것들은 매우 커질 수 있고 종종 압축된다.Jmol과 KiNG와 같은 일부 도구는 PDB 파일을 gzip 형식으로 읽을 수 있다.[1]wwPDB는 PDB 파일 형식과 그 XML 대안인 PDBML의 사양을 유지하고 있다. 2007년 8월 PDB 형식 규격(버전 3.0으로)에서 상당히 큰 변화가 있었고, 기존 데이터베이스의 많은 파일 문제를 교정하였다.[2]PDB 파일의 일반적인 파일 확장자는 .pdb이지만, 일부 이전 파일은 .ent 또는 .brk를 사용한다.일부 분자 모델링 도구는 자신의 필요에 따라 기본 형식을 조정하는 비표준 PDB 스타일 파일을 작성한다.
GROMACS 형식
GROMACS 파일 형식 패밀리는 분자 시뮬레이션 소프트웨어 패키지 GROMACS와 함께 사용하기 위해 만들어졌다.PDB 형식과 매우 유사하지만 분자역학 시뮬레이션의 출력을 저장하도록 설계되어 있어 추가 수치 정밀도를 허용하고 시뮬레이션 궤적에서 특정 지점의 위치뿐만 아니라 입자 속도에 대한 정보를 선택적으로 보존한다.GROMACS에서는 별도의 분자와 시스템 토폴로지 파일에서 얻는 접속 정보의 저장을 허용하지 않는다.GROMACS 파일의 일반적인 파일 확장자는 .gro입니다.
CHARM 형식
CHARMM 분자역학 패키지는[3] 많은 표준 화학 및 생화학 파일 형식을 읽고 쓸 수 있지만, CARD(코디네이트)와 PSF(단백질 구조 파일)는 대부분 CARMM에 고유하다. CARD 형식은 고정-열 폭이며 PDB 형식과 유사하며 원자 좌표 저장에만 사용된다.PSF 파일은 원자 연결 정보(원자 결합을 설명함)를 포함하고 있으며 시뮬레이션을 시작하기 전에 필요하다.사용되는 일반적인 파일 확장자는 각각 .crd와 .psf이다.
GSD 형식
일반 입자 시뮬레이션의 효율적인 읽기/쓰기를 위해 생성된 GSD(General Simulation Data) 파일 형식(주로 제한되지는 않지만 HOOMD-blue로 제한되지 않음)이 패키지에는 구문이 용이한 홉드 스키마 gsd 파일을 읽고 쓰는 파이썬 모듈도 들어 있다.[1]
게미컬 파일 형식
게미컬 소프트웨어는 OpenBabel을 사용하여 많은 파일 형식을 가져오고 내보낼 수 있다.그러나 기본적으로 GPR 형식을 사용한다.이 파일은 태그(!)로 구분된 여러 부분으로 구성되어 있다.헤더, !Info, !Atoms, !Bonds, !Coord, !PartialCharges 및 !End).
이 형식에 대해 제안된 MIME 유형은 응용 프로그램/x-게미컬이다.
SYBYL 선 표기법
SYBYL 선 표기법(SLN)은 화학 선 표기법이다.스마일즈를 기반으로 상대적 입체화학 지정을 위한 완전한 구문을 통합했다.SLN은 Markush 구조 쿼리의 사양을 허용하는 풍부한 쿼리 구문을 가지고 있다.구문은 ChemDraw의 조합 라이브러리 사양도 지원한다.
SLN의 예
설명 | SLN 문자열 |
---|---|
벤젠 | C[1]H:CH:CH:CH:CH:CH:@1 |
알라닌 | NH2C[s=n]H(CH3)C(=O)오호 |
R 사이드체인을 표시하는 쿼리 | R1[hac]1]C[1]:C:C:C:C:C:C:C:@1 |
아미드/술파미드 쿼리 | NHC=M1{M1:O,S} |
스마일즈
분자 입력 라인 입력 사양(Simplified Molecular Input Line Entry Specification, SMiles)[4]은 분자를 위한 선 표기법이다.스마일즈 문자열은 연결은 포함하지만 2D 또는 3D 좌표는 포함하지 않는다.
수소 원자는 표현되지 않는다.다른 원자들은 그들의 원소 기호 B, C, N, O, F, P, S, Cl, Br, 그리고 I로 표현된다.기호 "="는 이중 결합을, "#"는 삼중 결합을 나타낸다.분기 표시는 ()로 표시한다.반지는 한 쌍의 숫자로 표시된다.
몇 가지 예는 다음과 같다.
이름 | 공식 | 스마일즈 스트링 |
---|---|---|
메탄 | CH4 | C |
에탄올 | C2H6O | CCO |
벤젠 | C6H6 | C1=CC=CC=C1 또는 C1cCC1 |
에틸렌 | C2H4 | C=C |
XYZ
XYZ 파일 형식은 보통 첫 번째 줄에 있는 원자의 수, 두 번째 줄에 코멘트를 주고 그 뒤에 원자 기호(또는 원자 번호)와 데카르트 좌표가 있는 여러 줄을 주는 간단한 형식이다.
MDL 번호
MDL 번호는 각 반응과 변동에 대한 고유 식별 번호를 포함한다.형식은 RXXnnnnnnnn이다.R은 반응을 나타내며, XXX는 반응 기록을 포함하는 데이터베이스를 나타낸다.숫자 부분인 nnnnnn은 8자리 숫자다.
기타 공통 형식
가장 널리 사용되는 산업 표준 중 하나는 구조 데이터 포맷(SDF) 파일과 같은 화학 테이블 파일 형식이다.다중 화학 구조 기록과 관련 데이터 필드를 나타내기 위해 엄격한 형식을 준수하는 텍스트 파일이다.이 형식은 원래 MDL(Molecular Design Limited)에서 개발하여 출판하였다.MOL은 MDL의 또 다른 파일 형식이다. CTfile Formats 제4장에 기록되어 있다.[5]
PubChem은 또한 PubChem 온라인 데이터베이스에서 내보내기 옵션인 XML과 ASN1 파일 형식을 가지고 있다.둘 다 텍스트 기반(ASN1은 대부분 이진 형식)이다.
아래 표에는 많은 다른 형식이 나열되어 있다.
형식 간 변환
오픈바벨과 조엘리브는 파일 형식 간 변환을 위해 특별히 설계된 오픈 소스 툴을 무료로 이용할 수 있다.그들의 화학 전문가 시스템은 큰 원자형 변환표를 지원한다.
babel -i input_format input_file -o output_format output_file
예를 들어 SDF의 epinephrine.sdf 파일을 CML로 변환하려면 명령을 사용하십시오.
babel -i sdf epinephrine.sdf -o cml epinephrine.cml
결과 파일은 에피네프린.cml 입니다.
아이오다타는 양자화학, 분자역학, 평면파 밀도-기능이론 소프트웨어 프로그램에서 흔히 사용하는 다양한 파일 형식을 파싱, 저장, 변환하는 무료 오픈소스 파이썬 라이브러리다.다양한 소프트웨어 패키지에 대한 입력 파일 생성을 위한 유연한 프레임워크도 지원한다.지원되는 형식에 대한 전체 목록을 보려면 https://iodata.readthedocs.io/en/latest/formats.html으로 이동하십시오.
분자 구조를 보고 편집하기 위한 많은 도구들은 다양한 형식으로 파일을 읽고 다른 형식으로 쓸 수 있다.JChemPaint(화학 개발 키트 기반), XDrawChem(OpenBabel 기반), Chime, Jmol, Mol2mol[6][citation needed] 및 Discovery Studio가 이 범주에 적합하다.
화학 MIME 프로젝트
"화학 MIME"는 화학적 흐름에 MIME 유형을 추가하는 사실상의 접근법이다.
이 프로젝트는 1994년 1월에 시작되었고, 1994년 5월에 CERN에서 개최된 제1차 세계 대전 세계 대전 국제 회의 화학 워크숍에서 처음 발표되었다.인터넷 초안의 첫 번째 버전은 1994년 5월~10월에 출판되었고, 두 번째 개정판은 1995년 4월 9월에 출판되었다.1996년 8월 IUPAC 회의에서 CPEP(인쇄 및 전자출판 위원회)에 제시된 논문이 논의 가능하다.[7]
1998년에 그 작품은 JCIM에 정식으로 출판되었다.[8]
파일 확장명 | MIME 유형 | 적절한 이름 | 설명 |
---|---|---|---|
알크 | 화학/x-알케미 | 알케미 형식 | |
csf | 화학/x-x-cs-csf | CAChe MolStruct CSF | |
cbin, cascy, ctab | 화학/x-화합체-화합체 | 선인장VS 형식 | |
cdx | 화학/x-cdx | ChemDraw eXchange 파일 | |
귀리 | 화학/x세리우스 | MSI Cerius II 형식 | |
c3d | 화학/x화학3d | Chem3D 형식 | |
chm | 화학/x 화학 약품 | ChemDraw 파일 | |
시프 | 화학/x-cif | 결정 정보 파일, 결정 정보 프레임워크 | 국제 결정학 연맹에 의해 공포 |
cmdf | 화학/x-cmdf | CrystalMaker 데이터 형식 | |
cml | 화학/x-cml | 화학 마크업 언어 | XML 기반 화학 마크업 언어. |
cpa | 화학/x 콤파스 | 다카하시의 나침반 프로그램 | |
bsd | 화학/x크로스파이어 | 크로스파이어 파일 | |
csm, csml | 화학/x-csml | 화학 스타일 마크업 언어 | |
ctx | 화학/x-ctx | Gasteiger 그룹 CTX 파일 형식 | |
cxf, cef | 화학/x-cxf | 화학 eXchange 형식 | |
돋을새김을 하다 | 화학/x-embl-dl-dl-dl-dl-dl- | EMBL 뉴클레오티드 형식 | |
spc | 화학/x-은하학-광학-광학-영양학 | 스펙트럼 및 크로마토그래픽 데이터를 위한 SPC 형식 | |
인프, 감, 가민 | 화학/x-게이머-게이머-게이머-게이머- | GAMESS 입력 형식 | |
fch, fchk. | 화학/x 가우스파 | 가우스 체크포인트 형식 | |
새끼를 배다 | 화학/x 가우스파 | 가우스 큐브(파형 기능) 형식 | |
gau, gjc, gjf, com | 화학/x 가우스파 | 가우스 입력 형식 | |
gcg | 화학/x-gcg8-messages | 단백질 시퀀스 형식 | |
젠 | 화학/x겐 뱅크 | ToGenBank 형식 | |
istr,ist | 화학/x이소스타 | IsoStar의 분자간 상호작용 라이브러리 | |
jdx, dx | 화학/xj캠프-dx | JCAMP 분광형 데이터 교환 형식 | |
혈족 | 화학/x키네마주 | 키네틱(단백질 구조) 이미지; 키네마주 | |
MCM | 화학/x-매몰 분자 | MacMolecule 파일 형식 | |
mmd, mmod | 화학/x-매크로모델-염색체 | 매크로모형 분자역학 | |
털을 뽑다 | 화학/xmdl-molfile | MDL 몰필레 | |
미소, smi | 화학/x-광택제 | 단순분자입력선입력규격 | 분자에 대한 선 표기법. |
sdf | 화학/x-mdl-sd파일 | 구조 데이터 파일 | |
엘을 | 화학/x셀 | 스케치엘 분자 | |
ds | 화학/x-표지판 | SketchEl XML 데이터시트 | |
인치 | 화학/x인치 | IUPAC 국제 화학 식별자 | |
jsd, jsdraw | 화학/x-jsdraw | JSDraw 네이티브 파일 형식 | |
키를 잡다 | 화학/x-화학의 | 피스토아 얼라이언스 헬름 스트링 | 생물학적 분자를 위한 선 표기법 |
젤름 | 화학/x헬름 | Pistoia Alliance XHELM XML 파일 | 모노머 정의를 포함한 XML 기반 HOME |
지원
Linux/Unix의 경우, 구성 파일은 .deb, RPM 및 tar.gz 형식의 "화학-mime-data" 패키지로 이용 가능하여 웹 서버에서 화학 MIME 유형을 등록한다.[9][10]그런 다음 프로그램은 화학 MIME 유형에 대한 완전한 지원을 사용할 수 있도록 이러한 형식에 대한 뷰어, 편집기 또는 프로세서로 등록할 수 있다.
화학 데이터의 출처
여기 자유롭게 이용할 수 있는 분자 데이터의 소스의 짧은 목록이 있다.인터넷에는 여기 나열되어 있는 것보다 더 많은 자원이 있다.이러한 출처에 대한 링크는 아래 참조에 제공되어 있다.
- 미국 국립 보건 연구소 PubChem 데이터베이스는 화학 데이터의 엄청난 원천이다.모든 데이터는 2차원이다.데이터에는 SDF, 스마일즈, PubChem XML, PubChem ASN1 형식이 포함된다.
- 전 세계 단백질 데이터 뱅크(wwwPDB)[11]는 단백질과 핵산 분자 좌표 데이터의 훌륭한 원천이다.데이터는 3차원이며 PDB(단백질 데이터 뱅크) 형식으로 제공된다.
- eMoleculars는 분자 데이터를 위한 상업적 데이터베이스다.이 데이터에는 2차원 구조도와 각 화합물에 대한 미소 문자열이 포함되어 있다.eMoleculars는 분자 구조의 일부를 기반으로 한 빠른 하부 구조 검색을 지원한다.
- ChemExpert는 분자 데이터의 상업적 데이터 베이스다.검색 결과에는 2차원 구조도와 여러 화합물에 대한 몰 파일이 포함된다.
- 뉴욕 대학교 3-D 분자 구조 도서관.
- 미국 환경보호청의 DSTox(Distributed Structure-Searchable A독성) 데이터베이스 네트워크는 EPA의 연산 독성학 프로그램의 프로젝트다.데이터베이스는 발암성 물질과 그 밖의 독성 물질에 초점을 맞춘 SDF 분자 파일을 제공한다.
참고 항목
참조
- ^ Chen, V.B.; et al. (2009). "KING (Kinemage, Next Generation): A versatile interactive molecular and scientific visualization program". Protein Science. 18 (11): 2403–2409. doi:10.1002/pro.250. PMC 2788294. PMID 19768809.
- ^ Henrick, K.; et al. (2008). "Remediation of the protein data bank archive". Nucleic Acids Research. 36 (Database issue): D426–D433. doi:10.1093/nar/gkm937. PMC 2238854. PMID 18073189.
- ^ Brooks, B.M.; et al. (1983). "CHARMM: A program for macromolecular energy, minimization, and dynamics calculations". J. Comput. Chem. 4 (2): 187–217. doi:10.1002/jcc.540040211. S2CID 91559650.
- ^ Weininger, David (1988). "SMILES, a Chemical Language and Information System: 1: Introduction to Methodology and Encoding Rules". Journal of Chemical Information and Modeling. 28 (1): 31–36. doi:10.1021/ci00057a005.
- ^ MDL 정보 시스템 2005
- ^ 몰2몰 홈페이지
- ^ 화학 MIME 홈 페이지(2013년 1월 24일 액세스)
- ^ Rzepa, H. S.; Murray-Rust, P.; Whitaker, B. J. (1998). "The Application of Chemical Multipurpose Internet Mail Extensions (Chemical MIME) Internet Standards to Electronic Mail and World Wide Web Information Exchange". Journal of Chemical Information and Modeling. 38 (6): 976. doi:10.1021/ci9803233.
- ^ "Debian -- Package Search Results -- chemical-mime".
- ^ "Why Use SourceForge? Features and Benefits".
- ^ Berman, H.M.; et al. (2003). "Announcing the worldwide Protein Data Bank". Nature Structural Biology. 10 (12): 980. doi:10.1038/nsb1203-980. PMID 14634627.
외부 링크
- MDL Information Systems (June 2005), CTFile Formats (PDF), San Leandro, California, United States: MDL Information Systems, archived from the original (PDF) on June 30, 2007
- "Resolve a structure identifier as SDF, CML, MRV, PDB". NCI. NIH: CADD Group Chemoinformatics Tools and User Services (CACTUS). July 2009.