분자광업

Molecule mining

이 페이지는 분자채굴에 대해 설명한다.분자는 분자 그래프에 의해 표현될 수 있기 때문에 이것은 그래프 마이닝구조화된 데이터 마이닝과 밀접한 관련이 있다.가장 큰 문제는 데이터 인스턴스를 구별하면서 분자를 나타내는 방법이다.이를 위한 한 가지 방법은 화학적 유사성 측정법인데, 화학적 유사성 측정법에는 오랜 전통이 있다.

화학적 유사성을 계산하기 위한 전형적인 접근법은 화학적 지문을 사용하지만, 이것은 분자 위상에 대한 기초적인 정보를 잃어버린다.분자 그래프를 채굴하는 것은 이 문제를 직접적으로 피한다.벡터 매핑에 선호되는 역 QSAR 문제도 마찬가지다.

부호화(분자i, 분자ji)

커널 메서드

  • 한계 그래프 커널[1]
  • 최적 할당 커널[2][3][4]
  • 약리코어 커널[5]
  • C++ (및 R) 구현 결합
    • 레이블이 지정된 그래프[1] 사이의 한계화된 그래프 커널
    • 한계 커널의[6] 확장
    • 타니모토 커널스[7]
    • 트리 패턴[8] 기반 그래프 커널
    • 분자의[5] 3D 구조에 대한 약리학적 특성에 기초한 낟알

최대 공통 그래프 방법

  • MCS-HSCS[9](단일 MCS에 대한 최고 점수 공통 하위 구조(HSCS) 순위 전략)
  • SMSD([10]Small Divider Subgraph Detector)는 작은 분자 간의 MCS(Maximum Common Subgraph)를 계산하기 위한 자바 기반의 소프트웨어 라이브러리다.이것은 우리가 두 분자 사이의 유사성/거리를 찾는데 도움이 될 것이다.MCS는 공통 서브그래프(하위구조)를 공유하는 분자를 타격해 화합물과 같은 약물을 선별하는 데도 쓰인다.[11]

코딩(분자i)

분자 질의법

신경망의 특수한 구조에 기초한 방법

참고 항목

참조

  1. ^ a b H. 가시마, K.츠다, A.Inokuchi, Labelated Kernels Between Labeled Graphs, The 20th International Conference on Machine Learning (ICML2003), 2003.PDF
  2. ^ H. Fröhlich, J. K. Wegner, A. Zell, 귀속 분자 그래프를 위한 최적 할당 커널, 제22회 기계학습 국제회의(ICML 2005), 옴니프레스, 메디슨, WI, 2005, 225-232.PDF
  3. ^ Fröhlich H., Wegner J. K., Zell A. (2006). "Kernel Functions for Attributed Molecular Graphs - A New Similarity Based Approach To ADME Prediction in Classification and Regression". QSAR Comb. Sci. 25 (4): 317–326. doi:10.1002/qsar.200510135.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  4. ^ H. Fröhlich, J. K. Wegner, A. Zell, 화학 화합물에 대한 할당 커널, Neural Networks 2005 국제 공동 회의 (IJCN'05), 2005, 913-918.CiteSeer
  5. ^ a b Mahe P., Ralaivola L., Stoven V., Vert J. (2006). "The pharmacophore kernel for virtual screening with support vector machines". J Chem Inf Model. 46 (5): 2003–2014. arXiv:q-bio/0603006. Bibcode:2006q.bio.....3006M. doi:10.1021/ci060138m. PMID 16995731. S2CID 15060229.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  6. ^ P. Mahé, N. Ueda, T. Akutsu, J.-L. Perret and P. Vert, J.-P. (2004). "Extensions of marginalized graph kernels". Proceedings of the 21st ICML: 552–559.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  7. ^ L. Ralaivola, S. J. Swamidass, S. Hiroto and P. Baldi (2005). "Graph kernels for chemical informatics". Neural Networks. 18 (8): 1093–1110. doi:10.1016/j.neunet.2005.07.009. PMID 16157471.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  8. ^ P. Mahé and J.-P. Vert (2009). "Graph kernels based on tree patterns for molecules". Machine Learning. 75 (1): 3–35. arXiv:q-bio/0609024. doi:10.1007/s10994-008-5086-2. ISSN 0885-6125. S2CID 5943581.
  9. ^ Wegner J. K., Fröhlich H., Mielenz H., Zell A. (2006). "Data and Graph Mining in Chemical Space for ADME and Activity Data Sets". QSAR Comb. Sci. 25 (3): 205–220. doi:10.1002/qsar.200510009.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  10. ^ Rahman S. A., Bashton M., Holliday G. L., Schrader R., Thornton J. M. (2009). "Small Molecule Subgraph Detector (SMSD) toolkit". Journal of Cheminformatics. 1 (1): 12. doi:10.1186/1758-2946-1-12. PMC 2820491. PMID 20298518.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  11. ^ "Small Molecule Subgraph Detector (SMSD)".
  12. ^ King R. D., Srinivasan A., Dehaspe L. (2001). "Wamr: a data mining tool for chemical data". J. Comput.-Aid. Mol. Des. 15 (2): 173–181. Bibcode:2001JCAMD..15..173K. doi:10.1023/A:1008171016861. PMID 11272703. S2CID 3055046.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  13. ^ L. 더하스페, H.Toivonen, King, 화학 화합물에서 빈번한 하부 구조 찾기, 제4차 국제 지식 검색 및 데이터 마이닝 회의, AAAI Press, 1998, 30-36.
  14. ^ A. 이노쿠치, T. 와시오, T. 와시오, T.오카다, H. 모토다, 컴퓨터 보조 화학 저널 무타게네시스 데이터 분석에 Apriori 기반 그래프 마이닝 방법 적용, 2001; 2, 87-92.
  15. ^ A. 이노쿠치, T. 와시오, K.니시무라, H. Motoda, IBM Research, Tokyo Research Laboratory, 2002년 마이닝 빈번한 연결 서브그래프를 위한 고속 알고리즘.
  16. ^ A. Clare, R. D. King, data가 게으른 기능 언어로 효모 게놈을 채굴하는 것, PADL2003, 2003.
  17. ^ Kuramochi M., Karypis G. (2004). "An Efficient Algorithm for Discovering Frequent Subgraphs". IEEE Transactions on Knowledge and Data Engineering. 16 (9): 1038–1051. doi:10.1109/tkde.2004.33. S2CID 242887.
  18. ^ Deshpande M., Kuramochi M., Wale N., Karypis G. (2005). "Frequent Substructure-Based Approaches for Classifying Chemical Compounds". IEEE Transactions on Knowledge and Data Engineering. 17 (8): 1036–1050. doi:10.1109/tkde.2005.127. hdl:11299/215559.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  19. ^ Helma C., Cramer T., Kramer S., de Raedt L. (2004). "Data Mining and Machine Learning Techniques for the Identification of Mutagenicity Inducing Substructures and Structure Activity Relationships of Noncongeneric Compounds". J. Chem. Inf. Comput. Sci. 44 (4): 1402–1411. doi:10.1021/ci034254q. PMID 15272848.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  20. ^ T. 메이넬, C.Borgelt, M. R. Vertold, MoFa의 차별적 폐쇄 파편 채굴완벽한 확장, 2004년 제2기 시작 AI 연구자 심포지엄(STESS 2004),
  21. ^ T. 메이넬, C.Borgelt, M. R. Berstold, M. Philipsen, Molecular Database에 퍼지 체인이 있는 채굴 조각, 제2회 채굴 그래프, 나무 및 시퀀스 국제 워크숍(MGTS2004), 2004.
  22. ^ Meinl, T.; Berthold, M. R. (2004). "Hybrid Fragment Mining with MoFa and FSG" (PDF). Proceedings of the 2004 IEEE Conference on Systems, Man & Cybernetics (SMC2004). 5: 4559–4564. doi:10.1109/ICSMC.2004.1401250. ISBN 0-7803-8567-5. S2CID 3248671.
  23. ^ S. Nijssen, J. N. Kok.빈번한 그래프 마이닝과 분자 데이터베이스에 대한 응용, 2004년 시스템, 인간 & 사이버네틱스(SMC2004)에 관한 IEEE 회의의 진행, 2004.
  24. ^ C. Helma, 예측 독성학, CRC Press, 2005.
  25. ^ M. Wörlein, 그래프 마이닝-알고리즘의 확장병렬화, Friedrich-Alexander-Universitet, 2006.PDF
  26. ^ K. Jan, S. Kramer, 분자 데이터 세트를 위한 gspan 최적화, 제3차 국제 채굴 그래프, 나무 및 시퀀스 워크숍(MGTS-2005), 2005.
  27. ^ X. Yan, J. Han, gspan: 그래프 기반 하부구조 패턴 마이닝, 2002 IEEE 국제 데이터 마이닝 회의(ICDM 2002), IEEE 컴퓨터 협회, 2002, 721-724
  28. ^ Karwath A., Raedt L. D. (2006). "SMIREP: predicting chemical activity from SMILES". J Chem Inf Model. 46 (6): 2432–2444. doi:10.1021/ci060159g. PMID 17125185.
  29. ^ Ando H., Dehaspe L., Luyten W., Craenenbroeck E., Vandecasteele H., Meervelt L. (2006). "Discovering H-Bonding Rules in Crystals with Inductive Logic Programming". Mol Pharm. 3 (6): 665–674. doi:10.1021/mp060034z. PMID 17140254.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  30. ^ Mazzatorta P., Tran L., Schilter B., Grigorov M. (2007). "Integration of Structure-Activity Relationship and Artificial Intelligence Systems To Improve in Silico Prediction of Ames Test Mutagenicity". J. Chem. Inf. Model. 47 (1): 34–38. doi:10.1021/ci600411v. PMID 17238246.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  31. ^ Wale N., Karypis G. "Comparison of Descriptor Spaces for Chemical Compound Retrieval and Classification". ICDM. 2006: 678–689.
  32. ^ A. Gago Alonso, J.E. Medina Pagola, J.A. Carrasco-Ochiaa, J.F.마르티네스-트리니다드 광업 연결 서브그래프 광업 ECML 후보 수 감소-PKDD, 페이지 365376, 2008.
  33. ^ Xiahong Wang, Jun Huan, Aaron Smalter, Gerald Lusington, Large Chemical Database에서 정확한 유사성 검색을 위한 커널 함수의 적용 , BMC 생물정보학 Vol.11 (Supply 3):S8 2010.
  34. ^ Baskin, I. I.; V. A. Palyulin; N. S. Zefirov (1993). "[A methodology for searching direct correlations between structures and properties of organic compounds by using computational neural networks]". Doklady Akademii Nauk SSSR. 333 (2): 176–179.
  35. ^ I. I. Baskin, V. A. Palyulin, N. S. Zefirov (1997). "A Neural Device for Searching Direct Correlations between Structures and Properties of Organic Compounds". J. Chem. Inf. Comput. Sci. 37 (4): 715–721. doi:10.1021/ci940128y.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  36. ^ D. B. Kireev (1995). "ChemNet: A Novel Neural Network Based Method for Graph/Property Mapping". J. Chem. Inf. Comput. Sci. 35 (2): 175–180. doi:10.1021/ci00024a001.
  37. ^ A. M. Bianucci; Micheli, Alessio; Sperduti, Alessandro; Starita, Antonina (2000). "Application of Cascade Correlation Networks for Structures to Chemistry". Applied Intelligence. 12 (1–2): 117–146. doi:10.1023/A:1008368105614. S2CID 10031212.
  38. ^ A. Micheli, A. Sperduti, A. Starita, A. M. Bianucci (2001). "Analysis of the Internal Representations Developed by Neural Networks for Structures Applied to Quantitative Structure-Activity Relationship Studies of Benzodiazepines". J. Chem. Inf. Comput. Sci. 41 (1): 202–218. CiteSeerX 10.1.1.137.2895. doi:10.1021/ci9903399. PMID 11206375.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  39. ^ O. Ivanciuc (2001). "Molecular Structure Encoding into Artificial Neural Networks Topology". Roumanian Chemical Quarterly Reviews. 8: 197–220.
  40. ^ A. Goulon, T. Picot, A. Duprat, G. Dreyfus (2007). "Predicting activities without computing descriptors: Graph machines for QSAR". SAR and QSAR in Environmental Research. 18 (1–2): 141–153. doi:10.1080/10629360601054313. PMID 17365965. S2CID 11759797.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)

추가 읽기

  • 슐코프, B, K. 츠다와 J. P. Vert: 커널 메소드 Computing Biology, MIT Press, Cambridge, MA, 2004.
  • R.O. 듀다, P.E. 하트, D.G. 황새, 패턴 분류, John Wiley & Sons, 2001.ISBN 0-471-05669-3
  • Gusfield, D. 문자열, 트리 및 시퀀스에 대한 알고리즘: Cambridge University Press, 1997, Computer Science and Computing Biology.ISBN 0-521-58519-8
  • R. 토데스치니, V. 코니, 분자 설명자 핸드북, Wiley-VCH, 2000.ISBN 3-527-29913-0

외부 링크