시퀀스 데이터베이스

Sequence database

생물정보학 분야에서 배열 데이터베이스는 컴퓨터에 저장된 많은 컴퓨터화된("디지털") 핵산 배열, 단백질 배열 또는 기타 고분자 배열로 구성된 생물학적 데이터베이스의 한 유형이다.UniProt 데이터베이스는 단백질 배열 데이터베이스의 한 예입니다.2013년 현재 4000만 개 이상의 시퀀스를 포함하고 있으며 기하급수적으로 [1]증가하고 있습니다.과거에는 시퀀스가 종이 형태로 게시되었지만 시퀀스 수가 증가함에 따라 이 저장 방법은 지속 가능하지 않게 되었습니다.

서치

배열 데이터베이스 검색은 게놈/단백질 배열과 쿼리 문자열 간의 유사성을 찾고 표적 배열과 "최적"인 배열(검색 방법에 따라 다름)을 찾는 것을 포함한다.일치/히트 수는 시퀀스 [2]쿼리와 시퀀스 데이터베이스 내의 시퀀스 간의 유사성을 결정하는 점수를 산출하는 데 사용됩니다.주된 목표는 두 기준 사이의 균형을 잘 잡는 것이다.

역사

1950

시퀀스 데이터베이스의 필요성은 Fredrick Sanger가 인슐린의 1차 구조를 보고한 1950년에 시작되었다.그는 핵산을 배열하는 방법을 만든 공로로 두 번째 노벨상을 수상했고, 그의 비교 접근법은 다른 단백질 생화학자들이 아미노산 배열을 수집하기 시작하도록 자극한 것이다.분자 데이터베이스의 [3]시작을 알립니다.

1960

1965년 국립생물의학연구재단(NBRF)의 마가렛 데이호프와 그녀의 팀은 "단백질 배열과 구조 아틀라스"를 출판했다.그들은 모든 알려진 단백질 서열을 아틀라스에 넣었어요 심지어 출판되지 않은 자료도요이것은 분자 데이터베이스를 만들기 위한 첫 번째 시도라고 볼 수 있다.그들은 NIH(National Institute of Health)의 새로운 컴퓨터화된 의학 문헌 분석 및 검색 시스템(MEDLARS)을 이용했다.이 팀은 데이터를 저장하기 위해 컴퓨터를 사용했지만, 각 시퀀스를 수동으로 타이핑하고 교정해야 했기 때문에 시간과 [3]비용이 많이 들었습니다.

1966년에 그 팀은 첫 번째 아틀라스보다 두 배 더 큰 아틀라스 2판을 출시했다.약 1000개의 시퀀스가 들어있었고, 이번에는 정보 폭발로 만들어졌습니다.NBRF(National Biomedical Research Foundation)는 당시 의학 및 생물학에 컴퓨터를 활용하는 데 있어 최첨단이었다.Dayhoff와 그녀의 팀은 메인프레임 컴퓨터의 단백질 분자의 아미노산 염기서열을 결정하기 위해 그들의 설비를 이용했다.발견된 배열의 수는 계속해서 증가하여 이전보다 더 깊은 단백질 비교 분석을 가능하게 했다.이것은 아미노산 치환의 확률론적 모델, 배열 정렬 및 [3]단백질의 진화적 관계의 계통수와 같은 많은 발전으로 이어진다.

1970

전체 시퀀싱 프로세스가 완전히 [3]자동화되었습니다.

1980

첫 번째 뉴클레오티드 배열 데이터베이스가 생성되었다.이전에는 유럽 분자 생물학 연구소(EMBL) 뉴클레오티드 배열 데이터 라이브러리(현재는 유럽 뉴클레오티드 아카이브)로 알려져 있었습니다.인간 게놈 프로젝트는 1988년에 시작되었다.이 프로젝트의 목표는 대규모 염기서열 데이터베이스를 [4]만들고 활용할 수 있는 능력을 필요로 하는 인간의 모든 유전자를 염기서열과 지도화하는 것이었습니다.

현재

현재 Sequence 데이터베이스, 이를 사용하기 위한 도구 및 접근 용이성을 갖추고 있습니다.가장 큰 것 중 하나는 20억 [3]개 이상의 시퀀스를 포함하는 GenBank입니다.

타임라인

시퀀스 데이터베이스 작성 타임라인

최신호

스토리지 및 용장성

염기서열 데이터베이스의 기록은 개인 연구자부터 대규모 게놈 염기서열 분석 센터까지 광범위한 소스에서 축적된다.그 결과, 시퀀스 자체, 특히 이러한 시퀀스에 첨부된 생물학적 주석이 품질이 다를 수 있습니다.여러 랩이 데이터베이스 [5]내의 다른 랩과 동일하거나 거의 동일한 다수의 시퀀스를 제출할 수 있기 때문에 많은 용장성이 있습니다.

시퀀스의 많은 주석은 실험실 실험이 아니라 이전에 주석 처리된 시퀀스에 대한 시퀀스 유사성 검색 결과에 기초한다.시퀀스에 다른 시퀀스와의 유사성을 기반으로 주석을 추가하고 그 자체가 데이터베이스에 저장되면 향후 주석의 기반이 될 수도 있습니다.특정 데이터베이스 기록과 실제 습식 실험실 실험 [6]정보 사이의 시퀀스 유사성에 의한 주석 전송이 여러 개 있을 수 있기 때문에 이는 과도적 주석 문제로 이어질 수 있다.따라서 시퀀스 데이터베이스의 주석 데이터를 해석할 때 주의해야 합니다.

스코어링 방법

현재 데이터베이스 검색 알고리즘의 대부분은 점수로 정렬 순위를 매기고 있으며, 이는 일반적으로 특정 점수 [7]체계입니다.이 문제를 해결하기 위한 해결책은 특정 문제에 맞는 다양한 점수 시스템을 제공하는 것입니다.

얼라인먼트

검색 알고리즘을 사용할 때 우리는 종종 생물학적 중요성이 [8]결여될 수 있는 순서 목록을 생성합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Cochrane, G.; Karsch-Mizrachi, I.; Nakamura, Y. (23 November 2010). "The International Nucleotide Sequence Database Collaboration". Nucleic Acids Research. 39 (Database): D15–D18. doi:10.1093/nar/gkq1150. PMC 3013722. PMID 21106499.
  2. ^ Sung, Wing-Kin (2010). Algorithms in bioinformatics : a practical introduction. Boca Raton: Chapman & Hall/CRC Press. p. 109. ISBN 9781420070330.
  3. ^ a b c d e Hagen, Joel B. (2011), Hamacher, Michael; Eisenacher, Martin; Stephan, Christian (eds.), "The Origin and Early Reception of Sequence Databases", Data Mining in Proteomics: From Standards to Applications, Methods in Molecular Biology, Totowa, NJ: Humana Press, pp. 61–77, doi:10.1007/978-1-60761-987-1_4, ISBN 978-1-60761-987-1, retrieved 5 May 2022
  4. ^ "History < EMBL-EBI". www.ebi.ac.uk. Retrieved 5 May 2022.
  5. ^ Sikic, K.; Carugo, O. (2010). "Protein sequence redundancy reduction: comparison of various method". Bioinformation. 5 (6): 234–9. doi:10.6026/97320630005234. PMC 3055704. PMID 21364823.
  6. ^ Iliopoulos, I.; Tsoka, S.; Andrade, MA.; Enright, AJ.; Carroll, M.; Poullet, P.; Promponas, V.; Liakopoulos, T.; et al. (April 2003). "Evaluation of annotation strategies using an entire genome sequence". Bioinformatics. 19 (6): 717–26. doi:10.1093/bioinformatics/btg077. PMID 12691983.
  7. ^ Altschul, Stephen; Boguski, Mark; Gish, Warren; Wootton, John. "Issues in searching molecular sequence databases" (PDF). Nature Publishing Group.
  8. ^ Altschul, Stephen; Boguski, Mark; Gish, Warren; Wootton, John. "Issues in searching molecular sequence databases" (PDF). Nature Publishing Group.

외부 링크