유전자 질병 데이터베이스

Gene Disease Database
유전자 질병 데이터베이스
분류생물정보학
하위분류데이터베이스
데이터베이스 유형생물학적
데이터베이스 하위 유형진디제

생물정보학에서, 유전자 질병 데이터베이스표현형-유전자형 관계와 유전자-질병 메커니즘 사이의 다중 복합적 상호작용을 이해함으로써 복잡한 질병의 기본 메커니즘을 이해하는 방식으로 전형적으로 현실의 측면을 모델링하도록 구조화된 데이터의 체계화된 모음입니다.[1]유전자 질병 데이터베이스는 다양한 전문가 큐레이션 데이터베이스의 인간 유전자 질병 연관성과 멘델리안, 복합 및 환경 질환을 포함한 텍스트 마이닝 파생 연관성을 통합한다.[2][3]null

소개

생물학과 생물정보학의 서로 다른 분야의 전문가들은 오랫동안 예방과 치료 전략을 설계하기 위해 질병의 분자 메커니즘을 이해하려고 노력해 왔다.일부 질병의 경우, 질병과 관련된 유전자의 지표를 얻는 데 충분하지 않고 세포 내 분자 격자망이 어떻게 질병 표현형을 발생시키는지 밝혀내기 위해 적개심을 일으키는 것이 적절한 양이라는 것이 명백해졌다.[4]게다가 전례 없는 풍부한 정보를 이용할 수 있음에도 불구하고, 그러한 카탈로그를 얻는 것은 매우 어렵다.null

유전적으로 말하면 유전병은 유전자나 염색체의 이상에 의해 발생한다.많은 유전병들이 태어나기 전부터 발병한다.우리 사회의 의료문제는 유전질환이 상당수를 차지한다.이 질병에 대한 이해의 발전은 유전적 장애에 의해 영향을 받은 많은 사람들의 수명과 삶의 질을 모두 증가시켰다.생물정보학 및 실험실 유전학의 최근 발전은 특정 기형 및 정신지체 증후군을 더 잘 묘사하여 그들의 유전 방식을 이해할 수 있게 만들었다.이 정보를 통해 유전상담사는 다수의 유전질환 발생 위험을 예측할 수 있다.[2]그러나, 대부분의 유전적 상담은 적어도 한 명의 영향을 받은 개인이 태어난 후에야 유전적 장애를 가진 아이를 갖는 것에 대한 그들의 선호도를 가족에게 알렸다.질병에 대한 단일 유전자의 연관성은 드물며 유전병은 전염성 장애일 수도 있고 아닐 수도 있다.[5]부모의 유전자에서 유전되는 유전질환도 있지만, 새로운 돌연변이나 DNA의 변화로 생기는 유전질환도 있다.다른 발생에서, 예를 들어, 같은 형태의 이나 흑색종은, 일부 사람들의 병세, 다른 사람들의 새로운 변화, 그리고 여전히 다른 개인들의 비유전적 원인으로부터 기인할 수 있다.[6]null

알려진 단일성 질환(원생성)은 6,000개 이상이며, 출생아 200명 중 약 1명꼴에서 발생한다.[1]그들의 용어에서 알 수 있듯이, 이러한 질병들은 한 유전자의 돌연변이에 의해 발생한다.이와는 대조적으로 다세대 질환은 환경적 요인과 규칙적으로 결합하여 여러 유전자에 의해 발생한다.[7]유전자 표현형으로는 알츠하이머병, 유방암, 백혈병, 다운증후군, 심장결함, 청각장애 등이 대표적이기 때문에 유전자와 관련된 모든 질병을 분류하기 위한 목록화가 필요하다.null

생성과 관련된 당면 과제

A Gene prioritization
인간 질병의 유전자 우선화 작업 흐름:대표적인 목록은 연결 부위, 염색체 이상, 연관 연구 위치, 배변 표현 유전자 목록 또는 염기서열 변형으로 식별된 유전자에서 나온다.또는 전체 게놈의 우선순위를 정할 수 있지만, 훨씬 더 많은 거짓 양성 반응이 예상된다.

어떤 유전자 질병 프로젝트의 다른 단계에서, 분자 생물학자들은 신중한 통계 데이터 분석 후에도, 어떤 유전자나 단백질을 더 실험적으로 조사할 것인지, 그리고 제한된 자원 때문에 어느 것을 제외시킬 것인지를 선택할 필요가 있다.표현 데이터, 시퀀스 정보, 기능 주석 및 생물의학 문헌과 같이 복잡하고 이질적인 데이터 세트를 통합하는 계산 방법은 보다 정보에 입각한 방법으로 향후 연구를 위한 유전자의 우선순위를 정할 수 있다.그러한 방법들은 하류 연구의 수율을 실질적으로 증가시킬 수 있고 연구자들에게 매우 귀중하게 되고 있다.생물학적, 생물학적 의학적 연구에서 가장 중요한 관심사 중 하나는 이 복잡한 유전적 표현형 뒤에 숨겨진 근본적인 메커니즘을 인식하는 겁니다.질병과[8] 관련된 유전자를 찾는데 많은 노력을 기울였다.

그러나 대부분의 인간의 질병은 하나의 유전자에 기인할 수 없고 복수의 유전적 변종들 간의 복잡한 상호작용과 환경적 위험요인 때문에 발생한다는 증거가 늘어나고 있다.유전자와 질병 사이의 연관성을 저장한 데이터베이스는 비교유독성유전체학 데이터베이스(CTD), 온라인 멘델리아 유전체(OMIM), 유전자협회 데이터베이스(GAD) 또는 질병유전자협회 데이터베이스(DisGeNET)와 같이 개발되었다.이들 데이터베이스는 각각 표현형-유전자형 관계의 서로 다른 측면에 초점을 맞추고 있으며, 데이터베이스 큐레이션 프로세스의 특성상 완전하지는 않지만, 어떻게 보면 서로 완전히 상호보완되는 것이다.[9]null

데이터베이스 유형

본질적으로, 데이터베이스에는 큐레이션된 데이터베이스, 예측 데이터베이스, 문헌 데이터베이스 및 통합 데이터베이스의[1] 네 가지 유형이 있다.

큐레이션된 데이터베이스

용어는 데이터 엄선되는 구조적 데이터, 과학적인 업데이트 및 curated 지식, 앞으로 준비가 되어 하나 이상의 전문가들의 자격을 갖추는 것으로 간주의 규정에 따라 그러한 activity[10]에 참여하기 위해 그 의미는 결과는 작성돼 있는 가장 정교한 계산 형식으로 구성된를 나타냅니다.dat아배는 질이 좋다.이와는 대조적으로, 일부 자동화된 프로세스를 통해 수집되거나 특별히 낮거나 비전문가적인 데이터 품질을 사용했을 수 있으며 신뢰할 수 없을 수도 있다.[10]가장 일반적인 예로는 CTD와 UNIPROT가 있다.

IMT2000 3GPP - 비교유독성유전체학 데이터베이스

비교유독성유전체학 데이터베이스(Conversible Toxenomics Database)는 큐레이티드 과학 문헌의 데이터를 통합하여 유전자와 단백질과의 생화학적 상호작용을 기술하고, 질병과 화학 물질, 질병과 유전자 또는 단백질 간의 연계를 기술함으로써 환경 화합물이 인간 건강에 미치는 영향에 대한 이해를 돕는다.[11]CTD에는 이종 간 화학-진/단백질 상호작용과 화학-질병 및 유전자-질병 연관성을 정의하는 커리큘럼 데이터가 포함되어 있어 가변 민감성과 환경에 영향을 받는 질병에 기초하는 분자 메커니즘을 조명한다.이러한 데이터는 복잡한 화학-진 및 단백질 상호작용 네트워크에 대한 통찰력을 제공한다.이 데이터베이스의 주요 출처 중 하나는 OMIM의 정보를 큐레이션한 것이다.[11]

CTD는 생명정보학 전문가들이 과학 문헌을 읽고 다음과 같은 4가지 유형의 핵심 데이터를 수동으로 큐레이션하는 독특한 자원이다.

  • 화학-진 상호작용
  • 화학-질소 연관성
  • 유전자-질병 연관성
  • 화학-양식 연관성

범용 단백질 자원(UNIPROT)

유니버설 단백질 자원(Universal Prote Resource, UniProt)은 단백질 시퀀스 및 주석 데이터를 위한 포괄적인 자원이다.게놈 염기서열 프로젝트에서 파생되는 항목이 많은 단백질 염기서열과 기능정보의 종합적이고 자유롭게 접근할 수 있는 데이터베이스다.연구 문헌에서 파생된 단백질의 생물학적 기능에 대한 많은 정보를 담고 있어 유전자-단백질-질병 사이의 직접적인 연관성을 암시할 수 있다.[12]null

유니프로트
내용
설명UniProt는 스위스-Prot, TrEMBL, PIR-PSD 데이터베이스를 결합하여 만든 단백질 데이터의 중심 저장소인 보편적 단백질 자원이다.
데이터 유형
발동.
단백질 주석
유기체전부
연락처
리서치센터영국 EMBL-EBI; 스위스 SIB; PIR, 미국.
1차 인용범용 단백질 자원에서의[13] 지속적이고 미래의 개발
접근
데이터 형식사용자 정의 플랫 파일, FASTA, GFF, RDF, XML.
웹사이트www.uniprot.org
www.uniprot.org/news/
다운로드 URLwww.uniprot.org/downloads & 전체 데이터 세트 다운로드 ftp.uniprot.org
웹 서비스 URL예 – JAVA API여기에서 정보를 참조하고 REST여기에서 정보를 참조하십시오.
도구들
고급 검색, 블라스트, ClustalO, 대량 검색/다운로드, ID 매핑
잡다한
면허증Creative Commons Attribution-NoDerivs
버전 지정
데이터 릴리스
빈도수
4주
큐레이션 정책예 – 수동 및 자동.데이터베이스 큐레이터 및 계산 알고리즘에 의해 생성된 자동 주석 규칙.
책갈피 가능
실체
예 – 개별 단백질 입력 및 검색 모두
데이터베이스 컴파일 및 큐레이션 프로세스
큐레이션된 데이터는 실제 경험과 문헌 검토에서 데이터베이스의[14] 웹 출판까지의 과정을 구성할 수 있다.

예측 데이터베이스

예측 데이터베이스는 통계 추론에 근거한 데이터베이스다.그러한 추론에 대한 한 가지 특별한 접근방식은 예측 추론이라고 알려져 있지만, 예측은 통계 추론에 대한 몇 가지 접근방식 중 어느 하나 내에서 수행될 수 있다.실제로 생물통계학의 한 가지 설명은 유전자 모집단의 표본에 대한 지식을 전체 모집단(유전체학)과 다른 관련 유전자나 게놈에 전달하기 위한 수단을 제공한다는 것인데, 시간이 지남에 따라 예측하는 것과 반드시 같은 것은 아니다.[15]정보가 시간 전체에 걸쳐, 종종 특정 시점으로 전달될 때, 그 과정은 예측이라고 알려져 있다.이 카테고리에서 고려할 수 있는 데이터베이스의 주요 예는 다음과 같다.마우스 게놈 데이터베이스(MGD), 랫드 게놈 데이터베이스(RGD), OMIM 및 앙상블의 SIFT 도구.[1]null

마우스 게놈 데이터베이스(MGD)

MGD(Mouse Genome Database)는 실험실 생쥐에 대한 통합된 유전, 유전체 및 생물학적 데이터를 위한 국제 커뮤니티 자원이다.MGD는 포유류 표현형 온톨로지(Mamalian Photype Ontology)의 용어 및 OMIM의 질병 이름을 사용하여 마우스 모델(유전자형)에 대한 표현형 및 인간 질병 연관성의 완전한 주석을 제공한다.[16]

랫드 게놈 데이터베이스(RGD)

RGD
내용
설명쥐 게놈 데이터베이스
유기체랫투스 노르베기우스(랫드)
연락처
리서치센터위스콘신 의과대학
실험실인간분자유전학센터
작가들시모야마 박사, 하워드 제이콥 박사
1차 인용PMID 25355511
접근
웹사이트rgd.mcw.edu
다운로드 URLRGD 데이터 릴리스

랫드 게놈 데이터베이스(RGD)는 랫드 유전학 및 유전학 연구에 관련된 선도적인 연구 기관들 간의 공동 작업으로 시작되었다.이 쥐는 계속해서 연구자들에 의해 질병의 생물학과 병태생리를 연구하는 모범생물로 널리 이용되고 있다.지난 몇 년 동안 쥐의 유전적, 유전적 데이터가 급격히 증가했다.[17]이러한 정보의 폭발적 증가는 이 데이터에 대한 쥐 중심적 관점을 효율적이고 효과적으로 수집, 관리 및 전 세계 연구자들에게 배포하기 위한 중앙 집중식 데이터베이스의 필요성을 강조하였다.랫드 게놈 데이터베이스는 지도화, 변형, 생리학적 정보뿐만 아니라 쥐의 유전적, 유전적 데이터의 보고 역할을 하기 위해 만들어졌다.또한 이 데이터를 검색, 채굴, 예측하는 도구를 제공함으로써 조사자들의 연구 노력을 용이하게 한다.[17]null

질병 유전자를 연구하는데 유용한 RGD의 데이터에는 쥐, 쥐, 인간 유전자에 대한 질병 주석이 포함되어 있다.주석은 문헌에서 수동으로 큐레이션하거나 다른 질병 관련 데이터베이스에서 자동화된 파이프라인을 통해 다운로드된다.다운로드된 주석은 데이터 집합 전체에 일관성을 제공하기 위해 수동 주석에 사용되는 것과 동일한 질병 어휘에 매핑된다.RGD는 또한 랫드(PhenoMiner)를 위한 질병 관련 정량적 표현형 데이터를 유지한다.[18]null

The Online Mendelian 상속 in Man(OMIM)

온라인 멘델리언 인 맨드의 유산
내용
설명OMIM은 인간의 유전자와 유전적 표현형태를 종합한 것이다.
유기체인간(H. 사피엔스)
연락처
리서치센터엔씨비
1차 인용PMID 25398906
접근
웹사이트www.ncbi.nlm.nih.gov/omim

NCBI가 지원하는 온라인 멘델리안 상속인(OMIM)은 알려진 모든 질병을 유전적 구성요소로 분류하고 인간 게놈의 관련 유전자와의 관계를 예측하는 데이터베이스로, 카탈로그화된 유전자의 유전자 분석을 위한 추가 연구와 도구를 위한 참고자료를 제공한다.[19]OMIM은 인간 유전자와 유전적 표현형을 포괄적이고 권위적으로 조합한 것으로, 자유롭게 이용할 수 있고 매일 업데이트된다.데이터베이스는 상속된 조건에 대한 관련 정보를 예측하기 위한 자원으로 사용되어 왔다.[19]null

A Pathway Hogeneity
경로효질 vs 연관 유전자 질병은 다양한 유전자와 큰 연관성을 가지고 있다는 개념을 보여주는 단일 질병과 무작위 제어의 평균 경로 동질성 값은 질병당 관련 유전자 생성물의 수로 빈집화된 네 개의 네트워크에 대해 구성된다.이 그래프는 4개의 다른 데이터베이스에서 더 많은 수의 질병과 일치성을 연관짓는 것이 얼마나 어려운지를 보여준다. 따라서 Gene Dealth Database는 이러한 관계를 테스트한다.

앙상블 SIFT 도구

앙상블 게놈 데이터베이스 프로젝트.
Ensembl release58 sgcb screenshot.png
내용
설명앙상블
연락처
리서치센터
1차 인용허바드 (2002)[20]
접근
웹사이트www.ensembl.org

모든 유전학 및 유전학 연구에 이용 가능한 가장 큰 자원 중 하나인 이 자원은 유전학자, 분자생물학자, 그리고 우리 종과 다른 척추동물과 질병 유기체의 게놈을 연구하는 다른 연구자들에게 중앙집중화된 자원을 제공한다.앙상블은 게놈 질병 정보의 검색을 위해 잘 알려진 여러 게놈 브라우저 중 하나이다.앙상블은 다양한 출처에서 변동 데이터를 가져온다. 앙상블은 변형의 효과를 예측한다.[21]참조 게놈에 매핑된 각 변동에 대해 각 앙상블 대본이 변동을 겹치는 것을 식별한다.그런 다음 규칙 기반 접근법을 사용하여 각 변동의 원인이 대본에 미칠 수 있는 영향을 예측한다.시퀀스 온톨로지(SO)에 의해 정의된 결과 용어 세트는 현재 알레글과 대본의 각 조합에 할당될 수 있다.각 변동의 각 대립은 서로 다른 대본에서 다른 영향을 미칠 수 있다.앙상블 데이터베이스에서 인간의 돌연변이를 예측하기 위해 다양한 도구를 사용하는데, 가장 널리 사용되는 것 중 하나는 아미노산 치환법이 염기서열 호몰로지 및 대체 아미노산 사이의 물리화학 유사성에 기초하여 단백질 기능에 영향을 줄 가능성이 있는지를 예측하는 SIFT이다.각 아미노산 치환에 대해 제공되는 데이터는 점수와 정성적 예측이다('tolated' 또는 'deuterous').점수는 아미노산 변화가 용인될 수 있는 정규화된 확률로 0에 가까운 점수는 유해할 가능성이 더 높다.정성적 예측은 점수 < 0.05>로 대체하는 것을 '상위'라고 하고, 다른 모든 것을 '상위'라고 하는 이 점수에서 도출된다.SIFT는 자연적으로 발생하는 비익명 다형성 및 실험실 유도 오식 변이에 적용될 수 있으며, 이는 표현형 특성, 단백질학, 유전체학에서 관계를 형성하게 된다.[21]null

문헌 데이터베이스

이러한 종류의 데이터베이스는 유전자 질병 데이터베이스에 대한 책, 기사, 서평, 논문 및 주석을 요약한다.이 유형의 예는 다음과 같다: GAD, LGHDN 및 BeFree 데이터.null

GAD(Genetic Association Database)

유전학협회 데이터베이스는 복잡한 질병에 대한 인간 유전학 관련 연구를 기록한 자료다.GAD는 주로 OMIM에서 발견되는 희귀 멘델 장애보다는 일반적인 복잡한 인간 질병에 대한 정보를 보관하는 데 초점을 맞추고 있다.후보 유전자와 게놈 와이드 어소시에이션(GWAS)에 대한 동료 검토 저널에 게재된 논문에서 추출한 큐레이션 요약 데이터를 포함한다.[22]GAD는 2014년 09월 01일자로 동결되었지만 여전히 다운로드가 가능하다.[23]null

문헌에서 파생된 인간 유전자-질병 네트워크(LHGDN)

문헌에서 파생된 인간 유전자-질병 네트워크(LHGDN)는 텍스트 마이닝 파생 데이터베이스로, 몇 가지 생체 분자 조건에 관한 유전자-질병 연관성을 추출하고 분류하는 데 초점을 맞추고 있다.그것은 기계학습에 기반한 알고리즘을 사용하여 텍스트 관심 소스로부터 의미론적 유전자-질병 관계를 추출한다.그것은 독일 뮌헨에 있는 LMU의 Linked Life Data의 일부분이다.[1]null

BeFree 데이터

BeFree 시스템을 사용하여 MEDLINE 추상체에서 유전자 질병 연관성을 추출한다.BeFree는 질병과 유전자를 검출하기 위한 바이오메디컬 명명 엔티티 인식(BioNER) 모듈과 형태론적 정보를 기반으로 한 관계 추출 모듈로 구성된다.[24]null

통합 데이터베이스

이러한 종류의 데이터베이스는 통합된 유전자-질병 협회 아카이브에 멘델리안, 복합성, 환경성 질환을 포함하며 모듈화의 개념이 그 모든 것에 적용됨을 보여준다. 그들은 중요한 새로운 생물학적 통찰력의 경우에 질병의 기능적 분석을 제공하며, 각각의 유전자-d를 고려할 때 발견되지 않을 수 있다.연대를 독립시키다따라서 그들은 약물과 같은 유전적, 환경적 요인이 질병에 어떻게 기여하는지에 대한 연구에 적합한 틀을 제시한다.이러한 종류의 데이터베이스에 대한 가장 좋은 예는 DisGeNET이다.[8][25]

유전자 질병 협회 데이터베이스 DisGeNET

디스지넷
내용
설명인간 유전자-질병 연관성 통합
데이터 유형
발동.
연결 데이터베이스
유기체인간(H. 사피엔스)
연락처
리서치센터IMM-UPF에 관한 연구
실험실통합 바이오메디컬 정보학 그룹
작가들페란 산즈와 로라 1세.퍼롱 (Pinero et al, 2015)
1차 인용PMID 25877637
접근
웹사이트www.disgenet.org
잡다한
데이터 릴리스
빈도수
연간의
버전3

DisseGeNET은 질병의 서로 다른 생물학적 측면을 다루는 여러 소스의 연관성을 통합한 종합적인 유전자-질병 연관 데이터베이스다.[25]특히 멘델리안, 복합성, 환경성 질환 등 인간의 유전질환에 대한 현재의 지식에 초점을 맞추고 있다.이 데이터베이스는 인간 질병의 모듈화 개념을 평가하기 위해 네트워크 위상과 기능 주석 분석을 통해 인간 유전자-질병 네트워크의 출현 특성에 대한 체계적인 연구를 수행한다.[1]이 결과는 인간 질병의 유전적 기원이 매우 공유되고 있으며 멘델리안, 복합 및 환경 질환을 포함한 대부분의 질병에는 기능 모듈이 존재한다는 것을 보여준다.게다가, 생물학적 경로의 핵심 집합은 대부분의 인간 질병과 관련이 있는 것으로 밝혀졌다. 데이터베이스의 연구결과는 질병 군집을 연구할 때 유사한 결과를 얻음으로써 세포 내 공통 생물학적 과정의 기능장애로 인해 관련 질병이 발생할 수 있음을 시사한다.이 통합 데이터베이스의 네트워크 분석은 인간 질병의 유전적 지형을 종합적으로 보기 위해 데이터 통합이 필요하고 복잡한 질병의 유전적 기원이 예상보다 훨씬 일반적이라는 점을 지적한다.[1]null

DisseGeNET 유전자-질병 관련 온톨로지
이 온톨로지에서의 각 연결 유형에 대한 설명은 다음과 같다: #치료학회:유전자/단백질은 질병의 개선에서 치료적인 역할을 한다.#바이오마커 협회:유전자/단백질은 질병의 유전학(예를 들어 질병으로 이어지는 분자 메커니즘에 참여)에 역할을 하거나 질병의 바이오마커다.#유전자적 변동 연관성:염기서열 변화( 돌연변이, SNP)가 질병 표현형과 연관되어 있을 때 사용되지만, 그 변이가 병을 유발한다고 말할 증거는 아직 없다.어떤 경우에는 변형이 있으면 질병에 대한 민감도가 높아진다.일반적으로 NCBI SNP 식별자가 제공된다.#수정된 표현식 연관성:유전자의 변형된 발현을 통해 단백질의 기능을 변화시키는 것은 질병 표현형과 관련이 있다.#전환후수정협회:변환 후 수정(단백질의 메틸화 또는 인산화)을 통한 단백질 기능의 변화는 질병 표현형과 연관된다.[1]

일부 사용 사례

Gene-Disease Database를 사용하는 가장 흥미로운 사례 중 일부는 다음 논문에서 찾을 수 있다.[1][8]

Gene Disease Database의 미래 설명

유전자 질병의 관계

인간 게놈의 완성으로 질병 유전자를 찾는 방식이 달라졌다.과거에는 한 번에 한두 개의 유전자에 집중하는 것이 접근법이었다.현재, DisGeNET과 같은 프로젝트는 단일 또는 복수의 질병에 관련된 모든 유전자 변이를 체계적으로 분석하려는 노력을 예시하고 있다.[26]다음 단계는 질병의 기계론적 측면과 그에 대한 약물의 설계에 대한 완전한 그림을 제작하는 것이다.이를 위해서는 체계적인 탐색과 각 유전자의 심층 연구라는 두 가지 접근방식의 조합이 필요할 것이다.이 분야의 미래는 서로 다른 출처의 대규모 데이터를 통합하고 생물정보학 연구에 의해 생성된 대규모 데이터의 분석에 기능 정보를 통합하는 새로운 기법으로 정의될 것이다.[1]null

생물정보학은 컴퓨터 프로그래밍을 방법론의 일부로 사용하는 생물학적 유전자 질병 연구의 본체를 지칭하는 용어일 뿐만 아니라 특히 유전학과 유전체학 분야에서 반복적으로 사용되는 특정 분석 파이프라인에 대한 언급이기도 하다.[1]생물정보학의 일반적인 용도는 후보 유전자와 뉴클레오티드, SNP의 식별을 포함한다.종종 그러한 식별은 질병의 유전적 기반, 독특한 적응, 바람직한 특성 또는 인구 사이의 차이를 더 잘 이해하기 위한 목적으로 이루어진다.덜 형식적인 방법으로 생물정보학도 핵산과 단백질 서열 내의 조직 원리를 이해하려고 노력한다.[1]null

새로운 실험 기법에 대한 생물정보학의 반응은 유전자 질병 데이터베이스와 다른 기술의 정보 분석의 진보에 의해 증명되었듯이 실험 데이터의 분석에 새로운 관점을 가져온다.차세대 시퀀싱 기술 등 새로운 기법에 대응하기 위한 참신한 접근법으로 이러한 추세가 이어질 것으로 기대된다.예를 들어, 많은 수의 개별 인간 게놈의 가용성은 라이프스타일, 약물 상호작용 및 기타 요인에 대한 통계적 채굴을 포함한 희귀 변종의 컴퓨터 분석의 개발을 촉진할 것이다.[1]생물 의학 연구도 기존 및 지속적으로 생성되는 생물의학 데이터의 대체를 효율적으로 채굴할 수 있는 우리의 능력에 의해 추진될 것이다.특히 텍스트 마이닝 기법은 다른 분자 데이터와 결합할 경우 유전자 돌연변이와 상호작용에 대한 정보를 제공할 수 있으며, 바이오의학 연구에서 생성되는 데이터의 기하급수적인 증가에 앞서 나가는데 결정적인 역할을 하게 될 것이다.분자, 임상, 약물 분석의 광업과 통합의 진보에서 이익을 얻고 있는 또 다른 분야는 약물유전체학이다.실리코 연구에서 인간의 변이와 질병에 대한 영향 사이의 관계에 대한 연구는 개인화된 의학의 발전에 열쇠가 될 것이다.[8]요약하면, Gene Disease Database는 이미 질병 유전자에 대한 검색을 변화시켰고, 의학 연구의 다른 분야에서 중요한 요소가 될 수 있는 잠재력을 가지고 있다.[1]null

참고 항목

참조

  1. ^ a b c d e f g h i j k l m n A. Bauer-Mehren, "Gene-Dise Network Analysis에서 멘델리안, 복합 및 환경 질병의 기능 모듈을 밝혀냄" PLOS One, pp. 1-3, 2011.
  2. ^ a b Botstein, D (2003). "Discovering genotypes underlying human phenotypes: past successes for Mendelian disease, future approaches for complex disease". Nature Genetics. 33 (1): 228–237. doi:10.1038/ng1090. PMID 12610532. S2CID 10599219.
  3. ^ Wren JD, Bateman A (2008). "Databases, data tombs and dust in the wind". Bioinformatics. 24 (19): 2127–8. doi:10.1093/bioinformatics/btn464. PMID 18819940.
  4. ^ 미국 의료 정보 협회, "미국 의료 정보 협회 전략 계획", 2011년 8월. [온라인]이용 가능: http://www.amia.org/inside/stratplan/.[2014년 10월 15일 접속]
  5. ^ Oti, M (2007). "The modular nature of genetic diseases". Clinical Genetics. 71 (1): 1–11. doi:10.1111/j.1399-0004.2006.00708.x. PMID 17204041. S2CID 24615025.
  6. ^ Davis, A.; King, B. (2011). "The Comparative Toxicogenomics Database: update 2011". Nucleic Acids Res. 39 (1): 1067–1072. doi:10.1093/nar/gkq813. PMC 3013756. PMID 20864448.
  7. ^ Davis, A.; Wiegers, T. (2013). "Text Mining Effectively Scores and Ranks the Literature for Improving Chemical-Gene-Disease Curation at the Comparative Toxicogenomics Database". PLOS ONE. 8 (4): 1–29. Bibcode:2013PLoSO...858201D. doi:10.1371/journal.pone.0058201. PMC 3629079. PMID 23613709.
  8. ^ a b c d Bauer-Mehren, A.; Rautscha, M. (2010). "DisGeNET: a Cytoscape plugin to visualize, integrate, search and analyze gene–disease networks". Bioinformatics. 26 (22): 2924–2926. doi:10.1093/bioinformatics/btq538. PMID 20861032.
  9. ^ Vogt, I. (2014). "Systematic analysis of gene properties influencing organ system phenotypes in mammalian perturbations". Bioinformatics. 30 (21): 3093–3100. doi:10.1093/bioinformatics/btu487. PMC 4609011. PMID 25061072.
  10. ^ a b Buneman, P. (2008). "Curated Databases". Bibliometrics. 978 (1): 152–162.
  11. ^ a b Murphy, C.; Davis, A. (2009). "Comparative Toxicogenomics Database: a knowledgebase and discovery tool for chemical–gene–disease networks". Bioinformatics. 37 (1): 786–792. doi:10.1093/nar/gkn580. PMC 2686584. PMID 18782832.
  12. ^ "The Universal Protein Resource (UniProt)". Nucleic Acids Research. 36 (1): 190–195. 2008. doi:10.1093/nar/gkm895. PMC 1669721. PMID 18045787.
  13. ^ Uniprot, C. (2010). "Ongoing and future developments at the Universal Protein Resource". Nucleic Acids Research. 39 (Database issue): D214–D219. doi:10.1093/nar/gkq1020. PMC 3013648. PMID 21051339.
  14. ^ K. Brown, "온라인 예측 인간 상호작용 데이터베이스", 생물정보학, 21권, 9권, 2076-2082, 2005.
  15. ^ S. 헌터와 P.존스, "InterPro 2011년: 패밀리 및 도메인 예측 데이터베이스의 새로운 개발", 핵산 연구, 10권, 1, 페이지 12-22, 2011
  16. ^ C. Bult and J. Eppig, "마우스 게놈 데이터베이스(MGD): 마우스 생물학과 모델 시스템," 핵산 연구, vol. 36, no. 1, 페이지 724-728, 2007.
  17. ^ a b M. Dwinell, E. Worthey 및 S. M, "Rat Genome Database 2009: 변동, 온톨로지 및 경로," 핵산 연구, vol. 37, 1, 페이지 744-749, 2009.
  18. ^ Shimoyama M, De Pons J, Hayman GT, et al. (2015). "The Rat Genome Database 2015: genomic, phenotypic and environmental variations and disease". Nucleic Acids Research. 43 (Database issue): D743–50. doi:10.1093/nar/gku1026. PMC 4383884. PMID 25355511.
  19. ^ a b A. 호모쉬, "온라인 멘델리안 인 인간 유전(OMIM), 인간의 유전자와 유전 질환의 지식 기반" 핵산 연구, 제33권, 제1권, 페이지 514-517, 2005.
  20. ^ Hubbard T, et al. (January 2002). "The Ensembl genome database project". Nucleic Acids Research. 30 (1): 38–41. doi:10.1093/nar/30.1.38. PMC 99161. PMID 11752248.
  21. ^ a b P. 플라이섹과 M.Ridwan, "앙상블 2012," 핵산 연구, vol. 40, 1번, 페이지 84-90, 2012.
  22. ^ Becker, K.; Barnes, K. (2004). "The genetic Association Database". Nature Genetics. 36 (5): 431–432. doi:10.1038/ng0504-431. PMID 15118671.
  23. ^ https://geneticassociationdb.nih.gov/
  24. ^ Bravo, A; et al. (2014). "Extraction of relations between genes and diseases from text and large-scale data analysis: implications for translational research". BMC Bioinformatics. 16 (1): 55. doi:10.1186/s12859-015-0472-9. PMC 4466840. PMID 25886734.
  25. ^ a b Piñero; et al. (2015). "DisGeNET: a discovery platform for the dynamical exploration of human diseases and their genes". Database. 2015: bav028. doi:10.1093/database/bav028. PMC 4397996. PMID 25877637.
  26. ^ Oti, M (2006). "Predicting disease genes using protein-protein interactions". J. Med. Genet. 43 (8): 691–698. doi:10.1136/jmg.2006.041376. PMC 2564594. PMID 16611749.