기능유전체학

Functional genomics

기능유전체학유전자(및 단백질) 기능과 상호작용을 기술하려는 분자생물학의 한 분야다. 기능성 유전체학에서는 유전체학 프로젝트와 대본학 프로젝트(게놈 염기서열 프로젝트, RNA 염기서열 분석 등)에서 생성된 방대한 데이터를 활용한다. 기능 유전체학은 DNA 서열이나 구조와 같은 유전 정보의 정적 측면과는 반대로 유전자 전사, 번역, 유전자 발현 조절, 단백질-단백질 상호작용과 같은 동적 측면에 초점을 맞춘다. 기능성 유전체학 연구의 주요 특성은 이러한 질문에 대한 게놈 차원의 접근법이며, 일반적으로 전통적인 "gene by gene" 접근법보다는 높은 처리 방법을 포함한다.

효모 PolyA 결합단백질(Pab1)의 RNA 인식 모티브(RM2)의 심층 돌연변이

기능유전체학의 정의와 목표

기능유전체학을 이해하기 위해서는 먼저 함수를 정의하는 것이 중요하다. 그들의 논문에서[1] Graur 등은 가능한 두 가지 방법으로 기능을 정의한다. 이것들은 "선택된 효과"와 "주의 역할"이다. "선택된 효과" 함수는 특성(DNA, RNA, 단백질 등)이 선택되는 함수를 말한다. "주의 역할" 기능은 특성이 충분하고 필요한 기능을 말한다. 기능유전체학은 보통 기능의 "관심역할" 정의를 시험한다.

기능유전체학의 목표는 유전자나 단백질의 기능, 결국 게놈의 모든 성분을 이해하는 것이다. 기능성 유전체학이라는 용어는 종종 "각 및 모든 유전자 생산물의 생물화학, 세포 및/또는 생리학적 특성"[2]을 포함하여 유기체의 유전자와 단백질을 연구하기 위한 많은 기술적 접근법을 지칭하는 데 사용되는 반면, 일부 저자들은 비위생적인 요소에 대한 연구를 그들의 정의에 포함시킨다.[3] 기능성 유전체학에는 돌연변이와 같은 기능적 장애뿐만 아니라 시간에 따른 자연적 유전적 변화(생물의 발달 등)나 공간(체 부위 등)에 대한 연구도 포함될 수 있다.

기능성 유전체학의 약속은 유전체학 및 단백질학 지식을 생성하여 유기체의 동적 특성에 대한 이해로 합성하는 것이다. 이것은 유전자가 단일 유전자에 대한 연구와 비교하여 어떻게 기능을 규정하는지에 대한 보다 완벽한 그림을 제공할 수 있다. 기능 유전체학 데이터의 통합은 종종 시스템 생물학 접근법의 일부분이다.

기법 및 응용 프로그램

기능성 유전체학에는 돌연변이, 다형성(SNP(단일 뉴클레오티드 폴리모르프리즘) 분석 등 게놈 자체의 기능 관련 측면과 분자 활동의 측정이 포함된다. 후자는 transcriptomics(게네 표현), proteomics(단백질 생성), dragmatics(대사학)와 같은 다수의 "-omics(-omics)"로 구성된다. 기능성 유전체학은 생물학적 샘플 내에 mRNA나 단백질과 같은 많은 또는 모든 유전자 생산물의 풍부함을 측정하기 위해 대부분 멀티플렉스 기법을 사용한다. 보다 집중적인 기능 유전체학 접근방식은 한 유전자의 모든 변종의 기능을 시험하고 활동의 판독으로 시퀀싱을 사용하여 돌연변이의 효과를 계량화할 수 있다. 이러한 측정 양식은 다양한 생물학적 과정을 계량화하고 유전자, 단백질 기능과 상호작용에 대한 우리의 이해를 향상시키기 위해 노력한다.

DNA 수준에서

유전적 상호작용 매핑

유전자의 체계적인 쌍방향 삭제나 유전자 발현 억제는 물리적으로 상호작용을 하지 않더라도 관련 기능을 가진 유전자를 식별하는 데 사용될 수 있다. 인식은 두 개의 다른 유전자 결핍에 대한 효과가 첨가되지 않을 수 있다는 사실을 말한다. 즉, 두 개의 유전자가 억제되었을 때 나타나는 표현형은 단일 결핍의 효과의 합과 다를 수 있다.

DNA/단백질 상호작용

mRNA(단백합성을 위해 DNA에서 암호화된 정보인 messenger RNA)의 번역에 의해 형성된 단백질은 유전자 발현을 조절하는 데 큰 역할을 한다. 그들이 유전자 발현을 어떻게 조절하는지 이해하기 위해서는 그들이 상호작용하는 DNA 배열을 식별하는 것이 필요하다. DNA-단백질 상호작용의 부위를 식별하는 기술이 개발되었다. 여기에는 Chip-sequencing, CUT&RUN 시퀀싱 및 Calling Cards가 포함된다.[4]

DNA 접근성 검증

분석은 접근 가능한 게놈의 영역을 식별하기 위해 개발되었다. 이러한 개방형 염색체 영역은 후보 규제 지역이다. 이러한 검사에는 ATAC-seq, DNase-SeqFAIRE-Seq가 포함된다.

RNA 레벨에서

마이크로레이

마이크로레이는 주어진 유전자 또는 프로브 DNA 서열에 해당하는 샘플의 mRNA 양을 측정한다. 프로브 시퀀스는 단단한 표면에서 고정되며 형광 라벨이 "타겟" mRNA와 혼합될 수 있다. 점의 형광 강도는 해당 지점과 혼합된 목표 시퀀스의 양에 비례하며, 따라서 표본에서 mRNA 시퀀스의 풍부함에 비례한다. 마이크로레이는 서로 다른 조건에 대한 성적 증명서 수준과 알려진 기능의 유전자와 공유된 표현 패턴 사이의 변동에 기초하여 주어진 과정에 관여하는 후보 유전자의 식별을 허용한다.

SAGE

유전자 발현(SAGE)의 직렬 분석은 잡종화가 아닌 RNA 염기서열 분석의 대체 방법이다. SAGE는 각 유전자에 고유한 10-17 염기쌍 태그의 염기서열에 의존한다. 이 태그들은 배열하기 전에 poly-A mRNA와 묶인 단대단위로 생성된다. SAGE는 (마이크로레이가 하는 것처럼) 연구할 성적표에 대한 사전지식에 의존하지 않기 때문에 세포당 성적표 수의 편중되지 않은 측정을 제공한다.

RNA 염기서열 분석

RNA 염기서열은 2016년에 지적한 바와 같이 근래에 마이크로 어레이와 SAGE 기술을 이어받아, 전사 및 유전자 발현을 연구하는 가장 효율적인 방법이 되었다. 이것은 일반적으로 차세대 시퀀싱에 의해 이루어진다.[5]

시퀀싱된 RNA의 하위 집합은 작은 RNA로, 전사 및 전사 후 유전자 사일링 또는 RNA 사일링의 핵심 조절기인 비코딩 RNA 분자의 한 종류다. 차세대 염기서열은 비코딩 RNA 발견, 프로파일링 및 표현 분석을 위한 금색 표준 도구다.

대량 병렬 리포터 검사(MPRA)

대량 병렬 리포터 어세이(Massive Parallel Reporter Assays)는 DNA 서열의 시스 규제 활동을 시험하는 기술이다.[6][7] MPRA는 녹색 형광 단백질과 같은 합성 유전자를 구동하는 프로모터의 업스트림에서 합성 시스 규제 요소가 있는 플라스미드를 사용한다. 시스 규제 요소의 라이브러리는 대개 MPRA를 사용하여 테스트되며, 도서관은 수백에서 수천 개의 시스 규제 요소를 포함할 수 있다. 요소의 시스 규제 활동은 다운스트림 리포터 활동을 이용하여 분석한다. 모든 도서관 회원의 활동은 각 시스 규제 요소에 대한 바코드를 사용하여 병렬로 분석한다. MPRA의 한 가지 제한은 그 활동이 플라스미드에서 분석되며 게놈에서 관찰된 유전자 조절의 모든 측면을 포착하지 못할 수 있다는 것이다.

STAR-seq

STAR-seq는 임의로 피복된 유전체 조각의 진항제 활성을 분석하기 위해 MPRA와 유사한 기법이다. 원작에서는 무작위로 피복된 드로소필라 게놈 파편이 최소의 프로모터 하류에 놓여 있었다.[8] 무작위로 깎은 파편들 중 후보 등록자들은 최소한의 프로모터를 사용하여 자신을 기록할 것이다. 시퀀스를 판독값으로 사용하고 각 시퀀스의 입력량을 제어함으로써 퍼팅 엔핸서 강도는 이 방법에 의해 측정된다.

퍼터섹

Perturb-seq 워크플로우 개요

Pertur-seq는 크리스퍼 매개 유전자 녹다운을 단세포 유전자 발현과 결합한다. 선형 모델은 단일 유전자의 녹다운이 다중 유전자의 발현에 미치는 영향을 계산하는 데 사용된다.

단백질 수준에서

효모 2-하이브리드

효모 2-하이브리드 스크리닝(Y2H)은 물리적 단백질-단백질 상호작용을 식별하기 위해 잠재적 상호작용 단백질("prey")에 대해 "bait" 단백질을 검사한다. 이 시스템은 원래 GAL4인 전사 인자를 기반으로 하는데,[9] 단백질이 리포터 유전자의 전사를 일으키기 위해서는 별도의 DNA 결합과 전사 활성화 영역이 모두 필요하다. Y2H 화면에서는 "bait" 단백질이 GAL4의 결합 영역과 융합되며, 잠재적 "prey" (interaction) 단백질의 라이브러리는 활성화 영역과 벡터로 재조합하여 표현된다. 효모세포에서 미끼와 먹이 단백질의 생체내 상호작용은 GAL4의 활성화와 결합 영역을 리포터 유전자의 발현으로 이어질 수 있을 정도로 가깝게 한다. 또한 미끼 단백질 라이브러리를 먹이 단백질 라이브러리에 대해 체계적으로 테스트하여 세포 내에서 가능한 모든 상호작용을 식별하는 것도 가능하다.

AP/MS

친화력 정화와 질량 분광법(AP/MS)은 복합체에서 서로 상호작용하는 단백질을 식별할 수 있다. 단백질의 복합체는 특정한 "배트" 단백질을 중심으로 형성될 수 있다. 미끼 단백질은 항체나 재조합 태그를 사용하여 확인되는데, 항체와 함께 콤플렉스를 형성한 모든 단백질과 함께 추출될 수 있다. 그리고 나서 단백질은 짧은 펩타이드 조각으로 소화되고 질량 분광법은 그 조각들의 질량 대 충전 비율을 기초로 단백질을 식별하는 데 사용된다.

심층 돌연변이 검사

심층 돌연변이 스캐닝에서 주어진 단백질의 가능한 모든 아미노산 변화는 먼저 합성된다. 이러한 단백질 변종의 각 활동은 각 변종에 대한 바코드를 사용하여 병렬로 분석한다. 그 활동을 야생형 단백질과 비교함으로써 각 돌연변이의 영향을 파악한다. 조합학으로 인해 발생할 수 있는 모든 단일 아미노산 변화를 확인할 수 있지만 두 개 이상의 동시 돌연변이는 테스트하기 어렵다. 단백질 구조와 단백질-단백질 상호작용을 유추하기 위해 심층 돌연변이 스캐닝 실험도 이용되었다.

돌연변이 유발과 표현

유전자의 중요한 기능적 특징은 돌연변이에 의한 표현형이다. 돌연변이는 무작위 돌연변이 또는 사이트 지향 돌연변이 유발, 완전한 유전자 삭제 또는 기타 기법을 포함하여 지시된 돌연변이 유발에 의해 생성될 수 있다.

녹아웃(제네 삭제)

유전자 기능은 유전자를 하나씩 체계적으로 '노크아웃'해 조사할 수 있다. 이것은 기능의 삭제 또는 교란(삽입 돌연변이 유발 등)에 의해 이루어지며, 결과 유기체는 교란된 유전자의 기능에 대한 단서를 제공하는 표현형을 선별한다. 전체 게놈에 대한 녹아웃은 게놈의 모든 유전자를 삭제함으로써 생성되었다. 필수 유전자의 경우, 이것은 불가능하므로, 예를 들어 유도성 촉진제를 사용하여 플라스미드에서 유전자를 발현하면서 유전자를 삭제하는 등의 다른 기법이 사용되어 유전자 생산물의 수준이 마음대로 변경될 수 있다(따라서 "기능적" 삭제 달성).

사이트 방향 돌연변이 유발

사이트 지향 돌연변이 유발은 특정 염기(따라서 아미노산)를 변이시키는 데 사용된다. 이것은 예를 들어 효소의 활성 부위에서 단백질 내 특정 아미노산의 기능을 조사하는 데 중요하다.

RNAi

RNA 간섭(RNAi) 방법은 일반적으로 ~20mer 합성간격 RNA 분자(siRNA)의 전이 또는 가상으로 인코딩된 단간격 RNA(shRNA)에 의해 전달되는 ~20 base-pair 이중 가닥 RNA를 사용하여 일시적인 침묵이나 녹다운 유전자 발현에 사용할 수 있다. 일반적으로 세포 배양 기반 검사 또는 실험 유기체(예: C. elegantans)에서 수행되는 RNAi 화면은 유전자의 게놈이나 하위 집합의 거의 모든 유전자를 체계적으로 교란시키기 위해 사용될 수 있다. 교란된 유전자의 가능한 기능은 관찰된 표현형을 기반으로 할 수 있다.

크리스퍼 스크린

CRISPR 기능 상실 화면의[10]

CRISPR-Cas9는 세포선에서 다중화된 방식으로 유전자를 삭제하는 데 사용되어 왔다. 실험 전후 각 유전자에 대한 가이드-RNA의 양을 정량화하는 것은 필수적인 유전자를 가리킬 수 있다. 가이드-RNA가 필수 유전자를 교란하면 해당 세포의 상실을 초래하고 따라서 화면 뒤에 특정 가이드-RNA가 고갈될 것이다. 최근 포유류 세포 라인에 대한 CRISPR-cas9 실험에서, 약 2000개의 유전자가 여러 세포 라인에 필수적인 것으로 밝혀졌다.[11][12] 이러한 유전자 중 일부는 오직 하나의 세포라인에서만 필수적이었다. 대부분의 유전자들은 다단백질 복합체의 일부분이다. 이 접근방식은 적절한 유전적 배경을 사용하여 합성 치사성을 식별하는 데 사용될 수 있다. 크리스프리(CRISPRi)와 크리스프리(CRISPRa)는 유사한 방식으로 기능 상실 및 기능 획득 화면을 가능하게 한다. 크리스퍼리는 K562 세포선에서 약 2100개의 필수 유전자를 확인했다.[13][14] CRISPR 삭제 화면은 유전자의 잠재적 규제 요소를 식별하는 데도 사용되었다. 예를 들어, 이 접근법을 시도한 ScanDel이라는 기술이 발표되었다. 저자들은 이 유전자의 규제 요소를 확인하기 위해 관심 유전자 밖의 지역(HPRT1)을 삭제했다.[15] 가스페리니 외 연구진은 이 접근법을 사용하여 HPRT1에 대한 원위적 규제 요소를 식별하지 않았지만, 그러한 접근법은 관심 있는 다른 유전자로 확장될 수 있다.

유전자에 대한 기능 주석

게놈 주석

읽기 프레임, 전사적 시작 순서, 다아데닐화 부위 등의 특성을 바탕으로 단백질을 인코딩할 가능성이 있는 부위의 게놈을 스캔하면 삽입 유전자를 확인할 수 있다. 투입 유전자로 식별된 염기서열은 동일한 유기체에서 cDNA 또는 EST 염기서열과의 유사성, 알려진 단백질에 대한 예측 단백질 염기서열의 유사성, 촉진자 염기서열과의 연관성, 또는 염기서열을 돌연변이가 관찰 가능한 표현형을 생성한다는 증거 등 추가 증거를 통해 확인해야 한다.

로제타 석재 접근법

로제타 스톤 어프로치는 디노보 단백질 함수 예측을 위한 연산 방법이다. 그것은 주어진 생리적 과정에 관여하는 일부 단백질이 한 유기체에는 두 개의 분리된 유전자로, 또 다른 유기체에는 하나의 유전자로 존재할 수 있다는 가설에 근거하고 있다. 게놈은 한 유기체에서 그리고 다른 유기체에서 하나의 열린 읽기 틀에서 독립된 시퀀스를 스캔한다. 두 유전자가 융합했다면 이런 공동규제를 유리하게 만드는 생물학적 기능이 유사할 것으로 예측된다.

기능유전체학을 위한 생물정보학 방법

이러한 기법에 의해 생성된 대량의 데이터와 생물학적으로 의미 있는 패턴을 찾고자 하는 욕망 때문에, 생물정보학은 기능성 유전체학 데이터의 분석에 매우 중요하다. 이 세분류에 속하는 기법의 예로는 무감독 머신러닝(클래스 검출)을 위한 데이터 클러스터링이나 주성분 분석물론, 인공신경망이나 감리 머신러닝(클래스 예측, 분류)을 위한 지원 벡터머신 등이 있다. 기능적 농축 분석은 배경 세트에 상대적인 기능 범주의 과대 또는 과소 표현 범위(RNAi 화면의 경우 양성 또는 음성 조절기)를 결정하는 데 사용된다. 유전자 온톨로지 기반 농축 분석은 David유전자 집합 농축 분석(GSEA),[16] 인제너티와[17] 패스웨이 스튜디오에[18] 의한 경로 기반 분석, Completatat에 의한 단백질 복합 분석 등이 제공된다.[19]

파이덤스 워크플로의 개요

심층 돌연변이 스캔 실험의 결과를 이해하기 위한 새로운 계산 방법이 개발되었다. 'phydms'는 심층 돌연변이 스캐닝 실험의 결과를 계통생성 나무에 비유한다.[20] 이를 통해 사용자는 자연에서의 선택 과정이 심층 돌연변이 스캔 결과가 나타내는 것과 유사한 단백질 제약조건을 적용하는지 유추할 수 있다. 이를 통해 실험자는 자연을 얼마나 잘 반영하느냐에 따라 다른 실험 조건 중 하나를 선택할 수 있다. 심층 돌연변이 스캐닝은 단백질과 단백질의 상호작용을 유추하는 데도 사용되었다.[21] 저자들은 열역학 모델을 사용하여 조광기의 여러 부분에서 돌연변이의 영향을 예측했다. 깊은 돌연변이 구조는 단백질 구조를 유추하는 데도 사용될 수 있다. 깊은 돌연변이 스캔에서 두 돌연변이 사이의 강한 양성 인식은 3-D 공간에서 서로 가까운 두 부분의 단백질을 나타낼 수 있다. 이 정보는 단백질 구조를 유추하는 데 사용될 수 있다. 이 접근방식의 원칙의 증거는 GB1 단백질을 사용하는 두 그룹에 의해 제시되었다.[22][23]

MPRA 실험의 결과는 데이터를 해석하기 위해 기계 학습 접근법을 필요로 했다. k-mer SVM 모델은 활동량이 낮은 시퀀스에 비해 활동량이 높은 시스 규제 시퀀스 내에서 농축된 kmer를 추론하기 위해 사용되어 왔다.[24] 이 모델들은 높은 예측력을 제공한다. 이러한 고차원적 실험의 결과를 해석하기 위해 딥러닝과 무작위 숲 접근법도 사용되어 왔다.[25] 이러한 모델들은 유전자 조절을 위한 비코딩 DNA 기능에 대한 더 나은 이해를 발전시키는데 도움을 주기 시작하고 있다.

기능성 게노믹스에 초점을 맞춘 컨소시엄 프로젝트

ENCODE 프로젝트

엔코드(ENCODE) 프로젝트는 코딩 영역과 비코딩 영역 모두에서 게놈 DNA의 모든 기능적 요소를 식별하는 것을 목표로 하는 인간 게놈의 심층 분석이다. 중요한 결과에는 대부분의 뉴클레오티드가 코딩 대본, 비코딩 RNA 또는 무작위 대본으로 기록된다는 게놈 타일링 배열의 증거, 추가 전사 규제 현장의 발견, 염색체 변형 메커니즘의 추가 설명 등이 포함된다.

GTEx 프로젝트

GTEx v6에서 사용된 샘플 및 eQTL 발견

GTEx 프로젝트는 조직 전체에 걸친 대본변형 변이 형성에 있어 유전적 변이가 가지는 역할을 이해하기 위한 인간 유전학 프로젝트다. 이 프로젝트는 700여 명의 사후 기증자들로부터 다양한 조직 샘플(> 50여 개의 다른 조직)을 수집했다. 이로써 11,000개 이상의 표본을 수집하게 되었다. GTEx는 EQTL의 조직 공유 및 조직 고유성을 이해하는 데 도움을 주었다.[26]

참고 항목

참조

  1. ^ Graur D, Zheng Y, Price N, Azevedo RB, Zufall RA, Elhaik E (20 February 2013). "On the immortality of television sets: "function" in the human genome according to the evolution-free gospel of ENCODE". Genome Biology and Evolution. 5 (3): 578–90. doi:10.1093/gbe/evt028. PMC 3622293. PMID 23431001.
  2. ^ Gibson G, Muse SV. A primer of genome science (3rd ed.). Sunderland, MA: Sinauer Associates.
  3. ^ Pevsner J (2009). Bioinformatics and functional genomics (2nd ed.). Hoboken, NJ: Wiley-Blackwell. ISBN 9780470085851.
  4. ^ Wang H, Mayhew D, Chen X, Johnston M, Mitra RD (May 2011). "Calling Cards enable multiplexed identification of the genomic targets of DNA-binding proteins". Genome Research. 21 (5): 748–55. doi:10.1101/gr.114850.110. PMC 3083092. PMID 21471402.
  5. ^ Hrdlickova R, Toloue M, Tian B (January 2017). "RNA-Seq methods for transcriptome analysis". Wiley Interdisciplinary Reviews: RNA. 8 (1): e1364. doi:10.1002/wrna.1364. PMC 5717752. PMID 27198714.
  6. ^ Kwasnieski JC, Fiore C, Chaudhari HG, Cohen BA (October 2014). "High-throughput functional testing of ENCODE segmentation predictions". Genome Research. 24 (10): 1595–602. doi:10.1101/gr.173518.114. PMC 4199366. PMID 25035418.
  7. ^ Patwardhan RP, Hiatt JB, Witten DM, Kim MJ, Smith RP, May D, et al. (February 2012). "Massively parallel functional dissection of mammalian enhancers in vivo". Nature Biotechnology. 30 (3): 265–70. doi:10.1038/nbt.2136. PMC 3402344. PMID 22371081.
  8. ^ Arnold CD, Gerlach D, Stelzer C, Boryń ŁM, Rath M, Stark A (March 2013). "Genome-wide quantitative enhancer activity maps identified by STARR-seq". Science. 339 (6123): 1074–7. Bibcode:2013Sci...339.1074A. doi:10.1126/science.1232542. PMID 23328393. S2CID 54488955.
  9. ^ Fields S, Song O (July 1989). "A novel genetic system to detect protein-protein interactions". Nature. 340 (6230): 245–6. Bibcode:1989Natur.340..245F. doi:10.1038/340245a0. PMID 2547163. S2CID 4320733.
  10. ^ Tian S, Muneeruddin K, Choi MY, Tao L, Bhuiyan RH, Ohmi Y, Furukawa K, Furukawa K, Boland S, Shaffer SA, Adam RM, Dong M (27 November 2018). "Genome-wide CRISPR screens for Shiga toxins and ricin reveal Golgi proteins critical for glycosylation". PLOS Biology. 16 (11). e2006951. doi:10.1371/journal.pbio.2006951. PMC 6258472. PMID 30481169.
  11. ^ Hart T, Chandrashekhar M, Aregger M, Steinhart Z, Brown KR, MacLeod G, et al. (December 2015). "High-Resolution CRISPR Screens Reveal Fitness Genes and Genotype-Specific Cancer Liabilities". Cell. 163 (6): 1515–26. doi:10.1016/j.cell.2015.11.015. PMID 26627737.
  12. ^ Shalem O, Sanjana NE, Hartenian E, Shi X, Scott DA, Mikkelson T, et al. (January 2014). "Genome-scale CRISPR-Cas9 knockout screening in human cells". Science. 343 (6166): 84–87. Bibcode:2014Sci...343...84S. doi:10.1126/science.1247005. PMC 4089965. PMID 24336571.
  13. ^ Gilbert LA, Horlbeck MA, Adamson B, Villalta JE, Chen Y, Whitehead EH, et al. (October 2014). "Genome-Scale CRISPR-Mediated Control of Gene Repression and Activation". Cell. 159 (3): 647–61. doi:10.1016/j.cell.2014.09.029. PMC 4253859. PMID 25307932.
  14. ^ Horlbeck MA, Gilbert LA, Villalta JE, Adamson B, Pak RA, Chen Y, et al. (September 2016). "Compact and highly active next-generation libraries for CRISPR-mediated gene repression and activation". eLife. 5. doi:10.7554/eLife.19760. PMC 5094855. PMID 27661255.
  15. ^ Gasperini, Molly; Findlay, Gregory M.; McKenna, Aaron; Milbank, Jennifer H.; Lee, Choli; Zhang, Melissa D.; Cusanovich, Darren A.; Shendure, Jay (August 2017). "CRISPR/Cas9-Mediated Scanning for Regulatory Elements Required for HPRT1 Expression via Thousands of Large, Programmed Genomic Deletions". The American Journal of Human Genetics. 101 (2): 192–205. doi:10.1016/j.ajhg.2017.06.010. PMC 5544381. PMID 28712454.
  16. ^ Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, et al. (October 2005). "Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles". Proceedings of the National Academy of Sciences of the United States of America. 102 (43): 15545–50. Bibcode:2005PNAS..10215545S. doi:10.1073/pnas.0506580102. PMC 1239896. PMID 16199517.
  17. ^ "Ingenuity Systems". Archived from the original on 1999-01-25. Retrieved 2007-12-31.
  18. ^ "Ariadne Genomics: Pathway Studio". Archived from the original on 2007-12-30. Retrieved 2007-12-31.
  19. ^ Vinayagam A, Hu Y, Kulkarni M, Roesel C, Sopko R, Mohr SE, Perrimon N (February 2013). "Protein complex-based analysis framework for high-throughput data sets". Science Signaling. 6 (264): rs5. doi:10.1126/scisignal.2003629. PMC 3756668. PMID 23443684.
  20. ^ Hilton SK, Doud MB, Bloom JD (2017). "phydms: software for phylogenetic analyses informed by deep mutational scanning". PeerJ. 5: e3657. doi:10.7717/peerj.3657. PMC 5541924. PMID 28785526.
  21. ^ Diss G, Lehner B (April 2018). "The genetic landscape of a physical interaction". eLife. 7. doi:10.7554/eLife.32472. PMC 5896888. PMID 29638215.
  22. ^ Schmiedel, Jörn M.; Lehner, Ben (17 June 2019). "Determining protein structures using deep mutagenesis". Nature Genetics. 51 (7): 1177–1186. doi:10.1038/s41588-019-0431-x. PMC 7610650. PMID 31209395.
  23. ^ Rollins, Nathan J.; Brock, Kelly P.; Poelwijk, Frank J.; Stiffler, Michael A.; Gauthier, Nicholas P.; Sander, Chris; Marks, Debora S. (17 June 2019). "Inferring protein 3D structure from deep mutation scans". Nature Genetics. 51 (7): 1170–1176. doi:10.1038/s41588-019-0432-9. PMC 7295002. PMID 31209393.
  24. ^ Ghandi M, Lee D, Mohammad-Noori M, Beer MA (July 2014). "Enhanced regulatory sequence prediction using gapped k-mer features". PLOS Computational Biology. 10 (7): e1003711. Bibcode:2014PLSCB..10E3711G. doi:10.1371/journal.pcbi.1003711. PMC 4102394. PMID 25033408.
  25. ^ Li Y, Shi W, Wasserman WW (May 2018). "Genome-wide prediction of cis-regulatory regions using supervised deep learning methods". BMC Bioinformatics. 19 (1): 202. doi:10.1186/s12859-018-2187-1. PMC 5984344. PMID 29855387.
  26. ^ GTEx Consortium; Laboratory, Data Analysis &Coordinating Center (Ldacc)—Analysis Working Group.; Statistical Methods groups—Analysis Working Group; Enhancing GTEx (eGTEx) groups; NIH Common Fund; NIH/NCI; NIH/NHGRI; NIH/NIMH; NIH/NIDA; Biospecimen Collection Source Site—NDRI; Biospecimen Collection Source Site—RPCI; Biospecimen Core Resource—VARI; Brain Bank Repository—University of Miami Brain Endowment Bank; Leidos Biomedical—Project Management; ELSI Study; Genome Browser Data Integration &Visualization—EBI; Genome Browser Data Integration &Visualization—Ucsc Genomics Institute, University of California Santa Cruz.; Lead analysts; Laboratory, Data Analysis &Coordinating Center (Ldacc):.; NIH program management; Biospecimen collection; Pathology; eQTL manuscript working group; Battle, A.; Brown, C. D.; Engelhardt, B. E.; Montgomery, S. B. (12 October 2017). "Genetic effects on gene expression across human tissues" (PDF). Nature. 550 (7675): 204–213. Bibcode:2017Natur.550..204A. doi:10.1038/nature24277. PMC 5776756. PMID 29022597.

외부 링크