유전자 표현 프로파일링
Gene expression profiling분자생물학 분야에서 유전자 표현 프로파일링은 수천 개의 유전자의 활동(표현)을 한꺼번에 측정해 세포 기능에 대한 전지구적 그림을 만드는 것이다.예를 들어 이러한 프로파일은 활발하게 분할되고 있는 세포를 구별하거나 세포가 특정 치료에 어떻게 반응하는지를 보여줄 수 있다.이런 종류의 많은 실험은 전체 게놈, 즉 특정 세포에 존재하는 모든 유전자를 동시에 측정한다.null
분석하는 데 필요한 데이터를 생성하기 위해 몇 가지 transcriptomics 기술을 사용할 수 있다.DNA 마이크로레이는[1] 이전에 식별된 표적 유전자의 상대적 활동을 측정한다.RNA-Seq와 같은 시퀀스 기반 기술은 그들의 표현 수준 외에도 유전자의 시퀀스에 대한 정보를 제공한다.null
배경
표현 프로파일링은 게놈의 염기서열 분석 후 논리적인 다음 단계로, 표현 프로파일링은 세포가 어떤 일을 할 수 있는지를 말해주는 반면 표현 프로파일은 한 시점에 실제로 무엇을 하고 있는지 말해준다.유전자는 메신저 RNA(mRNA)를 만드는 지침을 포함하고 있지만, 어느 순간 각 세포는 자신이 운반하는 유전자의 극히 일부로부터 mRNA를 만든다.만약 유전자가 mRNA를 생산하는데 사용된다면, 그것은 "on"으로, 그렇지 않으면 "off"로 간주된다.많은 요소들이 하루의 시간, 세포가 활발하게 분할되는지 여부, 그것의 국소 환경, 그리고 다른 세포로부터의 화학적 신호와 같이 유전자가 켜지거나 꺼지는지를 결정한다.예를 들어, 피부 세포, 간 세포, 신경 세포는 다소 다른 유전자를 켜게 된다(express). 그리고 그것은 상당 부분 그들을 다르게 만드는 것이다.그러므로 표현 프로파일은 세포의 종류, 상태, 환경 등을 추론할 수 있게 해준다.null
표현 프로파일링 실험은 종종 둘 이상의 실험 조건에서 표현된 mRNA의 상대적 양을 측정하는 것을 포함한다.이것은 mRNA의 특정 염기서열의 변화된 수준이 mRNA에 의해 코딩된 단백질에 대한 변화된 필요성을 암시하기 때문이며, 아마도 동태적 반응이나 병리학적 상태를 나타낼 수 있기 때문이다.예를 들어 알코올 탈수소효소에 대한 mRNA 코딩 수준이 높을수록 연구 중인 세포나 조직이 환경 내 에탄올의 증가 수준에 반응하고 있음을 알 수 있다.마찬가지로 유방암 세포가 특정 투과성 수용체와 연관된 mRNA의 수치를 정상 세포보다 높게 나타낸다면 이 수용체가 유방암에 작용하는 것일 수 있다.이 수용체를 방해하는 약은 유방암을 예방하거나 치료할 수 있다.약물을 개발함에 있어서, 약물의 신진대사의 바이오마커일 수도 있는 사이토크롬 P450 유전자의 발현에서 수치의 변화를 모색함으로써 약물의 독성을 평가하는 것을 돕기 위해 유전자 발현 프로파일링 실험을 수행할 수도 있다.[2]유전자 표현 프로파일링은 중요한 진단 테스트가 될 수 있다.[3][4]null
단백질체학과 비교
인간 게놈은 100만개의 구별되는 단백질을 생산하기 위해 함께 작용하는 25,000개의 유전자를 포함하고 있다.이것은 대체적인 스플라이싱에 기인하며, 또한 세포가 단백질들을 처음 구성한 후에 변환 후 수정을 통해 단백질에 중요한 변화를 주기 때문에, 주어진 유전자는 특정 단백질의 많은 가능한 버전의 기초가 된다.어떤 경우든 단일 질량분석 실험으로 약 2,000개의 단백질[5], 즉 전체의 0.2%를 확인할 수 있다.세포가 만드는 정확한 단백질에 대한 지식(단백질)은 각 유전자로부터 얼마나 많은 메신저 RNA가 만들어지는지 아는 것보다 더 관련성이 있지만, 유전자 표현 프로파일링은 단일 실험에서 가능한 가장 전지구적인 그림을 제공한다.그러나 프로테오믹스 방법론은 개선되고 있다.효모와 같은 다른 종에서는 4,000개 이상의 단백질을 단 한 시간 만에 식별할 수 있다.[6]null
가설 생성 및 검정에 사용
때때로, 과학자는 이미 무슨 일이 일어나고 있는지, 가설을 가지고 있고, 그 또는 그녀는 잠재적으로 이 가설을 반증할 수 있다는 생각으로 표현 프로파일링 실험을 한다.즉, 과학자는 거짓으로 밝혀질 수 있는 표현의 수준에 대해 구체적인 예측을 하고 있는 것이다.null
더 일반적으로 표현 프로파일링은 유전자가 시험 가능한 가설이 존재하기 위해 실험 조건과 어떻게 상호작용하는지에 대해 알려져 있다.가설 없이, 반증할 것은 없지만, 표현 프로파일링은 미래의 실험에 대한 후보 가설을 확인하는 데 도움이 될 수 있다.대부분의 초기 표현 프로파일링 실험과 현재 실험은 계급 발견이라고 알려진 이런 형태를 가지고[7] 있다.수업 발견에 대한 대중적인 접근법 함께 와유전자 또는 샘플 그룹 한 기존의 많은 군집화 방법의를 이용하는 것과 같은 전통적인 k-means이나 계층적 군집,거나 더욱 최근 MCL.[8]을 구분에서 선택한 군집 알고리즘 사용자 보통 가지고 있는 것을 선택하고 적절한 근접 측정(거리나similari.ty)[9] 데이터 객체 간위의 그림은 2차원 군집의 출력을 나타내며, 유사한 표본(열, 위)과 유사한 유전자 탐침(색상)이 서로 가깝게 놓여지도록 구성되었다.계급 발견의 가장 간단한 형태는 두 실험 조건 사이에 일정량 이상 변화한 모든 유전자를 나열하는 것일 것이다.null
클래스 예측은 클래스 발견보다 더 어렵지만, 이 프로필로 볼 때 환자가 이 약물에 반응할 확률은 얼마나 되는지와 같은 직접적인 임상적 중요성의 질문에 대답할 수 있게 해준다.이를 위해서는 응답하고 응답하지 않은 프로파일의 많은 예와 이들을 구별하기 위한 교차 검증 기법이 필요하다.null
제한 사항
일반적으로 표현 프로파일링 연구는 변경된 실험 조건에서 통계적으로 유의한 차이를 보인 유전자를 보고한다.이것은 몇 가지 이유로 게놈의 작은 일부분이다.첫째, 다른 세포와 조직은 세포 분화의 직접적인 결과로 유전자의 서브셋을 표현하기 때문에 많은 유전자가 꺼진다.둘째, 생존에 필요한 단백질을 매우 특정한 양으로 코딩하여 많은 유전자가 변하지 않는다.셋째, 세포는 mRNA의 양을 바꾸는 것 외에 단백질을 조절하기 위해 많은 다른 메커니즘을 사용하므로, 이러한 유전자들은 단백질 농도가 오르내릴 때에도 일관되게 발현될 수 있다.넷째, 재정적인 제약조건은 표현 프로파일링 실험을 동일한 조건에서 동일한 유전자의 소수의 관찰로 제한하여 실험의 통계적 힘을 감소시켜 실험이 중요하지만 미묘한 변화를 식별하는 것은 불가능하다.마지막으로, 각 조절된 유전자의 생물학적 중요성을 논하기 위해서는 엄청난 노력이 필요하기 때문에 과학자들은 종종 그들의 논의를 부분집합으로 제한한다.새로운 마이크로 어레이 분석 기법은 표현 프로파일링 결과에 생물학적 중요성을 부가하는 특정 측면을 자동화하지만 이는 매우 어려운 문제로 남아 있다.null
표현 프로파일링 실험에서 발표된 유전자 리스트의 비교적 짧은 길이는 다른 실험실에서 수행된 실험이 일치하는 것으로 보이는 범위를 제한한다.표현 프로파일링 결과를 공개적으로 액세스할 수 있는 마이크로 어레이 데이터베이스에 배치하면 연구자가 공표된 결과의 범위를 넘어 표현 패턴을 평가할 수 있으며, 아마도 자신의 연구와 유사성을 식별할 수 있다.null
높은 처리량 측정값 검증
DNA 마이크로레이와 정량적 PCR은 모두 보완 핵산 시퀀스의 우선 결합 또는 "기본 결합"을 이용하며, 둘 다 유전자 표현 프로파일링에 종종 직렬 방식으로 사용된다.높은 처리량의 DNA 마이크로아레이는 qPCR의 정량적 정확도가 부족한 반면, qPCR을 통해 수십 개의 유전자의 유전자 발현을 측정하는 것은 DNA 마이크로아레이를 사용하여 전체 게놈을 측정하는 것과 거의 같은 시간이 걸린다.그래서 후보 유전자를 식별하기 위해 반정량 DNA 미세배열 분석 실험을 수행한 다음, 마이크로배열 결과를 검증하기 위해 가장 흥미로운 후보 유전자의 일부에 대해 QPCR을 수행하는 것이 종종 타당하다.다르게 표현된 유전자의 단백질 생산물의 일부에 대한 서구적 오점 같은 다른 실험들은 mRNA 수준이 표현된 단백질의 양과 반드시 상관관계가 있는 것은 아니기 때문에 표현 프로파일에 근거한 결론을 더 설득력 있게 만든다.null
통계분석
마이크로레이의 데이터 분석은 집중적인 연구의 영역이 되었다.[10]단순히 유전자의 집단이 최소한 두 가지 이상의 통제에 의해 조절되었다고 말하는 것은, 한때는 흔한 관행이었지만, 확실한 통계적 근거가 부족하다.마이크로레이의 경우 일반적으로 각 그룹에 5회 또는 그 이하의 반복실험을 할 경우, 단일 특이치 관측치는 2배 이상의 명백한 차이를 만들 수 있다.또 임의로 막대기를 두 배로 설정하는 것은 생물학적으로 건전하지 않은데, 이는 생물학적으로 명백한 생물학적 의의를 지닌 많은 유전자를 고려에서 제거하기 때문이다.null
접이식 변화 컷오프를 사용하여 차등 표현된 유전자를 식별하기보다는 다양한 통계적 테스트나 분산 분석과 같은 옴니버스 테스트를 사용할 수 있는데, 이 모든 테스트는 접이식 변화와 가변성을 모두 고려하여 우리가 우연만으로 얼마나 자주 데이터를 관찰하는지 추정하는 것이다.p-값을 마이크로레이에 적용하는 것은 많은 수의 관련 다중 비교(gen)에 의해 복잡하다.예를 들어, p-값 0.05는 우연에 의해 데이터를 관측할 확률을 5%로 추정하기 때문에 일반적으로 유의성을 나타내는 것으로 생각된다.그러나 미세배열에 1만 개의 유전자가 있으면 실험군 사이에 차이가 없다고 해도 p < 0.05에서 500개의 유전자가 유의미하다고 확인될 것이다.한 가지 분명한 해결책은 훨씬 더 엄격한 p-값 기준을 충족하는 유전자들만을 고려하는 것이다. 예를 들어, p-값에 대해 Bonferroni 보정을 수행할 수 있거나, 관련된 평행 시험의 수에 비례하여 p-값을 조정하기 위해 잘못된 발견률 계산을 사용할 수 있다.불행히도, 이러한 접근법은 유전자가 실제로 다르게 표현될 때에도 중요한 유전자의 수를 0으로 감소시킬 수 있다.랭크 제품과 같은 현재의 통계는 우연한 변화로 인한 유전자의 잘못된 발견과 다르게 표현된 유전자의 미발견 사이에서 균형을 잡는 것을 목표로 하고 있다.일반적으로 인용되는 방법으로는 마이크로레이의 중요도 분석(SAM)[11]을 들 수 있으며, 바이오컨덕터에서 다양한 방법을 이용할 수 있으며, 생물정보학 기업의 다양한 분석 패키지가 있다.null
다른 테스트를 선택하면 각 테스트가 특정 가정 하에서 작동하고 데이터의 특정 특징을 서로 다르게 강조하기 때문에 일반적으로 유의한[12] 유전자의 다른 목록을 확인할 수 있다.많은 검정은 데이터의 정규 분포를 가정하는 것으로 시작하는데, 이는 합리적인 시작점처럼 보이고 종종 더 유의하게 보이는 결과를 낳기 때문이다.일부 테스트에서는 측정의 일반적인 가변성을 추정하기 위해 모든 유전자 관찰의 공동 분포를 고려하는 반면,[13] 다른 테스트에서는 각 유전자를 분리하여 관찰한다.많은 현대의 마이크로 어레이 분석 기법은 부트스트래핑(통계학), 머신러닝 또는 몬테카를로 방법을 포함한다.[14]null
마이크로어레이 실험에서 반복측정 횟수가 증가함에 따라 다양한 통계적 접근방식은 점점 더 유사한 결과를 산출하지만, 서로 다른 통계적 방법 간의 일치성이 부족하면 배열 결과가 신뢰성이 떨어지는 것으로 보인다.MAQC 프로젝트는[15] 연구자들이 다른 실험실에서 수행된 실험이 더 잘 합의될 수 있도록 더 많은 표준 방법(예: 차등 표현된 유전자를 선택하기 위해 p-값과 접이식 변화를 함께 사용)을 선택하도록 안내하는 권고안을 제시한다.null
다르게 표현된 개별 유전자에 대한 분석과는 달리, 또 다른 유형의 분석은 미리 정의된 유전자 세트의 미분 발현이나 섭동에 초점을 맞추고 유전자 세트 분석이라고 한다.[16][17]유전자 세트 분석은 개별 유전자 차등 발현 분석보다 몇 가지 주요한 장점을 입증했다.[16][17]유전자 집합은 현재의 지식에 따라 기능적으로 관련이 있는 유전자의 집합이다.따라서 유전자 세트 분석은 지식 기반 분석 접근법으로 간주된다.[16]일반적으로 사용되는 유전자 집합에는 KEGG 경로, Gene Ontology 용어, 공통 전사 규제자와 같은 일부 다른 기능적 주석을 공유하는 유전자 그룹 등이 포함된다.대표적인 유전자 세트 분석 방법으로는 샘플 라벨의 순열을 기반으로 유전자 세트의 중요성을 추정하는 [16]유전자 세트 농축 분석(GSEA), 유전자 라벨 순열이나 파라메트릭 분포에 따라 유전자 세트의 유의성을 검사하는 [17]GAIG(General Applicable Gene-set 농축) 등이 있다.null
유전자 주석
이 통계는 실험 조건에서 어떤 유전자 생산물이 변화하는지 밝혀낼 수 있지만 생물학적 표현 감각을 만드는 것은 각 유전자 생산물이 어떤 단백질을 만들고 이 단백질이 어떤 기능을 수행하는지를 아는 것에 달려 있다.유전자 주석(Gene adnotation)은 기능 및 기타 정보, 예를 들어 특정 염색체 내의 각 유전자의 위치를 제공한다.일부 기능 주석들은 다른 주석들보다 더 신뢰할 수 있다; 어떤 주석들은 없다.유전자 주석 데이터베이스는 정기적으로 변화하며, 다양한 데이터베이스는 단백질 기능에 대한 변화하는 이해를 반영하여 서로 다른 이름으로 동일한 단백질을 지칭한다.표준화된 유전자 명칭의 사용은 문제의 명명 측면을 다루는 데 도움이 되지만, 유전자와[18][19] 정확한 대화록의 매칭은 중요한 고려사항으로 남아 있다.null
조절 유전자 분류
조절된 유전자의 일부를 식별한 후, 표현 프로파일링의 다음 단계는 조절된 유전자의 안에서 패턴을 찾는 것을 포함한다.이 유전자들로부터 만들어진 단백질은 비슷한 기능을 수행하나?화학적으로 비슷한가?그들은 세포의 비슷한 부분에 살고 있는가?유전자 온톨로지 분석은 이러한 관계를 정의하는 표준적인 방법을 제공한다.유전자 온톨로지는 매우 광범위한 범주(예: "메타볼릭 프로세스")로 시작하여 이를 더 작은 범주(예: "탄수화물 대사 프로세스")로 세분화하고 마지막으로 "이노시톨 및 파생 인산염"과 같은 상당히 제한적인 범주로 분류한다.null
유전자는 생물학적 기능, 화학적 특성, 세포 위치 외에 다른 속성을 가지고 있다.사람은 다른 유전자에 대한 근접성, 질병과의 연관성, 약물이나 독소와의 관계를 바탕으로 일련의 유전자를 구성할 수 있다.분자 서명 데이터베이스와[20] 비교 독성유전체학 데이터베이스는[21] 유전자를 다양한 방법으로 분류하기 위한 자원의 예들이다.null
조절된 유전자 사이에서 패턴 찾기
조절된 유전자는 그들이 무엇이고 그들이 무엇을 하는지에 따라 분류되는데, 유전자들 사이의 중요한 관계가 나타날 수 있다.[23]예를 들어, 우리는 특정 유전자가 단백질을 생성하여 단백질을 활성화시켜 우리 목록에 있는 두 번째 유전자를 켜는 효소를 만든다는 증거를 볼 수 있을 것이다.이 두 번째 유전자는 우리의 목록에서 또 다른 유전자를 조절하는 전사 인자일지도 모른다.이러한 연결 고리를 관찰하면 결과에서 우연한 연관성을 훨씬 더 많이 나타내며, 기초적인 생물학적 과정 때문에 모두 우리의 목록에 있는 것으로 의심하기 시작할 수 있다.반면에, 만약 한 사람이 무작위로 유전자를 선택한다면, 공통점이 있는 것처럼 보이는 많은 유전자들을 발견할 수도 있을 것이다.이런 의미에서 우리는 새롭게 등장하는 생물학적 테마가 유의한지 아닌지를 시험하기 위해 엄격한 통계 절차가 필요하다.그것이 유전자 세트 분석이[16][17] 나오는 부분이다.null
인과관계
꽤 간단한 통계는 목록에 있는 유전자 사이의 연관성이 우연히 예상할 수 있는 것보다 더 큰지에 대한 추정치를 제공한다.이러한 통계는 실제로 일어나고 있는 일에 대한 실질적인 과도한 단순화를 나타낸다고 해도 흥미롭다.여기 예가 있다.실험에 10,000개의 유전자가 있다고 가정해 보자. 그 중 오직 50개(0.5%)만이 콜레스테롤을 만드는 데 알려진 역할을 한다.그 실험은 200개의 조절된 유전자를 밝혀냈다.이 중 40명(20%)도 콜레스테롤 유전자 리스트에 올라 있는 것으로 나타났다.전체 콜레스테롤 유전자 유병률(0.5%)을 기준으로 규제 유전자 200개당 평균 1개의 콜레스테롤 유전자, 즉 0.005배 200을 예상한다.이런 기대는 평균적이기 때문에 어느 정도는 한 번 이상 볼 수 있을 것으로 예상한다.문제는 순전히 우연으로 인해 우리가 1이 아닌 40을 얼마나 자주 볼 것인가가 된다.null
초기하 분포에 따르면 200개의 유전자를 무작위로 그려 1만개 풀에서 39개 이상의 콜레스테롤 유전자를 채취하기 전에 약 10^57회(10회, 56 0회)를 시도할 것으로 예상한다.이것을 우연히 관찰할 확률은 얼마나 극소수인지에 관심이 많든 간에, 규제된 유전자 목록은 알려진 콜레스테롤 연관성을 가진 유전자에서 농축되어 있다고[24] 결론내릴 것이다.null
그 치료법이 콜레스테롤과 관련된 유전자를 선택적으로 조절하는 것처럼 보이기 때문에, 사람들은 실험적인 치료법이 콜레스테롤을 조절한다고 가설을 세울 수도 있다.이것이 사실일지 모르지만, 이것을 농축에 근거한 확고한 결론을 내리는 것은 근거 없는 믿음의 도약을 나타내는 여러 가지 이유가 있다.앞서 언급된 이슈 중 하나는 유전자 조절이 단백질 조절에 직접적인 영향을 미치지 않을 수 있다는 관찰과 관련이 있다: 이러한 유전자에 의해 암호화된 단백질이 콜레스테롤을 만드는 것 이외에는 아무것도 하지 않는다 하더라도, 그들의 mRNA가 변형되었다는 것을 보여주는 것은 단백질 수준에서 무슨 일이 일어나고 있는지를 직접적으로 말해주지 않는다.이러한 콜레스테롤과 관련된 단백질의 양은 실험 조건에서 일정하게 유지될 가능성이 꽤 있다.둘째, 단백질 수치가 변하더라도 콜레스테롤을 가능한 한 빨리 만들 수 있는 충분한 양의 단백질, 즉 우리의 목록에 없는 또 다른 단백질은 콜레스테롤을 만드는 과정에서 비율을 결정하는 단계일 수 있다.마지막으로, 단백질은 전형적으로 많은 역할을 하기 때문에, 이러한 유전자들은 콜레스테롤을 만드는 것과 공유된 연관성 때문이 아니라 완전히 독립적인 과정에서 공유된 역할 때문에 조절될 수 있다.null
유전자 프로파일 자체가 치료와 생물학적 효과 사이의 인과관계를 증명하지는 않지만, 그것들은 종종 다른 방법으로 도달하기 매우 어려운 독특한 생물학적 통찰력을 제공한다.null
패턴을 사용하여 조절된 유전자를 찾는 것
위에서 설명한 것처럼 유의미한 조절 유전자를 먼저 식별한 다음 유의한 유전자의 목록을 특정 연관성을 공유하는 것으로 알려진 유전자 집합과 비교함으로써 패턴을 찾을 수 있다.또한 역순으로 문제를 해결할 수도 있다.여기 아주 간단한 예가 있다.알려진 과정과 관련된 40개의 유전자가 있다고 가정해보자. 예를 들어 당뇨병에 대한 성향.탄수화물 다이어트를 하는 생쥐와 저탄수화물 다이어트를 하는 생쥐의 표현 프로파일 2개 그룹을 살펴보면, 40개 당뇨병 유전자가 모두 저탄수화물 그룹보다 고탄수화물 그룹에서 더 높은 수준으로 표현되는 것을 관찰한다.이러한 유전자들 중 어떤 것이든 40개의 모든 유전자를 관찰하면서 현저하게 변형된 유전자의 목록에 올랐을지 여부에 상관없이, 그리고 그 어떤 것도 순수한 우연의 결과일 것 같지 않다: 40개의 머리를 연속으로 뒤집는 것은 공정한 동전을 사용하여 1조 번의 시도에서 약 한 번 발생할 것으로 예측된다.null
세포의 한 종류에 대해, 조합된 발현 패턴이 주어진 조건의 고유 특성인 유전자의 그룹은 이 조건의 유전자 서명이 된다.이상적으로 유전자 서명은 치료법의 선택을 용이하게 하는 정확성을 가지고 특정 질환 상태의 환자군을 선택하는 데 사용될 수 있다.[25][26]유전자 세트 농축 분석(Gene Set 농축 분석, GSEA)[16]과[17] 유사한 방법들은 이런 종류의 논리를 활용하지만 보다 정교한 통계를 사용하는데, 실제 공정의 성분 유전자는 단순히 집단으로 위아래로 움직이는 것보다 더 복잡한 행동을 보이고, 유전자가 위아래로 움직이는 양은 방향만이 아니라 의미가 있기 때문이다.어쨌든, 이러한 통계는 어떤 작은 유전자 집합의 행동이 그 작은 집합에 있지 않은 유전자와 얼마나 다른지를 측정한다.null
GSEA는 Kolmogorov Smirnov 스타일 통계를 사용하여 이전에 정의된 유전자 집합이 현재 표현 프로파일에서 비정상적인 동작을 보이는지 여부를 확인한다.이는 다중 가설 검정 난제로 이어지지만 이를 해결하기 위한 합리적인 방법이 존재한다.[27]null
결론들
표현 프로파일링은 유전자가 다양한 조건에서 무엇을 하는지에 대한 새로운 정보를 제공한다.전체적으로 마이크로 어레이 기술은 신뢰할 수 있는 표현 프로파일을 생성한다.[28]이 정보로부터 생물학에 대한 새로운 가설을 만들거나 기존 가설을 테스트할 수 있다.그러나 이러한 실험의 크기와 복잡성은 종종 다양한 가능한 해석을 낳는다.많은 경우에 표현 프로파일링 결과를 분석하는 것은 초기 실험을 수행하는 것보다 훨씬 더 많은 노력이 필요하다.null
대부분의 연구자들은 그들의 표현 프로파일링 결과를 발표하기 전에 복수의 통계적 방법과 탐구적 데이터 분석을 사용하여 생물정보학자나 DNA 미세조영 전문가와 그들의 노력을 조정한다.훌륭한 실험 설계, 적절한 생물학적 복제 및 후속 실험은 성공적인 표현 프로파일링 실험에서 중요한 역할을 한다.null
참고 항목
참조
- ^ "Microarrays Factsheet". Retrieved 2007-12-28.
- ^ Suter L, Babiss LE, Wheeldon EB (2004). "Toxicogenomics in predictive toxicology in drug development". Chem. Biol. 11 (2): 161–71. doi:10.1016/j.chembiol.2004.02.003. PMID 15123278.
- ^ Magic Z, Radulovic S, Brankovic-Magic M (2007). "cDNA microarrays: identification of gene signatures and their application in clinical practice". J BUON. 12 Suppl 1: S39–44. PMID 17935276.
- ^ Cheung AN (2007). "Molecular targets in gynaecological cancers". Pathology. 39 (1): 26–45. doi:10.1080/00313020601153273. PMID 17365821. S2CID 40896577.
- ^ Mirza SP, Olivier M (2007). "Methods and approaches for the comprehensive characterization and quantification of cellular proteomes using mass spectrometry". Physiol Genomics. 33 (1): 3–11. doi:10.1152/physiolgenomics.00292.2007. PMC 2771641. PMID 18162499.
- ^ Hebert AS, Richards AL, et al. (2014). "The One Hour Yeast Proteome". Mol Cell Proteomics. 13 (1): 339–347. doi:10.1074/mcp.M113.034769. PMC 3879625. PMID 24143002.
- ^ Chen JJ (2007). "Key aspects of analyzing microarray gene-expression data". Pharmacogenomics. 8 (5): 473–82. doi:10.2217/14622416.8.5.473. PMID 17465711.
- ^ van Dongen, Stijn (2000). Graph Clustering by Flow Simulation. University of Utrecht.
- ^ Jaskowiak, Pablo A; Campello, Ricardo JGB; Costa, Ivan G (24 January 2014). "On the selection of appropriate distances for gene expression data clustering". BMC Bioinformatics. 15 (Suppl 2): S2. doi:10.1186/1471-2105-15-S2-S2. PMC 4072854. PMID 24564555.
- ^ Vardhanabhuti S, Blakemore SJ, Clark SM, Ghosh S, Stephens RJ, Rajagopalan D (2006). "A comparison of statistical tests for detecting differential expression using Affymetrix oligonucleotide microarrays". OMICS. 10 (4): 555–66. doi:10.1089/omi.2006.10.555. PMID 17233564.
- ^ "Significance Analysis of Microarrays". Retrieved 2007-12-27.
- ^ Yauk CL, Berndt ML (2007). "Review of the literature examining the correlation among DNA microarray technologies". Environ. Mol. Mutagen. 48 (5): 380–94. doi:10.1002/em.20290. PMC 2682332. PMID 17370338.
- ^ Breitling R (2006). "Biological microarray interpretation: the rules of engagement" (PDF). Biochim. Biophys. Acta. 1759 (7): 319–27. doi:10.1016/j.bbaexp.2006.06.003. PMID 16904203.
- ^ Draminski M, Rada-Iglesias A, Enroth S, Wadelius C, Koronacki J, Komorowski J (2008). "Monte Carlo feature selection for supervised classification". Bioinformatics. 24 (1): 110–7. doi:10.1093/bioinformatics/btm486. PMID 18048398.
- ^ Dr. Leming Shi, National Center for Toxicological Research. "MicroArray Quality Control (MAQC) Project". U.S. Food and Drug Administration. Retrieved 2007-12-26.
- ^ a b c d e f Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, Paulovich A, Pomeroy SL, Golub TR, Lander ES, Mesirov JP (2005). "Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles". Proc. Natl. Acad. Sci. U.S.A. 102 (43): 15545–50. doi:10.1073/pnas.0506580102. PMC 1239896. PMID 16199517.
- ^ a b c d e Luo W, Friedman M, Shedden K, Hankenson KD, Woolf JP (2009). "GAGE: generally applicable gene set enrichment for pathway analysis". BMC Bioinformatics. 10: 161. doi:10.1186/1471-2105-10-161. PMC 2696452. PMID 19473525.
- ^ Dai M, Wang P, Boyd AD, et al. (2005). "Evolving gene/transcript definitions significantly alter the interpretation of GeneChip data". Nucleic Acids Res. 33 (20): e175. doi:10.1093/nar/gni179. PMC 1283542. PMID 16284200.
- ^ Alberts R, Terpstra P, Hardonk M, et al. (2007). "A verification protocol for the probe sequences of Affymetrix genome arrays reveals high probe accuracy for studies in mouse, human and rat". BMC Bioinformatics. 8: 132. doi:10.1186/1471-2105-8-132. PMC 1865557. PMID 17448222.
- ^ "GSEA – MSigDB". Retrieved 2008-01-03.
- ^ "CTD: The Comparative Toxicogenomics Database". Retrieved 2008-01-03.
- ^ "Ingenuity Systems". Retrieved 2007-12-27.
- ^ Alekseev OM, Richardson RT, Alekseev O, O'Rand MG (2009). "Analysis of gene expression profiles in HeLa cells in response to overexpression or siRNA-mediated depletion of NASP". Reprod. Biol. Endocrinol. 7: 45. doi:10.1186/1477-7827-7-45. PMC 2686705. PMID 19439102.
- ^ Curtis RK, Oresic M, Vidal-Puig A (2005). "Pathways to the analysis of microarray data". Trends Biotechnol. 23 (8): 429–35. doi:10.1016/j.tibtech.2005.05.011. PMID 15950303.
- ^ Mook S, Van't Veer LJ, Rutgers EJ, Piccart-Gebhart MJ, Cardoso F (2007). "Individualization of therapy using Mammaprint: from development to the MINDACT Trial". Cancer Genomics Proteomics. 4 (3): 147–55. PMID 17878518.
- ^ Corsello SM, Roti G, Ross KN, Chow KT, Galinsky I, DeAngelo DJ, Stone RM, Kung AL, Golub TR, Stegmaier K (June 2009). "Identification of AML1-ETO modulators by chemical genomics". Blood. 113 (24): 6193–205. doi:10.1182/blood-2008-07-166090. PMC 2699238. PMID 19377049.
- ^ "GSEA". Retrieved 2008-01-09.
- ^ Couzin J (2006). "Genomics. Microarray data reproduced, but some concerns remain". Science. 313 (5793): 1559. doi:10.1126/science.313.5793.1559a. PMID 16973852. S2CID 58528299.