This article has been published in the peer-reviewed journal PLOS Computational Biology (2016). Click to view the published version.

선조재건

Ancestral reconstruction

조상 재구성(캐릭터 매핑 또는 캐릭터 최적화라고도 함)은 개인(또는 모집단)의 측정된 특성에서 공통 조상으로 거슬러 올라가는 외삽입니다.그것은 개인, 개체군 또는 종과 조상 사이의 진화적 관계를 재구성하고 연구하는 계통유전학의 중요한 응용 분야이다.진화생물학의 맥락에서, 조상들의 재구성은 수백만 [1]년 전에 살았던 유기체들의 다른 종류의 조상들의 특징 상태를 회복하는데 사용될 수 있다.이러한 상태는 유전자 배열(조골 배열 재구성), 단백질아미노산 배열, 게놈 구성(예: 유전자 순서), 유기체의 측정 가능한 특성(페노타입), 조상 개체 또는 종의 지리적 범위(조골 범위 재구성)를 포함한다.이것은 우리가 먼 과거에 대응하는 계통수의 일부를 조사할 수 있게 해주기 때문에 나무 속에 있는 종의 진화 역사를 명확하게 하기 위해서 바람직하다.현대의 유전자 배열은 본질적으로 고대 유전자 배열의 변형이기 때문에, 고대 염기서열에 대한 접근은 그러한 [2]염기서열에서 발생할 수 있는 다른 변형과 유기체를 식별할 수 있다.유전적 염기서열 외에도 지느러미가 다리로 변하는 것과 같은 하나의 특성에서 다른 특성으로의 변화를 추적하려고 시도할 수 있다.

비생물학적 응용에는 고대 [3]언어의 어휘 또는 음소의 재구성과 구전이나[4] 결혼 [5]관행과 같은 고대 사회의 문화적 특성이 포함된다.

조상의 재건은 정확하게 조상의 상태를 회복하기 위해 충분히 현실적인 진화의 통계[6] 모델에 의존한다.이들 모델은 계통유전학 등의 방법을 통해 이미 얻은 유전정보를 이용해 진화가 이루어진 경로와 진화적 사건이 [7]언제 발생했는지를 판단한다.그러나 모델이 실제 진화 역사에 아무리 잘 근접해도 조상과 관찰된 후손 사이의 진화 시간이 길어짐에 따라 조상을 정확하게 재구성하는 능력은 악화된다.또한, 보다 현실적인 진화 모델은 필연적으로 더 복잡하고 계산하기 어렵지만 더 정확한 재구성을 [8]얻기 위해서도 필요하다.조상 재건 분야의 발전은 계산 능력의 기하급수적인 성장과 효율적인 계산 알고리즘의 부수적인 개발에 크게 의존했다(예: 조상 [9]시퀀스의 공동 최대우도 재구성을 위한 동적 프로그래밍 알고리즘).조상 재건의 방법은 동일한 데이터로부터 이미 추론된 특정 계통수에 종종 적용된다.편리하지만, 이 접근법은 그 결과가 단일 계통수의 정확성에 달려있다는 단점이 있다(즉, 재조합을 무시하여 편향된 계통수는 재구성된 조상 서열을 편향시킬 수 있다).대조적으로, 일부 연구자들은[11] 많은 나무에 대한 조상들의 재구성을 평가함으로써 나무 재구성의 불확실성을 설명하는 계산 집약적인 베이지안 접근법을 지지한다.

역사

조상 재건의 개념은 종종 에밀 주커칸들라이너스 폴링의 공로를 인정받는다.프레더릭 생어에 의해 1955,[12]Zuckerkandl과 폴링 postulated[13]에서 단백질의 주요(아미노산)경로가 확정에 대한 기법의 발전으로 그런 장면들은 초기 지점(roo에서 뿐만 아니라 그 계통 발생은 관찰된 단백질 순서,라 조상들의 단백질 순서를 추론하도록 사용할 수 있는 무장하다.t의 t=그의 나무하지만, 측정 가능한 생물학적 특성으로부터 조상을 재건한다는 생각은 이미 현대 계통학의 선구자 중 하나인 분지학 분야에서 발전하고 있었다.1901년에 등장한 분지학적 방법들은 공통되는 특징의 분포를 바탕으로 종의 진화적 관계를 추론하는데, 그 중 일부는 공통의 조상으로부터 유래한 것으로 추정된다.게다가, Theodoseus Dobzhansky와 Alfred Sturtevant는 1938년에 Drosophila pseudobscura[14]염색체 반전 진화 역사를 유추할 때 계통학적 맥락에서 조상 재구성 원리를 명확히 했다.

따라서, 조상 재건은 몇 가지 분야에 뿌리를 두고 있다.오늘날, 조상의 재건을 위한 계산 방법은 조상의 국가 생물학적 특성과 분자 순서 뿐만 아니라 대 현대와 고대 단백질의 structure[15][16]또는 촉매 properties[17], 그 지형적 lo을 위해 추론하고 있고 설정의 다양성에 적용하면 연장하여야 하는 계속하고 있다.p의 양이온유전자와 종(phylography)[18][19]과 고차 게놈 구조.[20]

메서드 및 알고리즘

조상 재건을 위한 모든 시도는 계통 발생에서 시작된다.일반적으로 계통발생은 공통 조상의 후손에 의해 개체군이 관련되는 순서에 대한 나무에 기초한 가설이다.관찰된 분류군은 공통 조상에 대한 가지에 의해 점진적으로 연결된 나무의 끝 또는 말단 노드로 표현되며, 이는 보통 조상 또는 내부 노드로 언급되는 나무의 분기점으로 표현된다.결국, 모든 혈통은 전체 분류군 표본의 가장 최근의 공통 조상으로 수렴된다.조상 재건의 맥락에서, 계통 발생은 종종 알려진 양으로 취급된다(베이지안 접근법이 중요한 예외이다).데이터를 설명하는 데 거의 동일한 효과를 갖는 수많은 계통 발생이 있을 수 있기 때문에, 데이터에 의해 지원되는 계통 발생의 서브셋을 단일 대표 또는 점 추정치로 줄이는 것은 편리하고 때로는 필요한 단순화된 가정이 될 수 있다.

조상 재건은 주어진 계통 발생에 가상의 진화 모델을 적용한 직접적인 결과라고 생각할 수 있다.모델에 하나 이상의 자유 매개변수가 포함된 경우, 전체적인 목표는 공통 조상으로부터 유래한 관측된 분류군(순서) 사이의 측정된 특성에 기초하여 이러한 매개변수를 추정하는 것이다.절약은 이 패러다임의 중요한 예외이다: 비록 그것이 최대우도 [21]추정기인 상황이 그 핵심에 있지만, 그것은 단지 그 희귀성을 수량화하려고 시도하지 않고, 성격 상태의 변화가 드물다는 경험론에 기초한다.

조상 재건을 위한 방법에는 세 가지 종류가 있다.발견의 연대순으로, 이것들은 최대 절약, 최대우도, 그리고 베이지안 추론이다.최대 절약성은 모든 진화적 사건을 동등하게 고려하며, 최대 가능성은 특정 사건 클래스의 다른 가능성을 설명한다. 그리고 바예산 추론은 사건의 조건부 확률과 나무의 가능성, 그리고 그 나무와 관련된 불확실성의 양을 관련짓는다.베이지안 추론은 데이터의 불확실성을 설명하고 가능한 나무의 표본을 산출하는 반면, 최대 절약과 최대 우도는 가장 가능성이 높은 단일 결과를 산출한다.

최대 절약량

속칭 '오캄의 면도기'로 알려진 파시모니는 경쟁 가설 중 가장 단순한 가설을 선택하는 원리를 말한다.조상 재건의 맥락에서, 절약은 나무의 끝에서 관찰된 상태를 설명하기 위해 필요한 총 문자 상태 변화 수를 최소화하는 주어진 나무 내에서 조상 상태의 분포를 찾기 위해 노력합니다.이 최대 절약[22] 방법은 가장 [16]간단한 방법일 뿐만 아니라 조상 상태를 재구성하기 위한 가장 초기의 공식화된 알고리즘 중 하나이다.

최대 절약은 몇 가지 알고리즘 중 하나로 구현할 수 있습니다.가장 초기의 예 중 하나는 피치의 [23]방법인데, 이것은 루트 바이너리 트리의 두 번의 횡단을 통해 근소한 차이로 조상들의 특성 상태를 할당한다.첫 번째 단계는 부모보다 자식(자녀) 노드를 먼저 방문함으로써 트리의 끝부분에서 루트를 향해 진행되는 사후 트래버설입니다.우선, 그 후손의 관찰된 문자 상태에 근거해, i번째 조상의 가능한 문자 상태i S의 집합을 결정한다.각 할당은 상위 하위 문자 상태의 집합 교차점입니다. 교차가 빈 집합이면 집합 결합입니다.후자의 경우, 상위와 그 두 직계 후손 중 하나 사이에 문자 상태 변화가 발생했음을 암시합니다.이러한 각 사건은 알고리즘의 비용 함수에 반영되며, 최대 절약성에 기초하여 대안 트리를 구별하는 데 사용될 수 있다.다음으로 루트부터 까지 트리의 사전순서 트래버설을 실시한다.그런 다음 문자 상태는 상위와 공유하는 문자 상태에 따라 각 하위 항목에 할당됩니다.루트에는 부모 노드가 없기 때문에 문자 상태를 임의로 선택해야 할 수 있습니다.특히 루트에서 여러 개의 가능한 상태가 재구축된 경우입니다.

"벌", "허밍버드" 또는 "바람"의 수분 상태를 가진 식물의 가상 속 계통 발생학으로 끝에 그림이 표시된다.최대 절약 상태에서 추론된 계통수 수분 상태 노드는 그 안으로 이어지는 가지에 색칠된다(노란색은 "벌" 수분, 빨간색은 "허밍버드" 수분, 검은색은 "바람" 수분, 이중 색상은 두 가지 색상에 대해 동일하게 절약).뿌리 상태로서의 "허밍버드"의 할당은 (화석 기록으로부터의 사전 지식 때문에) 계통 발생의 노드에서 기호로 나타나는 조상 상태의 패턴으로 이어지며, 선단에서 관찰된 패턴에 가장 적은 변화가 필요한 상태는 각 노드에서 동그라미로 둘러싸여 있다.

예를 들어, 6종류의 A - F를 포함하는 식물의 한 속에서 회복된 계통 발생을 생각해 봅시다. 각 식물은 "벌", "허밍버드" 또는 "바람"에 의해 수분됩니다.한가지 분명한 질문은 이 식물의 계통발생에서 더 깊은 노드의 꽃가루 매개자가 무엇이었는가이다.최대한의 절약 하에, 이 분지에 대한 조상 상태 재구성은 "허밍버드"가 하위 분지(식물 D, E, F)에 대한 가장 절약적인 조상 상태이며, 꼭대기 분지(식물 A, B, C)의 절점에 대한 조상 상태는 등가적이고 "허밍버드" 또는 "벌"은 꽃가루 매개자를 위해 동등하다는 것을 보여준다.계통 발생의 근본에 있는 라이네이션 상태.화석 기록에서 뿌리의 상태가 "허밍버드"라는 강력한 증거가 있다고 가정하면요.근원을 "허밍버드"로 분해하면 가장 적은 변화가 필요한 상태의 교점에서 기호로 묘사된 조상 상태의 재구성 패턴을 얻을 수 있다.

절약법은 직관적으로 매력적이고 매우 효율적이며, 일부 경우에는 [24]초기 계통 발생과 함께 최대우도 최적화 알고리즘을 시드하는 데 여전히 사용된다.그러나 진화가 특정 최종 결과를 가능한 한 빨리 달성했다는 근본적인 가정은 부정확하다.자연선택과 진화는 목표를 향해 작용하는 것이 아니라 무작위로 일어나는 유전자 변화에 대해 찬반양론을 선택할 뿐이다.절약법은 6가지 일반적인 가정을 강요한다: 당신이 사용하는 계통수가 올바르고, 당신은 코딩에 실수가 없는 모든 관련 데이터를 가지고 있다, 계통수의 모든 가지가 동등하게 변할 가능성이 있다, 진화의 속도가 느리다, 그리고 특징론자를 잃거나 얻을 가능성이 있다.ic도 마찬가지다.[1]실제로 가정은 종종 위반되어 다음과 같은 몇 가지 문제가 발생합니다.

  1. 진화 속도의 변화입니다.Fitch의 방법은 모든 문자 상태 간에 변화가 발생할 가능성이 동등하다고 가정합니다. 따라서 모든 변경은 주어진 트리에 동일한 비용을 발생시킵니다.이러한 가정은 종종 비현실적이며 그러한 [11]방법의 정확성을 제한할 수 있다.예를 들어, 핵산 진화의 전환보다 전환이 더 자주 일어나는 경향이 있다.이 가정은 특정 문자 상태 변화에 차등 비용을 할당함으로써 완화될 수 있으며, 그 결과 가중치 [25]절약 알고리즘이 생성됩니다.
  2. 급속한 진화이러한 방법의 기초가 되는 "최소 진화" 휴리스틱의 결론은 그러한 방법이 변화가 드물다고 가정하고, 따라서 변화가 [26][27]예외가 아닌 표준인 경우에 부적절하다는 것이다.
  3. 혈통 간의 시간 변동입니다.절약법은 암묵적으로 같은 양의 진화 시간이 트리의 모든 가지를 따라 지나갔다고 가정한다.따라서, 그것들은 종종 진화적 또는 연대기적 시간의 경과를 정량화하는 데 사용되는 나무의 가지 길이의 변화를 설명하지 않는다.이 제한은 예를 [28]들어 매우 긴 가지에서 발생하는 여러 가지 변화가 아니라 하나의 변화가 매우 짧은 가지에서 발생했다고 추론할 수 있게 한다.또한, 아마도 변화하는 환경 요인에 의해 나무의 일부 가지가 다른 가지보다 더 높은 선택 및 변경률을 경험할 수 있습니다.일부 기간은 다른 기간보다 더 빠른 진화를 나타낼 수 있으며, 이때 절약이 [29]부정확해진다.이 단점은 나무의 각 가지를 따라 전개될 [30]때 진화의 확률적 과정을 유추하는 모델 기반 방법(최대우도 및 베이지안 방법 모두)에 의해 해결된다.
  4. 통계적 정당성방법의 기초가 되는 통계 모델이 없다면, 그 추정치는 명확하게 정의된 [26][28][31]불확실성을 갖지 못한다.
  5. 수렴 진화.단일 문자 상태를 고려할 때, 절약은 자동적으로 그 특성을 공유하는 두 유기체가 그렇지 않은 유기체보다 더 밀접하게 연관되어 있다고 가정할 것이다.예를 들어, 개와 유인원이 털을 가지고 있다고 해서 그들이 인간과 더 가까운 관계라는 것을 의미하지는 않는다.

최대우도

조상 상태 재구성의 최대우도(ML) 방법은 나무의 내부 노드에서 특성 상태를 매개변수로 취급하고, 가설(진화의 모델 및 관찰된 시퀀스 또는 세금과 관련된 계통 발생)을 주어진 데이터(관측된 특성 상태)의 확률을 최대화하는 매개변수 값을 찾으려고 시도한다.즉, 이 방법은 관찰된 표현형을 고려할 때 조상의 상태가 통계적으로 가장 가능성이 높은 상태라고 가정한다.선조 재구성에 대한 초기 ML 접근법 중 일부는 유전자 배열 [32][33]진화의 맥락에서 개발되었다. 또한 유사한 이산 특성 [34]진화의 경우를 위해 유사한 모델이 개발되었다.

진화 모델의 사용은 모든 사건이 동등하게 발생할 가능성은 없다는 사실을 설명한다.예를 들어, 한 푸린에서 다른 푸린으로, 또는 한 피리미딘에서 다른 피리미딘으로의 점 돌연변이의 일종인 전이는 푸린이 피리미딘으로 전환될 가능성인 전이에 비해 훨씬 더 일어날 가능성이 높다.이러한 차이는 최대 절약으로는 파악되지 않습니다.하지만, 단지 어떤 사건들이 다른 사건들보다 더 가능성이 높다고 해서 그것이 항상 일어나는 것을 의미하지는 않는다.우리는 진화 역사를 통해 일어날 가능성이 가장 높은 것과 실제로 일어난 것 사이에 큰 차이가 있었던 시기가 있었다는 것을 알고 있습니다.이 경우, 최대 절약은 실제로 최대 가능성보다 크고 가능성이 낮은 도약을 더 많이 하기 때문에 더 정확할 수 있습니다.최대우도는 특성 상태를 재구성하는 데 있어 상당히 신뢰할 수 있는 것으로 나타났지만, 단백질의 안정성에 대한 정확한 추정치를 제공하는 데는 도움이 되지 않는다.최대 가능성은 항상 단백질의 안정성을 과대평가하는데, 이것은 만들어지고 사용된 단백질이 가장 [16]안정적이고 최적이라고 가정하기 때문에 말이 된다.최대우도검사가 정확도와 [35]속도 사이의 좋은 매개체라는 결론을 내린 일부와 함께 최대우도검사의 장점은 논쟁의 대상이 되었다.그러나 다른 연구들은 최대 우도가 너무 많은 시간과 계산 능력이 소요되어 일부 [36]시나리오에서 유용하게 사용될 수 없다고 불평했다.

이러한 접근방식은 계통수 [37]유추에 사용된 것과 동일한 확률론적 프레임워크를 사용한다.간단히 말해, 유전자 배열의 진화는 시간역전 연속 시간 마르코프 프로세스에 의해 모델링된다.이들 중 가장 단순한 것으로, 모든 성질은 시간에 따라 일정한 속도로 독립적인 상태 전이(예: 뉴클레오티드 치환)를 겪는다.이 기본 모델은 트리의 각 분기에서 다른 속도를 허용하도록 자주 확장됩니다.실제로 돌연변이율은 시간이 지남에 따라 달라질 수 있다(예를 들어 환경 변화에 기인한다). 이는 비율 매개변수가 증가하는 대신 나무를 따라 진화할 수 있도록 함으로써 모델링할 수 있다.모델은 길이 t의 분기(진화시간 단위)를 따라 상태 i에서 j로의 전이 확률을 정의한다.계통 발생 가능성은 제안된 나무의 계층 구조에 해당하는 전이 확률의 내포된 합계에서 계산된다.각 노드에서 하위 노드의 가능성은 해당 노드의 가능한 모든 조상 문자 상태에 대해 집계됩니다.

여기서 직계 하위 y와 z를 가진 노드 x에 뿌리를 둔 서브트리의 가능성을 하고, {\i}}는 i번째 노드의 문자 상태를 , j { 노드 i와 j 사이의 분기 길이(진화 시간)이며, {\ 모든 po의 설정이다.결합 가능한 문자 상태(예: 뉴클레오티드 A, C, G, T)[37]따라서 조상 재구성의 목적은 특정 트리에 대한 관측 데이터의 가능성을 최대화하는 모든 x 내부 노드에 대해 S 할당을 찾는 것이다.

한계 및 결합 가능성

대체 나무에 대한 전반적인 가능성을 계산하는 대신, 조상 재구성의 문제는 가장 높은 한계 최대 우도를 가진 각 조상 노드에서의 특성 상태의 조합을 찾는 것이다.일반적으로 이 문제에는 두 가지 접근법이 있습니다.첫째, 다른 모든 조상 상태의 재구성과는 독립적으로 가장 가능성이 높은 특성 상태를 각 조상에게 할당할 수 있다.이 접근방식을 한계 재건이라고 한다.이는 데이터를 사용할 수 있는 노드를 제외한 트리의 다른 모든 노드(루트 노드 포함)에서 조상 상태의 모든 조합을 합산하는 것과 유사합니다.한계 재구성은 확률에 비례하여 모든 노드의 다른 모든 상태에 대해 통합 가능성을 최대화하는 현재 노드의 상태를 찾는 것입니다.둘째, 대신 트리 전체에서 전체 데이터 집합의 가능성을 공동으로 최대화하는 조상 특성 상태의 결합을 찾으려고 시도할 수 있다.따라서 이 접근방식을 공동 [32]재구성이라고 한다.당연히 관절 재구성은 한계 재구성보다 계산적으로 더 복잡하다.그럼에도 불구하고, 관절 재구성을 위한 효율적인 알고리즘은 관찰된 분류군 또는 시퀀스의 [9]수와 일반적으로 선형인 시간 복잡도로 개발되었다.

ML 기반 조상 재구성 방법은 캐릭터 간(또는 [38][39]게놈의 부위 간) 진화 속도의 변동이 존재하는 경우 MP 방법보다 더 높은 정확도를 제공하는 경향이 있다.그러나, 이러한 방법들은 시간 경과에 따른 진화 속도의 변동을 수용할 수 없으며, 다른 말로 이질화라고 알려져 있다.특정 성질의 진화 속도가 계통 발생의 한 분기에서 가속화된다면, 그 분기에서 발생한 진화의 양은 그 분기의 주어진 길이에 대해 과소평가되고 그 성질의 일정한 진화 속도를 가정할 것이다.게다가,[40] 이질성과 진화율에서의 성격의 변동을 구별하는 것은 어렵다.

ML(최대 절약량과는 달리)은 조사자가 진화 모형을 지정해야 하므로, ML의 정확도는 크게 잘못된 모형(모델 지정 오류)의 사용에 의해 영향을 받을 수 있습니다.또한 ML은 특성 상태의 단일 재구성("점 추정치"라고 함)만 제공할 수 있다. 우도 표면이 여러 개의 피크(국소 최적치)로 구성된 볼록하지 않은 경우, 단일 점 추정치는 적절한 표현을 제공할 수 없으며, 베이지안 접근방식이 더 적합할 수 있다.

베이지안 추론

베이지안 추론은 관찰된 데이터의 가능성을 사용하여 조사자의 믿음 또는 사전 분포를 업데이트하여 사후 분포를 산출한다.조상 재건의 맥락에서, 목표는 주어진 나무의 각 내부 노드에서 조상 특성 상태의 사후 확률을 추론하는 것이다.더욱이, 진화 모델의 매개변수와 가능한 모든 나무의 공간에 대한 사후 분포에 이러한 확률을 통합할 수 있다.는 베이즈 정리의 적용으로 표현될 수 있다.

여기서 S는 조상 상태를 나타내고 D는 관측된 데이터에 대응하며, { 진화 모델과 계통수 모두를 나타낸다.( , ){ P ( D, \ ) }는 위와 같이 Felsenstein의 프루닝 알고리즘으로 계산할 수 있는 관측 데이터의 우도이다.( ){ P ( \) }는 주어진 모델과 트리에 대한 조상 상태의 사전 확률입니다.마지막으로 ( ) ( \ P ( \)는 주어진 모델과 트리에 대한 데이터의 확률로, 가능한 모든 조상 상태에 통합된다.

베이지안 추론은 많은 사람들이 가장 [11]정확하다고 주장해 온 방법이다.일반적으로, 베이지안 통계 방법은 조사자들이 기존의 정보를 새로운 가설과 결합할 수 있도록 한다.진화의 경우, 관찰된 데이터의 우도와 사건이 발생한 순서대로 발생했을 가능성을 결합하는 동시에 오류와 불확실성의 가능성을 인식한다.전반적으로, 이것은 단백질 [28]안정성뿐만 아니라 조상들의 유전자 서열을 재구성하는 가장 정확한 방법이다.다른 두 가지 방법과 달리, 베이지안 추론은 가능한 트리의 분포를 산출하여 가능한 결과의 [41]분산에 대한 더 정확하고 쉽게 해석할 수 있게 한다.

베이즈 정리의 두 가지 다른 적용을 강조하기 위해 위의 두 가지 공식을 제시했는데, 다음 섹션에서 설명합니다.

경험적 및 계층적 베이

조상 시퀀스 재구성에 대한 베이지안 접근법의 첫 번째 구현 중 하나는 양(Yang)[32]과 동료들에 의해 개발되었으며, 여기서 각각 진화 모델과 나무의 최대우도 추정치는 이전 분포를 정의하기 위해 사용되었다.실증적든지 베이즈 법 조상의 성격 국가들의 선행 확률을 계산하기 위해 그리하여 그들의 접근은 좋은 예가 된다. 이 메서드는 처음에 소프트웨어 패키지 PAML.[42]에 위의 베이즈 규칙 수립 면에서 구현하였다 경험적 베이스 법 수정 θ하려면 코트 샘플 및 팁을 경험적인 추정에{\theta\displaystyle}.em데이터에서 얻은 오델과 트리, 사후우도로부터 실질적으로(\ 떨어뜨리고 공식의 이전 용어.게다가, Yang과 colleagues[32]곳에 철저하게 S 받θ{\theta\displaystyle}에 대한 모든 가능한 가치보다 P(D){P(D)\displaystyle}컴퓨팅의 분모에 있어서의 관찰된 뉴클레오티드 배열은 그들의 맞춤에(뉴클레오타이드의 나무의 끝에 즉, 숙제)사이트 패턴의 실험 유통 사용했다. .c일반적으로 경험적 베이즈 방법은 각 내부 노드에서 각각의 확률 분포를 기반으로 상태의 ML 할당을 검색하는 대신 확률 분포 자체를 직접 보고한다는 점을 제외하면 조상 상태의 최대 가능성 재구성과 유사하다.

조상 재건을 위한 경험적 베이즈 방법은 연구자가 진화적 모델 매개변수와 트리가 오류 없이 알려져 있다고 가정할 것을 요구한다.데이터의 크기나 복잡성으로 인해 이것이 비현실적인 가정이 될 경우, 완전한 계층적 베이지안 접근법을 채택하고 조상 특성 상태, 모델 및 [43]나무에 대한 공동 후방 분포를 추론하는 것이 더 신중할 수 있다.Huelsenbeck와 Bollback은 이 공동 후방 분포에서 조상 서열을 샘플링하기 위해 마르코프 연쇄 몬테 카를로(MCMC) 방법을 사용하여 조상 재구성에 계층적 베이즈 방법을 처음 제안했다[43].균류 종에서 조류와의 공생의 진화([44]인정)를 재구성하기 위해 유사한 접근법이 사용되기도 했다.예를 들어, MCMC에 대한 Metropolis-Hastings 알고리즘은 사후 확률의 비율에 따라 매개변수 할당을 수락하거나 거부하여 공동 후방 분포를 탐색한다.

간단히 말해서, 경험적 베이즈 접근법은 특정한 나무와 진화 모델에 대한 다양한 조상 상태의 확률을 계산합니다.조상 상태의 재구성을 확률의 집합으로 표현함으로써, 어떤 특정 상태를 조상에게 할당하기 위한 불확실성을 직접 정량화할 수 있다.한편, 계층적 베이즈 접근법은 관찰된 데이터를 고려할 때 이러한 나무와 모델이 얼마나 가능성이 있는지에 비례하여 가능한 모든 진화 나무와 모델에 대해 이러한 확률을 평균화합니다.

그러나 [45]계층적 베이즈 방식이 실제로 상당한 이점을 제공하는지는 여전히 논란의 여지가 있다.더욱이, 이 완전 베이지안 접근법은 가능한 모든 나무의 공간이 급격히 너무 넓어져서 체인 샘플이 합리적인 시간 내에 수렴하는 것이 계산적으로 불가능하기 때문에 상대적으로 적은 수의 시퀀스 또는 분류군을 분석하는 것으로 제한된다.

눈금 매기기

조상 재건은 화석이나 기록 표본과 같은 알려진 시대의 역사적 표본에서 관찰된 상태에 의해 알려질 수 있다.조상 재건의 정확도는 일반적으로 시간이 지날수록 떨어지기 때문에, 그러한 표본의 사용은 재구성되는 조상들에 더 가까운 데이터를 제공하며, 특히 시간이 지남에 따라 성격 변화율이 변할 때 분석을 개선할 가능성이 높다.이 개념은 인공 계통 발생을 위해 박테리오파지 [46]T7의 복제 집단이 전파된 실험 진화 연구에 의해 검증되었다.Oakley와 Cunningham은[47] 이러한 실험 데이터를 다시 검토하면서 최대 절약 방법으로는 연속적인 문자의 알려진 조상 상태를 정확하게 재구성할 수 없다는 것을 발견했다. 이러한 결과는 컴퓨터 시뮬레이션에 의해 검증되었다.이러한 조상 재건의 실패는 대처하기 위해 "화석화된" 검체를 포함해야 하는 플라크 크기(큰 플라크 직경에서 작은 플라크 직경)의 진화의 방향 편향에 기인했다.

포유류 육식동물과[48][49] 어류에 대한 연구는 화석 데이터를 통합하지 않으면 조상들의 신체 크기에 대한 재구성된 추정치가 비현실적으로 크다는 것을 보여주었다.또한, Graham Slater와 동료들은[50] 이전 분포에 화석 데이터를 통합하는 것이 동시 데이터만 사용하는 분석과 비교하여 조상 상태에 대한 베이지안 추론과 진화 모델 선택을 개선했다는 것을 카니보란을 사용하여 보여주었다.

모델

많은 모델들이 현존하는 [51]후손들로부터 분리된 그리고 연속적인 문자의 조상 상태를 추정하기 위해 개발되어 왔다.이러한 모델은 시간 경과에 따른 특성의 진화를 확률적 과정으로 모델링할 수 있다고 가정한다.이산값 특성(예: "공해자 유형")의 경우, 이 과정은 일반적으로 마르코프 연쇄로 간주되며, 연속값 특성(예: "두뇌 크기")의 경우, 이 과정은 종종 브라운 운동 또는 오르슈타인-울렌벡 과정으로 간주된다.통계적 추론의 기초로 이 모델을 사용하여, 이제 조상 상태를 추정하기 위해 최대우도법이나 베이지안 추론을 사용할 수 있다.

이산 상태 모델

문제의 특성이1, 1 상태 중 로 분류된다고 가정합니다. 이 특성의 전형적인 모델화 수단은 연속 시간 마르코프 체인을 통해, 다음과 같이 간략하게 설명될 수 있습니다.각 주는 다른 모든 주로의 이행률을 관련짓습니다.특성은 k k 상태 사이를 하는 것으로 모델링되며, 특정 상태에 도달하면 다른 각 상태에 대해 지수적인 "클럭"을 시작합니다.그런 다음 클럭을 서로 "레이스"하여 클럭이 가장 먼저 울리는 상태를 향해 한 걸음 내딛습니다.이러한 모델에서 파라미터는 { i: 1i , k , j ({ \ =\{입니다.이러한 경우, 예를 들어 설정된 최대 우도 중 하나를 사용하여 추정할 수 있습니다.

대립 유전자 a에서 대립 유전자 A로의 점프 속도를 나타내는 일반적인 2상태 마르코프 사슬.점프 유형에 따라 비율이 달라질 수 있다.

계통발생에서 주어진 조상 노드 라고 함의 상태를 최대우도로 회복하기 위해서는의 최대우도 찾아 각각의 가능성을 계산해야 한다. q {\= {에서의α {\ 조건의 . 마지막으로 이를 [26]최대화할 조상 상태를 선택합니다.또한 이 대체 모델을 베이지안 추론 절차의 기초로 사용할 수 있으며, 베이지안 추론 절차는 이전 사용자 선택에서 주어진 조상 노드의 상태에 대한 사후 믿음을 고려할 수 있다.

이러한 모델에는 k-1 k 파라미터가 있을 수 있으므로 과적합이 문제가 될 수 있습니다.파라미터 공간을 줄이는 일반적인 선택지는 다음과 같습니다.

  • k(\ k -상태 1 파라미터 모델: 이 모델은 Jukes-Cantor 모델의 kk) -상태 대응 모델입니다.이 모델에서는 시작 상태 및 종료 상태에 관계없이 모든 의 레이트qq가 동일합니다.일부 트랜지션은 레이트가 단순히0이라고 선언함으로써 허용되지 않을 수 있습니다.예를 들어, 1개의 트랜지션으로 다른 스테이트에서 특정 스테이트에 도달할 수 없는 경우가 있습니다.
    4-상태 1-파라미터 마르코프 연쇄 모델의 예.이 그림에서는 상태 A와 상태 D 사이의 전환은 허용되지 않습니다. 화살표는 0의 비율로 그리는 것이 아니라 그리지 않는 것이 일반적입니다.
  • 비대칭 k kstate 2 파라미터 모델: 이 모델에서는 상태 공간이 정렬되며(예를 들어 상태 1이 상태 2보다 작고 상태 3보다 작으며), 인접 상태 간에만 천이가 발생할 수 있습니다.이 모델에는 2개의 style dec {이 있습니다.하나는 상태 증가율(0에서 1, 1에서 2 등)과 상태 감소율(2에서 1, 1에서 0 등)이 있습니다.
    비대칭 5-상태 2-파라미터 마르코프 연쇄 모델의 그래픽 표현.

예: 이진 상태 특정 및 소멸 모델

BiSSE(Binary State Specification and Excolution[52] Model)는 위에서 언급한 프레임워크를 직접 따르지 않는 이산 공간 모델입니다.다른 특성 상태와 연관된 다양화 속도와 함께 선조 이진 문자 상태를 추정할 수 있습니다. 또한 보다 일반적인 다중 이산 상태 모델로 쉽게 확장될 수 있습니다.가장 기본적인 형태에서 이 모델에는 6개의 파라미터가 포함됩니다.2개의 특정 레이트(상태0과 1의 계통에 대해 각각1개). 마찬가지로 2개의 소멸 레이트 및2개의 문자 변화 레이트가 포함됩니다.이 모형에서는 모수의 수를 늘리는 대신 분화/소멸/문자 변화율에 대한 가설 검정을 수행할 수 있습니다.

연속 상태 모델

특성이 대신 비이산 값을 취하는 경우, 대신 특성이 어떤 연속적인 과정으로 진화하는 모델로 눈을 돌려야 합니다.최대 우도(또는 베이지안 방법에 의한)에 의한 조상 상태의 추론은 위와 같이 진행되지만, 다른 연속 확률 분포에 의해 주어진 인접 노드 간의 전이 우도와 함께 진행된다.

각 궤적의 200 궤적 그림: 0 0 2 \}=검은색);Ornstein-Uhlenbeck는 2 \ \ 1 1 \ = 1 ) - \ = ( 녹색 ) ) ) 。
  • 브라운 운동: 이 경우 U U V V 계통 발생(\ 에 인접하고 t t의 분기로 분리된 경우 UU에서 이행할 가능성이 있습니다.(\ x ~ Y y 0 ^{인 가우스 밀도로 지정되며, 이 경우 1개(\}})뿐이며, 모델은 다음과 같이 가정합니다.그 특성은 증가하거나 감소하는 편향 없이 자유롭게 진화하며, 변화 속도는 계통수 [53]가지 전체에 걸쳐 일정하다.
  • Ornstein-Uhlenbeck 과정: 간단히 말해서, Ornstein-Uhlenbeck 과정은 브라운 운동처럼 행동하지만 어떤 중심 가치를 향해 끌어당기는 연속 확률 과정이며, 그 [54][55][56]값으로부터의 거리에 따라 인력의 강도가 증가합니다.이는 특성이 특정 값(: 0 0을 중심으로 선택을 안정화하는 모델링 시나리오에 유용합니다.이 모델에서는 위에서 설명한 U U 상태x(\ x에서 y Y인 V V로의 이행은 Ornstein-Uhlenbeck 프로세스의 이행 밀도에 정의되며, 구동 Brownian 모션의 차이를 나타내는 와 0 0의 흡인 를 나타내는 \alpha입니다. 00)의 경향이 있기 에 프로세스는 0(\ 0에 의해 점점 덜 구속됩니다.그리고 그 과정은 브라운식 운동이 된다.이 때문에 모형이 내포될 수 있으며 두 모형 중 어떤 것이 적절한지를 판별하는 로그 우도비 검정이 [53]수행될 수 있습니다.
  • 지속적인 성격 [57]진화의 안정적인 모델: 브라운 운동은 지속적인 진화의 모델로서 매력적이고 다루기 쉽지만, 기본적인 형태로는 중립성을 허용하지 않으며, 시간에 따른 진화 속도의 변화를 제공하지 않습니다.대신 안정적인 공정, 즉 고정된 시간의 값이 안정적인 분포로 분포되어 있는 공정을 사용하여 특성 진화를 모형화할 수 있습니다.대략적으로 말해서 안정된 과정은 불연속적인 점프를 포함하는 브라운 운동처럼 행동한다.이를 통해 빠른 특성 진화의 짧은 폭발이 예상되는 시나리오를 적절하게 모델링할 수 있습니다.이 설정에서는 우도 표면이 울퉁불퉁하고 우도가 임의로 커질 수 있기 때문에 최대우도 방법이 적합하지 않으므로 베이지안 방법이 [57]더 적합합니다.

적용들

캐릭터 진화

조상재건은 계통수에서 조상절과 관련된 생태학적, 표현형 또는 생물지리학적 특성을 추론하기 위해 널리 사용된다.모든 조상 특성 재구성 방법에는 함정이 있다. 왜냐하면 그들은 수학적 모델을 사용하여 대량의 누락된 데이터로 특성이 어떻게 변화했는지를 예측하기 때문이다.이 누락된 데이터에는 멸종된 종의 상태, 진화 변화의 상대적 비율, 초기 특성 상태에 대한 지식, 그리고 계통수의 정확성이 포함됩니다.조상 특성 재구성을 사용하는 모든 경우, 모델 기반 결론을 뒷받침하는 생물학적 데이터를 조사함으로써 발견이 정당화되어야 한다.그리피스 O.W.[58]

조상들의 재구성은 진화 경로, 적응 선택, 발달 유전자 발현,[59][60] 그리고 진화과거의 기능적 분리에 대한 연구를 가능하게 한다.조상 재건의 생물학적 및 계산적 기술에 대한 검토는 Chang et al.[61]를 참조한다.선조들의 재건 계산 방법에 대한 비판은 윌리엄스 P.D.[16] 을 참조한다.

행동과 삶의 역사 진화

뿔도마뱀(피노소마속)에서는 조상재건법에 [62]따라 태생성(생태)이 여러 차례 진화했다.

갈라파고스 핀치의 식단 재건

갈라파고스 제도에 사는 핀치의 방사선에 대해서는 계통 발생과 특성 데이터를 모두 이용할 수 있다.이러한 데이터를 통해 조상 상태 재구성을 통해 시간 경과에 따른 성격 상태 변화의 시기 및 순서에 관한 가설을 테스트할 수 있습니다.건기에는 13종의 갈라파고스 핀치의 식단은 세 가지 광범위한 식단 범주로 분류될 수 있다. 첫째, 곡물과 비슷한 음식을 소비하는 것은 "초식동물"로, 절지동물을 섭취하는 것은 "식충"으로, 초목을 소비하는 것은 "각질동물"[26]로 분류된다.식충상태에서 육지상태로, 그리고 엽지상태로 두 가지 주요한 변화를 회복한다.최대 확률의 조상 상태 재구성은 크게 비슷한 결과를 회복하지만, 한가지 중요한 차이점은 나무 핀치(카마린쿠스)와 땅 핀치(지오스피자)의 공통 조상은 식충성보다는 육식성일 가능성이 높다는 것입니다.이 경우, 최대 절약과 최대 가능성으로 반환된 조상 상태 간의 차이는 ML 추정치가 계통수 [26]가지 길이를 고려한다는 사실의 결과로 발생할 수 있다.

형태학적, 생리학적 특성 진화

프리노소마티드 도마뱀은 뒷다리 근육의 상대적 근섬유형 조성을 포함하여 현저한 형태학적 다양성을 보인다.조상들에 대한 재건squared-change 절약해야 한다는(최대 가능성 브라운 운동 문자 아래에 등가 evolution[63])에 따른 뿔 달린 도마뱀, 한 계통의 세가지 주요한 subclades 그들의 iliofibularis 근육에fast-oxidative 해당 섬유의 비율에서 중요한 진화적인 증가를 겪었는지를 보여 준다.[64]

포유류의 체질량

구성 태반 포유류 종들 브라운 운동 모델에 연속적인 캐릭터 진화의 안정적인 모델을 비교하는 체질량의 분석에서, 엘리엇하고, Mooers[57]이 진화의 과정 포유류의 체질량 진화를 설명하는 가장 지속적인 캐릭터 진화의 보기 드문 사용자를 수용하는 안정적인 모델을 갖춘 것이 특징을 보여 주었다. chan큰 규모의 ges입니다.안정된 모델 하에서, 조상 포유류는 초기 다양화를 통해 낮은 체질량을 유지했고, 몇 개의 큰 체질량 종(예: 유제류)의 기원과 동시에 체질량이 크게 증가했습니다.이와는 대조적으로, 브라운 운동 모델에 의한 시뮬레이션은 조상 포유류 중에서 덜 현실적이고 큰 체질량을 회복했으며, 작은 체형을 나타내는 오더(예: 설치류)가 진화하기 전에 신체 크기를 크게 줄여야 했다.따라서 안정적인 모델은 작은 [57]가지 부분 집합에서 큰 변화가 일어나도록 함으로써 포유류의 체질량 진화에 대한 보다 사실적인 그림을 회복합니다.

상관된 특성 진화

계통학적 비교 방법(관련 분류군의 비교를 통해 도출된 추론)은 종종 독립적으로 진화하지 않는 생물학적 특성을 식별하기 위해 사용되며, 이는 근본적인 의존성을 드러낼 수 있다.예를 들어, 핀치의 부리 모양의 진화는 핀치의 먹이찾기 행동과 관련이 있을 수 있습니다.그러나 이러한 관측치는 공통 조상으로부터의 혈통이기 때문에 독립적이지 않기 때문에 측정이나 유전자 서열을 직접 비교하여 이러한 연관성을 검색하는 것은 권장되지 않는다.이산 문자의 경우, 이 문제는 두 문자가 [65][66]트리의 같은 가지에서 변화를 겪는 경향이 있는지 여부를 평가함으로써 최대 절약의 프레임워크에서 처음 다루어졌다.펠센슈타인은 지속적인 성격 진화에 대해 이 문제를 확인하고 중복되지 않는 [31]가지에 의해 관련된 나무의 노드들 사이의 "독립적 대비" 계산을 통해 분석을 지시함으로써 데이터의 계통학적 구조를 통계적으로 수용하는 조상 재구성과 유사한 해결책을 제안했다.

분자 진화

분자 수준에서 단백질의 다른 위치에 있는 아미노산 잔기는 직접 물리화학적 상호작용을 가지기 때문에 또는 공통 기질과의 상호작용 또는 단백질 구조에서의 장거리 상호작용을 통해 간접적으로 비독립적으로 진화할 수 있다.반대로 단백질의 접힌 구조는 잠재적으로 [67]잔류물 상호작용의 분포로부터 추론될 수 있다.잔류물 접촉을 통해 단백질의 3차원 구조를 예측하는 조상 재건의 초기 응용 프로그램 중 하나는 신달로프와 [68]동료들에 의해 발표되었다.67개의 서로 다른 단백질 패밀리에 관한 계통 발생은 거리 기반 클러스터링 방법(산술 평균에 의한 가중치 없는 쌍군법, UPGMA)에 의해 생성되었으며, 조상 염기서열은 근치법으로 재구성되었다.저자들은 단백질의 알려진 3차원 구조에서 공진화 잔류물 쌍이 공존하는 약하지만 유의한 경향을 보고했다.

고대 단백질과 DNA 배열의 재구성은 최근에야 중요한 과학적 노력이 되었다.생명공학 및 계통학적 추론 방법의 진보와 함께 광범위한 게놈 배열 데이터베이스의 개발은 조상들의 재건을 저렴하고, 빠르고, 과학적으로 실용적으로 만들었다.이 개념은 계통 발생과 조상 배열의 재구성을 위해 보다 발전된 방법을 사용하여 단백질 배열에서 공진하는 잔류물을 식별하기 위해 적용되었다.예를 들어, 조상들의 재구성은 RNA 바이러스 게놈, 특히 [69][70][71]HIV에 의해 암호화된 단백질에서 공진하는 잔류물을 식별하기 위해 사용되어 왔다.

조상들의 단백질과 DNA 재구성은 [61]실험실에서 단백질과 DNA의 진화를 재현하여 직접 연구할 수 있도록 한다.단백질과 관련하여, 이것은 오늘날의 분자 구조와 기능의 진화를 조사할 수 있게 한다.게다가, 조상들의 단백질 재구성은 현대 [72][73]단백질에서 상실된 새로운 생화학적 기능의 발견으로 이어질 수 있다.그것은 또한 멸종된 [74]유기체의 생물학과 생태에 대한 통찰력을 준다.비록 대부분의 조상들의 재구성은 단백질을 다루었지만, 그것은 또한 박테리아[75] 게놈과 영장류 유전자 [76]배열 수준에서 진화 메커니즘을 테스트하는데도 사용되어 왔다.

백신 설계

인간면역결핍바이러스(HIV)와 같은 RNA 바이러스는 포유류나 조류보다 훨씬 빠른 속도로 진화한다.이러한 유기체의 경우, 조상 재건은 훨씬 짧은 시간 단위로 적용될 수 있습니다. 예를 들어, 수백만 년이 아닌 수십 년 동안 지속된 전염병의 전지구적 또는 지역적 조상을 재구성하기 위해서입니다.Brian Gaschen[77] 교수팀은 현재 환자로부터 격리된 염기서열과는 달리 그러한 재구성된 균주를 백신 설계 작업의 대상으로 사용할 것을 제안했다.HIV는 매우 다양하기 때문에 한 환자의 바이러스 집단에 작용하도록 설계된 백신은 다른 환자에게는 효과가 없을 수 있습니다. 왜냐하면 이 두 바이러스 사이의 진화적 거리가 클 수 있기 때문입니다.하지만, 그들의 가장 최근의 공통 조상은 서로보다 두 바이러스 각각에 더 가깝습니다.따라서, 공통의 조상을 위해 고안된 백신은 순환하는 균주의 더 많은 비율에 효과가 있을 가능성이 더 높다.또 다른 팀은 현대 변종과의 총 진화 거리가 가능한 [78]한 작은 배열을 만들기 위해 나무 중심 재구성 방법을 개발함으로써 이 아이디어를 더 발전시켰다.엄밀히 말하면, 이 방법은 조상의 재구성은 아니었는데, 이는 나무의 중심 배열(COT)이 바이러스의 진화 역사에 존재했던 배열을 나타내는 것은 아니기 때문이다.그러나 Rolland와 동료들은 HIV의 경우 COT 바이러스가 합성되었을 때 기능한다는 것을 발견했다.최대 가능성 재구성에 의해 얻어진 합성 조상의 배열에 대한 유사한 실험은 마찬가지로 이러한 조상이 기능적이고 면역성을 [79][80]유발한다는 것을 보여주며, 이러한 방법에 어느 정도 신빙성을 부여한다.게다가, 선조들의 재구성은 잠재적으로 다음 감염을 확립하기 위해 진행되었던 전염된 HIV 변이체의 유전자 서열을 추론하는데 사용될 수 있다. 이러한 변이체의 구별되는 특징들을 식별하기 위한 목적 (바이러스의 전염된 모집단의 비랜덤 선택으로서) f를 목표로 할 수 있다.또는 백신 설계.[81]

게놈 재배치

조상들의 DNA 서열을 추론하기 보다는, 사람들은 조상들의 게놈의 더 큰 규모의 분자 구조와 함량에 관심을 가질 수 있다.이 문제는 종종 유전자 또는 상동 영역의 배열로 게놈을 모델링함으로써 조합 프레임워크에서 접근한다.이러한 순열에는 반전(치환의 한 부분이 제자리에 반전됨), 삭제(세그먼트가 제거됨), 전위(치환의 한 부분에서 제거되고 다른 어딘가에서 결합됨), 또는 재조합, 복제 또는 수평 유전자 전달을 통한 유전자 내용물의 획득과 같은 다양한 조작이 허용된다.. Watterson과 [20]동료들에 의해 처음 제기되는 "게놈 재배치 문제"는 다음과 같이 묻습니다: 두 개의 게놈(변성)과 일련의 허용 가능한 조작이 주어진다면, 한 게놈을 다른 게놈으로 변환하는 가장 짧은 조작 순서는 무엇일까요?이 문제는 조상들의 재건에 적용 가능한 일반화는"다중 유전자 재배열 문제":[82],(나는)의 잎들을 지정된 게놈으로 이진 나무 찾고, 게놈의 나무의 내부 노드에(ii)숙제를 게놈 일련의 허용 작업 집합이 주어지는 것처럼 operatio의 총 수입니다.ns최소화할 수 있습니다.이 접근법은 나무가 조상들의 순서와 함께 추론된다는 점을 제외하고는 절약과 유사하다.불행히도 단일 게놈 재배치 문제조차 수학과 컴퓨터 과학에서 많은 관심을 받아왔지만 NP-hard이다([83]검토는 Pertin과 동료[84] 참조).

조상 게놈의 재구성은 핵형 재구성이라고도 불린다.염색체 그림은 현재 주요 실험 [85][86]기술이다.최근 연구자들은 비교 유전체학을 이용[87][88]조상들의 핵형을 재구성하는 계산 방법을 개발했다.또한 비교 유전체학 및 조상 게놈 재구성은 특성 획득을 위한 진화적 기반을 식별하기 위해 혈통의 마지막 공통 조상(예를 들어 칸디다투스 어큐뮬리박터[89] 포스파티스)에서 고대 수평 유전자 전달 이벤트를 식별하기 위해 적용되었다.

공간 응용 프로그램

이행

조상들의 재건은 생물학적 특징에 국한되지 않는다.공간적 위치 또한 특징이며, 조상 재건 방법은 고려 대상 개인의 조상 위치를 유추할 수 있다.이러한 기술은 레미와 동료들이[19] 유럽과 아시아의 20개 지역에서 채취한 192개의 조류 인플루엔자 A-H5N1 변종의 조상을 지리적으로 추적하기 위해, 그리고 12개 아프리카 국가에서 채취한 101개의 광견병 바이러스 염기서열을 추적하기 위해 사용했다.

위치를 이산 상태(국가, 도시 등)로 취급하면 위에서 설명한 이산 상태 모델을 적용할 수 있다.그러나 특성의 상태 공간이 작은 모델과는 달리, 많은 위치가 있을 수 있으며, 특정 상태 쌍 간의 전환은 거의 또는 전혀 발생하지 않을 수 있습니다. 예를 들어, 두 장소 간의 항공 이동이 존재하지 않는 경우 원격 지역 간의 마이그레이션이 직접 발생하지 않을 수 있으므로, 이러한 마이그레이션은 중간을 통과해야 합니다.로케일을 먼저 먹었다.즉, 모형에 0에 가깝거나 0에 가까운 많은 모수가 있을 수 있습니다.이를 위해 Lemey와 동료들은 베이지안 절차를 사용하여 매개 변수와 조상 상태를 추정할 뿐만 아니라 어떤 마이그레이션 매개 변수를 0이 아닌 것으로 선택할 수 있습니다. 이들의 연구는 이 절차가 데이터를 보다 효율적으로 사용할 수 있음을 시사합니다.그들은 또한 이동 역학에 대한 지리적 구조나 가설을 통합한 이전 분포의 사용을 탐색하고, 그들이 고려했던 것들이 발견에 거의 영향을 미치지 않는다는 것을 발견했다.

이 분석을 통해 Lemey 주변 연구팀은 A-H5N1의 확산 중심지가 광둥성이고 홍콩도 후방 지원을 받고 있음을 발견했다.게다가, 그들의 결과는 서아프리카에 아프리카 광견병이 오랫동안 존재했다는 가설을 뒷받침한다.

종의 범위

역사적 생물지리학적 패턴을 추론하는 것은 종종 [90]계통수에서 조상의 종의 범위를 재구성하는 것을 필요로 한다.예를 들어, Cyrtandra속[90] 식물 종의 잘 분해된 계통 발생학을 그들의 지리적 범위 정보와 함께 사용하여 조상 범위 재구성의 네 가지 방법을 비교했다.연구팀은 피치 [23]절약성, (FP; 절약성) 확률적[91] 매핑(SM; 최대우도), 분산-이변성 분석[92](DIVA; 절약성), 분산-소멸-클래드[18][93] 생성(DEC; 최대우도)을 비교했다.결과는 두 가지 절약법 모두 성능이 낮았으며, 이는 절약법이 분기 길이를 고려하지 않았기 때문일 가능성이 높습니다.두 가지 최대우도 방법 모두 더 잘 수행되었지만, 지질학적 우선 순위 통합을 추가로 허용하는 DEC 분석은 다른 방법에 [90]비해 시르탄드라에서의 범위 진화에 대한 보다 현실적인 추론을 제공했다.

다른 최대우도법은 표본 분류군의 조상 위치를 재구성함으로써 유전자의[94] 계통학적 이력을 회복한다.이 방법은 계통수 팁으로 대표되는 개인의 지리적 좌표가 주어진 조상 위치를 재구성하기 위해 공간적으로 명시적인 무작위 이동 모델을 가정한다.코러스 개구리 Pseudacris feriarum의 계통수에 적용했을 때, 이 방법은 최근 북쪽 확장, 최근 식민지화된 지역의 세대별 분산 거리 증가, 중앙이 아닌 조상 위치 및 방향 [94]이동을 회복했다.

SturtevantDobzhansky[95]의해 추론된 Drosophila pseudoobscura의 7개 지역 균주의 계통 발생.표시된 시퀀스는 원본 논문에 해당하지 않지만 A(63A-65B), B(65C-68D), C(69A-70A), D(70B-70D), E(71A-71B), F(71A-73A)와 같이 저자의 동반[14] 논문 표기에서 파생되었다.저자가 추론한 반전은 가지를 따라 파란색으로 강조 표시됩니다.

다중 게놈 재배열 문제에 대한 첫 번째 고려는 1936년 [95]스터테반트와 돕잔스키에 의해 제시되었다.그들은 서로 다른 지역에서 온 여러 종의 초파리의 게놈을 조사했고, 그들이 "표준"이라고 부르는 한 가지 구성이 모든 연구된 지역에서 가장 흔하다는 것을 관찰했다.놀랍게도, 그들은 또한 4개의 다른 변종이 표준 배열에서 단일 반전에 의해 얻어질 수 있고, 다른 두 개의 변종은 두 번째 반전에 의해 관련될 수 있다는 것을 알아냈습니다.이를 통해 그들은 배열에 대한 계통 발생 가설을 세울 수 있었고, 표준 배열도 아마도 조상이었을 것이라고 추론할 수 있었다.

언어의 진화

인도유럽조어와 같은 고대 언어들의 단어와 페넘의 재구성은 현대 언어에서 관찰된 유추에 기초하여 수행되었다.일반적으로 이러한 분석은 "비교 방법"[96]을 사용하여 수동으로 수행됩니다.첫째, 공통 어원(인지)을 가진 다른 언어에서 온 단어들은 연구 중인 현대 언어에서 확인되는데, 이는 직교 생물학적 배열의 확인과 유사하다.둘째, 동종의 개별 소리 사이의 대응이 식별되며, 이는 수동으로 수행되기는 하지만 생물학적 배열 정렬과 유사한 단계이다.마지막으로, 조상의 소리는 수동 검사와 다양한 휴리스틱스(예를 들어, 대부분의 언어가 비음과 비음 [96]모음을 모두 가지고 있다는 사실)로 가설을 세운다.

소프트웨어

조상 재건을 수행할 수 있는 소프트웨어 패키지가 많이 있습니다.일반적으로 이러한 소프트웨어 패키지는 관련 분야의 과학자들의 노력을 통해 개발 및 유지 관리되며 무료 소프트웨어 라이센스로 출시됩니다.다음 표는 사용 가능한 모든 패키지의 포괄적인 항목 분류를 의미하는 것은 아니지만, 다양한 강도와 특징을 가진 조상 재건 방법을 구현하는 광범위한 패키지의 대표적인 샘플을 제공한다.

이름. 방법들 플랫폼 입력 ! 문자 유형 연속 문자(C) 또는 이산 문자(D) 소프트웨어 라이선스
PAML 최대우도 Unix, Mac, Win PHYLIP, NEXUS, FASTA 뉴클레오티드, 단백질 D GNU General Public License 버전 3
비스트 베이지안 Unix, Mac, Win NEXUS, BEAST XML 뉴클레오티드, 단백질, 지리 C, D GNU 약소 일반 공중 사용 허가서
phytools 최대우도 Unix, Mac, Win newick, nexus 질적 및 정량적 특성 C, D GNU 일반 공중 라이선스
유인원 최대우도 Unix, Mac, Win NEXUS, FASTA, 클러스터 뉴클레오티드, 단백질 C, D GNU 일반 공중 라이선스
다양체 최대우도 Unix, Mac, Win 넥서스 질적 및 정량적 특성, 지리적 특성 C, D GNU General Public License 버전 2
하이파이 최대우도 Unix, Mac, Win 메가, 넥서스, FASTA, PHYLIP 뉴클레오티드, 단백질(맞춤 가능) D GNU 프리 매뉴얼 라이선스 1.3
베이즈트레이츠 베이지안 Unix, Mac, Win TSV 또는 스페이스 구분 테이블.행은 종이고 열은 특성입니다. 질적 및 정량적 특성 C, D Creative Commons 속성 라이선스
라그랑주 최대우도 Linux, Mac, Win 종별 지역의 TSV/CSV.행은 종이고 열은 지리적 영역입니다. 지리적 - GNU General Public License 버전 2
메스키트 절약, 최대우도 Unix, Mac, Win Fasta, NBRF, Genbank, PHYLIP, CLUSTAL, TSV 뉴클레오티드, 단백질, 지리 C, D Creative Commons Attribution 3.0 라이선스
필로마퍼 최대우도, 베이지안(버전 2 이후) Unix, Mac, Win 넥서스 지리적, 생태적 틈새 C, D -
조상 최대우도 패스트 뉴클레오티드(인델) D -
파이렉스 최대 절약량 리눅스 패스트 유전자 발현 C, D 독자 사양
ProtASR 최대우도 리눅스 필립 단백질(구조적 제약을 고려) D GNU 일반 공중 라이선스
심맵 확률적 매핑 XML 라이크 포맷 뉴클레오티드, 질적 특성 D 독자 사양
베이즈 씨 베이지안 Unix, Mac, Win 넥서스 뉴클레오티드, 단백질 D GNU 일반 공중 라이선스
파라나 최대 절약량 Unix, Mac, Win 뉴익 생물 네트워크 D Apache 라이선스
페이스트(프리퀄) 최대우도 Unix, Mac, Win 다중 정렬 뉴클레오티드 D BSD 라이선스
밧줄 최대우도, 베이지안 Unix, Mac, Win 뉴익 지리적 D -
VIP 최대 절약량 Linux, Win 뉴익 지리적 D(그리드) GPL 크리에이티브 커먼스
FastML 최대우도 웹, Unix 패스트 뉴클레오티드, 단백질 D 저작권
MLGO 최대우도 관습 유전자순열 D GNU
오소리 베이지안 Unix, Mac, Win 관습 유전자순열 D GNU GPL 버전 2
세어보세요 최대 절약성, 최대 가능성 Unix, Mac, Win 열의 데이터 수 및 분류에 대한 행의 탭 구분 텍스트 파일입니다. 카운트(숫자) 데이터(예: 상동 계열 크기) D BSD
메가 최대 절약, 최대 가능성 Mac, Win 메가 뉴클레오티드, 단백질 D 독자 사양
앵글씨 로컬 절약 유닉스 관습 게놈 지도 D GNU General Public License 버전 3
해독하다 최대우도 Unix, Mac, Win FASTA, GenBank 뉴클레오티드 D GNU General Public License 버전 3
EREM 최대 가능성 Win, Unix, Matlab 모듈 모형 매개변수, 트리, 관측된 문자 값의 사용자 정의 텍스트 형식입니다. 바이너리 D 지정되지 않았지만 사이트에는 소프트웨어를 자유롭게 사용할 수 있다고 표시되어 있습니다.

패키지 설명

분자 진화

이러한 소프트웨어 패키지의 대부분은 유전자 배열 데이터를 분석하기 위해 설계되었습니다.예를[97] 들어, PAML은 DNA와 단백질 배열의 계통학적 분석을 위한 프로그램의 모음이다.선조들의 재구성은 코뎀 프로그램을 사용하여 수행될 수 있다.또한 LAZARUS는 PAML의 이전 재구성 기능을 일괄 처리하여 사용 [98]편의성을 높인 Python 스크립트 모음입니다.MEGA, HyPhy 및 Mesquite와 같은 소프트웨어 패키지도 시퀀스 데이터의 계통 분석을 수행하지만 보다 모듈화되어 사용자 지정이 가능하도록 설계되었습니다.HyPhy는[99] 배치 언어로 맞춤형 모델을 지정함으로써 지리적 위치와 같은 이산 조상 특성 상태의 보다 일반적인 범위를 재구성하는 데 쉽게 적응할 수 있는 조상 시퀀스[9] 재구성의 공동 최대우도 방법을 구현한다.메스콰이트는[100] 최대 절약 및 최대우도 방법을 모두 사용하여 이산 및 연속 문자에 대한 조상 상태 재구성 방법을 제공합니다.또한 조상 재건의 결과를 해석하기 위한 몇 가지 시각화 도구도 제공합니다.MEGA도 모듈식 시스템이지만 분석 맞춤보다는 사용 편의성에 중점을 두고 있습니다[101].버전 5에서 MEGA는 사용자가 최대 절약, 최대우도 및 경험적 베이즈 [101]방법을 사용하여 조상 상태를 재구성할 수 있도록 합니다.

유전자 배열의 베이지안 분석은 모델 오특정에 더 큰 견고성을 부여할 수 있다.MrBayes는[102] 완전한 계층적 베이지안 접근법을 사용하여 조상 노드에서의 조상 상태를 추론할 수 있다.PREQPHAST[103] 패키지에 배포된 UEL 프로그램은 조상 배열 재구성을 이용하여 비교 진화 유전체학을 실행한다.SIMMAP은[104] 계통 발생에 대한 돌연변이를 확률적으로 매핑한다.BayesTraits는[34] 베이지안 프레임워크에서 이산 문자 또는 연속 문자를 분석하여 진화 모델을 평가하고, 조상 상태를 재구성하고, 특성 쌍 간의 상관된 진화를 탐지합니다.ProtASR은 구조적 [105][106]제약을 설명하는 단백질의 조상 배열 재구성(ASR)을 수행한다.

기타 문자 유형

다른 소프트웨어 패키지는 질적 및 정량적 특성(페노트형)을 분석하는 데 더 중점을 두고 있습니다.예를 들어 통계 컴퓨팅 환경 R의 유인원[107] 패키지는 최대우도를 포함한 'ace' 함수를 통해 이산 문자 및 연속 문자 모두에 대한 조상 상태 재구성을 위한 방법을 제공한다.Phyrex는 (PAML의 [108]기저 기능을 감싸는 것에 의해) 조상 유전자 염기서열을 재구성하기 위한 최대우도 방법 외에 조상 유전자 발현 프로파일을 재구성하기 위해 최대 근소 기반 알고리즘을 구현한다.

몇몇 소프트웨어 패키지는 또한 계통지리를 재구성합니다.BEAST(Bayesian Evolutionary Analysis by Sampling Tree)[109]Bayesian MCMC 샘플링 방법을 사용하여 위치 데이터에 주석을 단 관찰된 시퀀스에서 선조들의 지리적 위치를 재구성하기 위한 도구를 제공한다.Diversitree는[110] Mk2(이진성 [111]진화의 연속 시간 마르코프 모델)에 따른 조상 상태 재구성을 위한 방법을 제공하는 R 패키지이다.및 BiSSE(Binary State Specification and Evolution) 모델입니다.Lagrange는 계통수에서 [18]지리적 범위 진화의 재구성에 대한 분석을 수행한다.Phylomapper는[94] 유전자 흐름의 역사적 패턴과 조상의 지리적 위치를 추정하기 위한 통계 프레임워크입니다.RASP는 통계적 분산-가변성 분석, 라그랑주, 베이-라그랑주, 베이 영역 및 BBM 방법을 사용하여 조상 상태를 추론한다[112].VIP는[113] 분리된 지리적 분포를 조사함으로써 역사적인 생물지리를 추론한다.

게놈 재배열은 종간 비교 유전체학에서 귀중한 정보를 제공한다.ANGES는[114] 유전자 표지의 조상 재구성을 통해 현존하는 관련 게놈을 비교한다.BADGER는[115] 유전자 재배열의 역사를 조사하기 위해 베이지안 접근법을 사용한다.카운트는[116] 유전자 패밀리 크기의 진화를 재구성합니다.EREM은[117] 이진 문자로 인코딩된 유전적 특징의 득실을 분석합니다.PARANA는[118] 유전자 손실과 복제를 나타내는 조상 생체 네트워크의 근소한 추론을 수행합니다.

웹 응용 프로그램

마지막으로, 조사자들이 소프트웨어를 설치하지 않고도 다양한 문자 유형의 조상 재구성을 위해 최대한의 가능성 방법을 사용할 수 있는 웹 서버 기반 애플리케이션이 몇 가지 있습니다.예를 들어, Faturns는 합성[119] 영역의 식별과 배치를 통해 조상 게놈을 재구성하기 위한 웹 서버입니다.FastML은[120] 지워진 변동을 재구성하기 위해 갭 문자 모델을 사용하는 최대 우도에 의한 조상 시퀀스의 확률론적 재구성을 위한 웹 서버이다.MLGO는[121] 최대우도 유전자 순서 분석을 위한 웹 서버입니다.

장래의 방향

조상 재건을 위한 계산 알고리즘의 개발과 적용은 여러 분야에 걸친 활발한 연구 영역이다.예를 들어, 시퀀스 삽입 및 삭제(인델)의 재구성은 보다 직접적인 대체 모델 적용에 뒤처졌다.부샤르-코테와 조던은 최근 씻지 않는 [123]진화의 원형인 토르네-키시노-펠센슈타인 모델에서 중요한 진보를 나타내는 새로운 모델(포아송 씻지 않는 과정)[122]을 설명했다.또한 이 분야는 맞춤형 장치에서 배열 반응을 광범위하게 병렬화함으로써 수백만 개의 핵산 템플릿에서 배열을 생성하는 차세대 배열 기술 분야의 급속한 발전에 의해 추진되고 있다.이러한 발전은 RNA[124] 바이러스나 종양 [125]세포와 같이 빠르게 진화하는 인구의 유전자 구성에 대한 "깊은" 스냅샷을 비교적 짧은 시간 내에 생성하는 것을 가능하게 했다.동시에 방대한 양의 데이터와 플랫폼 고유의 시퀀스 오류 프로파일로 인해 조상 시퀀스 재구성을 위해 이러한 데이터를 처리하는 데 새로운 생체 정보적 문제가 발생했습니다.

「 」를 참조해 주세요.

레퍼런스

이 문서는 CC BY 4.0, § 4.0 면허(2015)(검토자 보고서)에 따라 다음 출처에서 수정되었다. Jeffrey B Joy; Richard H Liang; Rosemary M McCloskey; T Nguyen; Art Poon (12 July 2016). "Ancestral Reconstruction". PLOS Computational Biology. 12 (7): e1004763. doi:10.1371/JOURNAL.PCBI.1004763. ISSN 1553-734X. PMC 4942178. PMID 27404731. Wikidata Q28596371.

  1. ^ a b Omland KE (1999). "The Assumptions and Challenges of Ancestral State Reconstructions". Systematic Biology. 48 (3): 604–611. doi:10.1080/106351599260175. ISSN 1063-5157.
  2. ^ Cai W, Pei J, Grishin NV (September 2004). "Reconstruction of ancestral protein sequences and its applications". BMC Evolutionary Biology. 4 (1): 33. doi:10.1186/1471-2148-4-33. PMC 522809. PMID 15377393.
  3. ^ Platnick NI, Cameron HD (1977). "Cladistic Methods in Textual, Linguistic, and Phylogenetic Analysis". Systematic Zoology. 26 (4): 380–385. doi:10.2307/2412794. ISSN 0039-7989. JSTOR 2412794.
  4. ^ Tehrani JJ (2013). "The phylogeny of Little Red Riding Hood". PLOS ONE. 8 (11): e78871. Bibcode:2013PLoSO...878871T. doi:10.1371/journal.pone.0078871. PMC 3827309. PMID 24236061.
  5. ^ Walker RS, Hill KR, Flinn MV, Ellsworth RM (April 2011). "Evolutionary history of hunter-gatherer marriage practices". PLOS ONE. 6 (4): e19066. Bibcode:2011PLoSO...619066W. doi:10.1371/journal.pone.0019066. PMC 3083418. PMID 21556360.
  6. ^ Arenas M (2015). "Trends in substitution models of molecular evolution". Frontiers in Genetics. 6: 319. doi:10.3389/fgene.2015.00319. PMC 4620419. PMID 26579193.
  7. ^ Brooks DR (1999). Phylogenies and the Comparative Method in Animal Behavior, Edited by Emı̀ia P. Martins, Oxford University Press, 1996. X+415 pp. Behavioural Processes. Vol. 47. pp. 135–136. doi:10.1016/S0376-6357(99)00038-8. ISBN 978-0-19-509210-3. ISSN 0376-6357. PMID 24896936. S2CID 9872907.
  8. ^ Del Amparo R, Arenas M (July 2022). "Consequences of Substitution Model Selection on Protein Ancestral Sequence Reconstruction". Molecular Biology and Evolution. 39 (7): msac144. doi:10.1093/molbev/msac144. PMC 9254009. PMID 35789388.
  9. ^ a b c Pupko T, Pe'er I, Shamir R, Graur D (June 2000). "A fast algorithm for joint reconstruction of ancestral amino acid sequences". Molecular Biology and Evolution. 17 (6): 890–896. doi:10.1093/oxfordjournals.molbev.a026369. PMID 10833195.
  10. ^ Arenas M, Posada D (April 2010). "The effect of recombination on the reconstruction of ancestral sequences". Genetics. 184 (4): 1133–1139. doi:10.1534/genetics.109.113423. PMC 2865913. PMID 20124027.
  11. ^ a b c Pagel M, Meade A, Barker D (October 2004). "Bayesian estimation of ancestral character states on phylogenies". Systematic Biology. 53 (5): 673–684. doi:10.1080/10635150490522232. PMID 15545248.
  12. ^ Sanger F, Thompson EO, Kitai R (March 1955). "The amide groups of insulin". The Biochemical Journal. 59 (3): 509–518. doi:10.1042/bj0590509. PMC 1216278. PMID 14363129.
  13. ^ Pauling L, Zuckerkandl E, Henriksen T, Lövstad R (1963). "Chemical Paleogenetics. Molecular "Restoration Studies" of Extinct Forms of Life". Acta Chemica Scandinavica. 17 (suplement): 9–16. doi:10.3891/acta.chem.scand.17s-0009. ISSN 0904-213X.
  14. ^ a b Dobzhansky T, Sturtevant AH (January 1938). "Inversions in the Chromosomes of Drosophila Pseudoobscura". Genetics. 23 (1): 28–64. doi:10.1093/genetics/23.1.28. PMC 1209001. PMID 17246876.
  15. ^ Harms MJ, Thornton JW (June 2010). "Analyzing protein structure and function using ancestral gene reconstruction". Current Opinion in Structural Biology. 20 (3): 360–366. doi:10.1016/j.sbi.2010.03.005. PMC 2916957. PMID 20413295.
  16. ^ a b c d Williams PD, Pollock DD, Blackburne BP, Goldstein RA (June 2006). "Assessing the accuracy of ancestral protein reconstruction methods". PLOS Computational Biology. 2 (6): e69. Bibcode:2006PLSCB...2...69W. doi:10.1371/journal.pcbi.0020069. PMC 1480538. PMID 16789817.
  17. ^ Ronquist F (September 2004). "Bayesian inference of character evolution". Trends in Ecology & Evolution. 19 (9): 475–481. doi:10.1016/j.tree.2004.07.002. PMID 16701310.
  18. ^ a b c Ree RH, Smith SA (February 2008). "Maximum likelihood inference of geographic range evolution by dispersal, local extinction, and cladogenesis". Systematic Biology. 57 (1): 4–14. doi:10.1080/10635150701883881. PMID 18253896.
  19. ^ a b Lemey P, Rambaut A, Drummond AJ, Suchard MA (September 2009). "Bayesian phylogeography finds its roots". PLOS Computational Biology. 5 (9): e1000520. Bibcode:2009PLSCB...5E0520L. doi:10.1371/journal.pcbi.1000520. PMC 2740835. PMID 19779555.
  20. ^ a b Watterson GA, Ewens WJ, Hall TE, Morgan A (1982). "The chromosome inversion problem". Journal of Theoretical Biology. 99 (1): 1–7. Bibcode:1982JThBi..99....1W. doi:10.1016/0022-5193(82)90384-8. ISSN 0022-5193.
  21. ^ Tuffley C, Steel M (May 1997). "Links between maximum likelihood and maximum parsimony under a simple model of site substitution". Bulletin of Mathematical Biology. 59 (3): 581–607. doi:10.1007/BF02459467. PMID 9172826. S2CID 189885872.
  22. ^ Swofford DL, Maddison WP (1987). "Reconstructing ancestral character states under Wagner parsimony". Mathematical Biosciences. 87 (2): 199–229. doi:10.1016/0025-5564(87)90074-5. ISSN 0025-5564.
  23. ^ a b Fitch WM (1971). "Toward Defining the Course of Evolution: Minimum Change for a Specific Tree Topology". Systematic Zoology. 20 (4): 406–416. doi:10.2307/2412116. ISSN 0039-7989. JSTOR 2412116.
  24. ^ Stamatakis A (November 2006). "RAxML-VI-HPC: maximum likelihood-based phylogenetic analyses with thousands of taxa and mixed models". Bioinformatics. 22 (21): 2688–2690. doi:10.1093/bioinformatics/btl446. PMID 16928733.
  25. ^ Sankoff D (1975). "Minimal Mutation Trees of Sequences". SIAM Journal on Applied Mathematics. 28 (1): 35–42. CiteSeerX 10.1.1.665.9596. doi:10.1137/0128004. ISSN 0036-1399.
  26. ^ a b c d e Schluter D, Price T, Mooers AØ, Ludwig D (December 1997). "Likelihood of Ancestor States in Adaptive Radiation". Evolution; International Journal of Organic Evolution. 51 (6): 1699–1711. doi:10.2307/2410994. JSTOR 2410994. PMID 28565128.
  27. ^ Felsenstein J (1973). "Maximum Likelihood and Minimum-Steps Methods for Estimating Evolutionary Trees from Data on Discrete Characters". Systematic Zoology. 22 (3): 240–249. doi:10.2307/2412304. ISSN 0039-7989. JSTOR 2412304.
  28. ^ a b c Cunningham CW, Omland KE, Oakley TH (September 1998). "Reconstructing ancestral character states: a critical reappraisal". Trends in Ecology & Evolution. 13 (9): 361–366. doi:10.1016/S0169-5347(98)01382-2. PMID 21238344. S2CID 6779286.
  29. ^ Mooers AØ, Schluter D (1999). "Reconstructing Ancestor States with Maximum Likelihood: Support for One- and Two-Rate Models". Systematic Biology. 48 (3): 623–633. CiteSeerX 10.1.1.594.175. doi:10.1080/106351599260193. ISSN 1063-5157.
  30. ^ Li G, Steel M, Zhang L (August 2008). "More taxa are not necessarily better for the reconstruction of ancestral character states". Systematic Biology. 57 (4): 647–653. arXiv:0803.0195. doi:10.1080/10635150802203898. PMID 18709600. S2CID 1373201.
  31. ^ a b Felsenstein J (1985). "Phylogenies and the Comparative Method". The American Naturalist. 125 (1): 1–15. doi:10.1086/284325. ISSN 0003-0147. S2CID 9731499.
  32. ^ a b c d Yang Z, Kumar S, Nei M (December 1995). "A new method of inference of ancestral nucleotide and amino acid sequences". Genetics. 141 (4): 1641–1650. doi:10.1093/genetics/141.4.1641. PMC 1206894. PMID 8601501.
  33. ^ Koshi JM, Goldstein RA (February 1996). "Probabilistic reconstruction of ancestral protein sequences". Journal of Molecular Evolution. 42 (2): 313–320. Bibcode:1996JMolE..42..313K. CiteSeerX 10.1.1.1031.2646. doi:10.1007/BF02198858. PMID 8919883. S2CID 15997589.
  34. ^ a b Pagel M (1999). "The Maximum Likelihood Approach to Reconstructing Ancestral Character States of Discrete Characters on Phylogenies". Systematic Biology. 48 (3): 612–622. doi:10.1080/106351599260184. ISSN 1063-5157.
  35. ^ Guindon S, Gascuel O (October 2003). "A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood". Systematic Biology. 52 (5): 696–704. doi:10.1080/10635150390235520. PMID 14530136.
  36. ^ Doornik JA, Ooms M (2003). "Computational aspects of maximum likelihood estimation of autoregressive fractionally integrated moving average models". Computational Statistics & Data Analysis. 42 (3): 333–348. doi:10.1016/S0167-9473(02)00212-8. ISSN 0167-9473.
  37. ^ a b Felsenstein J (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–376. Bibcode:1981JMolE..17..368F. doi:10.1007/BF01734359. PMID 7288891. S2CID 8024924.
  38. ^ Eyre-Walker A (December 1998). "Problems with parsimony in sequences of biased base composition". Journal of Molecular Evolution. 47 (6): 686–690. Bibcode:1998JMolE..47..686E. doi:10.1007/PL00006427. PMID 9847410. S2CID 26128712.
  39. ^ Pupko T, Pe'er I, Hasegawa M, Graur D, Friedman N (August 2002). "A branch-and-bound algorithm for the inference of ancestral amino-acid sequences when the replacement rate varies among sites: Application to the evolution of five gene families". Bioinformatics. 18 (8): 1116–1123. doi:10.1093/bioinformatics/18.8.1116. PMID 12176835.
  40. ^ Gruenheit N, Lockhart PJ, Steel M, Martin W (July 2008). "Difficulties in testing for covarion-like properties of sequences under the confounding influence of changing proportions of variable sites". Molecular Biology and Evolution. 25 (7): 1512–1520. doi:10.1093/molbev/msn098. PMID 18424773.
  41. ^ Huelsenbeck JP, Ronquist F (August 2001). "MRBAYES: Bayesian inference of phylogenetic trees". Bioinformatics. 17 (8): 754–755. doi:10.1093/bioinformatics/17.8.754. PMID 11524383.
  42. ^ Yang Z (October 1997). "PAML: a program package for phylogenetic analysis by maximum likelihood". Computer Applications in the Biosciences. 13 (5): 555–556. doi:10.1093/bioinformatics/13.5.555. PMID 9367129.
  43. ^ a b Huelsenbeck JP, Bollback JP (June 2001). "Empirical and hierarchical Bayesian estimation of ancestral states". Systematic Biology. 50 (3): 351–366. CiteSeerX 10.1.1.319.4271. doi:10.1080/106351501300317978. PMID 12116580.
  44. ^ Lutzoni F, Pagel M, Reeb V (June 2001). "Major fungal lineages are derived from lichen symbiotic ancestors". Nature. 411 (6840): 937–940. Bibcode:2001Natur.411..937L. doi:10.1038/35082053. PMID 11418855. S2CID 4414913.
  45. ^ Hanson-Smith V, Kolaczkowski B, Thornton JW (September 2010). "Robustness of ancestral sequence reconstruction to phylogenetic uncertainty". Molecular Biology and Evolution. 27 (9): 1988–1999. doi:10.1093/molbev/msq081. PMC 2922618. PMID 20368266.
  46. ^ Hillis DM, Bull JJ, White ME, Badgett MR, Molineux IJ (January 1992). "Experimental phylogenetics: generation of a known phylogeny". Science. 255 (5044): 589–592. Bibcode:1992Sci...255..589H. doi:10.1126/science.1736360. PMID 1736360.
  47. ^ Oakley TH, Cunningham CW (April 2000). "Independent contrasts succeed where ancestor reconstruction fails in a known bacteriophage phylogeny". Evolution; International Journal of Organic Evolution. 54 (2): 397–405. doi:10.1554/0014-3820(2000)054[0397:ICSWAR]2.0.CO;2. PMID 10937216. S2CID 198153271.
  48. ^ Finarelli JA, Flynn JJ (April 2006). "Ancestral state reconstruction of body size in the Caniformia (Carnivora, Mammalia): the effects of incorporating data from the fossil record". Systematic Biology. 55 (2): 301–313. doi:10.1080/10635150500541698. PMID 16611601.
  49. ^ Albert JS, Johnson DM, Knouft JH (2009). "Fossils provide better estimates of ancestral body size than do extant taxa in fishes". Acta Zoologica. 90: 357–384. doi:10.1111/j.1463-6395.2008.00364.x. ISSN 0001-7272.
  50. ^ Slater GJ, Harmon LJ, Alfaro ME (December 2012). "Integrating fossils with molecular phylogenies improves inference of trait evolution". Evolution; International Journal of Organic Evolution. 66 (12): 3931–3944. doi:10.1111/j.1558-5646.2012.01723.x. PMID 23206147. S2CID 24390146.
  51. ^ Webster AJ, Purvis A (January 2002). "Testing the accuracy of methods for reconstructing ancestral states of continuous characters". Proceedings. Biological Sciences. 269 (1487): 143–149. doi:10.1098/rspb.2001.1873. PMC 1690869. PMID 11798429.
  52. ^ Maddison WP, Midford PE, Otto SP (October 2007). "Estimating a binary character's effect on speciation and extinction". Systematic Biology. 56 (5): 701–710. doi:10.1080/10635150701607033. PMID 17849325.
  53. ^ a b Martins EP (1994). "'Estimating the rate of phenotypic evolution from comparative data". American Naturalist. 144 (2): 193–209. doi:10.1086/285670. S2CID 85300707.
  54. ^ Felsenstein J (1988). "Phylogenies and quantitative characters". Annual Review of Ecology and Systematics. 19: 445–471. doi:10.1146/annurev.ecolsys.19.1.445.
  55. ^ Garland Jr T, Dickerman AW, Janis CM, Jones JA (1993). "Phylogenetic analysis of covariance by computer simulation". Systematic Biology. 42 (3): 265–292. doi:10.1093/sysbio/42.3.265.
  56. ^ 쿠퍼, 노스, G. H. 토마스, C.벤디티, A.미드, 그리고 R.P. 주근깨틀턴, 2015년.거시 진화 연구에서의 Ornstein Uhlenbeck 모델 사용에 대한 주의사항.린니 학회의 생물학 저널.
  57. ^ a b c d Elliot MG, Mooers AØ (November 2014). "Inferring ancestral states without assuming neutrality or gradualism using a stable model of continuous character evolution". BMC Evolutionary Biology. 14 (1): 226. doi:10.1186/s12862-014-0226-8. PMC 4266906. PMID 25427971.
  58. ^ Griffith OW, Blackburn DG, Brandley MC, Van Dyke JU, Whittington CM, Thompson MB (September 2015). "Ancestral state reconstructions require biological evidence to test evolutionary hypotheses: A case study examining the evolution of reproductive mode in squamate reptiles". Journal of Experimental Zoology. Part B, Molecular and Developmental Evolution. 324 (6): 493–503. doi:10.1002/jez.b.22614. PMID 25732809.
  59. ^ Erkenbrack EM, Ako-Asare K, Miller E, Tekelenburg S, Thompson JR, Romano L (January 2016). "Ancestral state reconstruction by comparative analysis of a GRN kernel operating in echinoderms". Development Genes and Evolution. 226 (1): 37–45. doi:10.1007/s00427-015-0527-y. PMID 26781941. S2CID 6067524.
  60. ^ Erkenbrack EM, Thompson JR (2019). "Cell type phylogenetics informs the evolutionary origin of echinoderm larval skeletogenic cell identity". Communications Biology. 2: 160. doi:10.1038/s42003-019-0417-3. PMC 6499829. PMID 31069269.
  61. ^ a b Chang BS, Ugalde JA, Matz MV (2005). "Applications of ancestral protein reconstruction in understanding protein function: GFP-like proteins". Methods in Enzymology. 395: 652–670. doi:10.1016/S0076-6879(05)95034-9. ISBN 9780121828004. PMID 15865989.
  62. ^ Hodges WL (November 2004). "Evolution of viviparity in horned lizards (Phrynosoma): testing the cold-climate hypothesis". Journal of Evolutionary Biology. 17 (6): 1230–1237. doi:10.1111/j.1420-9101.2004.00770.x. PMID 15525408. S2CID 25069395.
  63. ^ Maddison WP (1991). "Squared-change parsimony reconstructions of ancestral states for continuous-valued characters on a phylogenetic tree". Systematic Biology. 40 (3): 304–314. doi:10.1093/sysbio/40.3.304.
  64. ^ Bonine KE, Gleeson TT, Garland T (December 2005). "Muscle fiber-type variation in lizards (Squamata) and phylogenetic reconstruction of hypothesized ancestral states". The Journal of Experimental Biology. 208 (Pt 23): 4529–4547. doi:10.1242/jeb.01903. PMID 16339872.
  65. ^ Ridley M (1983). The explanation of organic diversity: the comparative method and adaptations for mating. Oxford: Clarendon Press.
  66. ^ Maddison WP (May 1990). "A Method for Testing the Correlated Evolution of Two Binary Characters: Are Gains or Losses Concentrated on Certain Branches of a Phylogenetic Tree?". Evolution; International Journal of Organic Evolution. 44 (3): 539–557. doi:10.2307/2409434. JSTOR 2409434. PMID 28567979.
  67. ^ Göbel U, Sander C, Schneider R, Valencia A (April 1994). "Correlated mutations and residue contacts in proteins". Proteins. 18 (4): 309–317. doi:10.1002/prot.340180402. PMID 8208723. S2CID 14978727.
  68. ^ Shindyalov IN, Kolchanov NA, Sander C (March 1994). "Can three-dimensional contacts in protein structures be predicted by analysis of correlated mutations?". Protein Engineering. 7 (3): 349–358. doi:10.1093/protein/7.3.349. PMID 8177884.
  69. ^ Korber BT, Farber RM, Wolpert DH, Lapedes AS (August 1993). "Covariation of mutations in the V3 loop of human immunodeficiency virus type 1 envelope protein: an information theoretic analysis". Proceedings of the National Academy of Sciences of the United States of America. 90 (15): 7176–7180. Bibcode:1993PNAS...90.7176K. doi:10.1073/pnas.90.15.7176. PMC 47099. PMID 8346232.
  70. ^ Shapiro B, Rambaut A, Pybus OG, Holmes EC (September 2006). "A phylogenetic method for detecting positive epistasis in gene sequences and its application to RNA virus evolution". Molecular Biology and Evolution. 23 (9): 1724–1730. doi:10.1093/molbev/msl037. PMID 16774976.
  71. ^ Poon AF, Lewis FI, Pond SL, Frost SD (November 2007). "An evolutionary-network model reveals stratified interactions in the V3 loop of the HIV-1 envelope". PLOS Computational Biology. 3 (11): e231. Bibcode:2007PLSCB...3..231P. doi:10.1371/journal.pcbi.0030231. PMC 2082504. PMID 18039027.
  72. ^ Jermann TM, Opitz JG, Stackhouse J, Benner SA (March 1995). "Reconstructing the evolutionary history of the artiodactyl ribonuclease superfamily". Nature. 374 (6517): 57–59. Bibcode:1995Natur.374...57J. doi:10.1038/374057a0. PMID 7532788. S2CID 4315312.
  73. ^ Sadqi M, de Alba E, Pérez-Jiménez R, Sanchez-Ruiz JM, Muñoz V (March 2009). "A designed protein as experimental model of primordial folding". Proceedings of the National Academy of Sciences of the United States of America. 106 (11): 4127–4132. Bibcode:2009PNAS..106.4127S. doi:10.1073/pnas.0812108106. PMC 2647338. PMID 19240216.
  74. ^ Chang BS, Jönsson K, Kazmi MA, Donoghue MJ, Sakmar TP (September 2002). "Recreating a functional ancestral archosaur visual pigment". Molecular Biology and Evolution. 19 (9): 1483–1489. doi:10.1093/oxfordjournals.molbev.a004211. PMID 12200476.
  75. ^ Zhang C, Zhang M, Ju J, Nietfeldt J, Wise J, Terry PM, et al. (September 2003). "Genome diversification in phylogenetic lineages I and II of Listeria monocytogenes: identification of segments unique to lineage II populations". Journal of Bacteriology. 185 (18): 5573–5584. doi:10.1128/JB.185.18.5573-5584.2003. PMC 193770. PMID 12949110.
  76. ^ Krishnan NM, Seligmann H, Stewart CB, De Koning AP, Pollock DD (October 2004). "Ancestral sequence reconstruction in primate mitochondrial DNA: compositional bias and effect on functional inference". Molecular Biology and Evolution. 21 (10): 1871–1883. doi:10.1093/molbev/msh198. PMID 15229290.
  77. ^ Gaschen B, Taylor J, Yusim K, Foley B, Gao F, Lang D, et al. (June 2002). "Diversity considerations in HIV-1 vaccine selection". Science. 296 (5577): 2354–2360. Bibcode:2002Sci...296.2354G. doi:10.1126/science.1070441. PMID 12089434. S2CID 39452987.
  78. ^ Rolland M, Jensen MA, Nickle DC, Yan J, Learn GH, Heath L, et al. (August 2007). "Reconstruction and function of ancestral center-of-tree human immunodeficiency virus type 1 proteins". Journal of Virology. 81 (16): 8507–8514. doi:10.1128/JVI.02683-06. PMC 1951385. PMID 17537854.
  79. ^ Kothe DL, Li Y, Decker JM, Bibollet-Ruche F, Zammit KP, Salazar MG, et al. (September 2006). "Ancestral and consensus envelope immunogens for HIV-1 subtype C". Virology. 352 (2): 438–449. doi:10.1016/j.virol.2006.05.011. PMID 16780913.
  80. ^ Doria-Rose NA, Learn GH, Rodrigo AG, Nickle DC, Li F, Mahalanabis M, et al. (September 2005). "Human immunodeficiency virus type 1 subtype B ancestral envelope protein is functional and elicits neutralizing antibodies in rabbits similar to those elicited by a circulating subtype B envelope". Journal of Virology. 79 (17): 11214–11224. doi:10.1128/JVI.79.17.11214-11224.2005. PMC 1193599. PMID 16103173.
  81. ^ McCloskey RM, Liang RH, Harrigan PR, Brumme ZL, Poon AF (June 2014). "An evaluation of phylogenetic methods for reconstructing transmitted HIV variants using longitudinal clonal HIV sequence data". Journal of Virology. 88 (11): 6181–6194. doi:10.1128/JVI.00483-14. PMC 4093844. PMID 24648453.
  82. ^ Bourque G, Pevzner PA (January 2002). "Genome-scale evolution: reconstructing gene orders in the ancestral species". Genome Research. 12 (1): 26–36. PMC 155248. PMID 11779828.
  83. ^ Even S, Goldreich O (1981). "The minimum-length generator sequence problem is NP-hard". Journal of Algorithms. 2 (3): 311–313. doi:10.1016/0196-6774(81)90029-8. ISSN 0196-6774.
  84. ^ Fertin G, Labarre A, Rusu I, Vialette S, Tannier E (2009). Combinatorics of Genome Rearrangements. MIT Press. doi:10.7551/mitpress/9780262062824.001.0001. ISBN 9780262258753.
  85. ^ Wienberg J (December 2004). "The evolution of eutherian chromosomes". Current Opinion in Genetics & Development. 14 (6): 657–666. doi:10.1016/j.gde.2004.10.001. PMID 15531161.
  86. ^ Froenicke L, Caldés MG, Graphodatsky A, Müller S, Lyons LA, Robinson TJ, et al. (March 2006). "Are molecular cytogenetics and bioinformatics suggesting diverging models of ancestral mammalian genomes?". Genome Research. 16 (3): 306–310. doi:10.1101/gr.3955206. PMC 1415215. PMID 16510895.
  87. ^ Murphy WJ, Larkin DM, Everts-van der Wind A, Bourque G, Tesler G, Auvil L, et al. (July 2005). "Dynamics of mammalian chromosome evolution inferred from multispecies comparative maps". Science. 309 (5734): 613–617. Bibcode:2005Sci...309..613M. doi:10.1126/science.1111387. PMID 16040707. S2CID 32314883.
  88. ^ Ma J, Zhang L, Suh BB, Raney BJ, Burhans RC, Kent WJ, et al. (December 2006). "Reconstructing contiguous regions of an ancestral genome". Genome Research. 16 (12): 1557–1565. doi:10.1101/gr.5383506. PMC 1665639. PMID 16983148.
  89. ^ Oyserman BO, Moya F, Lawson CE, Garcia AL, Vogt M, Heffernen M, et al. (December 2016). "Ancestral genome reconstruction identifies the evolutionary basis for trait acquisition in polyphosphate accumulating bacteria". The ISME Journal. 10 (12): 2931–2945. doi:10.1038/ismej.2016.67. PMC 5148189. PMID 27128993.
  90. ^ a b c Clark JR, Ree RH, Alfaro ME, King MG, Wagner WL, Roalson EH (October 2008). "A comparative study in ancestral range reconstruction methods: retracing the uncertain histories of insular lineages". Systematic Biology. 57 (5): 693–707. doi:10.1080/10635150802426473. PMID 18853357.
  91. ^ Huelsenbeck JP, Nielsen R, Bollback JP (April 2003). "Stochastic mapping of morphological characters". Systematic Biology. 52 (2): 131–158. doi:10.1080/10635150390192780. PMID 12746144.
  92. ^ Ronquist F (1996). "DIVA version 1.1". Computer program and manual available by anonymous FTP from Uppsala University[영구 데드링크]
  93. ^ Ree RH, Moore BR, Webb CO, Donoghue MJ (November 2005). "A likelihood framework for inferring the evolution of geographic range on phylogenetic trees". Evolution; International Journal of Organic Evolution. 59 (11): 2299–2311. doi:10.1111/j.0014-3820.2005.tb00940.x. PMID 16396171. S2CID 23245573.
  94. ^ a b c Lemmon AR, Lemmon EM (August 2008). "A likelihood framework for estimating phylogeographic history on a continuous landscape". Systematic Biology. 57 (4): 544–561. doi:10.1080/10635150802304761. PMID 18686193.
  95. ^ a b Sturtevant AH, Dobzhansky T (July 1936). "Inversions in the Third Chromosome of Wild Races of Drosophila Pseudoobscura, and Their Use in the Study of the History of the Species". Proceedings of the National Academy of Sciences of the United States of America. 22 (7): 448–450. Bibcode:1936PNAS...22..448S. doi:10.1073/pnas.22.7.448. PMC 1076803. PMID 16577723.
  96. ^ a b Campbell L (1998). Historical linguistics: an introduction. Edinburgh: Edinburgh University Press.
  97. ^ Yang Z (August 2007). "PAML 4: phylogenetic analysis by maximum likelihood". Molecular Biology and Evolution. 24 (8): 1586–1591. CiteSeerX 10.1.1.322.1650. doi:10.1093/molbev/msm088. PMID 17483113.
  98. ^ "Lazarus: a software tool for reconstructing ancestral protein sequences". markov.uoregon.edu. Archived from the original on 2015-03-07. Retrieved 2019-03-07.
  99. ^ Pond SL, Frost SD, Muse SV (March 2005). "HyPhy: hypothesis testing using phylogenies". Bioinformatics. 21 (5): 676–679. doi:10.1093/bioinformatics/bti079. PMID 15509596.
  100. ^ Maddison WP, Maddison DR (2015). "Mesquite: a modular system for evolutionary analysis. Version 2.75".
  101. ^ a b Tamura K, Stecher G, Peterson D, Filipski A, Kumar S (December 2013). "MEGA6: Molecular Evolutionary Genetics Analysis version 6.0". Molecular Biology and Evolution. 30 (12): 2725–2729. doi:10.1093/molbev/mst197. PMC 3840312. PMID 24132122.
  102. ^ Ronquist F, Huelsenbeck JP (August 2003). "MrBayes 3: Bayesian phylogenetic inference under mixed models". Bioinformatics. 19 (12): 1572–1574. doi:10.1093/bioinformatics/btg180. PMID 12912839.
  103. ^ Hubisz MJ, Pollard KS, Siepel A (January 2011). "PHAST and RPHAST: phylogenetic analysis with space/time models". Briefings in Bioinformatics. 12 (1): 41–51. doi:10.1093/bib/bbq072. PMC 3030812. PMID 21278375.
  104. ^ Bollback JP (February 2006). "SIMMAP: stochastic character mapping of discrete traits on phylogenies". BMC Bioinformatics. 7 (1): 88. doi:10.1186/1471-2105-7-88. PMC 1403802. PMID 16504105.
  105. ^ Arenas M, Weber CC, Liberles DA, Bastolla U (November 2017). "ProtASR: An Evolutionary Framework for Ancestral Protein Reconstruction with Selection on Folding Stability". Systematic Biology. 66 (6): 1054–1064. doi:10.1093/sysbio/syw121. PMID 28057858.
  106. ^ Arenas M, Bastolla U (February 2020). Paradis E (ed.). "ProtASR2: Ancestral reconstruction of protein sequences accounting for folding stability". Methods in Ecology and Evolution. 11 (2): 248–257. doi:10.1111/2041-210X.13341. ISSN 2041-210X. S2CID 213335351.
  107. ^ Paradis E (2012). Analysis of Phylogenetics and Evolution with R. New York: Springer-Verlag.
  108. ^ Rossnes R, Eidhammer I, Liberles DA (May 2005). "Phylogenetic reconstruction of ancestral character states for gene expression and mRNA splicing data". BMC Bioinformatics. 6 (1): 127. doi:10.1186/1471-2105-6-127. PMC 1166541. PMID 15921519.
  109. ^ Drummond AJ, Suchard MA, Xie D, Rambaut A (August 2012). "Bayesian phylogenetics with BEAUti and the BEAST 1.7". Molecular Biology and Evolution. 29 (8): 1969–1973. doi:10.1093/molbev/mss075. PMC 3408070. PMID 22367748.
  110. ^ FitzJohn RG (2012). "Diversitree: comparative phylogenetic analyses of diversification in R". Methods in Ecology and Evolution. 3 (6): 1084–1092. doi:10.1111/j.2041-210X.2012.00234.x. ISSN 2041-210X.
  111. ^ Pagel M (1994). "Detecting Correlated Evolution on Phylogenies: A General Method for the Comparative Analysis of Discrete Characters". Proceedings of the Royal Society B: Biological Sciences. 255 (1342): 37–45. Bibcode:1994RSPSB.255...37P. doi:10.1098/rspb.1994.0006. ISSN 0962-8452. S2CID 85903564.
  112. ^ Yu Y, Harris AJ, He X (August 2010). "S-DIVA (Statistical Dispersal-Vicariance Analysis): A tool for inferring biogeographic histories". Molecular Phylogenetics and Evolution. 56 (2): 848–850. doi:10.1016/j.ympev.2010.04.011. PMID 20399277. S2CID 44980641.
  113. ^ Arias JS, Szumik CA, Goloboff PA (December 2011). "Spatial analysis of vicariance: a method for using direct geographical information in historical biogeography". Cladistics. 27 (6): 617–628. doi:10.1111/j.1096-0031.2011.00353.x. PMID 34875812. S2CID 85747431.
  114. ^ Jones BR, Rajaraman A, Tannier E, Chauve C (September 2012). "ANGES: reconstructing ANcestral GEnomeS maps". Bioinformatics. 28 (18): 2388–2390. doi:10.1093/bioinformatics/bts457. PMID 22820205.
  115. ^ Larget B, Kadane JB, Simon DL (August 2005). "A Bayesian approach to the estimation of ancestral genome arrangements". Molecular Phylogenetics and Evolution. 36 (2): 214–223. doi:10.1016/j.ympev.2005.03.026. PMID 15893477.
  116. ^ Csurös M (August 2010). "Count: evolutionary analysis of phylogenetic profiles with parsimony and likelihood". Bioinformatics. 26 (15): 1910–1912. doi:10.1093/bioinformatics/btq315. PMID 20551134.
  117. ^ Carmel L, Wolf YI, Rogozin IB, Koonin EV (2010). "EREM: Parameter Estimation and Ancestral Reconstruction by Expectation-Maximization Algorithm for a Probabilistic Model of Genomic Binary Characters Evolution". Advances in Bioinformatics. 2010: 167408. doi:10.1155/2010/167408. PMC 2866244. PMID 20467467.
  118. ^ Patro R, Sefer E, Malin J, Marçais G, Navlakha S, Kingsford C (September 2012). "Parsimonious reconstruction of network evolution". Algorithms for Molecular Biology. 7 (1): 25. doi:10.1186/1748-7188-7-25. PMC 3492119. PMID 22992218.
  119. ^ Diallo AB, Makarenkov V, Blanchette M (January 2010). "Ancestors 1.0: a web server for ancestral sequence reconstruction". Bioinformatics. 26 (1): 130–131. doi:10.1093/bioinformatics/btp600. PMID 19850756.
  120. ^ Ashkenazy H, Penn O, Doron-Faigenboim A, Cohen O, Cannarozzi G, Zomer O, Pupko T (July 2012). "FastML: a web server for probabilistic reconstruction of ancestral sequences". Nucleic Acids Research. 40 (Web Server issue): W580–W584. doi:10.1093/nar/gks498. PMC 3394241. PMID 22661579.
  121. ^ Hu F, Lin Y, Tang J (November 2014). "MLGO: phylogeny reconstruction and ancestral inference from gene-order data". BMC Bioinformatics. 15 (1): 354. doi:10.1186/s12859-014-0354-6. PMC 4236499. PMID 25376663.
  122. ^ Bouchard-Côté A, Jordan MI (January 2013). "Evolutionary inference via the Poisson Indel Process". Proceedings of the National Academy of Sciences of the United States of America. 110 (4): 1160–1166. arXiv:1207.6327. Bibcode:2013PNAS..110.1160B. doi:10.1073/pnas.1220450110. PMC 3557041. PMID 23275296.
  123. ^ Thorne JL, Kishino H, Felsenstein J (August 1991). "An evolutionary model for maximum likelihood alignment of DNA sequences". Journal of Molecular Evolution. 33 (2): 114–124. Bibcode:1991JMolE..33..114T. doi:10.1007/BF02193625. PMID 1920447. S2CID 13333056.
  124. ^ Poon AF, Swenson LC, Bunnik EM, Edo-Matas D, Schuitemaker H, van 't Wout AB, Harrigan PR (2012). "Reconstructing the dynamics of HIV evolution within hosts from serial deep sequence data". PLOS Computational Biology. 8 (11): e1002753. Bibcode:2012PLSCB...8E2753P. doi:10.1371/journal.pcbi.1002753. PMC 3486858. PMID 23133358.
  125. ^ Schwarz RF, Trinh A, Sipos B, Brenton JD, Goldman N, Markowetz F (April 2014). "Phylogenetic quantification of intra-tumour heterogeneity". PLOS Computational Biology. 10 (4): e1003535. arXiv:1306.1685. Bibcode:2014PLSCB..10E3535S. doi:10.1371/journal.pcbi.1003535. PMC 3990475. PMID 24743184.