귀납 확률

귀납적 확률은 과거 사건에 기초한 미래 사건의 확률을 제공하려고 시도한다. 귀납 추론의 기초가 되며, 학습의 수학적 기초와 패턴의 지각력을 부여한다. 그것은 세계에 대한 지식의 원천이다.

지식의 원천은 추론, 의사소통, 추론 등 세 가지다. 다른 방법을 사용하여 찾은 통신 릴레이 정보 추리는 현존하는 사실에 근거하여 새로운 사실을 확립한다. 추론은 데이터로부터 새로운 사실을 규명한다. 그 근거는 베이즈의 정리다.

세상을 설명하는 정보는 언어로 쓰여져 있다. 예를 들어, 간단한 수학적 명제 언어를 선택할 수 있다. 문장은 문자의 문자열로서 이 언어로 쓰여질 수 있다. 그러나 컴퓨터에서는 이러한 문장을 비트 문자열(1s와 0s)로 인코딩하는 것이 가능하다. 그러면 가장 일반적으로 사용되는 문장이 가장 짧도록 언어가 인코딩될 수 있다. 이 내부 언어는 은연중에 진술의 확률을 나타낸다.

오컴의 면도칼은 "데이터와 일치하는 가장 단순한 이론"이라고 말한다. "가장 간단한 이론"은 이 내부 언어로 쓰여진 이론의 표현으로 해석된다. 이 내부 언어에서 가장 짧은 인코딩을 가진 이론이 가장 정확할 것 같다.

역사

확률과 통계는 확률 분포와 유의성 검정에 집중되었다. 확률은 형식적이고, 정의가 잘 되어 있지만 범위가 제한되어 있었다. 특히, 그것의 적용은 잘 정의된 인구를 가진 실험이나 시험으로 정의할 수 있는 상황에 한정되었다.

베이즈의 정리는 Reved의 이름을 따서 명명되었다. 토마스 베이즈 1701-1761. 베이지안 추론은 모집단이 잘 정의되지 않은 많은 상황에 확률의 적용을 확대했다. 그러나 베이지스의 정리는 항상 새로운 확률을 생성하는 사전 확률에 의존했다. 이러한 사전 확률은 어디에서 오는 것이어야 하는지는 분명하지 않았다.

Ray Solomonoff는 1964년 경에 데이터의 짧은 표현을 제공하는 컴퓨터 프로그램으로 데이터의 무작위성이 무엇이고 패턴이 어떻게 표현될 수 있는지에 대한 설명을 제공하는 알고리즘 확률을 개발했다.

크리스 월리스와 D. M. Boulton은 1968년 경에 최소 메시지 길이를 개발했다. 후에 조마 리사넨은 1978년 경의 최소 서술 길이를 개발했다. 이러한 방법들은 정보이론이 베이지스의 정리의 적용과 비교할 수 있는 방식으로 확률과 관련되도록 허용하지만, 사전 확률의 역할에 대한 출처와 설명을 제공한다.

마르쿠스 허터는 의사결정 이론과 레이 솔로모노프, 안드레이 콜모고로프의 작품을 결합하여 1998년 경 지능적인 에이전트의 파레토 최적 행동에 대한 이론을 제시하였다.

최소 설명/메시지 길이

데이터와 일치하는 가장 짧은 길이의 프로그램은 미래 데이터를 예측하는 가장 가능성이 높다. 이것은 최소 메시지 길이와^[1] 최소 설명 길이^[2] 방법 뒤에 있는 논문이다.

첫눈에 Bayes의 정리는 최소 메시지/설명 길이 원리와는 다르게 나타난다. 자세히 보니 같은 것으로 판명되었다. 베이즈의 정리는 조건부 확률에 관한 것으로, 사건 A가 처음 발생할 경우 사건 B가 발생할 확률을 다음과 같이 기술한다.

[\displaystyle P(A\land B)=P(B)\cdot P(A)=P(A)\cdot P(B)}

메시지 길이 L이 된다.

L(A\land B)=L(B)+L(A B)=L(A)+L(B)=L(A)+L(B)}

이것은 어떤 사건을 기술하는 모든 정보가 주어진다면, 그 정보의 길이는 사건의 원시적인 확률을 제공하는 데 사용될 수 있다는 것을 의미한다. 따라서 A의 발생을 기술하는 정보가 B의 발생을 기술하는 정보와 함께 주어진다면 A와 B를 기술하는 모든 정보가 주어진다.^[3] ^[4]

오버핏

모형이 데이터의 패턴이 아니라 랜덤 노이즈와 일치할 때 과다 피팅이 발생한다. 예를 들어, 곡선이 점 집합에 적합되는 상황을 가정해 보십시오. 항이 많은 다항식이 적합되면 데이터를 보다 가깝게 나타낼 수 있다. 그러면 적합치가 더 좋아질 것이고 적합 곡선으로부터의 편차를 설명하는 데 필요한 정보는 더 작아질 것이다. 정보 길이가 작다는 것은 확률이 높다는 것을 의미한다.

그러나 곡선을 설명하는 데 필요한 정보도 고려해야 한다. 항이 많은 곡선의 총 정보는 항이 적은 곡선의 경우보다 클 수 있으며, 적합치는 좋지만 다항식을 설명하는 데 필요한 정보는 적을 수 있다.

프로그램 복잡성에 기반한 추론

솔로몬노프의 귀납 추론도 귀납 추론이다. 비트 문자열 x가 관찰된다. 그런 다음 x로 시작하는 문자열을 생성하는 모든 프로그램을 고려하십시오. 귀납 추론 형식의 캐스트, 프로그램은 비트 문자열 x의 관찰을 암시하는 이론이다.

여기서 귀납 추론에 대한 확률을 주기 위해 사용하는 방법은 솔로몬노프의 귀납 추론 이론에 근거한다.

데이터 패턴 탐지

만약 모든 비트가 1이라면, 사람들은 동전에 편향이 있고 다음 비트가 1일 가능성이 더 높다고 추측한다. 이는 데이터에서 패턴을 학습하거나 탐지하는 것으로 설명된다.

그러한 패턴은 컴퓨터 프로그램으로 대표될 수 있다. 모두 1인 일련의 비트를 생성하는 짧은 컴퓨터 프로그램이 작성될 수 있다. 프로그램 K의 $L(K)$ 가 L $L(K)$ ( K $L(K)$ ) $L(K)$ 비트인 $L(K)$ 경우, 이전 확률은 다음과 같다.

P(K)=2^{-L(K)}}

비트 문자열을 나타내는 최단 프로그램의 길이를 콜모고로프 복잡성이라고 한다.

Kolmogorov 복잡성은 계산할 수 없다. 이것은 중단 문제와 관련이 있다. 가장 짧은 프로그램을 검색할 때 일부 프로그램은 무한 루프에 들어갈 수 있다.

모든 이론을 고려해 볼 때

그리스 철학자 에피쿠로스는 "두 개 이상의 이론이 관찰과 일치한다면 모든 이론을 유지하라"^[5]고 말한 것으로 인용된다.

범죄 소설에서와 같이, 모든 이론은 유력한 살인자를 결정할 때 고려되어야 하기 때문에 귀납적 확률로 모든 프로그램은 비트 흐름에서 발생할 수 있는 미래 비트를 결정할 때 고려되어야 한다.

이미 n보다 긴 프로그램은 예측력이 없다. 비트 패턴이 랜덤(패턴이 없음)인 원시(또는 이전) 확률은 $2^{-n}$ - $2^{-n}$ ${\$ 2 $^{-n}$ 이다 $2^{-n}$

비트의 시퀀스를 생성하지만 n보다 짧은 각 프로그램은 $2^{-k}$ - $2^{-k}$ ${\$ 2 $^{-k}$ 의 확률로 비트에 대한 이론/패턴이며, 여기서 $2^{-k}}$ k는 프로그램의 길이다.

일련의 비트 x를 수신한 후 비트 y의 시퀀스를 수신할 확률은 주어진 y의 조건부 확률로, y가 추가된 x의 확률을 x의 확률로 나눈다.^[6]^[7]^[8]

유니버설 프리어스

프로그래밍 언어는 문자열의 다음 비트의 예측에 영향을 미친다. 그 언어는 사전 개연성으로 작용한다. 이것은 특히 숫자와 다른 데이터 유형에 대한 프로그래밍 언어 코드가 있는 문제다. 직관적으로 우리는 0과 1이 단순한 숫자라고 생각하고, 프라임 수치는 합성될 수 있는 숫자보다 다소 더 복잡하다고 생각한다.

Kolmogorov 복잡성을 사용하면 숫자의 이전 확률에 대한 편향되지 않은 추정치(일반적인 선행)를 얻을 수 있다. 사고 실험으로 지능형 에이전트에는 원시 숫자에 일부 변환 기능을 적용한 후 일련의 숫자를 제공하는 데이터 입력 장치가 장착될 수 있다. 다른 에이전트는 변환 기능이 다른 동일한 입력 장치를 가질 수 있다. 에이전트는 이러한 변환 함수를 보거나 알지 못한다. 그러면 한 기능을 다른 기능보다 선호하기 위한 합리적인 근거가 없어 보인다. 범용 사전은 두 개의 작용제가 데이터 입력에 대해 서로 다른 초기 확률 분포를 가질 수 있지만 그 차이는 상수에 의해 제한된다는 것을 보장한다.

그래서 보편적인 전제는 초기 편견을 제거하지 않고, 그것을 줄이고 제한한다. 우리가 어떤 사건을 자연어 또는 다른 언어로 설명할 때마다, 그 언어는 그 언어로 우리의 이전의 기대를 암호화해 왔다. 그래서 이전 확률에 어느 정도 의존하는 것은 불가피하다.

인텔리전트 에이전트의 사전 기대가 환경과 상호 작용해 자체 보강 피드백 루프를 형성하는 문제가 발생한다. 이것은 편견이나 편견의 문제다. 보편적인 전제는 이 문제를 줄이지만 제거하지는 않는다.

유니버설 인공지능

보편적 인공지능 이론은 귀납적 확률에 의사결정 이론을 적용한다. 그 이론은 보상 기능을 최적화하기 위한 최선의 조치가 어떻게 선택될 수 있는지를 보여준다. 결과는 지성의 이론적 모델이다.^[9]

지능에 대한 기본 이론이야 요원들의 행동을 최적화하는 방법이지

환경 탐색, 에이전트 지식을 넓히는 응답을 얻기 위한 작업 수행
다른 에이전트와의 경쟁 또는 공동 운영; 게임.
단기 보상과 장기 보상 간의 균형 유지.

일반적으로 어떤 에이전트도 모든 상황에서 항상 최상의 조치를 제공할 수 없다. 에이전트에 의한 특정한 선택은 잘못될 수 있으며, 환경은 에이전트가 초기 잘못된 선택으로부터 회복할 수 있는 방법을 제공하지 않을 수 있다. 그러나 다른 환경에서 더 나쁜 일을 하지 않고서는 이 환경에서 어떤 다른 에이전트도 이 에이전트보다 더 잘 할 수 없다는 점에서 파레토 최적이다. 이런 의미에서 다른 어떤 에이전트도 더 낫다고 말할 수는 없다.

현재 그 이론은 불분명한 것(중단 문제)에 의해 제한되어 있다. 이를 피하기 위해 근사치를 사용할 수 있다. 처리속도와 결합폭발은 인공지능의 1차 제한요인으로 남아 있다.

확률

확률은 진술의 진실에 대한 불확실하거나 부분적인 지식의 표현이다. 확률은 데이터에서 도출된 과거의 경험과 추론에 기초하여 가능한 결과에 대한 주관적이고 개인적인 추정이다.

이 확률에 대한 묘사는 처음에는 이상하게 보일 수도 있다. 자연어로 우리는 태양이 내일 뜰 확률에 대해 언급한다. 우리는 태양이 떠오를 "당신의 확률"을 언급하지 않는다. 그러나 추론이 올바르게 모델링되기 위해서는 개인적인 것이어야 하며, 추론행위는 사전 확률에서 새로운 후방 확률을 생성한다.

개인은 개인의 지식을 조건으로 하기 때문에 확률은 개인적인 것이다. 확률은 항상 어느 정도 개인에 의해 할당된 사전 확률에 의존하기 때문에 주관적이다. 주관적이란 모호하거나 정의되지 않은 것을 의미하기 위해 여기서 받아들여서는 안 된다.

인텔리전트 에이전트라는 용어는 확률의 보유자를 가리키는 데 사용된다. 지능적인 요원은 사람일 수도 있고 기계일 수도 있다. 지능적인 에이전트가 환경과 상호작용하지 않는 경우, 확률은 사건의 빈도로 시간 경과에 따라 수렴될 것이다.

그러나 에이전트가 환경과 상호작용하기 위해 확률을 사용하는 경우 피드백이 있을 수 있으며, 따라서 동일한 환경의 두 에이전트는 약간 다른 이전 항목으로 시작하여 완전히 다른 확률을 갖게 된다. 이 경우 마커스 허터의 유니버설 인공지능(Universal Infrastructure)과 같은 최적의 의사결정 이론은 파레토에게 에이전트에 최적의 성능을 부여할 것이다. 이것은 어떤 지능적인 에이전트도 다른 환경에서 더 나쁜 일을 하지 않고서는 한 환경에서 더 잘 할 수 없다는 것을 의미한다.

연역확률과 비교

연역적 확률 이론에서 확률은 평가를 수행하는 개인과 독립적으로 절대적이다. 하지만 연역 확률은

공유된 지식.
가정된 사실, 그것은 데이터로부터 유추되어야 한다.

예를 들어, 재판에서 참가자들은 이전의 모든 재판 이력의 결과를 알고 있다. 그들은 또한 각각의 결과가 동등하게 개연성이 있다고 가정한다. 이것은 확률의 단일 조건 없는 값을 함께 정의할 수 있다.

그러나 실제로는 각 개인이 동일한 정보를 가지고 있지 않다. 그리고 일반적으로 각 결과의 확률은 같지 않다. 주사위는 장전될 수 있으며, 이 장전은 데이터에서 추론할 필요가 있다.

추정으로서의 확률

무관심의 원리는 확률론에서 핵심적인 역할을 해왔다. 그것은 한 조건이 다른 조건보다 선호될 수 없도록 N 문장이 대칭적이면 모든 문장이 동등하게 개연성이 있다고 말한다.^[10]

심각하게 생각해 보면, 이 원칙이 모순으로 이어진다. 멀리 금 세 자루가 있고 한 자루를 선택하라고 요청 받는다고 가정합시다. 그러면 거리 때문에 가방 사이즈가 보이지 않는다. 당신은 각 가방마다 같은 양의 금이 있고, 각 가방마다 3분의 1의 금을 가지고 있다는 무관심의 원리로 추정한다.

자, 우리 중 한 명이 보지 않는 동안, 다른 한 명은 그 가방들 중 하나를 가져다가 세 개의 가방으로 나눈다. 지금 금은 5포대가 있다. 무관심의 원칙은 이제 가방마다 금의 5분의 1을 가지고 있다고 말한다. 금의 3분의 1을 가지고 있는 것으로 추정되었던 가방은 현재 금의 5분의 1을 가지고 있는 것으로 추정된다.

가방과 관련된 가치로 보아 그 가치는 다르기 때문에 모순된다. 그러나 특정 시나리오에 따라 주어진 추정치로 보아, 두 값 모두 서로 다른 상황에서 주어진 개별 추정치일 뿐, 동일하다고 믿을 이유는 없다.

이전 확률의 추정은 특히 의심스럽다. 일정한 주파수 분포를 따르지 않는 추정치가 작성될 것이다. 이러한 이유로 사전 확률은 확률보다는 확률의 추정치로 간주된다.

완전한 이론적 치료는 각각의 확률과 연관될 것이다.

성명서
선행지식
사전 확률
확률을 제공하는 데 사용되는 추정 절차.

확률 접근법 결합

귀납적 확률은 확률에 대한 두 가지 접근방식을 결합한다.

확률과 정보
확률과 빈도

각각의 접근방식은 약간 다른 관점을 제공한다. 정보이론은 정보의 양과 확률을 연관시키는 데 사용된다. 이 접근방식은 종종 사전 확률을 추정할 때 사용된다.

빈도론적 확률은 사건이 얼마나 자주 발생하는지에 대한 객관적 진술로 확률을 정의한다. 이 접근방식은 가능한 세계에 대한 시행을 정의함으로써 확장될 수 있다. 가능한 세계에 대한 진술은 사건을 정의한다.

확률과 정보

논리는 오직 두 개의 값, 즉 참과 거짓만을 나타내는 반면에, 확률은 [0,1]의 숫자를 각 문장과 연관시킨다. 만약 진술의 확률이 0이라면, 그 진술은 거짓이다. 만약 진술의 확률이 1이라면 그 진술은 사실이다.

일부 데이터를 비트 문자열로 고려할 때 1초와 0초의 시퀀스에 대한 사전 확률은 1과 0이 동일하다. 따라서 각 추가 비트는 비트 시퀀스의 확률을 절반으로 나눈다. 이것은 다음과 같은 결론으로 이어진다.

P(x)=2^{-L(x)}}

$P(x)$ 서 $P(x)$ ( x $P(x)$ ) ${\$ $displaystyle$ $P$ $($ $x)}$ 은 $P(x)$ (는) 비트 x문자열의 확률이고 $x$ $L(x)$ ( $L(x)$ ) $L(x)$ 은(는) 길이가 된다 $L(x)$ .

어떤 문장의 이전 확률은 그것을 진술하는 데 필요한 비트 수로부터 계산된다. 정보이론을 참조하십시오.

정보 결합

두 개의 문장 $A$ {\ $displaystyle$ $A}$ 및 B $A$ $B$ 은(는) 두 개의 별도 인코딩으로 나타낼 수 있다 $B$ . 그러면 인코딩의 길이는,

L(A\land B)=L(A)+L(B)}

또는 확률 면에서,

(\displaystyle P(A\land B)=P(A)P(B)}

그러나 $A$ 가 A {\ $displaystyle A}$ 을(를 $)$ 가정할 $B$ $경우$ B{\ $displaystyle B}$ 을(를) 인코딩하는 더 짧은 방법이 있을 수 있기 때문에 이 법칙이 항상 진실인 것은 아니다 $A$ 따라서 위의 확률 $A$ 은 A{\ $displaystyle$ A}과 $A$ $B$ B $}$ 이(가) " $독립적$ "인 $경우$ 에만 적용된다 $.$

정보의 내부 언어

확률에 대한 정보 접근법의 주된 용도는 진술의 복잡성에 대한 추정치를 제공하는 것이다. 오컴의 면도칼이 "모든 것이 평등하고, 가장 단순한 이론이 가장 정확할 것 같다"고 진술한 것을 상기하라. 이 규칙을 적용하기 위해서는 먼저 "간단한"이 무엇을 의미하는지 정의가 있어야 한다. 정보이론은 가장 짧은 인코딩을 갖는 것을 의미하기 위해 가장 간단한 것을 정의한다.

지식은 진술로 표현된다. 각 문장은 부울식이다. 표현식은 표현식의 설명(값과 동일)을 취하여 비트 문자열로 인코딩하는 함수에 의해 인코딩된다.

문장의 인코딩 길이는 문장의 확률에 대한 추정치를 제공한다. 이 확률 추정치는 종종 진술의 이전 확률로 사용될 것이다.

기술적으로 이 추정치는 주파수 분포로 구성되지 않기 때문에 확률이 아니다. 그것에 의해 주어진 확률 추정치가 항상 확률의 총합 법칙을 따르는 것은 아니다. 다양한 시나리오에 총 확률의 법칙을 적용하면 보통 진술의 길이로부터 추정치보다 이전 확률의 더 정확한 확률 추정치를 제공한다.

식 인코딩

표현식은 하위 표현식으로 구성되며,

상수(함수 식별자 포함)
기능의 적용.
정량자자자자자자자자자자자자자자자자자.

허프먼 코드는 세 가지 경우를 구분해야 한다. 각 코드의 길이는 각 하위 식 유형의 빈도에 기초한다.

처음에 상수는 모두 동일한 길이/확률로 할당된다. 이후 상수는 지금까지 기록된 모든 표현식에서 함수 ID의 사용 횟수에 기초하여 허프만 코드를 사용하여 확률을 할당할 수 있다. 허프먼 코드를 사용할 때 목표는 확률을 추정하는 것이지 데이터를 압축하는 것이 아니다.

함수 응용 프로그램의 길이는 함수 식별자 상수의 길이에 각 파라미터의 식 크기 합계를 더한 값이다.

정량화자의 길이는 정량화되는 표현식의 길이다.

숫자의 분포

자연수의 명시적인 표현은 주어지지 않는다. 그러나 자연수는 0에 계승함수를 적용한 다음 다른 산술함수를 적용하여 구성할 수 있다. 자연수의 분포는 각각의 숫자를 구성하는 복잡성에 기초하여 여기에 의해 암시된다.

합리적 숫자는 자연수의 분할에 의해 구성된다. 가장 간단한 표현은 분자와 분모 사이에 공통인자가 없다. 이것은 자연수의 확률 분포를 합리적인 숫자로 확장할 수 있도록 한다.

확률과 빈도

사건의 확률은 진술이 참인 결과의 빈도를 총 결과 수로 나눈 값으로 해석할 수 있다. 결과가 연속체를 형성하는 경우 빈도를 측정치로 대체할 필요가 있을 수 있다.

사건은 결과의 집합이다. 진술은 사건과 관련이 있을 수 있다. 결과에 대한 B 부울 문장은 결과 b를 정의한다.

b=\{x:B(x)\}

조건부 확률

각 확률은 항상 논쟁의 특정 지점에 있는 지식의 상태와 연관된다. 추론 전의 확률을 선행 확률이라고 하고, 그 후의 확률을 후행 확률이라고 한다.

확률은 알려진 사실에 따라 달라진다. 사실의 진실은 결과의 영역을 사실과 일치하는 결과로 제한한다. 사전 확률은 사실이 알려지기 전의 확률이다. 사후 확률은 사실이 알려진 후다. 후행 확률은 사실에 따른 조건부라고 한다. $A$ ${\displaystyle A$ $P(B|A).$ 이 $A$ (가) 참임을 고려할 때 $B$ ${\$ $displaystyle B}$ 이 $B$ ( $가$ ) 참일 확률은 $P(B|A).$ 과 같이 기록된다 $.$ $}$

모든 확률은 어떤 의미에서 조건부다. $B$ $B$ 의 이전 확률은,

P(B)=P(B \top )

가능한 세계에 적용되는 빈번한 접근 방식

빈도론적 접근법에서 확률은 사건 내 결과 수와 총 결과 수의 비율로 정의된다. 가능한 세계 모델에서 각각의 가능한 세계는 하나의 결과물이고, 가능한 세계에 대한 진술은 사건을 정의한다. 진술이 참일 확률은 그 진술이 참인 가능한 세계의 수를 가능한 세계의 총 수로 나눈 것이다. $가능$ 한 세계에 대해 $A$ 라는문장이 진실일 $A$ 확률은 다음과 같다 $.$

P(A)={\frac {\{x:A(x)\}}{x:A(x)\}{x:\top }}}

조건부 확률.

P(B A)={\frac {\x:A(x)\land B(x)\}{x:A(x)}}}

그때

{\begin{aligned}P(A\land B)&={\frac { \{x:A(x)\land B(x)\} }{ x:\top  }}\\[8pt]&={\frac { \{x:A(x)\land B(x)\} }{ \{x:A(x)\} }}{\frac { \{x:A(x)\} }{ x:\top  }}\\[8pt]&=P(A)P(B A)\end{aligned}}

대칭을 사용하면 이 방정식을 베이지스의 법칙으로 쓸 수 있다.

[\displaystyle P(A\land B)=P(A)P(B)=P(B)P(A)}

이 법칙은 새로운 사실이 학습되었을 때 선행 확률과 후사 확률의 관계를 설명한다.

베이스의 정리정돈이 되는 정보의 양으로 쓰여져,

L(A\land B)=L(A)+L(B)=L(B)+L(B)+L(A)}

A와 B 두 진술은 A의 진상을 알고 있다고 해서 B의 확률을 바꾸지 않으면 독립적이라고 한다. 수학적으로 이건,

(\displaystyle P(B)=P(B)A)}

베이즈의 정리가 줄어들면

(\displaystyle P(A\land B)=P(A)P(B)}

확률의 총합 법칙

상호 배타적 가능성 $A_{i}$ $A_{i}$ ${\$ 의 경우 $A_{i}$ 후 확률의 합은 1이어야 한다.

\sum _{i}{P(A_{i}B)}=1

베이지스의 정리를 이용하여 대체하는 것은 총확률의 법칙을 준다.

\sum _{i}{P(B A_{i})P(A_{i}}=\sum _{i}{P(A_{i}B)}}}}

P(B)=\sum _{i}{P(B A_{i})P(A_{i}}})

이 결과는 베이지스의 정리가 확장된 형태를 주기 위해 사용된다.

P(A_{i}B)={\frac {P(B A_{i})P(A_{i}}}){\sum _{j}{P(B_{j})P(A_{j}}}}}}}}}}}}}}}}}

$A_{i}$ 은 $A_{i}$ i ${\$ 에 $A_{i}$ 대한 모든 후확률의 합을 보증하기 때문에 실제로 사용되는 베이지스 정리의 일반적인 형태다.

대체 가능성

상호 배타적 가능성의 경우, 확률이 추가된다.

P(A\lor B)=P(A)+P(B),\qquad {\text{{if{}}}}}

사용.

A\lor B=(A\land \neg(A\land B))\lor(B\land \neg(A\land B))\lor(A\land B)}

그렇다면 대안은

\displaystyle A\land \neg(A\land B),\quad B\land \neg(A\land B),\quad A\land B}

서로 배타적이다. 또,

(A\land \neg(A\land B))\lor(A\land B)=A}

(A\land \neg(A\land B)+P(A\land B)=P(A)}

(A\land \neg(A\land B)=P(A)-P(A\land B)}

그래서, 모든걸 종합해보면

(B\displaystyle {\begin}P(A\lor B)&=P(A\land \neg(A\land B))\lor(B\land \neg (A\land B)\lor(A\land B))\\&=P(A\land \neg (A\land B)+P(B\land \neg (A\land B))+P(A\land B)\\&=P(A)-P(A\land B)+P(B)-P(A\land B)+P(A\land B)\\&=P(A)+P(B)-P(A\land B)\end{aligned}}}

부정

로서

\displaystyle A\lor \neg A=\top }

그때

P(A)+P(\neg A)=1

시사 및 조건 확률

함축성은 다음 방정식에 의한 조건부 확률과 관련이 있다.

(\displaystyle A\to B\iff P(B A)=1}

파생,

{\reasoned}A\to B&\iff P(A\to B)=1\\&\iff P(A\land B\lor \neg A)=1\\&\iff P(A\land B)+P(\neg A)=1\\&\iff P(A\land B)=P(A)\\&\iff P(A)\cdot P(B A)=P(A)\\&\iff P(B A)=1\end{aligned}}

베이지안 가설 검정

Bayes의 정리는 일부 사실 F를 고려할 때 가설이나 이론 H의 확률을 추정하는 데 사용될 수 있다. H의 후확률은 그 다음이다.

P(H F)={\frac {P(H)P(F)}{P(F)}}}

또는 정보의 측면에서,

P(H F)=2^{-(L(H)+L(F)-L(F))}

가설이 사실이라고 가정하면 F라는 문구를 더 간단하게 표현할 수 있다. 이 간단한 표현에 대한 인코딩 길이는 $L(F|H).$ ( $L(F|H).$ $L(F|H).$ ) $L(F|H).$ . ${\displaystyle L(F$ H)이다 $.$ $}$

$L(F)$ (F $L(F)$ ) $L(F)$ 을 $L(F)$ (를) 인코딩 길이로부터 추정할 경우 얻은 확률은 0과 1 사이가 되지 않는다. 얻어진 값은 좋은 확률 추정치가 되지 않고 확률에 비례한다. 얻어진 숫자는 때로는 상대적 확률이라고 부르기도 하는데, 이론이 이론을 보유하지 않는 것보다 얼마나 가능성이 높은가 하는 것이다.

증거를 제공하는 상호 배타적 가설의 전체 집합이 알려진 경우, 이전 확률 $P(F)$ ( F $){\displaystyle P(F)}$ 에 대해 적절한 추정치가 제시될 수 있다 $P(F)$

가설 집합

확률은 베이지스의 정리의 확장된 형태로부터 계산될 수 있다. 상호 배타적인 가설 ${\$ 를 모두 고려할 때, 다음과 $H_{i}$ 같은 증거를 제시한다.

L(H_{i})+L(F H_{i})<L(F)

그리고 가설 R, 가설 중 어느 것도 사실이 아니라는 것도,

{\begin{aligned}P(H_{i} F)&={\frac {P(H_{i})P(F H_{i})}{P(F R)+\sum _{j}{P(H_{j})P(F H_{j})}}}\\[8pt]P(R F)&={\frac {P(F R)}{P(F R)+\sum _{j}{P(H_{j})P(F H_{j})}}}\end{aligned}}

정보면에서는

{\begin}P(H_{i}F)&={\frac {2^{-(L(H_{i})+L(F_{i}))}}{2^{-L(F R)}+\sum _{j}{j2}^{-(L(H_{j})+L(F H_{j})}}}\\[8pt]P(R F)&={\frac {2^{-L(F R)}}}}{2^{-L(F R)}+\sum _{j}{2^{{{j}}}+L(F H_{j})}}}}}}\end{정렬}

대부분의 상황에서 $F$ $F$ 이(가) $R$ $R$ 과(와) 무관하다고 $F$ 가정하면 좋은 근사치가 된다 $R$ 즉, $P(F|R)=P(F)$ ( $P(F|R)=P(F)$ ) $P(F|R)=P(F)$ = $P(F|R)=P(F)$ ( $){\displaystyle P(F)=P(F)}$ 가 $P(F|R)=P(F)$ 주어지는 것을 의미한다.

{\begin{ligned}P(H_{i}F)&\probled {2^{-(L(H_{i})+L(F_{i})}}{2^{-L(F)}+\sum _{j}{2^{-(L(H_{j})+L(F H_{j})}}}\[8pt]P(R F)&\약 {\frac {2^{-L(F)}}}{2^{-L(F)}+\sum _{j}{2^{2^{(L(H_{j})+L(F_{j})+L(F_{j})}}}}}\end{정렬}

부울 귀납 추론

유괴적 추론은^[11]^[12]^[13]^[14] 진술(부울식)인 사실 F 집합으로 시작한다. 유괴적 추리는 형태지만

이론 T는 F라는 말을 내포하고 있다. 유괴는 T 이론이 F 이론보다 간단하기 때문에 T 이론이 F에 의해 함축되어 있을 가능성이 있다고 말한다.

F조건에 대한 설명이라고도 하는 이론 T는 유비쿼터스 사실상의 "왜" 질문에 대한 답이다. 예를 들어, F 조건은 "왜 사과가 떨어지는가?"이다. 답은 사과가 떨어진다는 것을 암시하는 이론 T이다.

F=G{\frac {m_{1}m_{2}}{r^{2}}:

귀납적 추론은 형태지만

등급 C에서 관찰된 모든 물체는 속성 P를 가진다. 따라서 등급 C의 모든 물체는 특성 P를 가질 가능성이 있다.

유괴적 추론 측면에서 등급 C나 등급 집합에서 속성 P를 갖는 모든 물체는 관측 조건을 내포하는 이론이다. 등급 C에서 관측된 모든 물체는 속성 P를 가진다.

그래서 귀납적 추론은 유괴적 추론의 특별한 경우다. 일반적인 용도에서 귀납 추론이라는 용어는 종종 유괴 추론과 귀납 추론을 둘 다 언급하기 위해 사용된다.

일반화 및 전문화

귀납 추론은 일반화와 관련이 있다. 일반화는 특정 값을 범주의 멤버십으로 대체하거나 범주의 멤버십을 더 넓은 범주의 멤버십으로 대체하여 진술로부터 형성될 수 있다. 연역논리학에서 일반화는 사실일 수도 있는 새로운 이론을 만들어 내는 강력한 방법이다. 귀납적 추론 일반화는 사실일 가능성이 있는 이론을 만들어낸다.

일반화의 반대는 전문화다. 전문화는 특정 사례에 일반 규칙을 적용하는 데 사용된다. 범주의 구성원 자격을 특정 값으로 대체하거나 범주를 하위 범주로 대체하여 일반화에서 전문화를 생성한다.

생물과 사물의 린나인 분류는 일반화와 명세서의 기초를 이룬다. 식별, 인식, 분류 능력이 일반화의 기본이다. 세계를 물체의 집합체로 인식하는 것은 인간 지능의 핵심 측면으로 보인다. 그것은 컴퓨터 과학이 아닌 목적 지향적 모델이다.

객체 지향 모델은 우리의 인식으로부터 구성된다. 특히 시각은 두 이미지를 비교하고 한 이미지를 다른 이미지로 변형하거나 매핑하는 데 필요한 정보의 양을 계산하는 능력에 기초한다. 컴퓨터 비전은 스테레오 이미지 쌍으로부터 3D 이미지를 만들기 위해 이 매핑을 사용한다.

귀납 논리 프로그래밍은 어떤 조건을 내포하는 이론을 구성하는 수단이다. 플롯킨의 "상대적 최소 일반화(rlgg)" 접근법은 조건과 일치하는 가장 단순한 일반화를 구성한다.

뉴턴의 유도법

아이작 뉴턴은 만유인력의 법칙을 구성하는데 귀납적인 주장을 사용했다.^[17] 진술부터 시작해서

사과의 중심은 지구의 중심을 향해 떨어진다.

사물은 사과로 대체하고, 사물은 흙으로 대체하여 일반화하는 것은 두 가지 체계에 있다.

물체의 중심이 다른 물체의 중심을 향해 떨어진다.

그 이론은 모든 물체가 떨어지는 것을 설명하기 때문에 그것에 대한 강력한 증거가 있다. 두 번째 관찰은,

그 행성들은 타원형 경로를 따라가는 것처럼 보인다.

약간의 복잡한 수학 미적분학 후에, 가속도가 역제곱 법칙을 따른다면, 물체는 타원을 따른다는 것을 알 수 있다. 그래서 유도는 역제곱법의 증거를 준다.

모든 물체가 같은 속도로 떨어진다는 갈릴레오의 관찰을 이용해,

F_{1}=m_{1}a_{1}a_{1}={\frac {m_{1}k_{1}1}:{1}:{r^{2}}:i_{1}:{1}:{1}:{1}:{1}:{1}}}}

{\displaystyle F_{2}=m_{2}a_{2}a_{2}={\frac {m_{2}k_{2}}:{r^{2}}:i_{2}}:

여기서 $i_{1}$ $i_{1}$ ${\$ 및 $i_{1}$ $i_{2}$ 2 ${\$ }} 벡터는 $i_{2}$ 다른 물체의 중심을 향한다. 그런 다음 뉴턴의 세 번째 법칙 $F_{1}=-F_{2}$ $F_{1}=-F_{2}$ = $F_{1}=-F_{2}$ - $F_{1}=-F_{2}$ 2 ${\$ }}:

F=G{\frac {m_{1}m_{2}}{r^{2}}:

귀납 추론에 대한 확률

시사점은 조건 확률을 다음과 같이 결정한다.

T\to F\iff P(F T)=1

그렇게

P(F T)=1

{\디스플레이 스타일 L(F T) L(F T)=0}

이 결과는 베이지안 가설 검사에 주어진 확률에 사용될 수 있다. 단일 이론의 경우, H = T 및,

P(T F)={\frac {P(T)}{P(F)}}}}

정보 측면에서 상대적인 확률은,

P(T F)=2^{-(L(T)-L(F))}

P(T F)에 대한 이 추정치는 실제 확률이 아니라는 점에 유의하십시오. $L(T_{i})<L(F)$ ( $L(T_{i})<L(F)$ $L(T_{i})<L(F)$ ) $L(T_{i})<L(F)$ < L $L(T_{i})<L(F)$ ( $L(T_{i})<L(F)$ ) ${\displaystyle L(T_{i}}<L(F)}})$ 이 이론에 뒷받침할 증거가 $L(T_{i})<L(F)$ 있다. 그렇다면 일련의 이론 $T_{i}=H_{i}$ = H $T_{i}=H_{i}$ ${\$ $H_{i$ 그런 $L(T_{i})<L(F)$ $L(T_{i})<L(F)$ i $L(T_{i})<L(F)$ ) $L(T_{i})<L(F)$ < L $L(T_{i})<L(F)$ ( $L(T_{i})<L(F)$ ) ${\displaystyle$ L $(T_{i})$ >< $L(F$

{\displaystyle P(T_{i}F)={\frac {P(T_{i}}}}}{P(F R)+\sum _{j}{P(T_{j}}}}}}}}}}}}}}}}}}}:

P(R F)={\frac {P(F R)}{P(F R)+\sum _{j}{P(T_{j}}}}}}}}}}}}}}}}}

부여

P(T_{i}F)\약 {\frac {2^{-L(T_{i}}}}}}{2^{-L(F)+\sum _{j}{2^{-L(T_{j}}}}}}}}}}}}}}}}}}}}}}}}}}})

P(R F)\cHB {2^{-L(F)}}{2^{-L(F)}+\sum _{j}{2^{-L(T_}}}}}}}}}}}}}}}}}}}}:

파생어

귀납 확률의 도출

각각 고유한 무한 비트 문자열을 생성하는 모든 $K_{i}$ 최단 프로그램 $K_{i}$ ${\$ 의 목록을 만들고 관계를 만족시키십시오.

T_{n}(R(K_{i}))=x

여기서 $){\displaystyle R(K_{i}}}}$ 은 $R(K_{i})$ (는) $K_{i}$ $K_{i}$ {\ $displaystyle K_{i}}$ 을 $K_{i}$ (를) 실행하고 Tn ${\$ 을(를) 실행한 결과 n비트 후에 문자열을 자른다 $T_{n}$ .

문제는 n비트 이후의 잘린 소스가 x인 경우 $K_{i},$ 소스가 프로그램 $K_{i},$ i $K_{i},$ , $K_{i}$ 에 의해 생성될 확률을 계산하는 것이다. 이것은 조건부 확률로 표현된다.

P(s=R(K_{i}) T_{n}(s)=x)

베이즈 정리 확장형 사용

P(s=R(K_{i}) T_{n}=x={\frac {P(T_{n}s)=x s=R(K_{i}))P(s=R(K_{i})}{\sum _{j}P(T_{n}s)=x s=R(K_{j})P(s=R(K_{j})}}}.

확장된 형태는 전체 확률의 법칙에 의존한다. 이것은 $s=R(K_{i})$ = $s=R(K_{i})$ R ( $s=R(K_{i})$ $){\displaystyle$ s= $R(K_{i}}}}}$ 이(가) 구별되는 가능성이어야 함을 $s=R(K_{i})$ 의미하며, $K_{i}$ 는 $K_{i}$ Ki $K_{i}$ {\ $displaystyle K_{$ i}}}이 다른 무한 문자열을 생성한다는 조건에 $K_{i}$ 의해 주어진다. $s=R(K_{i})$ s $s=R(K_{i})$ = $s=R(K_{i})$ ( K $s=R(K_{i})$ ) ${\displaystyle s=R(K_{i}})$ 조건 중 하나가 참이어야 한다 $s=R(K_{i})$ . $T_{n}(s)$ 는 n $n\to \infty ,$ → $n\to \infty ,$ , $n\to \inft ,$ 제한에서처럼 항상 T $T_{n}(s)$ ( $){\displaystyle T_{n}}$ 을(를) 생성하는 프로그램이 하나 이상 있어야 $n\to \infty ,$ 한다 $T_{n}(s)$

$K_{i}$ $K_{i}$ ${\$ 을 $K_{i}$ (를 $T_{n}(R(K_{i}))=x,$ 선택하여 T $T_{n}(R(K_{i}))=x,$ ( $K_{i})$ = x $T_{n}(R(K_{i}))=x,$ , $T_{n}(R)=x,$ 을 $T_{n}(R(K_{i}))=x,$ (를) 적용하면,

P(T_{n}s)=x s=R(K_{i})=1

프로그램으로부터 생성되는 문자열의 압리리 확률은, 문자열의 정보가 없는 경우, 프로그램의 크기에 기초한다.

P(s=R(K_{i})=2^{-I(K_{i}}}})

부여

P(s=R(K_{i}) T_{n}(s)={\frac {2^{-I(K_{i}}}}}}}{j}}}}}.

x 길이와 같거나 긴 프로그램은 예측력을 제공하지 않는다. 나눠서 나눠주고

P(s=R(K_{i}) T_{n}(s)=x)={\frac {2^{-I(K_{i}}}}}}}}{\sum _{j:I(K_{j}){n2}^{-I(K_{j}}}+\sum _{j:I(K_{j})\geqslant n2}2^{-I(K_{j}}}}}}}.

그런 다음 두 가지 확률을 다음과 같이 식별하십시오.

P(x{\text}에 패턴이 있음)=\sum _{j:I(K_{j}){n2}^{-I(K_{j}}}}}}}

P(x{\text{는 랜덤}})=\sum _{j:I(K_{j})\geqslant n2}^{-I(K_{j}}}}}}}}

하지만 x가 무작위 비트 집합일 확률은 $2^{-n}$ - $2^{-n}$ ${\$ 2 $^{-n}$ 입니다 $2^{-n}$

P(s=R(K_{i}) T_{n}=x={\frac {2^{-I(K_{i}}}}}}}}{2^{-n}+\sum _{j:I(K_{j}){n2}^{-I(K_{j}}}}}}}.

소스가 랜덤하거나 예측할 수 없는 확률:

P(\operatorname {random}(s) T_{n}(s)=x)={\frac {2^{-n}}}{2^{-n}+\sum _{j:I(K_{j}){n2}^{-I(K_{j}}}}}}}.

귀납 추론 모델

이론의 확률을 결정하는데 세상이 어떻게 구성되는지에 대한 모델이 사용된다.

임의 비트 문자열이 선택된다.
조건은 비트 문자열로 구성된다.
조건과 일치하는 세상이 만들어진다.

w가 비트 문자열인 경우 $R(w)$ ) $R(w)$ {\ $displaystyle R(w)}$ 이 $R(w)$ (가) 참이 되도록 월드가 생성된다. 지능적인 요원은 그 단어에 대한 몇 가지 사실을 가지고 있는데, 그것은 조건을 주는 비트 문자열 c로 대표된다.

(\displaystyle C=R(c)}

조건 x와 $E(x)$ 한 비트 문자열 집합은 $E(x)$ ( x $E(x)$ ) $E(x)$ 입니다 $E(x)$

\forall x,E(x)=\{w:R(w)\equiv x\}

이론은 C를 설명하는 더 간단한 조건이다. 그러한 모든 이론들의 집합은 T라고 불린다.

T(C)=\{t:t\to C\}

베이즈의 정리 적용

베이즈 정리의 확장형식을 적용할 수 있다.

P(A_{i}B)={\frac {P(BA_{i})\,P(A_{i}}}}}{\sum _{j}P(B_{j})\,P(A_{j}}}},},},},

어디에

B=E(C)}

A_{i}=E(t)

Bayes의 정리를 적용하기 위해서는 다음 사항이 유지되어야 한다: A $A_{i}$ ${\$ 는 이벤트 $A_{i}$ 공간의 분할이다.

$T(C)$ ( $T(C)$ ) $T(C)$ 이(가) 분할이 되려면 $T(C)$ 비트 문자열 n이 두 가지 이론에 속하지 않을 수 있다. 그들이 모순을 도출할 수 있다는 걸 증명하기 위해

#\displaystyle (N\in T)\land (N\in M)\land (N\neq M)\land (n\in E(N)\land n\in E(M)}}

\displaystyle \implies (N\neq M)\land R(n)\equiv N\land R(n)\equiv M}

\displaystyle \bot }

두 번째로 T가 조건과 일치하는 모든 결과를 포함한다는 것을 증명한다. C와 일치하는 모든 이론이 포함되므로 $R(w)$ ) $R(w)$ 이(가) 이 집합에 포함되어야 한다 $R(w)$ .

그래서 베이지스 정리는 특정한 기부처럼 적용될 수 있다.

\forall t\in T(C), P(E(t) E(C)={\frac {P(E(t)\cdot P(E(C) E(t))}{\sum _{j\in T(C)}P(E(j)\cdot P(E(C) E(j))}}

$T(C)$ 및 조건 확률 법칙을 사용하여 T ( C $T(C)$ ) $T(C)$ 의 정의는 다음을 $T(C)$ 암시한다.

\forall t\in T(C),P(E(C) E(t)=1

T에서 각 이론의 확률은 다음과 같다.

\forall t\in T(C),P(E(t)=\sum _{n:R(n)\equiv t}^{-L(n)}}}}}

그렇게

\forall t\in T(C),P(E(t) E(C))={\frac {\sum _{n:R(n)\equiv t}2^{-L(n)}}{\sum _{j\in T(C)}\sum _{m:R(m)\equiv j}2^{-L(m)}}}

마지막으로 사건의 확률은 사건의 결과가 만족하는 조건의 확률로 식별될 수 있다.

\forall t\in T(C), P(E(t) E(C)=P(t C)

부여

\fall t\in T(C),P(t C)={\frac {\sum _{n:R(n)\equiv t}^{n:L(n)}}}{j\in T(C)}\sum _{m:R(m)\equiv j}^{-L(m)}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}

이것은 조건 C가 가지고 있는 것을 관찰한 후 이론 t의 확률이다.

예측 능력 없이 이론 제거

C조건보다 개연성이 낮은 이론은 예측력이 없다. 나눠서 나눠주고

\forall t\in T(C),P(t C)={\frac {P(E(t))}{(\sum _{j:j\in T(C)\land P(E(j))>P(E(C))}P(E(j)))+(\sum _{j:j\in T(C)\land P(E(j))\leq P(E(C))}P(j))}}

C에 대한 예측력이 없는 이론의 확률은 C의 확률과 같다. 그렇게

P(E(C)=\sum _{j:j\in T(C)\land P(E)\leq P(C)}P(j)}

그래서 그 확률은

\forall t\in T(C), P(t)={\frac {P(E(t)}{P(C)++\sum _{j:j\in T(C)\land P(E(j))]P(E(j)}P(E)}P(J)}P(J)}}

$\operatorname {random} (C)$ 무작위 $\operatorname {random} (C)$ no ( C ) ${\displaystyle \operatorname {random} (C$

P({\text{random}(C) C)={\frac {P(E(C))}++\sum _{j:j\in T(C)\land P(E(j)_P(E(C))}P(E(j)})}P(E(J)))})}}}

조건의 확률은 다음과 같이 주어졌다.

\ forall t,P(E(t)=\sum _{n:R(n)\equiv t}2^{-L(n)}}}}

에이전트에게 입력으로 주어진 비트 문자열보다 더 복잡한 이론의 비트 문자열은 예측력이 없다. 무작위 사례에는 확률이 더 잘 포함되어 있다. 이것을 실행하기 위해 F in으로 새로운 정의가 주어진다.

\ forall t,P(F(t,c)=\sum _{n:R(n)\equiv t(n)<L(c)}2^{-L(n)}}}}

F를 이용해서 납치 확률을 개선하면

\forall t\in T(C),P(t C)={\frac {P(F(t,c))}{P(F(C,c))+\sum _{j:j\in T(C)\land P(F(j,c))>P(F(C,c))}P(E(j,c))}}

P(\operatorname {random} (C) C)={\frac {P(F(C,c))}{P(F(C,c))+\sum _{j:j\in T(C)\land P(F(j,c))>P(F(C,c))}P(F(j,c))}}

주요인

참고 항목

참조

^ Wallace, Chris; Boulton (1968). "An information measure for classification". Computer Journal. 11 (2): 185–194. doi:10.1093/comjnl/11.2.185.
^ Rissanen, J. (1978). "Modeling by shortest data description". Automatica. 14 (5): 465–658. doi:10.1016/0005-1098(78)90005-5.
^ Allison, Lloyd. "Minimum Message Length (MML) – LA's MML introduction".
^ Oliver, J. J.; Baxter, Rohan A. (1994). "MML and Bayesianism: Similarities and Differences (Introduction to Minimum Encoding Inference – Part II)". {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
^ Li, M. 및 Vitany, P., Kolmogorov 복잡성과 그 적용에 대한 소개, 제3판, Springer Science and Business Media, N.Y., 2008, 페이지 347
^ 솔로몬오프, R, "유도 추론의 일반 이론에 관한 예비 보고서", 보고서 V-131, 케임브리지, 케임브리지, 제토르 주식회사, 1960년 2월 4일 개정, 1960년 11월.
^ 솔로몬오프, R, "유도 추론, 파트 1" 정보 및 제어, 제7권, 제1권 1-22권, 1964년 3월.
^ 솔로몬오프, R, "유도 추론의 형식 이론, 파트 2" 정보 및 제어, 제7권 제2권 224–254, 1964년 6월.
^ Hutter, Marcus (1998). Sequential Decisions Based on Algorithmic Probability. Springer. ISBN 3-540-22139-5.
^ Carnap, Rudolf. "STATISTICAL AND INDUCTIVE PROBABILITY" (PDF).
^ Abduction. Metaphysics Research Lab, Stanford University. 2017.
^ Pfeifer, Niki; Kleiter, Gernot D. (2006). "INFERENCE IN CONDITIONAL PROBABILITY LOGIC". Kybernetika. 42 (4): 391–404.
^ "Conditional Probability". Artificial Intelligence - Foundations of computational agents.
^ "Introduction to the theory of Inductive Logic Programming (ILP)".
^ Plotkin, Gordon D. (1970). Meltzer, B.; Michie, D. (eds.). "A Note on Inductive Generalization". Machine Intelligence. Edinburgh University Press. 5: 153–163.
^ Plotkin, Gordon D. (1971). Meltzer, B.; Michie, D. (eds.). "A Further Note on Inductive Generalization". Machine Intelligence. Edinburgh University Press. 6: 101–124.
^ 아이작 뉴턴(Asaac Newton) : "[실험적] 철학에서 특정 명제는 현상으로부터 유추되고 그 후에 유도에 의해 일반화된다.": 앤드류 모트의 영어 번역서 2권 392쪽에 있는 "프린키피아" 제3권, "스콜리움 장군" (Principia)"

외부 링크

Rathmanner, S, Hutter, M, Entropy 2011, 13, 1076–1136의 "범용유도 철학 논문": 솔로몬노프의 귀납 추론 이론에 대한 매우 명확한 철학적, 수학적 분석.
C.S. 월리스, 최소 메시지 길이별 통계 및 귀납 추론, 스프링거-버락(정보과학 및 통계), ISBN 0-387-23795-X, 2005년 5월 – 제목, 목차 및 샘플 페이지.

[1] Wallace, Chris; Boulton (1968). "An information measure for classification". Computer Journal. 11 (2): 185–194. doi:10.1093/comjnl/11.2.185.

[2] Rissanen, J. (1978). "Modeling by shortest data description". Automatica. 14 (5): 465–658. doi:10.1016/0005-1098(78)90005-5.

[3] Allison, Lloyd. "Minimum Message Length (MML) – LA's MML introduction".

[4] Oliver, J. J.; Baxter, Rohan A. (1994). "MML and Bayesianism: Similarities and Differences (Introduction to Minimum Encoding Inference – Part II)". {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)

[5] Li, M. 및 Vitany, P., Kolmogorov 복잡성과 그 적용에 대한 소개, 제3판, Springer Science and Business Media, N.Y., 2008, 페이지 347

[6] 솔로몬오프, R, "유도 추론의 일반 이론에 관한 예비 보고서", 보고서 V-131, 케임브리지, 케임브리지, 제토르 주식회사, 1960년 2월 4일 개정, 1960년 11월.

[7] 솔로몬오프, R, "유도 추론, 파트 1" 정보 및 제어, 제7권, 제1권 1-22권, 1964년 3월.

[8] 솔로몬오프, R, "유도 추론의 형식 이론, 파트 2" 정보 및 제어, 제7권 제2권 224–254, 1964년 6월.

[9] Hutter, Marcus (1998). Sequential Decisions Based on Algorithmic Probability. Springer. ISBN 3-540-22139-5.

[10] Carnap, Rudolf. "STATISTICAL AND INDUCTIVE PROBABILITY" (PDF).

[11] Abduction. Metaphysics Research Lab, Stanford University. 2017.

[12] Pfeifer, Niki; Kleiter, Gernot D. (2006). "INFERENCE IN CONDITIONAL PROBABILITY LOGIC". Kybernetika. 42 (4): 391–404.

[13] "Conditional Probability". Artificial Intelligence - Foundations of computational agents.

[14] "Introduction to the theory of Inductive Logic Programming (ILP)".

[15] Plotkin, Gordon D. (1970). Meltzer, B.; Michie, D. (eds.). "A Note on Inductive Generalization". Machine Intelligence. Edinburgh University Press. 5: 153–163.

[16] Plotkin, Gordon D. (1971). Meltzer, B.; Michie, D. (eds.). "A Further Note on Inductive Generalization". Machine Intelligence. Edinburgh University Press. 6: 101–124.

[17] 아이작 뉴턴(Asaac Newton) : "[실험적] 철학에서 특정 명제는 현상으로부터 유추되고 그 후에 유도에 의해 일반화된다.": 앤드류 모트의 영어 번역서 2권 392쪽에 있는 "프린키피아" 제3권, "스콜리움 장군" (Principia)"

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[17]

Search