철근의 수학적 원리
Mathematical principles of reinforcement보강의 수학적 원리(MPR)는 행동의 가장 근본적인 측면을 설명하고 예측하려는 피터 킬린과 그의 동료들에 의해 제시된 일련의 수학 방정식을 구성한다(Killeen & Sitomer, 2003).
MPR, 관성, 제약 및 결합의 세 가지 핵심 원칙은 인센티브가 어떻게 반응하도록 동기를 부여하는지, 시간이 어떻게 그것을 구속하는지, 그리고 강화자가 구체적인 반응과 어떻게 연관되는지를 각각 설명한다. 실제 데이터의 필요한 세부사항을 명확하게 하기 위해 이러한 기본 원리에 대한 수학 모델이 제공된다.
제1원리: 흥청망청
MPR의 첫 번째 기본 원리는 흥분이다. 아루살은 인센티브의 제시로 행동이 활성화되는 것을 말한다. 인센티브의 반복적인 제시에 따른 활동 수준의 증가는 조건화의 근본적인 측면이다. 킬린, 핸슨, 오스본(1978)은 부가적인 (또는 스케줄에 의해 유발된) 행동들은 일반적으로 유기체의 레퍼토리의 일부분이라고 제안했다. 인센티브의 전달은 유기체에서 일반 활동, 즉 흥분의 고조된 수준을 발생시킴으로써 부수적인 행동의 비율을 증가시킨다.
킬린 앤 핸슨(1978)은 비둘기를 실험실에서 매일 한 차례씩 음식을 내놓는 것에 노출시키고, 먹이를 먹은 후 15분간 일반 활동을 측정했다. 그들은 먹이를 먹은 직후에 활동량이 약간 증가하다가 시간이 지남에 따라 서서히 감소한다는 것을 보여주었다. 붕괴 속도는 다음과 같은 기능으로 설명할 수 있다.
- b1 = y-message(분당 평균)
- t = 공급 후 시간(초)
- = 시간 상수
- e = 자연 로그의 베이스
일반 활동의 전체 이론적 모델의 시간 코스는 다음 방정식으로 모델링한다.
- A = 활력
- I = 일시적 억제
- C = 경쟁 행위
이 모델을 더 잘 개념화하려면 이러한 각 프로세스에서 응답 속도가 어떻게 개별적으로 나타날지 상상해 보십시오. 시간적 억제나 경쟁적 반응이 없을 경우, 흥분 수준은 높은 상태를 유지할 것이고 반응률은 매우 작은 음의 기울기를 가진 거의 수평선으로 묘사될 것이다. 식품 발표 직후, 일시적 억제는 최대 수준에 있다. 시간이 흐를수록 빠르게 감소하고, 짧은 시간 안에 반응률이 호재 수준으로 높아질 것으로 예상된다. 골 트래킹이나 호퍼 검사 같은 경쟁적인 행동은 음식 발표 직후에 최소한이다. 이러한 행동들은 간격이 길어질수록 증가하기 때문에 일반 활동의 척도는 서서히 감소할 것이다. 이 두 곡선을 빼면 일반 활동의 예측 수준이 된다.
킬린 외 연구진(1978)은 그 후 매일의 먹이 주기 횟수를 고정 시간 초마다로 늘렸다. 그들은 일반적인 활동 수준이 일일 발표 수준보다 상당히 증가했음을 보여주었다. 가장 높은 철근 배근률의 응답률이 가장 높았다. 이러한 실험은 흥분 수준이 선동 비율에 비례하고, 무증상 수준은 인센티브의 반복적인 제시와 함께 증가한다는 것을 나타낸다. 인센티브의 반복적인 제시와 함께 활동수준의 증가는 흥분의 누적이라고 불린다. MPR의 첫 번째 원리는 경구 수준이 강화 비율에 비례한다고 명시한다. = 여기서
A=흥분 수준
a= 특정 활성화
r=철근율
(Killeen & Sitomer, 2003).
두 번째 원칙: 제약
반응 분포를 분석할 때 분명하지만 간과되는 요소는 반응이 즉각적이지는 않지만 방출하는 데 어느 정도의 시간이 걸린다는 것이다(Killeen, 1994). 응답률에 대한 이러한 한도는 다른 응답과의 경쟁에 의해 설명되는 경우가 많지만, 응답률이 도출되는 동일한 속도로 항상 방출될 수는 없다는 사실에 대해서는 더 적게 설명된다(Killeen & Sitomer, 2003). 이 제한 요소는 무엇이 이론적으로 반응할 수 있는지 그리고 그것이 경험적으로 무엇이 될 것인지를 정확하게 특성화하기 위해 고려되어야 한다.
유기체는 일정한 속도로 반응하도록 자극을 받을 수도 있다. 낮은 강화율에서 도출된 속도와 방출 속도는 서로 근사하게 될 것이다. 그러나 높은 강화율에서 이 도출된 비율은 반응을 내보내는 데 걸리는 시간에 의해 억제된다. 응답률( 은 일반적으로 한 시대에서 발생하는 반응의 수를 한 시대의 지속 시간으로 나눈 값으로 측정된다. 의 역수는 한 반응의 시작부터 다른 반응의 시작까지의 평균 시간인 상호 반응(IRT)의 일반적인 측도를 제공한다(Killeen & Sitomer, 2003). 이것은 실제로 반응 사이의 시간보다는 순환 시간이다. Killeen & Sitomer(2003)에 따르면 IRT는 응답 방출에 필요한 시간 와 반응 사이의 시간 의 두 개의 하위절차로 구성되므로, 응답 수를 주기 시간으로 나누어 응답률을 측정할 수 있다
- = + {\ {1
또는 반응 수를 반응 사이의 실제 시간으로 나눈 값:
- = {1
이 순간률, ㎛ 은(는) 실험 내에서 업무협약의 성격이 임의로 변경될 수 있으므로 가장 좋은 방법이 될 수 있다(Killeen & Sitomer, 2003).
킬린, 홀, 레일리, 주전자(2002)는 순간 응답 속도가 강화 속도에 비례하는 1㎛= {\ 결과에 대한 기본 방정식을 제시했다. 킬린 & 시토머(2003)는 다음과 같은 것을 보여주었다.
=/ 인 경우
그 다음 = (+ a)
재배열로 얻을 수 있는 혜택:
은 A= 에 비례하는 비율로 도출될 수 있지만 제약조건으로 인해 b 에서만 방출될 수 있다. MPR의 두 번째 원리는 반응 방출에 필요한 시간이 반응 속도를 제약한다고 말한다(Killeen & Sitomer, 2003).
세 번째 원리: 커플링
커플링은 모든 과정을 하나로 묶는 MPR의 최종 개념으로, 서로 다른 강화 스케줄을 가진 행동의 구체적인 예측을 가능하게 한다. Coupling은 대응과 보강의 연관성을 가리킨다. 대상 반응은 실험자에 대한 관심의 반응이지만, 어떤 반응도 강화제와 연관될 수 있다. 보강의 우발성은 대상 대응(Killeen & Sitomer, 2003)과 관련하여 보강이 어떻게 예정되어 있으며, 실제로 구체적인 보강 일정은 대응이 보강과 어떻게 결합되는지를 결정한다. MPR의 세 번째 원리는 반응과 강화제 사이의 결합 정도가 반응과 강화제 사이의 거리에 따라 감소한다고 말한다(Killeen & Sitomer, 2003). 로 지정된 연결 계수는 철근 배근의 다른 일람표에 대해 주어진다 결합 계수를 활성화-기형 모델에 삽입하면 다음과 같은 완전한 조건화 모델이 도출된다.
이것이 MPR의 기본 방정식이다. 뒤에 있는 점은 연구 중인 철근의 특정 우발상황에 대한 자리 표시자다(Killeen & Sitomer, 2003).
고정 비율 철근 배근 일정
고정 비율 공정표의 철근 배근 비율은 응답률에 정비례하고 비율 요건에 반비례하므로 계산하기 쉽다(Killeen, 1994). 따라서 스케줄 피드백 기능은 다음과 같다.
- =
이 함수를 전체 모델로 대체하면 비율 일람표에 대한 움직임 방정식이 제공된다(Killeen & Sitomer, 2003). 킬린(1994, 2003년)은 일련의 반응에서 가장 최근의 반응에 가장 큰 가중치를 부여하고 의 가중치를 부여하여 나머지 응답에 1 - 을(를) 남겨둔다는 것을 보여주었다. penultimate 응답은 - 을 수신하고 세 번째 등받이는 1 - 을 수신한다 응답 백에는 -) n- 의 중량이 주어진다.
이 시리즈의 합계는 고정 비율 일람표의 결합 계수다.
이에 대한 연속적인 근사치는 다음과 같다.
여기서 은(는) 메모리 붕괴의 본질적인 비율이다. 활성화-기형 모형에 철근 배율과 결합 계수를 삽입하면 FR 일람표에 대한 예측 응답률이 제공된다.
이 방정식은 소모적 동작에 의한 메모리 변위로 인해 낮은 비율 요구사항에서 낮은 응답률을 예측한다. 그러나 이러한 낮은 비율이 항상 발견되는 것은 아니다. 응답의 커플링은 앞의 보강재 이상으로 다시 확장될 수 있으며, 이를 설명하기 n0 {\n_}}의 추가 매개변수가 추가된다. Killeen & Sitomer(2003)는 FR 일람표에 대한 연결 계수가 다음과 같이 된다는 것을 보여주었다.
은(는) 응답 강도에 기여하는 사전 보강재 이전의 응답 수입니다. 【\】 0부터 1까지의 범위는 보강제의 전달을 통해 메모리에서 대상 응답을 삭제하는 수준이다 (=( -) 0 만약 = =1}이면소거가 완료되고 보다 간단한 FR 방정식을 사용할 수 있다.
가변 비율 철근 배근 일람표
Killeen & Sitomer(2003년)에 따르면, 응답의 지속시간은 기억력 저하율에 영향을 미칠 수 있다. 유기체 내부 또는 유기체 간에 반응 시간이 달라지면 좀 더 완전한 모델이 하며 양보:
평균 응답 요구사항이 인 이상화된 변수 비율 일람표는 철근 배근으로 끝나는 의1/{\ 1/n의 일정한 확률을 갖는다(Bizo, Catter, & Killeen, 2001). 보강으로 끝나는 마지막 응답은 항상 발생해야 하며 의 강화를 수신해야 한다 penultimate 응답은 1 - 과( -) 의 강화를 수신한다. 무한대까지의 이 프로세스의 합계는 다음과 같다(Killeen 2001, 부록).
- [필요하다]
VR 일람표의 연결 계수는 다음과 같다.
메모리 소거 정도에 따라 곱하면 다음과 같은 결과를 얻을 수 있다.
그런 다음 결합 계수를 활성화-기형 모델에 삽입하여 FR 일람표에 대한 연결 계수가 VR 일람표에 따라 예측 응답률을 산출할 수 있다.
간격 스케줄에서 스케줄 피드백 함수는
여기서 은(는) 보강재 사이의 최소 평균 시간이다(Killeen, 1994). 구간 일람표에서 구간 일람표는 단지 목표 응답만이 아닌 목표 앞에 있는 모든 응답을 동등하게 강화하므로 구간 일람표의 결합은 비율 일람표보다 약하다. 일부 의 만 강화된다 응답 요건의 경우, 최종 목표 응답은 {\}의 강도를 받아야 한다 모든 선행 응답(대상 또는 비대상)은 - 의 강도를 받아야 한다
고정 시간 스케줄은 유기체가 인센티브를 위해 t초만 기다려야 하는 가장 단순한 시간 의존 일정이다. 킬린(1994)은 시간적 요구사항을 대응요건으로 재해석해 하나의 인센티브에서 다음 인센티브로 메모리의 내용을 통합했다. 이렇게 하면 메모리의 내용이 다음과 같이 된다.
N
MN=lò e-lnn
0
이는 대상과 비대상 모두의 모든 반응을 기억하여 맥락에서 도출한 포화도(Killeen, 1994)이다. 이 방정식을 풀면 고정 시간 일람표에 대한 연결 계수가 제공된다.
c=r(1-e-t)
여기서 은(는) 응답 궤적에서 대상 응답의 비율이다. 파워 시리즈로 확장하면 다음과 같은 근사치를 얻을 수 있다.
c » rlbt
1+210t
이 방정식은 일관성이 없는 철근 배근 일람표의 심각한 불안정성을 예측한다.
고정간격 일람표에는 최종적이고 연속적인 대응방안에 따라 보강이 이루어지기 때문에 목표 대응 강화 b=w1이 보장된다(Killeen, 1994). 이 커플링은 FR 1 일람표의 커플링과 동일하다.
w1=b=1-e-l
커플링의 나머지 부분은 선행행동을 기억하기 때문이다. FI 일람표의 연결 계수는 다음과 같다.
c= b +r(1-b -e-b)
가변시간 스케줄은 보강 확률이 일정하다는 점에서 무작위 비율 스케줄과 유사하지만 이들 보강 스케줄은 응답보다는 제때에 설정된다. 일정 시간 t' 이전에 보강이 발생하지 않을 확률은 시간 상수 t가 일람표의 평균 IRI가 되는 그 시간의 지수함수다(Killeen, 1994). 커플링 계수를 도출하려면 메모리의 내용에 따라 가중치가 부여된 스케줄이 종료되지 않았을 확률을 통합해야 한다.
∞
M= l-nt/te-ln'dn''
0
이 방정식에서 t'=nt, 여기서 t는 시간의 작은 단위다. 킬린(1994)은 첫 번째 지수 항은 철근 배근이고, 두 번째 항은 기억에서 이 분포의 가중치라고 설명한다. 이 적분을 해결하고 커플링 상수 r을 곱하면 VT 스케줄에서 메모리가 채워지는 정도를 알 수 있다.
c=rlbt
1+210t
이는 근사치보다는 VT 일람표에 대한 정확한 해결책이라는 점을 제외하면 FT 일람표와 동일한 결합 계수다. 다시 한 번, 이러한 비 컨텍스트 스케줄에 대한 피드백 함수는 응답의 심각한 불안정성을 예측한다.
FI 스케줄과 마찬가지로 가변간 스케줄은 b의 표적 응답 커플링을 보장한다. 단순히 VT 방정식에 b를 추가하면 다음과 같은 결과를 얻을 수 있다.
∞
M= b+ lò e-nt/te-ln'dn''
1
적분을 해결하고 r을 곱하면 VI 일람표에 대한 연결 계수가 제공된다.
c= b+(1-b) rlbt
1+210t
모든 일람표에 대한 결합 계수를 활성화-기형 모델에 삽입하여 예측된 전체 응답률을 산출한다. MPR의 세 번째 원리는 반응과 보강제 사이의 결합이 시간 증가에 따라 감소한다고 말한다(Killeen & Sitomer, 2003).
강화의 수학적 원리는 동기가 어떻게 작용하는지, 시간이 그것을 구속하는 방법, 그리고 우발상황이 어떻게 그것을 지시하는지를 설명한다. 행동의 설명 과정으로서 지속성과 상관성을 겸비한 일반적인 강화 이론이다. 보강 이전의 많은 응답은 보강재와 상관관계가 있을 수 있지만, 최종 응답은 기억력에서 가장 큰 비중을 차지한다. 세 가지 기본 원리에 대한 구체적인 모델이 제공되어 여러 가지 상황 및 다른 강화 일정 하에서 예측 반응 패턴을 명확히 한다. 각 철근 배근 일람표에 대한 결합 계수를 도출하여 기본 방정식에 삽입하여 전체 예측 반응률을 산출한다.
참조
원천
- 비조, L. A., 주전자, L. C. & 킬린, P. R. (2001) "동물들은 항상 더 많은 음식을 위해 더 빨리 반응하지는 않는다. 역설적인 인센티브 효과." 동물 학습 & 행동, 29, 66-78.
- 킬린, P.R. (1994년) "수학적 보강 원칙." 행동과학과 뇌과학, 17, 105-172
- Killeen, P. R., Hall, S., Rilly, M. P., & C. (2002년) "반응 강도의 주요 성분에 대한 분자 분석." 행동의 실험적 분석 저널 78, 127-160.
- 킬린, P. R., 핸슨, S. J., & 오스본, S. R. (1978년) "아루살: 그것의 발생과 응답률로서의 발현." 심리적인 검토. 제85권 제6호 페이지 571-81호
- 킬린, P. R. & Sitomer, M. T. (2003) "MPR" 행동 프로세스, 62, 49-64