표준설정연구

표준설정연구는 시험을 후원하는 기관이 시험의 컷스코어를 결정하기 위해 실시하는 공식 연구다.특히 높은 평가를 위해 미국에서 법적으로 방어할 수 있고, 교육 및 심리 테스트 표준을 충족하기 위해서는 컷스코어를 임의로 결정할 수 없으며, 반드시 실증적으로 정당화되어야 한다.예를 들어, 조직은 단순히 컷스코어가 70% 정확할 것이라고 결정할 수 없다.대신 유능과 무능 등 수험생의 분류를 가장 잘 구분하는 점수가 무엇인지 파악하기 위한 연구를 실시한다.그러한 연구에는 특히 심리학적 배경과 관련된 다수의 전문가와 관련된 상당히 많은 자원이 필요하다.표준 설정 연구는 그러한 이유로 정규 수업실 상황에 비실용적이지만, 모든 교육 계층에서 표준 설정이 수행되고 여러 가지 방법이 존재한다.null

표준 설정 연구는 일반적으로 시험에 대한 주요 이해당사자를 대표하는 5-15명의 주제 전문가로 구성된 초점 그룹을 사용하여 수행된다.예를 들어, 교육용 시험의 커트 점수를 설정할 때, 전문가는 시험을 위한 학생 모집단의 능력에 익숙한 강사일 수 있다.null

표준 설정 연구 유형

표준 설정 연구는 항목 중심과 사람 중심이라는 두 가지 범주로 나뉜다.항목 중심 방법의 예로는 안고프, 에벨, 네델스키,^[1] 북마크, ID 매칭 방법이 있으며, 사람 중심 방법의 예로는 경계선 조사 및 대조군 접근법이 있다.이러한 것들은 분석의 초점에 따라 분류된다. 항목 중심 연구에서는 조직이 특정 인구에 대한 항목을 평가하고, 그 반대의 경우도 개인 중심 연구에 대한 항목을 평가한다.null

항목 중심 연구는 기준 참조 시험 및 표준 참조 시험과 관련이 있다.null

항목 중심 연구

앤고프 방법^[2](항목 중심):이 방법은 주제 전문가 그룹(SME)이 각 항목을 평가하고 항목별로 정답을 맞출 수 있는 최소 능력 시험자의 비율을 추정하도록 요청해야 한다.등급은 각 항목의 평균을 구한 다음 패널 권장 원시 컷스코어를 얻기 위해 합산한다.이 컷스코어는 패널이 최소 유자격 후보가 획득할 것으로 추정하는 점수를 나타낸다.이것은 물론 과신력 편향과 같은 결정 편향의 대상이다.보다 객관적인 다른 데이터 출처와의 교정이 바람직하다.그 방법에는 몇 가지 변형들이 존재한다.
수정된 앤고프 방법(항목 중심):주제 전문가는 일반적으로 안고프 방법에 대해 보고받고 성능 수준을 염두에 두고 시험을 볼 수 있다.그런 다음 중소기업은 경계선 또는 "최소 수용 가능한" 참가자의 비율에 대한 각 질문에 대한 추정치를 제시하여 질문을 정확하게 맞힐 것으로 기대하도록 요청 받는다.추정치는 일반적으로 p-값 유형(예: 항목 1의 경우 0.6: 경계선 통과 참가자의 60%가 이 질문을 정확하게 이해함)이다.다양한 유형의 정보(예: 각 질문에 대한 실제 참가자 성과 정보, 기타 SME 추정치 등)가 주어진 경우 중소기업이 추정치를 수정할 수 있도록 하는 여러 라운드가 일반적으로 실시된다.그런 다음 컷 점수의 최종 결정이 이루어진다(예: 평균 추정치 또는 중위수를 취함). 이는 종종 경주 간 신뢰도 또는 Beuk 절충과 같은 이차 결과와 함께 보고서에 기록된다.소프트웨어 프로그램은 일반적으로 이것들을 계산하는 데 사용된다.^[3]이 방법은 일반적으로 객관식 문항과 함께 사용된다.
이분법 수정 앤고프 방법(항목 중심):이분법적으로 수정된 앤고프 접근법에서, 난이도 유형 통계(일반적으로 p-값)를 사용하는 대신 중소기업은 각 질문에 대해 간단히 0/1을 제공하도록 요청 받는다(경계선 수용 가능한 참가자가 질문을 틀릴 경우 "0"을, 경계선 수용 가능한 참가자가 항목을 제대로 맞출 경우 "1"
네델스키 방법(항목 중심): 중소기업은 참가자들에게 경계선을 긋는 질문 집중을 통해 어떤 질문 집중을 통해 잘못된 질문으로 제거할 수 있을지에 대한 결정을 내린다.이 방법은 일반적으로 객관식 문제에만 사용된다.
책갈피 방법(항목 중심):시험 항목(또는 항목의 대표적인 부분 집합)은 난이도(예: IRT 응답 확률 값)에 의해 가장 쉬운 것부터 가장 어려운 것까지 정렬된다.중소기업은 "순서 항목 책자"에 "북마크"를 넣어 성과 수준의 문턱에 있는 학생이 지정된 응답 확률 값보다 크거나 그 이상의 확률로 책갈피 이전의 항목에 성공적으로 응답할 것으로 예상한다.예를 들어, 응답확률 .67 (RP67) SME의 경우, 성능수준의 문턱에 있는 수험자가 책갈피 이전 항목에서는 성공확률이 최소한 2/3이고 책갈피 이후 항목에서는 성공확률이 2/3 미만일 수 있도록 책갈피를 배치할 것이다." 이 방법은 효율적인 것으로 간주된다.단일 테스트에서 다중 절단 점수를 설정하고, 다중 항목 유형(예: 다중 선택, 구성 응답 등)으로 구성된 테스트와 함께 사용할 수 있다.^[4]^[5]^[6]
Item-Descriptor(ID) 일치(항목 중심):ID매칭(를), 즉 주문한 책과 경험적 문항 난이도 그 순서에 전달에 대한 정보를;그리고(b) 다른 방법의 낮은 인지 복잡성과 인지 부하를 세웠습니다;그것은 단지error-prone 확률 판단이 요구된다;[8]품목의 특징과 일치시키는 것입니다는 북마크 메서드의 이점을 겸비하고 있다s일반적으로, ^[9]특히 교육자의 지식과 전문지식에 매우 적합하며, 컷 점수 판단을 하는 동안 경계선 수험생을 염두에 둘 필요가 없는, 성취도 수준의 서술의 특징.

사람중심의 연구

능력 있는 지원자를 가려내는 항목보다는 사람 중심의 학습이 수험생 스스로 평가한다.이것이 더 적절해 보일 수도 있지만, 수험생들이 항목 목록처럼 포획된 모집단이 아니기 때문에 더 어려운 경우가 많다.예를 들어 (정보기술 시험에서 흔히 일어나는 것과 같이) 새로운 내용에 관한 새로운 테스트가 나온다면, 그 테스트는 전문적인 특성에 대한 조사와 함께 베타 샘플이라는 초기 샘플에 주어질 수 있다.그런 다음 시험 기관은 시험 점수와 기술, 교육 및 경험과 같은 중요한 통계 사이의 관계를 분석하고 평가할 수 있다.컷스코어는 "합격"으로 특징지어지는 수험생과 "실패"로 가장 잘 구분되는 점수로 설정될 수 있다.null

경계선 그룹 방법(사용자 중심):각 수행 카테고리에 대한 설명이 준비된다.중소기업은 시험 성적이 성과기준(경계선)에 근접해야 하는 참가자의 명단을 제출하도록 한다.시험은 이러한 경계선 그룹에 관리되며 중간 시험 점수는 컷 점수로 사용된다.이 방법은 거의 모든 질문 유형(예: 객관식, 복수 응답, 에세이 등)과 함께 사용할 수 있다.
대조군 방식(사람중심) : 중소기업은 성과 범주 설명에 따라 수업 참여자를 분류하도록 한다.시험은 범주화된 모든 참가자에게 관리되며, 범주화된 각 그룹의 시험 점수 분포를 비교한다.대조되는 그룹의 분포가 교차하는 곳은 컷 점수가 위치하는 곳이다.이 방법은 거의 모든 질문 유형(예: 객관식, 복수 응답, 에세이 등)과 함께 사용할 수 있다.

참조

^ 네델스키, L. (1954년)객관적 시험에 대한 절대 등급 표준.교육 및 심리 측정, 14, 3–19.
^ 지에키, M.J. (2001)1980년대 이후 컷스코어의 설정이 어떻게 진화했는가에 대한 많은 것이 바뀌었다.Cizek, G.J. (Ed.), Setting Performance Standards, 페이지 19-52.마화, NJ: 로렌스 얼바움 어소시에이츠.
^ 평가 시스템 주식회사:Angoff 분석 도구(무료 소프트웨어).https://assess.com/angoff-analysis-tool/
^ Lewis, D. M., Mitzel, H. C., Green, D. R. (1996년 6월)표준 설정: 책갈피 접근법.D. R. 그린(의장)에서, 행동 앵커링을 활용한 IRT 기반 표준 설정 절차.1996년 미국 피닉스주 대규모 평가에 관한 최고위급 학교 임원회의에서 발표된 논문.
^ Mitzel, H. C., Lewis, D. M., Patz, R. J., & Green, D. R. (2000).책갈피 절차: 표준 설정에 대한 인지적 관점.성능 표준 설정의 장: 개념, 방법 및 관점(G. J. Cizek, ed.).마화, NJ: 로렌스 얼바움 어소시에이츠.
^ Lewis, D. M., Mitzel, H. C., Mercado, R. L., & Schulz, E. M. (2012)책갈피 표준 설정 절차.성능 표준 설정 장:Foundation, Methods 및 Innovations Second Edition(G. J. Cizek, ed.).마화, NJ: 로렌스 얼바움 어소시에이츠.
^ 페라라, S, & 루이스, D.(2012).Item-Descriptor(ID) Matching 메서드.G. J. Cizek(에드)에서 성능 표준 설정:기초, 방법 및 혁신(2차 개정, 페이지 255-282).
^ 니커슨, R. S. (2005)인식 및 기회:확률론적 추론의 심리학.마화, NJ: 로렌스 얼바움 어소시에이츠.
^ Murphy, G. L. (2002)개념의 큰 책.케임브리지, MA: MIT 프레스

[1] 네델스키, L. (1954년)객관적 시험에 대한 절대 등급 표준.교육 및 심리 측정, 14, 3–19.

[2] 지에키, M.J. (2001)1980년대 이후 컷스코어의 설정이 어떻게 진화했는가에 대한 많은 것이 바뀌었다.Cizek, G.J. (Ed.), Setting Performance Standards, 페이지 19-52.마화, NJ: 로렌스 얼바움 어소시에이츠.

[3] 평가 시스템 주식회사:Angoff 분석 도구(무료 소프트웨어).https://assess.com/angoff-analysis-tool/

[4] Lewis, D. M., Mitzel, H. C., Green, D. R. (1996년 6월)표준 설정: 책갈피 접근법.D. R. 그린(의장)에서, 행동 앵커링을 활용한 IRT 기반 표준 설정 절차.1996년 미국 피닉스주 대규모 평가에 관한 최고위급 학교 임원회의에서 발표된 논문.

[5] Mitzel, H. C., Lewis, D. M., Patz, R. J., & Green, D. R. (2000).책갈피 절차: 표준 설정에 대한 인지적 관점.성능 표준 설정의 장: 개념, 방법 및 관점(G. J. Cizek, ed.).마화, NJ: 로렌스 얼바움 어소시에이츠.

[6] Lewis, D. M., Mitzel, H. C., Mercado, R. L., & Schulz, E. M. (2012)책갈피 표준 설정 절차.성능 표준 설정 장:Foundation, Methods 및 Innovations Second Edition(G. J. Cizek, ed.).마화, NJ: 로렌스 얼바움 어소시에이츠.

[7] 페라라, S, & 루이스, D.(2012).Item-Descriptor(ID) Matching 메서드.G. J. Cizek(에드)에서 성능 표준 설정:기초, 방법 및 혁신(2차 개정, 페이지 255-282).

[8] 니커슨, R. S. (2005)인식 및 기회:확률론적 추론의 심리학.마화, NJ: 로렌스 얼바움 어소시에이츠.

[9] Murphy, G. L. (2002)개념의 큰 책.케임브리지, MA: MIT 프레스

[1]

[2]

[3]

[4]

[5]

[6]

[9]

Search

표준설정연구

네임스페이스

더

목차