자동 항목 생성

Automatic Item Generation

AIG(Automatic Item Generation) 또는 Automated Item Generation(Automatic Item Generation)은 사이코메트릭스와 컴퓨터 프로그래밍을 연결하는 과정이다.컴퓨터 알고리즘을 이용해 심리 테스트의 기본 구성 요소인 테스트 항목을 자동으로 만든다.그 방법은 처음에 John R에 의해 설명되었다.보르무스는[1] 1960년대에 개발되었지만 최근까지 개발되지 않았다.AIG는 2단계 과정을 사용한다. 첫째, 테스트 전문가는 아이템 모델이라는 템플릿을 만들고, 그 다음, 테스트 아이템을 생성하기 위한 컴퓨터 알고리즘을 개발한다.[2]따라서, 시험 전문가가 각각의 개별 항목을 작성하는 대신에, 컴퓨터 알고리즘은 더 작은 상위 항목 모델에서 항목 패밀리를 생성한다.[3][4][5]

컨텍스트

심리 테스트에서 시험 항목에 대한 수험자의 반응은 다양한 인간 특성에 대한 객관적 측정 데이터를 제공한다.[6]심리학 및 교육학 시험으로 측정되는 특징으로는 학업 능력, 학업 성취도, 지능, 동기 부여 등이 있으며, 이러한 시험은 개인이나 개인 집단에 중대한 영향을 미치는 의사결정을 하기 위해 자주 사용된다.시험 타당성과 같은 측정 품질 표준을 달성하는 것은 심리학자와 교육자에게 가장 중요한 목표 중 하나이다.[7]AIG는 컴퓨터화된 시험이 많은 수의 시험 항목에 대한 필요성을 증가시킨 현대 환경에서 경제적으로 시험 품질을 유지하고 향상시키는 데 사용될 수 있는 시험 개발에 대한 접근방식이다.[5]

혜택들

AIG는 알고리즘이 인간 시험 전문가보다 일정 시간 내에 더 많은 항목을 생성할 수 있기 때문에 표준화된 시험 생산 비용을 절감한다.[8]쉽고 빠르게 병렬 시험 양식을 만들 수 있어 수험생마다 다른 그룹의 시험항목에 동일한 수준의 복잡성이나 난이도에 노출될 수 있어 시험 보안성이 강화된다.[3]AIG는 컴퓨터화된 적응형 시험과 결합하면 새로운 항목을 생성하거나 시험 관리 중 수험자의 능력에 따라 다음에 어떤 이미 생성된 항목을 관리해야 하는지를 선택할 수 있다.AIG는 또 난이도가 넓고 시공 오류가 적은 품목을 생산할 것으로 예상되며, 시제품 품목 모델의 보다 체계적인 정의로 품목의 비교가능성이 높아질 것으로 예상된다.[3][9][10]

급진적, 인시던트 및 이소모르프

시험 개발(AIG 포함)은 어떤 인지 이론에 기초하면 더욱 풍부해질 수 있다.주어진 이론에서 취해진 인지 과정들은 종종 구성되는 동안 항목 특징과 일치한다.그 목적은 아이템 난이도와 같은 주어진 정신계측 파라미터를 미리 예측하는 것이다(지금부터:β). 활성산소[9] 항목 매개변수에 유의적으로 영향을 미치는 구조적 요소가 되게 하고 특정 인지 요건을 항목에 제공한다.매개변수(예: β) 수준이 다른 상위 항목 모델을 생산하기 위해 하나 이상의 항목 모델을 조작할 수 있다.그러면 각 부모는 어바인이[9] 인시던스라고 불렀던 다른 요소들을 조작함으로써 그들 자신의 가족을 기를 수 있다.인시던트는 동일 계열 내에서 항목마다 랜덤하게 차이가 나는 표면 특성이다.활성산소의 구조가 같고 인시던트만 다른 항목은 보통 이소모르프[11] 클론이라고 표시된다.[12][13]Item Cloning에는 두 가지 종류가 있을 수 있다.한편, 아이템 모델은 하나 이상의 오픈 플레이스가 있는 아이템으로 구성될 수 있으며, 클로닝은 가능성 목록에서 선택한 요소로 각 플레이스를 채우는 방식으로 이루어진다.반면, 아이템 모델은 공간능력시험 대상의 각도를 바꾸는 등 변형을 도입하여 복제되는 온전한 아이템이 될 수 있다.[14]이러한 항목의 표면 특성의 변동은 시험자의 반응에 유의적으로 영향을 미치지 않아야 한다.이 때문에 인시던트는 이소모르프들의 항목 매개변수들 사이에서 약간의 차이만 발생한다고 보는 것이다.[3]

현재 개발 현황

다수의 항목 발전기가 객관적 유효성 검사 시험을 받았다.

MathGen은 수학적 성취도를 테스트하기 위해 아이템을 생성하는 프로그램이다.저자인 엠브레슨과 킹스턴은 2018년 교육측정학 저널 기사에서 발생품목의 질적·심리학적 특성을 평가하기 위해 광범위한 정성적 검토와 실증적 시연을 실시, 해당 품목이 성공적이었으며 동일한 품목 구조에서 생성된 품목은 예측 가능한 ps를 가지고 있다고 결론지었다.계량 [15][16]특성

컴퓨터 모델 라흐만-준 2015의[17] 도움을 받아 개발된 멜로디 차별 테스트가 2017년 재판 참가자들을 대상으로 시행됐다.P.M.이 수집한 자료에 따르면.해리슨 외 연구진, 결과는 강한 타당성과 신뢰성을 보여준다.[18]

페레이라와 백호프-에스쿠데로는[19] 그들이 개발한 제네랄엑스라는 프로그램을 사용하여 교육 기술의 일반 시험인 기본 능력 시험(Excoba)의 두 가지 병행 버전을 생성했다.그리고 나서 그들은 내부 구조뿐만 아니라 생성된 시험의 심리학적 등가성을 연구했다.심리측정학 품질의 경험적 결과는 전반적으로 유리하며, 시험과 항목은 복수의 심리측정학 지수에 의해 측정된 것과 일치한다.

지얼과 그의 동료들은[20][21][22][23] 의학적 지식을 테스트하는 객관식 아이템을 만들기 위해 IGOR[24](Item Generator)라는 AIG 프로그램을 이용했다.IGOR에서 생성된 항목은 수동으로 설계한 항목과 비교해도 좋은 정신측정학적 특성을 보였다.

아렌다시, 소머, 마이어는[25] AIG를 이용해 독일어와 영어의 언어 유창성을 시험하는 언어 아이템을 만들어 각각 독일어와 영어권 참가자들에게 투여했다.컴퓨터로 만들어진 물건들은 허용 가능한 정신계 특성을 보여주었다.이 두 그룹에 관리되는 항목 집합은 공통의 언어간 앵커 항목 집합에 기초하였고, 이는 성과의 교차 언어 비교를 용이하게 하였다.

홀링, 버틀링, 제우치는[26] 확률 이론을 이용해 예상 난이도가 있는 수학 단어 문제를 자동으로 만들어냈다.그들은 Rasch[27] 모델 적합을 달성했고 항목 난이도는 Reline Logistic Test Model(LLTM[28])과 Random-Effects LLTM으로 설명할 수 있었다.Holling, Blank, Kucenbecker[29], Kuhn은 AIG를 사용하지 않고 통계 단어 문제를 가지고 비슷한 연구를 했다.아렌다시와 그의 동료들은[30][31] 자동으로 생성된 대수 단어 문제에 대한 연구를 발표했고 AIG의 품질 관리 프레임워크가 항목의 측정 품질에 어떤 영향을 미칠 수 있는지 조사했다.

무화과목 자동생성

IMak 패키지와 함께 자동으로 생성되는 4-규칙 기반 무화학적 유추 스템(자세한 내용은 Blum & Holling, 2018 참조)

IMAK(Item Maker)는 무화학적 유추 항목을 플로팅하기 위해 R 프로그래밍 언어로 작성된 프로그램이다.IMAK 생성품목 23개의 심리학적 특성이 만족스러운 것으로 나타났으며, 규칙생성에 따른 항목 난이도는 선형 로지스틱 시험모델(LLTM)을 통해 예측할 수 있었다.[3]

MazeGen은 자동으로 미로를 생성하는 R로 코딩된 또 다른 프로그램이다.라쉬 모델핏, 미로 난이도의 LLTM 예측 등 18개 미로의 심리학적 특성이 최적인 것으로 나타났다.[32]

GeomGen은 무화과 행렬을 생성하는 프로그램이다.[33]무각행렬 항목에 대한 반응 제거 전략과 관련된 측정 편향의 근원을 식별한 연구에서는 산만성이 반응 제거 전략의 추구를 선호하고 이러한 지식이 AIG에 통합되어 그러한 항목의 구성 타당성을 개선할 수 있다고 결론지었다.[34]동일한 그룹이 AIG를 사용하여 정신적 회전과 관련된 차등 항목 기능(DIF)과 성별 차이를 연구하였다.그들은 이전 연구에서 성별 DIF를 보여준 아이템 디자인 특징을 조작했고, 특정 아이템 디자인 특징과 관련될 수 있는 다양한 종류의 성별 DIF가 존재하여 성별 차이의 효과크기의 추정치가 훼손되었음을 보여주었다.[35][36]

아렌다시는 또한 자동 생성되는 공간 공간적 추론 항목의 IRT(항목응답이론)를 이용하여 식별된 정신측정학적 품질의 위반 가능성을 연구했다.이를 위해 그는 이미 언급된 검겐과[33] 무한순환발전기(EsGen)라는 두 가지 프로그램을 선보였다.그는 아이템 생성 시 IRT 원리를 접목할 수 있기 때문에 GeomGen이 AIG에 더 적합하다고 결론지었다.[37]GeomGen을 이용한 병행 연구 프로젝트에서 아렌다시와 소머는[38] 항목의 지각조직의 변화가 능력 수준에 따라 응답자의 성과에 영향을 미칠 수 있으며, 여러 가지 정신계 품질 지수에 영향을 미친다는 것을 발견했다.이러한 결과와 함께, 그들은 일반적으로 무화질 행렬 항목의 일변성 가정에 의문을 제기하였다.

매트릭스개발자는[39] 25개의 4x4 제곱 매트릭스 항목을 자동으로 생성하기 위해 사용되었다.이 항목들은 169명의 개인에게 관리되었다.연구 결과에 따르면, 이 품목들은 좋은 라스치 모델 핏을 보여주며, 규칙 기반 세대는 품목의 난이도를 설명할 수 있다.[40]

최초의 알려진 아이템 매트릭스 발생기는 엠브레슨이 설계했으며,[41][12] 엠브레슨과 레이즈가 보여주는 것처럼 그녀가 자동 생성된 아이템은 좋은 사이코메트릭스 특성을 보였다.[42]그녀는 또한 적절한 온라인 아이템 생성을 위한 모델을 제안했다.

참조

  1. ^ 보르무스, J. (1969년).성취도 시험 항목 이론에 대하여.시카고, 일리노이 주: 시카고 대학 출판부.
  2. ^ 지얼, 엠제이, & 할라디나, 티엠 (2012)자동 항목 생성, 이론실습.뉴욕, 뉴욕: Routrege Chapman & Hall.
  3. ^ a b c d e Blum, Diego; Holling, Heinz (6 August 2018). "Automatic Generation of Figural Analogies With the IMak Package". Frontiers in Psychology. 9: 1286. doi:10.3389/fpsyg.2018.01286. PMC 6087760. PMID 30127757.CC-BY icon.svg 이 자료는 Creative Commons Attribution 4.0 International License에 따라 이용할 수 있는 이 출처에서 복사되었다.
  4. ^ C.A.W.의 글라스, W.J.의 반 데어 린덴, & 지울링스, H. (2010.적응형 시험을 위한 항목 클로닝 모델의 매개변수 추정.W.J. 반 데어 린덴, & C.A.W. 글라스 (Eds.적응형 시험의 요소들 (pp. 289-314).DOI: 10.1007/978-0-387-85461-8_15.
  5. ^ a b 지얼, M.J. & Lai, H. (2012)자동 항목 생성에서 항목 모델의 역할.국제 시험지 12(3), 273-298.DOI: 10.1080/15305058.111.635830.
  6. ^ W.J. & Hambleton, R.K. (1997년)항목 응답 이론: 간략한 이력, 공통 모델 및 확장 모델.R.K. 햄블턴에서는 & W.J. 반 데어 린덴(Eds.현대 항목 응답 이론 핸드북 (pp. 1-31).뉴욕: 스프링거.
  7. ^ 엠브레슨, S.E. (1999년)인지 능력 측정의 문제.S.E. Embretson & S.L.에서.헤르슈베르거(에드스).새로운 측정 규칙(pp. 1-15).마화: 로렌스 엘바움 어소시에이츠.
  8. ^ 루드너, L. (2010)대학원 경영진 입학시험을 전산화된 적응시험을 시행.W.J. 반 데어 린덴과 C.A.W. 글라스(Eds.적응 시험의 요소들 (pp. 151-165)DOI: 10.1007/978-0-387-85461-8_15.
  9. ^ a b c 어바인, S. (2002)대량 테스트를 위한 항목 생성의 기초.S.H. 어바인 & P.C.에서.Kyllonen (Eds.테스트 개발을 위한 항목 생성(pp. 3-34).마화: 로렌스 엘바움 어소시에이츠.
  10. ^ Lai, H, Alves, C, & Gierl, M.J. (2009)CAT에 대한 품목 요구를 해결하기 위해 자동 품목 생성 사용.D.J. Weiss (Ed.)에서 2009년 GMAC 컴퓨터 적응형 시험에 관한 회의의 진행.웹: www.psych.umn.edu/psylabs/CATCentral.
  11. ^ 베자르, I. I. (2002)생성 테스트: Item Generation for Test Development, Eds. S. H. Irvine 및 P. C. Kyllonen(마화, NJ: Lawrence Erlbaum Associates), 199–217.
  12. ^ a b 엠브레슨, S.E. (1999년)테스트 중 항목 생성: 정신계 문제 및 모델사이코메트리카 64(4), 407-433
  13. ^ 아렌다시, M. E., 소머, M. (2012)자동 아이템 생성을 이용하여 높은 점수를 받는 교육 및 직업 평가의 증가하는 아이템 수요를 충족한다.학습 개인 차이, 22, 112–117. doi: 10.1016/j.lindif.2011.11.005.
  14. ^ Glas, C. A. W. W. J. (2003)와 Van der Linden.아이템 복제를 통한 컴퓨터 적응형 시험.적용 심리 측정, 27, 247–261. 도이: 10.1177/0146621603027004001.
  15. ^ 엠브릿슨, S.E. & 킹스턴, 뉴욕 (2018)자동 아이템 생성: 수학 성취 아이템을 개발하는데 더 효율적인 과정?교육 측정 저널, 55(1), 112-131. DOI: 10.111/jedm.12166
  16. ^ 윌슨, J, 모리슨, K, & 엠브레슨, S.E. (2014년)수학적 성과 항목의 자동 항목 생성기: MathGen3.0.교육과학연구소 R305A100234에 대한 기술 보고서 IES1005A-2014.애틀랜타, GA: 조지아, 기술 연구소.
  17. ^ 콜린스, T, 래니, R, 윌리스, A, & 가스와이트, P.H. (2016)음악 스타일의 컴퓨터 모델 개발 및 평가엔지니어링 설계, 분석 제조를 위한 인공지능, 30, 16-43.DOI: 10.1017/S0890060414000687.
  18. ^ 해리슨, P.M. 콜린스, T. & 뮐렌시펜, D. (2017년)멜로드라마 차별시험에 현대적인 정신계량기법을 적용하는 것: 아이템 응답 이론, 컴퓨터화된 적응시험, 자동 아이템 생성.과학 보고서 7(3618), 1-18
  19. ^ 페레이라, 엠에프 앤드 백호프 에스쿠데로, E. (2016년)발리데즈 델 제네라도르 오토마티코 데 아이템스 델 아르켄시아스 바시카스(Excoba)구세주, 22(1), 예술. 2, 1-16.DOI: 10.7203/준비.22.1.8048.
  20. ^ 지얼, 엠제이, 라이, H, 푸그, D, 터치, C, 불라이스, A.P., & 드 챔플레인, A. (2016)생성된 객관식 시험 항목의 심리학적 특성 평가.교육 분야에서의 적용 측정, 29(3), 196-210.DOI: 10.1080/08957347.2016.11768.
  21. ^ Lai, H, Gierl, M.J, Byrne, B.E, Spielman, A.I., & Waldschmidt, D.M. (2016)치과 검진을 위한 자동 아이템 생성을 촉진하기 위한 3가지 모델링 애플리케이션.치과 교육 저널 80(3), 339-347.
  22. ^ 지얼, 엠제이 & 라이, H. (2013)자동화된 프로세스로 생성된 의료 객관식 항목의 품질 평가.의학교육, 47, 726-733DOI: 10.111/medu.12202.
  23. ^ Gierl, M.J. Lai, H., & Turner, S.R. (2012)자동 항목 생성을 사용하여 다중 선택 테스트 항목 생성의료 교육, 46(8), 757-765.DOI: 10.111/j.1365-2923.212.04289.x.
  24. ^ 지얼, 엠제이, 저우, 제이, 앤 앨브스, C. (2008)평가 엔지니어링을 촉진하기 위한 항목 모드 유형의 분류 체계 개발.J technol 학습 평가, 7(2), 1-51.
  25. ^ 아렌다시, 엠에, 소머, 엠, 앤 메이, 에프(2011년)자동 항목 생성을 사용하여 독일어와 영어 버전의 Word Fluency Test를 동시에 구성.교차 문화 심리학 저널 43(3), 464-479.DOI: 10.1177/0022022110397360.
  26. ^ Holling, H, Bertling, J.P., & Zeuch, N. (2009).확률어 문제의 자동 항목 생성.교육평가에 관한 연구, 35(2-3), 71-76.
  27. ^ 래쉬, G. (1960)일부 인텔리전스달성 테스트에 대한 확률론적 모델.시카고:시카고 대학 출판부.
  28. ^ 피셔, G.H. (1973)교육 연구의 도구로서의 선형 로지스틱 시험 모델.액타 심리학, 37, 359-374DOI: 10.1016/0001-6918(73)90003-6.
  29. ^ Holling, H, Blank, H, Kucenbaeker, K, & Kuhn, J.T.통계 단어 문제의 규칙 기반 항목 설계: 검토 및 첫 번째 구현.심리학 분기별, 50(3), 363-378.
  30. ^ 아렌다시, 엠에, 소머, 엠, 기틀러, 지, 앤 에르고비치, A. (2006)정량적 추론 항목의 자동 생성.실험 연구개별 차이 저널, 27(1), 2-14.DOI: 10.1027/1614-0001.27.1.2.
  31. ^ 아렌다시, 엠에, & 소머, 엠. (2007)교육 평가에서 정신측정학 기술을 사용하는 경우: 정량적 추론 항목의 자동 생성에 스키마 기반의 이형성 접근의 경우.학습과 개인의 차이, 17(4), 366-383. DOI: 10.1016/j.lindif.2007.03.005.
  32. ^ Loe, B.S. & Rust, J. (2017)지각 미로 시험은 자동으로 생성되는 미로의 난이도를 평가하는 것으로 다시 검토되었다.평가, 1-16.DOI: 10.1177/10731911746501.
  33. ^ a b 아렌다시, M. (2002)Geom-Gen-Ein Itemgenerator für Matrizentaufgaben.비에나: 아이겐베를라크.
  34. ^ 아렌다시, 엠에, & 소머, 엠. (2013)반응 제거 전략을 줄이면 그림 행렬의 구성 타당성이 향상된다.첩보, 41, 234-243DOI: 10.1016/j.intell.2013.03.006.
  35. ^ 아렌다시, 엠에, & 소머, 엠. (2010)자동 아이템 생성을 이용한 3차원 정신적 회전에서의 성별 차이의 효과크기에 대한 다른 아이템 특징의 기여도 평가.지능, 38(6), 574-581. DOI:10.1016/j.intell.2010.06.004.
  36. ^ 아렌다시, 엠에, 소머, 엠, 앤 기틀러, 지. (2010)자동 아이템 생성과 실험 설계를 결합하여 정신 회전의 성별 차이에 대한 인지 구성요소의 기여를 조사한다.정보부, 38(5), 506DOI:10.1016/j.intell.2010.06.006.006.
  37. ^ 아렌다시, M. (2005)Rasch-calibration 항목의 자동 생성: 그림 행렬 테스트 GEM 및 Endless-Loops 테스트 EC국제 시험지 5(3), 197-224.
  38. ^ 아렌다시, 엠에, & 소머, 엠. (2005)서로 다른 유형의 지각 조작이 자동 생성된 무각 행렬의 치수성에 미치는 영향.지능, 33(3), 307-324DOI: 10.1016/j.intell.2005.02.002.
  39. ^ 호퍼, S. (2004)매트릭스 개발자.독일 뮌스터:심리학 연구소 IV.웨스트펠리스체 빌헬름스 유니버설티테트
  40. ^ 프룬드, P.A., 호퍼, S., & 홀링, H. (2008).컴퓨터 생성 무화질 매트릭스 항목의 심리학적 특성에 대한 설명 및 제어.적용 심리 측정, 32(3), 195-210.DOI: 10.1177/0146621607306972.
  41. ^ 엠브레슨, S.E.(1998)유효한 테스트를 생성하는 인지 설계 시스템 접근방식: 추상적 추론에 적용.심리학적 방법, 380-396
  42. ^ 엠브릿슨, 에스이, 앤 리스, 에스피(2000년)심리학자들을 위한 항목 반응 이론.마화: 로렌스 엘바움 어소시에이츠.