클로즈(언어학)
CLAWS (linguistics)CLAW(Constitution Possibility Automatic Word-tagging System)는 음성 태그를 수행하는 프로그램이다.1980년대에 랭커스터 대학에서 University Centre for Computer Corpus Research on Language에 의해 개발되었다.[1]영국 내셔널 코퍼스의 약 1억 단어에 최신판(CLAWs4)을 달면서 전체 정확도가 96~97%에 이른다.[1]
역사
POS 태거(Part-Of-Speech Tagger, POS Tagger)는 일반적으로 컴퓨터 어플리케이션들이 'noun-plural'[2]과 같이 더 미세하게 분류된 POS 태그를 사용하지만, 일부 언어의 텍스트를 읽고 명사, 동사, 형용사 등과 같은 각 단어(및 다른 토큰)에 스피치의 일부를 할당하는 소프트웨어의 일종이다.1980년대 초에 개발된 클로스는 항상 변화하는 POS 필수품들에 의해 창출되는 점점 커지는 격차를 메우기 위해 만들어졌다.[1][3]원래 영국 영어의 LOB 말뭉치에 음성 태그를 추가하기 위해 만들어진 ROCKE 태그 세트는 이후 우르두와 아랍어를 포함한 다른 언어에도 적용되었다.[4]
설립 이래, 클로즈는 그것의 기능성과 적응성으로 환영을 받아왔다.여전히 결함이 없는 것은 아니며, 주요 항목에서 판정할 때 오차율이 1.5%에 불과하지만, C.3.3% 모호성이 해결되지 않은 채 클로즈(CLOE)는 여전히 남아 있다.'파리'라는 단어와 함께 '명사'로 분류해야 할지 '동사'로 분류해야 할지 등의 경우 모호성이 발생한다.[5]이 애매모호한 점들은 클로즈가 견뎌낼 다양한 업그레이드와 태그셋을 필요로 할 것이다.
규칙 및 처리
ROCKE는 Hidden Markov 모델을 사용하여 각 음성 라벨을 예상하는 단어의 시퀀스 가능성을 결정한다.
샘플 출력
C5 | ----_PUN "_PUQ 웰컴_VVB to_PRP my_DPS house_NN1 !_SENTED ----_PUN Enter_VVB free__PRF your_의 AV0 및_CJCDPS 소유_DT0 will_NN1 !_PUNK "_SENT ----_PUN He_PNP made_VVD no_AT0 motion__PRF steping_의 NN1VVG to_TO0 meet_VVI me_PNP ,_PUN but_CJC stand_VVD like_PRP a_AT0 동상_NN1 ,_PUN as_CJS add_CJS his_DPS 제스처__PRF 웰컴_의 NN1NN1 had_VHD fixed_VVN him_PNP in_PRP stone_Sent ._PUN |
---|---|
C7 | "_" 웰컴_VV0 to_II my_APPGE house_NN1 !_! 입력_VV0 free_RR 및_CC of_IO your_APPGE own_DA will_NN1 !_!"_" He_PHS1 made_VVD no_AT motion__IO steping_의 NN1VVG to_TO meet_VVI me_PPIO1, _ but_CCB stand_VVD like_II a_AT1 동상_NN1, _, as_CS21 add_CS22 his_APPGE 제스처_nN1 of_IO welcome_NN1 had_VHD fixed_VVN him_PPHO1 in_II stone_NN1 ._ |
브람 스토커의 드라큘라(1897)에서 발췌한 이 발췌문은 클로즈 C5와 C7 태그셋을 모두 사용하여 태그가 지정되었다.이것은 일반적으로 ROCKE 출력이 각 단어에 따라 가장 가능성이 높은 부분 음성 태그를 사용하여 나타나는 현상이다.
태그셋
클로즈1 태그셋
LOCKE에서 개발된 최초의 태그셋인 LOCKE1 태그셋은 132개의 단어 태그를 가지고 있다.형태와 적용 면에서 C1 태그 세트는 브라운 코퍼스 태그와 유사하다.[6]여기서 C1 태그 세트의 태그 표를 참조하십시오.[7]
클로즈2 태그셋
1983년부터 1986년까지, 태그가 적용되기 전에 텍스트의 수동 사전 처리가 필요하지 않도록 하기 위해, CLOCE2로 이어지는 업데이트 버전은 문장 단절을 인식하는 것과 같은 측면을 다루기 위한 더 큰 시도의 일부였다. 필요한 경우 자동 주석의 출력을 조정하기 위한 수동 사후 편집으로 대신 이동했다.[8]클로즈2 태그셋에는 166개의 워드 태그가 있다.[6][9]여기서 C2 태그 세트의 태그 표를 참조하십시오.[10]
클로즈4 태그셋
클로즈4는 1억 단어의 브리티시 내셔널 코퍼스(BNC)에 사용되었다.범용 문법 태거로, 클로즈1 태거의 계승자다.[11]BNC에 태깅을 하면서, LOCE4에 들어간 많은 작업들은 태그 세트로부터 독립된 LOCKE 프로그램을 만드는 데 초점을 맞췄다.예를 들어 BNC 프로젝트는 두 개의 태그셋 버전을 사용했는데, "말뭉치 전체가 태그된 62개의 태그를 가진 메인 태그셋(C5)과 200만 단어의 선택된 '핵심' 샘플 말뭉치를 만드는 데 사용된 152개의 태그를 가진 더 큰 (C7) 태그셋"이다.[12]LOCKE4의 최신 버전은 랭커스터 대학의 연구 센터인 UCREL이 제공한다.[6][13]
클로즈5 태그셋
BNC에 사용된 LOCKE5 태그셋에는 60개가 넘는 태그가 있다.[6]여기서 C5 태그 세트의 태그 표를 참조하십시오.[14]
클로즈6 태그셋
클로즈6 태그 세트는 BNC sampler corpus와 COLT corpus에 사용되었다.13개의 결정자 하위 유형을 포함하여 160개 이상의 태그를 가지고 있다.[6]여기서 C6 태그 세트의 태그 표를 참조하십시오.[15]
클로즈7 태그셋
표준 ROCKE7 태그 세트가 현재 사용되고 있다.그것은 LOCKE6 태그셋과 비교했을 때 구두점 태그에서만 다르다.[6]여기서 C7 태그 세트의 태그 표를 참조하십시오.[16]
클로즈8 태그셋
ROCEKE8 태그 세트는 결정자와 대명사 범주의 추가적인 구분을 통해 C7 태그 세트에서 확장되었으며 be, do, have 형식에 대한 37개의 새로운 보조 태그가 추가되었다.[6]자세한 내용은 C8 태그 집합의 태그 표를 참조하십시오.
외부 링크
- 영어용 CLOCE 부분 스피치 태거
- 브릴 태거
- 음성 변환 태그 지정
- 슬라이딩 창 기반 스피치 부분 태그 지정
- 영국 내셔널 코퍼스(BNC)
- 브라운 코퍼스
- 랭커스터 대학교
- 히든 마르코프 모델
참조
- ^ a b c "CLAWS part-of-speech tagger". ucrel.lancs.ac.uk. Retrieved 2020-04-01.
- ^ "Stanford Log-linear Part-Of-Speech Tagger". The Stanford Natural Language Processing Group. Archived from the original on 2004-10-25.
- ^ 가사이드, 로저 1987클로즈 워드태깅 시스템.in: R. Garside, G. Leech & G. Sampson (eds), The Computing Analysis of English: corpus 기반 접근법.롱맨.
- ^ 앳웰, E.S. 2008.음성 인식 태그 지정을 위한 태그 세트 개발.인: 루들링, A와 Kyto, M, (에드)말뭉치 언어학: 국제 핸드북 1권.월터 드 그루터 501-526ISBN 978-3-11-021142-9
- ^ McCoy, Kathy. "Part of Speech Tagging (Chapter 5)" (PDF). Archived (PDF) from the original on 2018-04-17.
- ^ a b c d e f g "CLAWS part-of-speech tagger". ucrel.lancs.ac.uk. Retrieved 2020-04-12.
- ^ "UCREL CLAWS1 (LOB) Tagset". ucrel.lancs.ac.uk. Retrieved 2020-04-12.
- ^ 가사이드, 로저 1996제한되지 않은 텍스트의 강력한 태그 지정: BNC 경험.J. Thomas & M. short (Eds.)어학연구를 위해 Commona 사용: 제프리 리치의 명예에 관한 연구. (pp. 167–180)런던.롱맨.
- ^ 부스, 바바라 1985년클로즈 수정 중.ICAME 저널 9:29–35.
- ^ "UCREL CLAWS2 Tagset". ucrel.lancs.ac.uk. Retrieved 2020-04-12.
- ^ "CLAWS4: THE TAGGING OF THE BRITISH NATIONAL CORPUS". ucrel.lancs.ac.uk. Retrieved 2020-04-12.
- ^ 가사이드, 로저 1996제한되지 않은 텍스트의 강력한 태그 지정: BNC 경험.J. Thomas & M. short (Eds.)어학연구를 위해 Commona 사용: 제프리 리치의 명예에 관한 연구. (pp. 167–180)런던.Longman. 페이지 169.
- ^ "UCREL home page, Lancaster UK". ucrel.lancs.ac.uk. Retrieved 2020-04-12.
- ^ "UCREL CLAWS5 Tagset". ucrel.lancs.ac.uk. Retrieved 2020-04-20.
- ^ "UCREL CLAWS6 Tagset". ucrel.lancs.ac.uk. Retrieved 2020-04-12.
- ^ "UCREL CLAWS7 Tagset". ucrel.lancs.ac.uk. Retrieved 2020-04-12.