수동으로 주석이 달린 서브코퍼스

Manually Annotated Sub-Corpus

Manual Annoted Sub-Corpus(MASC)는 주로 Open American National Corpus(OANC)에서 도출된 서면 텍스트와 문자 음성 50만 단어의 균형 하위 집합이다.OANC는 1990년 이후 생산되는 1,500만 단어(그리고 점점 증가하는)의 미국 영어 말뭉치이며, 이 모든 말뭉치는 공용 도메인에 있거나 사용 및 재배포 제한이 없습니다.

모든 MASK에는 논리 구조(표제, 섹션, 단락 등), 문장 경계, 음성 태그의 관련 부분을 포함한 세 가지 토큰화, 얕은 해석(명사 및 동사 청크), 명명된 엔티티(사람, 위치, 조직, 날짜 및 시간) 및 펜 트리뱅크 구문에 대해 수동으로 검증된 주석이 포함됩니다.MASK 프로젝트에서는 FrameNet 프레임 요소에 대한 전체 텍스트 주석 및 WordNet 3.1 감지 태그가 있는 100K+ 문장 말뭉치를 포함하여 하위 코퍼스의 일부에 대해 수동으로 생성되거나 검증된 주석을 추가로 생성했습니다. 이 중 10분의 1은 FrameNet 프레임 요소에 대한 주석도 포함되어 있습니다.PropBank, TimeBank, MPQA 의견 등 다양한 언어 현상에 대한 하위 코퍼스의 전체 또는 일부에 대한 주석이 다른 프로젝트에 의해 제공되었습니다.전체 MASK 말뭉치의 공동 참조 주석과 절 경계는 2016년 말까지 공개될 예정이다.

114 워드의 모든 오카렌스에 대한 WordNet 감지 주석과 114 워드의 50~100 워드에 대한 FrameNet 주석도 MASK 배포에 포함됩니다.WordNetFrameNet 주석이 있는 문장도 MASK 문장 코퍼스의 일부로 배포됩니다.

장르

다양한 언어 주석을 포함하여 자유롭게 이용할 수 있는 대부분의 말뭉치와 달리, MASK는 다양한 장르의 텍스트를 균형 있게 선택할 수 있습니다.

장르. 파일 수 아니요. 단어 PCT 말뭉치
법정 성적표 2 30052 6%
토론 내용 2 32325 6%
이메일 78 27642 6%
에세이. 7 25590 5%
픽션 5 31518 6%
정부 문서 5 24578 5%
저널 10 25635 5%
편지들 40 23325 5%
신문 41 23545 5%
논픽션 4 25182 5%
말하기 11 25783 5%
테크니컬 8 27895 6%
여행 가이드 7 26708 5%
트위터 2 24180 5%
블로그 21 28199 6%
피클릿 5 26299 5%
영화 대본 2 28240 6%
스팸 110 23490 5%
농담들 16 26582 5%
376 506768

주석

현재 MASK에는 17가지 유형의 언어 주석이 포함되어 있습니다(*=는 제작 중, **는 현재 원본 형식에서만 사용 가능).

주석 유형 아니요. 단어
논리 506768
상품권 506768
문장. 506768
POS/렘마(GATE) 506768
POS(펜 트리뱅크) 506768
POS(FrameNet) 506768
명사 청크 506768
동사 청크 506768
명명된 엔티티(사람, 조직, 위치, 날짜) 506768
펜 트리뱅크 구문 506768
코레퍼런스 *506768
절 경계, 핵/위성 구분, 담화 마커 *506768
FrameNet 프레임/프레임 요소 39160
프롭뱅크 **88530
의견. 51243
타임뱅크 *55599
헌신적인 신념 4614
이벤트 4614
종속성 트리 뱅크 **5434
어휘 대체 **35,547

사내에서 제공되거나 생산되는 모든 MASK 주석은 ISO TC37 SC4의 언어 주석 프레임워크(LAF)에 의해 정의된 그래프 주석 형식(Graph Annotation Format)으로 변환된다.온라인 도구 ANC2Go는 CONLL IOB 형식 및 UIMA 및 텍스트 엔지니어링용 일반 아키텍처(General Architecture for Text Engineering)에서 사용되는 형식을 포함하여 MASK의 전체 또는 일부에 걸쳐 주석을 변환할 수 있습니다.

분배

MASK는 누구나 어떤 목적으로든 사용할 수 있는 오픈 데이터 리소스입니다.동시에 주석과 파생 데이터의 커뮤니티 기부에 의해 유지되는 공동 커뮤니티 자원이다.MASK 다운로드 페이지 또는 Languistical Data Consortium을 통해 무료로 다운로드할 수 있습니다.

또한 MASK는 Natural Language Toolkit과 함께 음성 태그 형식으로 배포됩니다.

「 」를 참조해 주세요.

레퍼런스

외부 링크