수동으로 주석이 달린 서브코퍼스
Manually Annotated Sub-CorpusManual Annoted Sub-Corpus(MASC)는 주로 Open American National Corpus(OANC)에서 도출된 서면 텍스트와 문자 음성 50만 단어의 균형 하위 집합이다.OANC는 1990년 이후 생산되는 1,500만 단어(그리고 점점 증가하는)의 미국 영어 말뭉치이며, 이 모든 말뭉치는 공용 도메인에 있거나 사용 및 재배포 제한이 없습니다.
모든 MASK에는 논리 구조(표제, 섹션, 단락 등), 문장 경계, 음성 태그의 관련 부분을 포함한 세 가지 토큰화, 얕은 해석(명사 및 동사 청크), 명명된 엔티티(사람, 위치, 조직, 날짜 및 시간) 및 펜 트리뱅크 구문에 대해 수동으로 검증된 주석이 포함됩니다.MASK 프로젝트에서는 FrameNet 프레임 요소에 대한 전체 텍스트 주석 및 WordNet 3.1 감지 태그가 있는 100K+ 문장 말뭉치를 포함하여 하위 코퍼스의 일부에 대해 수동으로 생성되거나 검증된 주석을 추가로 생성했습니다. 이 중 10분의 1은 FrameNet 프레임 요소에 대한 주석도 포함되어 있습니다.PropBank, TimeBank, MPQA 의견 등 다양한 언어 현상에 대한 하위 코퍼스의 전체 또는 일부에 대한 주석이 다른 프로젝트에 의해 제공되었습니다.전체 MASK 말뭉치의 공동 참조 주석과 절 경계는 2016년 말까지 공개될 예정이다.
114 워드의 모든 오카렌스에 대한 WordNet 감지 주석과 114 워드의 50~100 워드에 대한 FrameNet 주석도 MASK 배포에 포함됩니다.WordNet 및 FrameNet 주석이 있는 문장도 MASK 문장 코퍼스의 일부로 배포됩니다.
장르
다양한 언어 주석을 포함하여 자유롭게 이용할 수 있는 대부분의 말뭉치와 달리, MASK는 다양한 장르의 텍스트를 균형 있게 선택할 수 있습니다.
| 장르. | 파일 수 | 아니요. 단어 | PCT 말뭉치 |
|---|---|---|---|
| 법정 성적표 | 2 | 30052 | 6% |
| 토론 내용 | 2 | 32325 | 6% |
| 이메일 | 78 | 27642 | 6% |
| 에세이. | 7 | 25590 | 5% |
| 픽션 | 5 | 31518 | 6% |
| 정부 문서 | 5 | 24578 | 5% |
| 저널 | 10 | 25635 | 5% |
| 편지들 | 40 | 23325 | 5% |
| 신문 | 41 | 23545 | 5% |
| 논픽션 | 4 | 25182 | 5% |
| 말하기 | 11 | 25783 | 5% |
| 테크니컬 | 8 | 27895 | 6% |
| 여행 가이드 | 7 | 26708 | 5% |
| 트위터 | 2 | 24180 | 5% |
| 블로그 | 21 | 28199 | 6% |
| 피클릿 | 5 | 26299 | 5% |
| 영화 대본 | 2 | 28240 | 6% |
| 스팸 | 110 | 23490 | 5% |
| 농담들 | 16 | 26582 | 5% |
| 총 | 376 | 506768 |
주석
현재 MASK에는 17가지 유형의 언어 주석이 포함되어 있습니다(*=는 제작 중, **는 현재 원본 형식에서만 사용 가능).
| 주석 유형 | 아니요. 단어 |
|---|---|
| 논리 | 506768 |
| 상품권 | 506768 |
| 문장. | 506768 |
| POS/렘마(GATE) | 506768 |
| POS(펜 트리뱅크) | 506768 |
| POS(FrameNet) | 506768 |
| 명사 청크 | 506768 |
| 동사 청크 | 506768 |
| 명명된 엔티티(사람, 조직, 위치, 날짜) | 506768 |
| 펜 트리뱅크 구문 | 506768 |
| 코레퍼런스 | *506768 |
| 절 경계, 핵/위성 구분, 담화 마커 | *506768 |
| FrameNet 프레임/프레임 요소 | 39160 |
| 프롭뱅크 | **88530 |
| 의견. | 51243 |
| 타임뱅크 | *55599 |
| 헌신적인 신념 | 4614 |
| 이벤트 | 4614 |
| 종속성 트리 뱅크 | **5434 |
| 어휘 대체 | **35,547 |
사내에서 제공되거나 생산되는 모든 MASK 주석은 ISO TC37 SC4의 언어 주석 프레임워크(LAF)에 의해 정의된 그래프 주석 형식(Graph Annotation Format)으로 변환된다.온라인 도구 ANC2Go는 CONLL IOB 형식 및 UIMA 및 텍스트 엔지니어링용 일반 아키텍처(General Architecture for Text Engineering)에서 사용되는 형식을 포함하여 MASK의 전체 또는 일부에 걸쳐 주석을 변환할 수 있습니다.
분배
MASK는 누구나 어떤 목적으로든 사용할 수 있는 오픈 데이터 리소스입니다.동시에 주석과 파생 데이터의 커뮤니티 기부에 의해 유지되는 공동 커뮤니티 자원이다.MASK 다운로드 페이지 또는 Languistical Data Consortium을 통해 무료로 다운로드할 수 있습니다.
또한 MASK는 Natural Language Toolkit과 함께 음성 태그 형식으로 배포됩니다.
「 」를 참조해 주세요.
레퍼런스
- Ide, N., Baker, C., Fellbaum, C., Passonneau, R. (2010).수동으로 주석을 단 서브코퍼스: 사람들을 위한 커뮤니티 리소스.스웨덴, 웁살라 컴퓨터 언어학 협회 제48회 연차총회 의사록.
- Passonneau, R., Baker, C., Fellbaum, C., Ide, N.(2012).MASK Word Sense 문장 말뭉치.이스탄불에서 열린 제8회 언어 자원 및 평가 회의의 진행 상황.
- Ide, N., Suderman, K., Simms, B.(2010).ANC2Go: 맞춤형 코퍼스 작성을 위한 웹 애플리케이션.제7회 언어 자원 및 평가 회의(LREC 2010), 몰타 발레타.