워드 리스트

Word list

단어 목록(또는 어휘 목록)은 주어진 텍스트 말뭉치 안에 있는 언어의 어휘 목록(일반적으로 수준별 또는 순위 목록으로 발생 빈도에 따라 분류됨)이다. 빈도별로 분류된 어휘는 "학습자가 어휘 학습 노력에 대한 최상의 결과를 얻을 수 있도록 하는 합리적인 근거를 제공한다"(1997년 국가)지만, 주로 학습자를 위한 것이 아니라 과정 작성자를 위한 것이다. 빈도 목록은 사전 사전적 목적으로도 만들어지며, 일반적인 단어가 누락되지 않도록 하는 일종의 체크리스트 역할을 한다. 몇몇 주요 함정은 말뭉치 내용, 말뭉치 기록부, 그리고 "단어"의 정의다. 워드카운팅은 천 년 전이지만, 20세기 중반까지도 손으로 거대한 분석을 하는 등, 영화 자막(SUBTLX 메가스터디)과 같은 거대 기업의 자연어 전자처리가 연구 분야에 박차를 가하고 있다.

계산 언어학에서 빈도 목록빈도와 함께 단어(단어 유형)의 정렬된 목록이며, 여기서 빈도는 대개 특정 말뭉치에서 발생 횟수를 의미하며, 여기서부터 순위는 목록의 위치로 도출될 수 있다.

유형 발생 횟수 순위
3,789,654 첫 번째
2,098,762 두 번째
[...]
왕을 57,897 천오십오번째
소년 56,975 1,357번길
[...]
끈적끈적한 5 3만4589번길
[...]
변환시키다 1 12만3567번길

방법론

요인들

네이션(1997년 국가)은 컴퓨팅 능력에 의해 제공되는 놀라운 도움에 주목하여 말뭉치 분석을 훨씬 쉽게 만들었다. 그는 주파수 목록 작성에 영향을 미치는 몇 가지 주요 이슈를 언급했다.

  • 말뭉치
  • 단어 빈도와 범위
  • 어족에 대한 대우
  • 숙어와 고정표현의 취급.
  • 정보의 범위
  • 그 밖의 여러 가지 기준

코모나

전통문 말뭉치

현재 이용 가능한 대부분의 연구들은 글로 쓰여진 텍스트 말뭉치에 기초하고 있으며, 더 쉽게 이용할 수 있고 처리하기도 쉽다.

디지텍스 운동

그러나 New et al. 2007은 많은 수의 연설을 분석하기 위해 온라인에서 이용할 수 있는 많은 수의 자막을 이용할 것을 제안했다. Briisbaert & New 2009는 이러한 전통적인 텍스트 분석 접근법에 대해 오랫동안 비판적인 평가를 내렸으며, 온라인에서 이용 가능한 영화 자막의 음성 분석과 분석을 향한 움직임을 지지했다. 이것은 최근 몇 가지 후속 연구가 진행되어 다양한 언어에 대한 값진 빈도수 분석을 제공하고 있다.[1] 실제로, SUBTLEX 운동 5년 동안 완료된 프랑스(뉴(알. 2007년), 미국 영어(Brysbaert 및, 새 2009년 Brysbaert, 새로운&Keuleers 2012년), 네덜란드(Keuleers &, 새 2010년), 중국(채&Brysbaert 2010년), 스페인어(Cuetos 등 2011년), 그리스(Dimitropoulou(알. 2010년), 베트남(팜, Bolger&, Baayen 2에 대한 완전 공부합니다.011), 브라질 Portug유에스(Tang 2012)와 포르투갈어(Soares et al. 2015), 알바니아어(Avdyli & Cuetos 2013), 폴란드어(Mandera et al. 2014). 미끄럼X-IT(2015년)는 원시 데이터만 제공한다.[1]

어휘 단위

어떤 경우든 기본 "단어" 단위를 정의해야 한다. 라틴어 스크립트의 경우, 단어는 보통 공백이나 구두점으로 구분된 하나 또는 여러 개의 문자다. 그러나 영어 "할 수 없다", 프랑스어 "aujourd'hui" 또는 숙어와 같은 예외가 발생할 수 있다. 또한 기본 단어의 표현으로 단어 패밀리의 단어들을 그룹화하는 것이 더 나을 수 있다. 따라서 가능, 불가능, 가능성은 같은 단어의 단어로, *포시브*라는 기본 단어로 대표된다. 통계적 목적을 위해, 이 모든 단어들은 기본 단어인 *posib*에 요약되어 개념과 형태 발생의 순위를 정할 수 있다. 게다가, 다른 언어들은 특정한 어려움을 나타낼 수도 있다. 단어 사이에 공백을 사용하지 않고, 여러 문자의 특정 체인을 고유 문자 단어의 구절 또는 다문자로 해석할 수 있는 중국어의 경우가 그렇다.

통계

Zipf의 법칙은 어떤 자연 언어의 더 긴 텍스트에서 뽑은 빈도수를 지지하는 것 같다. 주파수 목록은 전자 사전을 만들 때 유용한 도구로, 계산 언어학에서 광범위한 응용을 위한 필수 조건이다.

독일어 언어학자들은 목록의 항목Haufigkeitsklasse(주파수 등급) N을 그 빈도와 가장 빈번한 항목의 비율에 대한 기본 2 로그로 정의한다. 가장 일반적인 항목은 주파수 등급 0에 속하며, 빈도가 약 절반인 항목은 클래스 1에 속한다. 위의 예제에서 철자가 틀린 단어는 76/3789654의 비율을 가지며 16등급에 속한다.

여기서 \ \ 플로어 기능이다.

주파수 목록은 의미론적 네트워크와 함께 의미론적 압축 프로세스에서 하이퍼니어로 대체될 가장 흔하지 않은 전문 용어를 식별하는 데 사용된다.

교육학

그 목록들은 학생들에게 직접 주려는 것이 아니라, 교사와 교과서 저자들에게 지침이 되기 위한 것이다(1997년 국가). 폴 네이션의 현대 언어 교수 요약본은 우선 "고주파 어휘와 특수 목적[테마] 어휘에서 저주파 어휘로 옮겨간 다음, 학습자들에게 자율적인 어휘 확장을 지속할 수 있는 전략을 가르쳐라"(2006년 국가)를 권장한다.

단어 빈도의 영향

단어 빈도는 다양한 영향을 미치는 것으로 알려져 있다(브라이스바어트 2011; 루델 1993). 암기는 학습자가 더 많은 노출을 받기 때문에 단어 빈도가 더 높으면 긍정적인 영향을 받는다(Laufer 1997). 어휘적 접근은 단어 주파수 효과라고 불리는 현상인 높은 단어 주파수(Segui 등)에 의해 긍정적으로 영향을 받는다. 단어 빈도의 효과는 단어가 학습된 나이인 습득 연령의 영향과 관련이 있다.

언어들

아래는 가용 자원에 대한 검토다.

영어

단어 세기는 헬레니즘 시대로 거슬러 올라간다. 동료들의 도움을 받은 손디케 & 로지는 현대 컴퓨터가 그러한 프로젝트를 훨씬 쉽게 만들기 전인 1944년에 첫 번째 대규모 주파수 목록을 제공하기 위해 1,800만 개의 실행 단어를 계산했다. (1997년 국가)

기존 목록

이들은 모두 나이 때문에 고생한다. 특히 2014년 코퍼스 오브 컨템포러리 아메리카 영어에서[2] #7665 주파수였던 '블로그'와 같은 기술과 관련된 단어들은 1999년에 처음 증명되었고,[3][4][5][6] 이 세 가지 목록 중 어느 것도 나타나지 않는다.

3만 단어의 교사 워드북(Thorndike and Lorge, 1944년)

TWB는 30,000 레마 또는 약 13,000개의 단어 패밀리를 포함하고 있다(Goulden, Nation and Read, 1800만 개의 글자가 쓰여진 말뭉치가 손으로 분석되었다. 그 원천 말뭉치의 크기는 그 유용성을 증가시켰지만, 그것의 나이와 언어의 변화는 그 적용가능성을 감소시켰다(1997년 국가).

일반 서비스 목록(West, 1953년)

GSL은 1,000개의 단어를 두 세트로 나눈 2,000개의 머리말을 포함하고 있다. 5백만 개의 문자로 이루어진 말뭉치가 1940년대에 분석되었다. 머리말의 다른 의미와 일부 언어의 발생률(%)이 제공된다. 말뭉치에는 단골과 범위를 제외한 다양한 기준이 세심하게 적용됐다. 따라서, 나이, 일부 오류, 말뭉치가 전적으로 쓰여진 텍스트임에도 불구하고, 그것은 여전히 단어의 빈도, 의미의 빈도, 소음의 감소에 대한 훌륭한 데이터베이스다(1997년 국가). 이 목록은 닥터 에 의해 2013년에 갱신되었다. 찰스 브라운, 브렌트 컬리건 박사, 그리고 조셉 필립스가 새로운 일반 서비스 리스트로 선정되었다.

미국 헤리티지 단어 빈도수집 (Carroll, Davies and Richman, 1971)

미국 학교에서 사용되는 서면 텍스트(다양한 성적, 다양한 과목 영역)에서 500만 개의 실행 단어로 구성된 말뭉치. 그것의 가치는 학교 교재에 초점을 맞추고, 각 단어의 빈도, 각 학년, 각 과목 영역(1997년 국가)에 따라 단어를 태그하는 데 있다.

더 브라운(Francis and Kucera, 1982년) LOB 및 관련 기업

이것들은 현재 영어의 다른 방언들을 대표하는 글로 쓰여진 말뭉치로부터 백만개의 단어들을 포함하고 있다. 이러한 출처는 주파수 목록을 작성하는 데 사용된다(1997년 국가).

프랑스어

기존 데이터셋

뉴앤팔리에가 리뷰를 했다. 1950년대~60년대에 프랑스를 애호하는 사람들이 시도되었다. 그것은 1,500개의 고주파 단어가 포함된 F.F. 1 목록과 1,700개의 중간주파 단어가 포함된 후기 F.F. 2 목록으로 완성되었으며 가장 많이 사용되는 구문 규칙을 포함한다.[7] 70개의 문법적인 단어가 의사소통 문장의 50%를 구성하고 3,[8]680개의 단어가 커버리지의 약 95~98%를 차지한다고 주장한다.[9] 자주 쓰는 3000개의 단어 목록이 있다.[10]

프랑스 교육부는 또한 사전 편찬자인 에티엔 브루넷이 제공하는 1500개의 가장 빈번한 단어 가족 목록을 제공한다.[11] Jean Baudot은 "동시대 프랑수아즈 에 비판"이라는 제목의 아메리칸 브라운 연구의 모델에 대한 연구를 했다.[12]

좀 더 최근에, 렉시크3 프로젝트는 142,000개의 프랑스어를 제공하며, 맞춤법, 음성, 음절, 음절, 언어일부, 성별, 소스 말뭉치에서의 발생 횟수, 주파수 순위, 관련 어휘소 등이 공개 라이선스 CC-by-sa-4.0으로 제공된다.[13]

미덕스

이 렉시크3는 위에서 인용한 미이텍스 운동의 기원이 되는 연속적인 연구다. New et al. 2007은 온라인 영화 자막을 바탕으로 완전히 새로운 계산을 했다.

스페인어

스페인어 단어 빈도에 대한 여러 연구가 있다(Cuetos et al. 2011).[14]

중국어

중국 기업은 오랫동안 주파수 리스트의 관점에서 연구되어 왔다. 한자 어휘를 배우는 역사적 방법은 문자 빈도수(Alanic 2003)를 기반으로 한다. 미국의 신학자 존 데프랑시스는 '조니가 중국어를 읽을 수 없는 이유'(DeFrancis 1966)에서 외국어 학습과 교수로서 중국어에 대한 중요성을 언급했다. 주파수 툴킷으로 다(1998년 다)와 대만 교육부(TME 1997년)는 문자와 단어의 주파수 순위를 가진 대형 데이터베이스를 제공했다. 중화인민공화국의 HSK 고·중주파수 단어 목록과 중화민국(대만)의 공통한자 약 8,600개 TOP 목록은 공통한자와 공통한자를 보여주는 다른 두 가지 목록이다. 미묘X 운동에 이어 카이 & 브라이스바어트 2010은 최근 한자 단어와 문자 주파수를 풍부하게 연구했다.

기타

위키백과나 복합기업에 근거하여 가장 자주 사용되는 단어들이 서로 다른 언어로 쓰여진다.[15]

참고 항목

메모들

  1. ^ a b "Crr » Subtitle Word Frequencies".
  2. ^ "Words and phrases: Frequency, genres, collocates, concordances, synonyms, and WordNet".
  3. ^ "Corpus of Contemporary American English (COCA)".
  4. ^ "It's the links, stupid". The Economist. 20 April 2006. Retrieved 2008-06-05.
  5. ^ Merholz, Peter (1999). "Peterme.com". Internet Archive. Archived from the original on 1999-10-13. Retrieved 2008-06-05.
  6. ^ Kottke, Jason (26 August 2003). "kottke.org". Retrieved 2008-06-05.
  7. ^ "Le français fondamental". Archived from the original on 2010-07-04.
  8. ^ Ouzoulias, André (2004), Comprendre et aider les enfants en difficulté scolaire: Le Vocabulaire fondamental, 70 mots essentiels (PDF), Retz - V.A.를 인용하며C 헤몬
  9. ^ "Generalities".
  10. ^ "PDF 3000 French words".
  11. ^ "Maitrise de la langue à l'école: Vocabulaire". Ministère de l'éducation nationale.
  12. ^ Baudot, J. (1992), Fréquences d'utilisation des mots en français écrit contemporain, Presses de L'Université, ISBN 978-2-7606-1563-2
  13. ^ "Lexique".
  14. ^ "Spanish word frequency lists". Vocabularywiki.pbworks.com.
  15. ^ Most frequently used words in different languages, ezglot

참조

이론개념

서면 텍스트 기반 데이터베이스

디지텍스 운동