타토에바
Tatoeba![]() | |
사이트 유형 | 협업 다국어 "센서스 사전" 열기 |
---|---|
다음에서 사용 가능 | 인터페이스 25개 언어, 301개 언어로 된 콘텐츠(2016년 5월) |
소유자 | 트랑호, 앨런 사이먼 |
작성자 | 트랑호, 앨런 사이먼 |
URL | tatoeba |
상업적 | 아니요. |
등록 | 선택적 |
시작됨 | 2006 |
현재 상태 | 온라인; 베타 |
콘텐츠 라이선스 | Creative Commons Attribution 2.0(Creative Commons Zero, 오디오는 다양함) |
Tatoeba는 외국어 학습자에 맞춘 문장의 예를 들어 온라인 무료 협업 데이터베이스다. 그 이름은 "예를 들면"이라는 뜻의 일본 용어인 "타토에바"에서 유래되었다. 단어에 초점을 맞추는 다른 온라인 사전과 달리 타토에바는 완전한 문장의 번역에 초점을 맞추고 있다. 또한 데이터베이스와 인터페이스의 구조는 일대다 관계를 강조한다. 한 문장은 한 언어 내에서 여러 개의 번역을 가질 수 있을 뿐만 아니라, 한 언어에서 다른 언어로 단계적 연결의 연쇄를 수반하는 간접 번역과 마찬가지로 모든 언어로의 번역을 쉽게 볼 수 있다.
프로젝트의 목적
타토에바 프로젝트의 목적은 언어 학습 애플리케이션을 개발하는 누구나 사용할 수 있는 문장과 번역의 데이터베이스를 만드는 것이다. 아이디어는 프로젝트가 데이터를 생성해서 프로그래머들이 애플리케이션 코딩에만 집중할 수 있다는 것이다.
프로젝트에서 수집된 데이터는 CC-BY(Creative Commons Attribution) 라이센스에 따라 자유롭게 이용할 수 있다.
내용
2021년 11월 현재 타토에바 코퍼스는 409개 언어로 1000만 문장이 넘는다. 상위 10개 언어는 말뭉치의 71%를 차지한다. 이 중 116개 언어는 1,000개 이상의 문장을 가지고 있다. 상위 18개 언어에는 각각 10만 개 이상의 문장이 있다.[1]
타토에바는 다나카 야스히토 효고대 교수가 2001년 처음 발표한 영일문장 쌍 약 15만개의 공용 도메인 시리즈인 다나카 코퍼스의 현주소이기도 하며, 최근 개정이 진행되고 있다.[2][3]
역사
타토에바는 트랑호에 의해 2006년에 설립되었다. 그녀는 원래 "멀티랑딕트"라는 프로젝트 이름으로 SourceForge에서 프로젝트를 진행했다.[4]
인터페이스
사용자, 심지어 등록되지 않은 사용자도 단어를 어떤 언어로든 검색할 수 있어 단어를 사용하는 문장을 검색할 수 있다. 타토에바 데이터베이스의 각 문장은 다른 언어로 번역될 가능성이 있는 번역 옆에 표시된다; 직간접 번역은 구별된다. 문장은 주제, 방언, 천박함과 같은 내용에 태그가 붙는다. 문장은 또한 다른 사용자들의 피드백과 수정을 용이하게 하기 위해 각각의 코멘트 스레드를 가지고 있다. 2016년 초 현재 19개 언어 20만 개 이상의 문장이 오디오 녹음을 갖고 있다. 문장은 언어, 태그 및 기타 기준으로 탐색할 수 있다.
등록 사용자는 대상 언어가 모국어가 아니더라도 새로운 문장을 추가하거나 기존 문장을 번역하거나 교정할 수 있다. 그러나 사용자는 원문이나 번역을 모국어 또는 최강의 언어로 추가하도록 권장된다.[5]
번역은 원문과 자동으로 연결된다. 사용자는 소유자 없이 자유롭게 문장을 편집하고 '입력'하고 문장을 수정하며 다른 사람의 문장에 댓글을 달 수 있다. 일반 기고자보다 한 수 위인 고급 기고자는 문장에 태그를 달거나 연결 해제할 수 있다. 고급 기고자보다 한 수 위인 코퍼스 유지자는 문장의 태그를 해제하고 삭제할 수 있다. 일반적으로 소유자가 변경 요청에 응답하지 않는 경우에만 소유 문장을 수정할 수 있다.
데이터베이스 구조
타토에바의 기본 데이터 구조는 일련의 노드와 링크다. 각각의 문장은 하나의 노드인데, 각각의 링크는 같은 의미를 가진 두 문장을 연결한다.[6]
면허증
전체 Tatoeba 데이터베이스는 Creative Commons Attribution 2.0 라이센스에 따라 출판되어 학술 [7]및 기타 용도로 사용할 수 있다. 사용자들은 또한 크리에이티브 커먼즈 제로 아래 문장들을 기고할 수 있지만, 그러한 문장들의 번역은 현재 동일한 라이선스를 공유할 수 없다.[8]
문장의 오디오 녹음은 CC BY 4.0, BY-SA, BY-NC와 같이 화자가 선택한 면허를 사용한다.[9]
보조금
타토에바는 2010년 12월 모질라 드러비트로부터 보조금을 받았다.[10][11]
Tatoeba 인프라에 관한 일부 작업은 Google Summer of Code 2014 에 의해 후원되었다.[12]
2018년 5월, 그들은 25,000달러의 MOSS(Mozilla Open Source Support) 프로그램 보조금을 받았다.[13]
2019년 8월 그들은 15,000달러의 MOSS(Mozilla Open Source Support) 프로그램 보조금을 받았다.[14]
사용법
기계번역 등 다양한 자연어 처리 업무에는 타토에바와 같은 병렬 텍스트 기업이 사용된다. 타토에바 데이터는 일본어와[15] 통계 기계번역을 위한 트리뱅킹 데이터로 사용되어 왔으며, [16]www.ManyThings.org의 WWJDIC 일본어-영어 사전과 이중언어 문장 쌍 및 일본어 읽기 및 번역 연습 데이터로 사용되어 왔다.
오프라인 에디션
타토에바(Tatoeba)에서 선별된 콘텐츠 - 에스페란토어로 된 모든 번역과 함께 다른 언어로 번역된 8만3,932개의 구절 - 2011년 7월 E@I가 6,000부를 발행한 다국어 DVD 에스페란토 엘렉트로니케("Electronic 에스페란토") 3판에 실렸다.
Anki로 가져올 수 있는 탭 구분 데이터 및 유사한 소프트웨어는 Tatoeba 웹사이트에서 직접 다운로드할 수 있다.
참고 항목
참조
- ^ "Number of sentences per language - Tatoeba". tatoeba.org. Retrieved 25 October 2021.
- ^ "Tanaka Corpus". EDRDG Wiki. Electronic Dictionary Research and Development Group. 3 February 2011. Retrieved 20 March 2011.
- ^ Breen, Jim (2 March 2011). "WWWJDIC – Information". WWWJDIC. Monash University. Retrieved 20 March 2011.
- ^ "Trang's dictionary project". sourceforge.net.
- ^ "Quick Start Guide".
- ^ Ho, Trang (23 February 2010). "How to be a good contributor in Tatoeba". Tatoeba Project Blog. Retrieved 20 March 2011.
- ^ "Terms of use". Tatoeba.org. Retrieved 20 March 2011.
- ^ "How to contribute under CC0". en.wiki.tatoeba.org. Retrieved 25 October 2021.
- ^ "All public lists containing "audio" (140) - Tatoeba". tatoeba.org. Retrieved 25 October 2021.
- ^ Ho, Trang (17 January 2011). "Grant from Mozilla Drumbeat". Tatoeba Project Blog. Retrieved 20 March 2011.
- ^ Moltke, Henrik (30 December 2010). "Best Drumbeat Projects: Tatoeba – a free and open database of sentences". Yoyodyne.cc. Archived from the original on 2 January 2011. Retrieved 20 March 2011.
...the Mozilla Foundation wants to encourage and help the Tatoeba project by giving it a USD 2.5K Mozilla Drumbeat Grant.
- ^ "Google Summer of Code 2014 Organization Association Tatoeba".
- ^ "MOSS award for Tatoeba".
- ^ "A second MOSS award".
- ^ 프란시스 본드, 栗林 孝行 [쿠리바야시 다카유키], 橋本 [[Hashimoto Chickara](2008) HPSGに基づフフ日日日本語本ー [[HPSG에 근거한 자유로운 일본 트리 뱅크] 제14회 도쿄 자연어 처리 협회 연차총회에서.
- ^ 에릭 니콜스, 프랜시스 본드, 대런 스콧 애플링, 마츠모토 유지(2010) 통계 기계 번역을 위한 패러프레이싱 훈련 데이터. 자연어 처리 저널, 17(3), 101-122페이지.