인도워드넷
IndoWordNetIndoWordNet[1] is a linked lexical knowledge base of wordnets of 18 scheduled languages of India, viz., Assamese, Bangla, Bodo, Gujarati, Hindi, Kannada, Kashmiri, Konkani, Malayalam, Meitei (Manipuri), Marathi, Nepali, Odia, Punjabi, Sanskrit, Tamil, Telugu and Urdu.
드라비디안 워드넷(Dravidian WordNet)은 드라비디아어를 위한 워드넷이다.[2]
배경
90년대 초 프린스턴 워드넷이라고 불리는 영어 단어넷은 프린스턴 대학교에서 2006년에 권위 있는 잠폴리 상을 수상한 조지 밀러와 크리스티안 펠바움에 의해 만들어졌다.[3]그리고 나서 1998년에 만들어진 유럽 언어 단어넷의 조합인 EuroWordNet을 따랐다.[4]워드넷은 이제 자연 언어 처리, 정보 추출, 워드 센스 디스컴비게이션 및 텍스트와 관련된 기타 계산을 위해 필수적인 자원이다.
인도어의 중요성
인도 언어는 세계 언어 환경의 매우 중요한 요소를 이루고 있다.인도 아대륙인 인도유럽어, 드라비디아어, 티베토 부르만어, 오스트리아어 아시아어에는 4개의 언어유형학 요원이 있다.[5]많은 언어가 원어민 수별 언어 목록과 같이, 힌디-우르두 5위, 방글라 7위, 마라티 12위 등과 같이, 그것을 말하는 인구를 기준으로 세계 10위 안에 든다.그러므로 인도 언어의 단어망을 만드는 것은 매우 중요한 기술 과학적이고 언어적인 프로젝트다.
인도어 낱말망 창세기
이러한 프로젝트는 실제로 2000년에 힌디 워드넷이 IIT 봄베이 컴퓨터과학공학부 인도언어기술센터(CFILT)에 있는 자연언어처리그룹에 의해 만들어지면서 시작되었다.[6]그것은 GNU 면허에 따라 2006년에 공개되었다.힌디 워드넷은 인도 통신정보기술부의 TDIL 프로젝트와 인도 인적자원부의 일부 지원으로 만들어졌다.
인도의 다른 언어의 단어망이 그 뒤를 이었다.인도어 워드넷을 짓는 대규모 전국적인 프로젝트는 인도워드넷 프로젝트라고 불렸다.IndoWordNet[1] is a linked lexical knowledge base of wordnets of 18 scheduled languages of India, viz., Assamese, Bangla, Bodo, Gujarati, Hindi, Kannada, Kashmiri, Konkani, Malayalam, Meitei, Marathi, Nepali, Oriya, Punjabi, Sanskrit, Tamil, Telugu and Urdu.힌디 워드넷의 확장 접근법을 사용하여 워드넷이 만들어지고 있다.힌디 워드넷은 첫 번째 원리(아래 참조)에서 만들어졌으며, 인도어를 위한 첫 번째 워드넷이었다.채택된 방법은 영어용 프린스턴 워드넷과 동일했다.
폴란드 워드넷은 인도워드넷에 이은 전략을 바탕으로 프린스턴 워드넷에 매핑되고 있다.[7]
워드넷 구축 원리
워드넷은 신셋의 최소성, 범위 및 대체성의 원칙을 따른다.즉, '가족'의 개념("그녀는 고귀한 집 출신이다"라는 개념을 나타내는 {house, family})과 같이 신셋(미니멀리티)으로 대표되는 개념을 고유하게 주는 '핵심' 어휘소가 적어도 있어야 한다는 뜻이다.그러면 synset은 언어(커버리지)에서 개념을 나타내는 모든 단어를 포괄해야 한다. 예를 들어, 'menage'라는 단어는 용도가 드물기 때문에, 비록 synset의 끝을 향해 있지만, 'family' synset에 나타나야 할 것이다.마지막으로 신셋의 시작을 향한 말은 합당한 양의 기업체(대체성)에서 서로를 대체할 수 있어야 한다. 예를 들어 '그녀는 귀족 출신이다'라는 문장에서 '집'과 '가족'이 서로를 대체할 수 있다.
인도어 워드넷 통계
WordNets 언어를 만드는 언어 및 기관에서 synset의 수(2014년 8월 기준)는 다음과 같다.
| 언어 | 신셋 | 인스티발트 |
|---|---|---|
| 아사메세어 | 14958 | 아삼 구와하티 구와하티 구와하티 대학 |
| 벵골어 | 36346 | 인도 통계연구소, 콜카타, 웨스트벵골 |
| 보도 | 15785 | 아삼 구와하티 구와하티 구와하티 대학 |
| 구자라티 | 35599 | 다람신 데사이 대학교, 나디드, 구자라트 |
| 힌디어 | 38607 | IIT 봄베이, 뭄바이, 마하라슈트라 |
| 칸나다 | 20033 | 카르나타카 미소레 대학 |
| 카슈미리 | 29469 | 카슈미르 대학교, 스리나가르, 잠무, 카슈미르 대학교 |
| 곤카니 | 32370 | 고아대학교,탈리가오,고아대학교 |
| 말라얄람 | 30060 | 아미르타 대학교 코임바토레, 타밀 나두 |
| 마라티 | 29674 | IIT 봄베이, 뭄바이, 마하라슈트라 |
| 메이티 | 16351 | 마니푸르 대학교, 임팔, 마니푸르 |
| 네팔리 | 11713 | 아삼 대학교 실차르, 아삼 |
| 오리야 | 35284 | 하이데라바드 중앙 대학교, 하이데라바드, 안드라 프라데시 |
| 푼자비 | 32364 | 타파르 대학교와 펀자비 대학교, 패티알라, 펀자브 대학교 |
| 산스크리트어 | 23140 | IIT 봄베이, 뭄바이, 마하라슈트라 |
| 타밀 | 25431 | 타밀 대학교 탄자부르 타밀 나두 |
| 텔루구 | 21925 | 드라비디아 대학교, 쿠팜, 안드라 프라데시 |
| 우르두 | 34280 | 자와할랄 네루 대학교, 뉴델리 |
요약
인도워드넷은 유로워드넷과 매우 비슷하다.그러나, 피벗 언어는 물론 영어 워드넷과 연결되는 힌디어다.또한 복합 술어, 인과 동사와 같은 전형적인 인도어 현상도 인도워드넷에서 포착된다.
인도워드넷은 공개적으로 미간을 찌푸릴 수 있다.인도워드넷 프로젝트의 서브 컴포넌트를 구성하는 인도어 워드넷 구축 노력은 노스이스트 워드넷 프로젝트, 드라비디안 워드넷 프로젝트, 인드라다누시 프로젝트 등이며 TDIL 프로젝트에서 자금을 조달한다.
참조
- ^ a b Pushpak Bhattacharyya, IndianWordNet, Lexical Resources Engineering Conference 2010(LREC 2010), 몰타, 2010년 5월.
- ^ https://www.amrita.edu/publication/building-wordnet-dravidian-languages[데드링크]
- ^ Christiane Fallbaum (ed.), WordNet: A Electronic Lexical Database, MIT Press, 1998.
- ^ P. Vossen (edd.), EuroWordNet: Lexical Semantic Networks가 있는 다국어 데이터베이스, Kluwer Pub, 1998.
- ^ 조셉 E.Schwartzberg, Enclophdia Britannica, India—Linguistic Configuration, 2007.
- ^ 디팍 나라얀, 데바스리 차크라바티, 프라바카르 판데, P.Bhattacharyya An in Building in the Indian WordNet - 힌디를 위한 WordNet, GWC 02 국제회의, 인도 Mysore, 2002년 1월.
- ^ 루드니카, E, 마자르즈, M, 피아세키, M, & Szpakowicz, S. (2012)Princeton WordNet에 매핑하기, 제24회 COLING(Computing Language), 인도, 2012년 12월