레무르 프로젝트
Lemur Project![]() |
르무르 프로젝트는 매사추세츠 대학교 암허스트의 지능형 정보 검색 센터와 카네기 멜론 대학교의 언어 기술 연구소가 협력한 프로젝트다.Lemur Project는 정보 검색 및 텍스트 마이닝 소프트웨어의 연구개발을 지원하는 검색엔진, 브라우저 툴바, 텍스트 분석 툴, 데이터 자원을 개발한다.이 프로젝트는 Indri와 Galago 검색 엔진, LembleWeb09 및 LembleWeb12 데이터 세트, 그리고 LankLib 학습 대 순위 라이브러리로 가장 잘 알려져 있다.소프트웨어와 데이터셋은 일부 상업용 애플리케이션뿐만 아니라 과학 및 연구 애플리케이션에서도 광범위하게 사용된다.
르무르 프로젝트의 소프트웨어 개발 철학은 최첨단 정확성, 유연성, 효율성을 강조한다.예를 들어 Indri 검색엔진은 대형 텍스트 모음 '박스 밖으로'에 대한 정확한 검색을 제공하며, 데이터는 접근 가능한 방식으로 저장되어 새로운 검색 전략의 개발을 지원한다.Lemur 프로젝트의 소프트웨어는 과학자들과 소프트웨어 개발자들에게 유연성을 제공하는 오픈 소스 라이센스로 배포된다.
Lemur를 만들 때 사용되는 프로그래밍 언어는 C, C++, Java이며, 소스 파일과 빌드 지시어와 함께 제공된다.제공된 소스 코드는 새로운 라이브러리 개발을 목적으로 수정할 수 있다.리눅스, 윈도 등 다양한 운영 체제와 호환된다.
특징들
레무르는 다음과 같은 특징을 지원한다.
- 인덱싱 중:
- 검색:
- 분산 IR:
- 쿼리 기반 샘플링
- 데이터베이스 기반 순위(CORI)
- 결과 병합
- 문서 클러스터링
- 요약
- 간단한 텍스트 처리
구성 요소들
Lemur Project에는 다음과 같은 구성 요소가 있다.
- 인드리 검색엔진 C++
- 자바의 갈라고 검색엔진 연구 프레임워크
- LankLib 학습 대 순위 라이브러리
- 시파카 데이터 마이닝 애플리케이션
- CleverWeb09 및 CleverWeb12 데이터 집합
- 쿼리 로그 도구 모음
최신 버전
Lemur Project 부품 업데이트는 매년 6월과 12월에 두 번 이루어진다.인드리 검색엔진의 최신 버전은 5.17이다.갈라고 검색엔진의 최신 버전은 3.18이다.LankLib 학습 대 순위 라이브러리의 최신 버전은 2.14이다.시파카 데이터 마이닝 애플리케이션의 최신 버전은 1.8이다.
인드리 검색엔진
인드리 검색엔진은 르무르 프로젝트에서 개발한 부품 중 하나이다.그것은 오픈 소스다.인드리(Indri)에서 사용되는 쿼리 언어는 연구자들이 간단한 명령줄 명령을 사용하여 데이터를 인덱싱하거나 문서를 구조할 수 있게 한다.Indri는 다양한 현재 어플리케이션에 적응하는 측면에서 유연성을 제공한다.또한 고성능을 위해 노드 클러스터 전체에 분산될 수 있다.Indri 검색 엔진은 많은 데이터 수집을 처리할 수 있고 HTML과 XML과 같은 다양한 데이터 형식을 이해할 수 있다.
Indri API는 C++, Java, C#, PHP와 같은 다양한 프로그래밍 및 스크립팅 언어를 지원한다.
Indri Search Engine의 특징
- 여러 문서 표현을 사용할 수 있음
- 명시적 용어 가중치
- 강력한 쿼리 언어
- 정식으로 근거가 있는
- 매우 효과적
- 효율적인 구현 가능
참고 항목
외부 링크