정보 검색 기능
Information Retrieval Facility![]() | 이 글은 광고처럼 쓰인 내용을 담고 있다.(2012년 5월) (이 과 시기 |
2006년 설립돼 오스트리아 빈에 위치한 정보검색시설(IRF)은 정보검색 분야의 전문가들을 위한 네트워킹과 협업을 위한 연구 플랫폼이었다.2012년에 가동을 중단했다.null
IRF에는 다음과 같은 범주의 회원이 있었다.
- 정보검색(IR) 또는 관련 과학 분야의 연구원
- 산업/기업 정보 관리 전문가
- 특허 당국 및 정부 기관
- 위 중 한 명의 학생
사이언티픽 보드
- 마리스텔라 아고스티, 파도바 대학교 정보공학과 교수
- 게르하르트 부딘 빈 대학교 번역연구센터장, 오스트리아 과학아카데미 공보과학 텍스트기술부 부장
- Jamie Callan, CMU, Carnegie Mellon University 언어 기술 연구소 교수
- 이브 치아라멜라 조셉 푸리에 대학 컴퓨터과학 응용수학부 명예교수
- 전길남 KAIST 컴퓨터과학부 교수(한국과학기술원)
- W. Bruce Croft, 컴퓨터 과학 학부 겸 매사추세츠 애머스트 인텔리전트 IR 대학 센터장
- 해미쉬 커닝햄, 셰필드 컴퓨터과학부 연구교수
- 노르베르트 푸어(Norbert Fuhr) 과학 이사회 의장, 정보 및 인터랙티브 시스템 대학교 듀스버그-에센(Duisburg-Essen) 정보 시스템 연구소 교수
- CSIRO ICT 센터의 프로젝트 리더, 과학 리더 David Hawking
- NII(National Institute of Informatics) 소프트웨어 연구 부서 소프트웨어 엔지니어링 연구과 교수, 간도 노리코
- Arcot Desai Narasimhalu, 정보 시스템 대학 부학장 싱가포르 관리 대학교
- 2007년 7월까지 IRF의 최고 과학 책임자 John Tait, 지능형 정보 시스템 교수 겸 컴퓨터 기술 학부 부학장
- Benjamin T'sou, 홍콩 시티 대학교 언어 정보 과학 연구 센터 소장
- C. J. 반 리즈베르겐, 뎁. 글래스고 대학교 컴퓨터 과학
과학적 목표
- 글로벌 특허 문서 수집을 위한 혁신적이고 전문화된 정보 검색 시스템 모델링.
- 대규모 문서 수집에 대해 공식적이고 수학적인 검색 개념을 가지고 상호 작용 실험을 할 수 있는 적절한 기술 인프라 조사 및 개발.<
- 대규모 정보 검색 시스템에 대한 다중 모드 사용자 인터페이스의 사용성 연구.
- 실제 정보수요와 실제 정보이용자를 모델링 정보검색 시스템 연구과정에 통합하여 정확한 성능평가가 가능하도록 한다.
- 정보 니즈의 초점에 따라 특허 데이터에 대한 다른 관점을 만들 수 있는 능력.
- 특허문서 수집에서 정보검색 프로세스를 벤치마킹하기 위한 표준화된 방법 정의.
- 특허의 텍스트 및 비 텍스트 부분을 일관성 있게 처리할 수 있는 능력.
- 대규모 특허 컬렉션에서 구조화 및 반구조화 문서를 검색할 수 있는 검색 엔진 설계, 실험 및 평가.
- 특허 문서의 일시적 차원을 검색 전략에 통합.
- 온톨로지 및 자연어 이해 기법에 기초한 특허 검색의 효과성 및 정밀도 향상.
- 특허 문서 내에서 이용 가능한 구조를 이용하여 비정형적인 쿼리를 허용하는 IR 방법의 정제.
- 지식재산 정보 분야의 관련 비즈니스 정보 요구에 대한 공식적인(수학적) 식별 및 규격.
- 특허 데이터의 특성을 고려한 정보 검색을 위한 효율적인 스케일링 메커니즘 조사.
- 대용량 정보 관리를 위한 컴퓨팅 아키텍처 조사 및 실험.
- 공통 연구 인프라에서 IR 실험을 표준화하고 쉽게 수행할 수 있는 개방형 eScience 플랫폼 구축.
- 지적 재산 정보에서 도출된 새로운 사용 사례 및 비즈니스 응용프로그램의 발견 및 조사.
- 공식적인 정보 검색, 자연어 및 의미 처리 연구가 글로벌 산업 맥락에서 응용 과학 분야로 성장할 수 있도록 한다.
- 다양한 정보 접근 방법의 개발 및 통합.
- 인터랙티브 정보 검색을 위한 효과적인 방법에 관한 연구
시멘틱 슈퍼컴퓨팅
구조화되지 않은 문서에서 개념을 추출하는 현재의 기술은 계산 집약적이다.IRF는 풍부하고 거대한 텍스트 기업과의 대화형 실험을 허용하기 위해 최신 기술 발전이 구현된 고성능 컴퓨팅 환경을 구축했다.
- 다중 노드 클러스터(현재 80개의 코어, 최대 1024개)
- 최고 속도 인터커넥트 기술
- 대용량 복합 메모리가 포함된 단일 시스템 이미지(현재 320GB, 최대 4TB)
- 완전 통합 구성 가능한 컴퓨팅(현재 FPGA 코어 4개, 최대 256개)
텍스트 마이닝을 가속화하기 위한 이러한 HPC 기능의 조합은 의미론적 슈퍼컴퓨팅의 IRF 구현을 나타낸다.null
세계 특허 코퍼스
IRF는 최첨단 정보 검색 기술을 특허 정보 전문가 커뮤니티에 도입하는 것을 목표로 하고 있다.조만간 정보검색(IR) 기술이 정보기술의 초점이 될 것으로 기대한다.모든 산업분야는 특허연구의 특수요건에 현대적이고 미래의 텍스트 마이닝 프로세스를 적용함으로써 이익을 얻을 수 있다.비록 모든 아이디어와 개념이 모든 종류의 지적 재산 정보에 보편적으로 적용 가능하지만, 특허는 가장 정교함을 필요로 하며, 우리에게 도전적인 기술적, 조직적 문제에 직면한다.특허 관련 문서의 전체 본문이 복합 문서의 가장 큰 말뭉치를 구성하여 텍스트 마이닝 과학자와 최종 사용자 모두에게 보람 있는 목표가 될 수 있다.더욱이 특허는 특히 글로벌 대기업과 대학들에게 중요한 이슈가 되었다.특허 데이터의 산업 사용자는 가장 까다롭고 중요한 정보 전문가들 중 하나이다.결과적으로, 그들은 특허 정보의 큰 부분을 연구해야 하는 부담을 덜어주는 기술로부터 가장 많은 이익을 얻을 수 있을 것이다.null
연구자료집
IRF는 IRF, 회원 중 한 명 또는 제3자에 의해 개발된 많은 시험 데이터 수집을 제공한다.이러한 데이터 수집은 과학적 실험에 자유롭게 사용될 수 있다.null
MARC(Marixware REsearch Collection, MARC)는 연구 목적을 위한 최초의 표준화된 특허 데이터다.그것은 서로 다른 언어로 된 1,900만 건의 특허 문서로 구성되어 있으며, 매우 구체적인 XML 형식으로 정규화되었다.이 컬렉션은 매트릭스웨어가 IRF를 위해 개발했다.null
《CombeWeb09[citation needed]》는 2009년 1월과 2월에 걸쳐 약 10억 개의 웹 페이지를 탐색한 25테라바이트 데이터 집합이다.카네기멜론대학교 언어기술연구소가 정보검색 및 관련 휴먼 언어기술 연구를 지원하기 위해 만들었다.null