의미 스펙트럼

Semantic spectrum

의미 스펙트럼(때로는 온톨로지 스펙트럼 또는 스마트 데이터 연속체 또는 의미 정밀도라고도 함)은 지식 표현에서 특히 기계 사용에 있어 데이터 요소에 대한 점점 더 정밀하거나 오히려 의미론적으로 표현되는 정의의 연속이다.

스펙트럼의 낮은 끝에는 단어나 구와 그 정의의 단순한 결합이 있다.하이엔드에는 관계와 속성에 대해 정밀한 URI를 사용하여 데이터 요소 간의 관계를 지정하는 완전한 온톨로지(ontology)가 있다.

특수성이 증가함에 따라 정밀도가 향상되고 도구를 사용하여 시스템을 자동으로 통합할 수 있는 능력은 물론 메타데이터 레지스트리를 구축하고 유지 관리하는 비용도 증가하게 된다.

의미 스펙트럼의 일부 단계는 다음과 같다.

  1. 용어집: 용어와 용어의 정의의 간단한 목록.용어집에서는 도메인별 용어와 두문자어의 전체 용어 목록을 작성하는 데 초점을 맞춘다.용어에 대한 명확하고 모호하지 않은 정의를 만드는 데 유용하며 간단한 워드 프로세싱 도구로 만들 수 있기 때문에 필요한 기술 도구가 거의 없다.
  2. 통제된 어휘: 용어, 정의 및 명명 규칙의 간단한 목록.통제된 어휘는 일관성을 보장하기 위해 데이터 요소 정의의 추가 또는 제거와 관련된 일부 유형의 감독 과정을 종종 가진다.용어는 종종 서로 관계에서 정의된다.
  3. 데이터 사전:컴퓨터 시스템에 있는 데이터 요소의 용어, 정의, 명명 규칙 및 하나 이상의 표현.데이터 사전은 종종 데이터 유형, 열거된 값과 같은 유효성 검사 및 열거된 각 값의 공식 정의를 정의한다.
  4. 데이터 모델:용어, 정의, 명명 규칙, 표현 및 하나 이상의 데이터 요소 표현, 추상화 및 컨테이너를 포함한 데이터 요소 간의 관계 규격의 시작.
  5. 분류법:모든 데이터 요소가 단일 "슈퍼 데이터 요소"에서 동작을 상속하는 상속 계층의 전체 데이터 모델.데이터 모델과 공식 분류법의 차이는 데이터 요소를 공식 트리 구조로 배열하는 것인데, 여기서 트리의 각 요소는 관련 속성과 함께 공식적으로 정의된 개념이다.
  6. 온톨로지:모든 데이터 요소, 속성 및 관계 유형에 대해 URI(및 IRI)를 사용하여 기계에서 읽을 수 있는 완전한 개념화 규격.온톨로지를 표현하기 위한 W3C 표준 언어는 웹 온톨로지 언어(OWL)이다.온톨로지는 종종 데이터 요소를 서로 연관시키는 분리된 논리문서로 형성된 공식적인 비즈니스 규칙을 포함한다.

의미적 정밀도를 결정하기 위한 일반적인 질문

다음은 의미적 정밀도를 결정할 때 발생할 수 있는 질문 목록이다.

정확성
어떻게 하면 정확한 구문과 의미론을 시행할 수 있을까?데이터 교환의 구문을 검증하기 위해 도구(XML Schema 등)를 쉽게 사용할 수 있는가?
적절성/부정성/부정성
이 시스템은 목적을 위해 실용적으로 사용되는 모든 것을 나타내는가?외부화된 데이터(시스템 간 노출 또는 전송)에 중점을 두고 있는가?
능률
표현을 얼마나 효율적으로 검색/질문할 수 있으며 - 가능한 - 에 대해 논증할 수 있는가?
복잡성
새로운 개념을 정의하고, 그것들을 쿼리하거나, 구속하기 위한 학습 곡선은 얼마나 가파른가?일반적인 워크플로우를 단순화하는 데 적합한 툴이 있는가?(또한: 온톨로지 편집기 참조)
번역성
의미적 등가성이 보장되도록 표현(예: 어휘 기반 변환)을 등가 표현으로 쉽게 변환할 수 있는가?

의미 스펙트럼의 위치 결정

오늘날 많은 조직이 데이터 정의를 저장하고 메타데이터 게시를 수행하기 위해 메타데이터 레지스트리를 구축하고 있다.그들이 의미적 스펙트럼에 어디에 있는지에 대한 문제는 종종 발생한다.시스템 위치를 결정하기 위해 다음 질문 중 일부는 자주 유용하다.

  1. 그 주제에 대해 중앙집중식 용어 해설자가 있는가?
  2. 용어집에는 각 용어에 대한 정확한 정의가 포함되어 있는가?
  3. 데이터 유형 정보를 포함하는 데이터 요소를 저장하는 중앙 저장소가 있는가?
  4. 데이터 요소의 생성 및 변경과 관련된 승인 프로세스가 있는가?
  5. 코드화된 데이터 요소가 완전히 열거되었는가?각 열거에는 완전한 정의가 있는가?
  6. 메타데이터 레지스트리에서 중복되거나 중복되는 데이터 요소를 제거하는 프로세스가 있는가?
  7. 데이터 요소를 분류하는 데 사용되는 분류 체계가 하나 이상 있는가?
  8. 문서 교환 및 웹 서비스는 데이터 요소를 사용하여 작성되었는가?
  9. 모델 기반 아키텍처의 일부로 중앙 메타데이터 레지스트리를 사용할 수 있는가?
  10. 메타데이터 구조에서 재사용할 수 있는 데이터 요소를 추출하기 위한 교육을 받은 직원이 있는가?

의미론의 전략적 특성

오늘날 월드 와이드 웹의 많은 부분이 하이퍼텍스트 마크업 언어로 저장되어 있다.검색 엔진은 출판된 웹페이지의 의미를 이해하지 못해 심각한 장애를 겪고 있다.이러한 제한은 시멘틱운동의 출현으로 이어졌다.

과거에는 맞춤형 데이터베이스 애플리케이션을 만든 많은 조직들이 데이터 정의를 공식적으로 발표하지 않는 격리된 개발자 팀을 사용했다.이들 팀은 다른 컴퓨터 시스템과 양립할 수 없는 내부 데이터 정의를 자주 사용했다.이로 인해 엔터프라이즈 애플리케이션 통합데이터 웨어하우징은 매우 어렵고 비용이 많이 들었다.오늘날 많은 조직은 새로운 애플리케이션이 만들어지기 전에 팀이 중앙 집중식 데이터 레지스트리를 참조할 것을 요구한다.

조직의 데이터 조정을 담당하는 개인의 직함은 데이터 설계자다.

역사

이 용어에 대한 첫 번째 언급은 1999년 AAAI 온톨로지스 패널이었습니다.이 패널은 프리츠 레만(Fritz Lehmann)의 프러딩에서 패널리스트(Fritz, Mike Uschold, Mike Gruninger, Debora McGuinness)와 협력하여, 당시 온톨로지라고 일컬어지는 정보 시스템의 "스펙트럼"을 고안해낸 크리스 웰티(Chris Welty)가 주관했다."온톨로지 스펙트럼" 그림은 포멀 온톨로지 정보 시스템: 2001년 회의의 진행에 대한 소개에서 인쇄물에 나타났다.온톨로지 스펙트럼은 데보라 맥가이니스의 2000년 다그스툴에서 열린 웹 미팅을 위한 Semantics의 강연에서도 특징지어졌다.맥가이네스는 그 워크샵에서 나온 시멘틱 웹의 스핀닝이라는 책에 등장한 그 스펙트럼에 관한 요점을 설명하는 논문을 발표하였다.나중에 레오 오베스트는 스펙트럼을 2차원(기술적으로 더 이상 스펙트럼이 아니다)으로 확장하여 훨씬 더 자세한 내용을 덧붙였는데, 이 내용은 그의 저서 Thh에 수록되어 있었다.e 시맨틱 웹: XML, 웹 서비스 및 지식 관리의 미래에 대한 가이드.

비즈니스 시스템에서의 의미론적 정밀성의 개념은 데이브 매컴이 그의 저서 비즈니스 시스템에서의 의미론적 개념에서 대중화되었다. 2003년에 출간된 'Savvy Managers Guide'시멘틱 정밀도라는 용어를 자주 사용했다.

이 논의는 다음과 같은 수준을 포함하는 10단계의 분할 영역을 중심으로 이루어졌다(의미 정밀도를 높이는 순서로 나열됨).

  1. 데이터 요소의 단순 카탈로그
  2. 용어 및 정의 용어집
  3. 테사우리, 좁은 용어, 관계
  4. 비공식적인 "Is-a" 관계
  5. 공식 "Is-a" 관계
  6. 공식 인스턴스
  7. 프레임(속성)
  8. 값 제한
  9. 불연속성, 역행성, 부분적합성
  10. 일반 논리적 제약 조건

스펙트럼에 형식적인 is- 관계를 추가하는 것을 특별히 강조했는데, 이는 삭제된 것으로 보인다.

세레브라는 또한 의미론적으로 정밀한 메타데이터를 저장하는 능력에 있어 기업 내에 존재하는 데이터 형식을 설명함으로써 이 개념을 대중화시켰다.이 목록에는 다음이 포함된다.

  1. HTML
  2. PDF
  3. 워드 프로세싱 문서
  4. 마이크로소프트 엑셀
  5. 관계형 데이터베이스
  6. XML
  7. XML 스키마
  8. 분류법
  9. 온톨로지스

개념들이 공통적으로 공유하는 것은 인텔리전트 에이전트를 용이하게 하기 위해 정보를 보다 정밀하게 저장하는 능력이다.

참고 항목

참조