애매한 정보 네트워크

Information fuzzy networks

IFN(Information Fuzzy Network)은 감독 학습을 위한 탐욕적인 기계 학습 알고리즘입니다.학습 알고리즘에 의해 생성되는 데이터 구조는 Info Fuzzy Network라고도 불립니다.IFN 구조는 의사결정 나무의 구조와 매우 유사합니다.단, IFN은 트리가 아닌 방향 그래프를 작성합니다.IFN은 또한 건설 단계에서 특징을 선택하기 위해 조건부 상호 정보 메트릭을 사용하는 반면 의사결정 트리는 보통 엔트로피나 지니같은 다른 메트릭을 사용합니다.

IFN 및 지식 발견 프로세스의 단계

IFN의 아트리뷰트

  1. IFN 모델은 Decision Tree에서 발생하는 플래그멘테이션 문제를 부분적으로 해결합니다(노드가 깊을수록 표시되는 레코드는 적어집니다).따라서 모든 계층에서 전체 레코드가 사용되기 때문에 통계적 유의성 표시에 비해 레코드 수가 너무 적을 수 있다.
  2. 네트워크 내의 모든 노드를 내부 노드 또는 숨겨진 노드라고 합니다.
  3. IFN에서는 모든 변수를 1개의 레이어에만 표시할 수 있습니다.또, 1개의 레이어에는 복수의 Atribute를 포함할 수 없습니다.모든 속성을 사용할 필요는 없습니다.
  4. 망 구축 후 목표 변수의 조건부 MI 증가는 모든 계층에서 조건부 MI 증가의 합과 같다.
  5. 터미널 노드에서 타깃 변수 노드로의 아크에는 가중치가 부여됩니다(터미널 노드는 타깃 변수 노드에 직접 연결된 노드입니다).가중치는 호로 인한 조건부 상호 정보입니다.
  6. IFN은 몇 가지 공통 데이터셋에서 c4.5 의사결정 트리 알고리즘과 비교되었다.IFN 모델에서는 일반적으로 사용되는 변수와 노드 수가 적었습니다.IFN의 정확도가 Decision Tree의 정확도보다 작았습니다.IFN 모형은 일반적으로 더 안정적입니다. 즉, 교육 세트의 작은 변화가 다른 모형보다 IFN에 미치는 영향이 적습니다.

IFN 구축 알고리즘

입력: 사용할 수 있는 입력 변수 목록, 데이터 레코드(훈련 세트) 목록 및 노드 분할 여부를 결정하는 데 사용되는 최소 통계적 유의성(기본값 0.1%)입니다.

  1. 타깃 변수의 루트노드와 레이어를 만듭니다.
  2. 모든 속성을 다 사용할 때까지 루프합니다.그렇지 않으면 통계적으로 유의한 조건부 상호 정보가 더 이상 개선되지 않습니다.
    1. 최대 조건부 상호 정보로 속성을 찾습니다.
    2. 우도비 검정을 사용하여 속성의 기여도가 통계적으로 유의한지 확인합니다.
    3. 현재 Atribute의 기여가 통계적으로 중요한 경우 이전 레이어의 노드를 분할합니다.그렇지 않으면 다수결 규칙에 따라 해당 노드에서 타깃 변수의 값 노드 중 하나로 노드를 만듭니다.
  3. net 및 net 자체에서 사용하도록 선택된 변수 목록을 반환합니다.

외부 링크