데이터 바이닝
Data binning이산형 빈닝 또는 버킷링이라고도 하는 데이터 빈닝은 사소한 관찰 오류의 영향을 줄이기 위해 사용되는 데이터 전처리 기법이다.주어진 작은 간격인 bin에 속하는 원래의 데이터 값은 그 간격을 대표하는 값, 종종 중앙값으로 대체된다.그것은 정량화의 한 형태다.
통계 데이터 빈닝은 연속 값이 많거나 적거나 많은 숫자를 더 적은 수의 "빈"으로 그룹화하는 방법이다.예를 들어, 한 그룹의 사람들에 대한 데이터가 있는 경우, 그들의 나이를 더 적은 수의 연령 간격(예: 5년마다 함께 그룹화)으로 배열할 수 있다.다변량 통계에서도 사용할 수 있으며, 한번에 여러 차원으로 빈을 만들 수 있다.
이미지 데이터 처리
이미지 처리의 맥락에서, 빈닝은 픽셀의 클러스터를 하나의 픽셀에 결합하는 절차다.이와 같이 2x2 빈닝에서는 4픽셀의 배열이 하나의 큰 픽셀이 되어 전체 픽셀 수가 감소한다.[1]
이러한 집계는 정보 손실에 관련되기는 하지만 처리할 데이터의 양을 줄여 분석을 용이하게 한다.예를 들어, 데이터를 빈 상태로 만들면 처리된 이미지에 대한 읽기 노이즈의 영향을 줄일 수 있다(낮은 해상도의 비용).
사용 예
히스토그램은 기초 분포를 관찰하기 위해 사용되는 데이터 빈닝의 예다.그것들은 일반적으로 시각화 용이성을 위해 1차원 공간과 동일한 간격으로 발생한다.
데이터 빈닝은 질량분석(MS) 실험이나 핵자기공명(NMR) 실험에서 스펙트럼 차원의 작은 기악변동이 다른 구성요소를 나타내는 것으로 잘못 해석될 때, 데이터 프로파일의 모음이 패턴인식 분석의 대상이 될 때 사용될 수 있다.이 문제에 대처하는 간단한 방법은 분석 간 작은 스펙트럼 이동에도 불구하고 주어진 피크가 해당 빈에 남아 있도록 충분한 분해능으로 스펙트럼을 감소시키는 바이닝 기법을 사용하는 것이다.예를 들어, NMR에서는 화학적 이동 축을 분해하여 거친 빈으로 만들 수 있으며, MS에서는 스펙트럼 정확도를 정수 원자 질량 단위 값으로 반올림할 수 있다.또한 몇몇 디지털 카메라 시스템에는 영상 대비를 개선하기 위해 자동 픽셀 바이닝 기능이 통합되어 있다.[2]
Binning은 또한 마이크로소프트의 LightGBM과 Scikit-learn의 히스토그램 기반 Gradient Boosting Classification Tree와 같은 알고리즘의 감독된 분류와 회귀를 위한 의사결정 트리 부스팅 방법을 가속화하는[3] 기계 학습에도 사용된다.
참고 항목
참조
- ^ "Small explanation of binning in image processing". Steve Cannistra. Retrieved 2011-01-18.
- ^ "Use of binning in photography". Nikon, FSU. Retrieved 2011-01-18.
- ^ " "LightGBM: a highly-efficient gradient boosting decision tree". Neural Information Processing Systems (NIPS). Retrieved 2019-12-18.