실제 값 함수의 복잡성 측정
계산 학습 이론(기계 학습과 계산 이론)에서 한스 라데마허의 이름을 딴 라데마허 복잡성은 확률 분포에 관한 실제 가치 함수의 한 부류의 풍부함을 측정한다.
정의들
집합의 Rademacher 복잡성
집합에 따라 A의 Rademacher 복잡성은 다음과 같이 정의된다
[1][2]: 326
![{\displaystyle \operatorname {Rad} (A):={\frac {1}{m}}\operatorname {E} \left[\sup _{a\in A}\sum _{i=1}^{m}\sigma _{i}a_{i}\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c47ceb99cecf0b8319984076b7b7dd2dd99c5b76)
where
are independent random variables drawn from the Rademacher distribution i.e.
for
a=( ,…, ) a
일부 저자는 우월감을 취하기 전에 합계의 절대값을 취하지만, 이
대칭적이라면 이것은 아무런 차이가 없다.
함수 클래스의 Rademacher 복잡성
Given a sample
, and a class
of real-valued functions defined on a domain space
, where
is the loss function 의
h{\
S 에
F {\displaystyle 의 경험적 Rademacher 복잡성은 다음과 같이 정의된다
.
![{\displaystyle \operatorname {Rad} _{S}(F)={\frac {1}{m}}\operatorname {E} \left[\sup _{f\in F}\sum _{i=1}^{m}\sigma _{i}f(z_{i})\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0a67592d2eb2adb8dfd8f7caabcb2907fd342d14)
또한 이는 이전 정의를 사용하여 작성할 수 있다.[2]: 326

여기서 은 함수 구성을 나타낸다
. 즉,

을(를) 에 대한 확률 분포로 설정하십시오
샘플 크기 에
P 에 대한
함수 클래스 의 Rademacher 복잡성은 다음과
같다.
![{\displaystyle \operatorname {Rad} _{P,m}(F):=\operatorname {E} _{S\sim P^{m}}\left[\operatorname {Rad} _{S}(F)\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8b24bbac0a633a216b7362313201ec6044d3d09c)
여기서 위의 예상은 에 따라 생성된
동일한 독립적으로 분포된(i.i.d.) S=( 1,z ,… , ) 에 대해 취해진다
예
1. 은(는) 단일
벡터를 포함하며, 예: ={( b)}
그 다음:

모든 싱글톤 가설 클래스도 마찬가지다.[3]: 56
2. 에는 두 개의 벡터가 들어
있는데, : A={( 1, ),( 1,)} A (1
그러면:
![{\displaystyle {\begin{aligned}\operatorname {Rad} (A)&={1 \over 2}\cdot \left({1 \over 4}\cdot \max(1+1,1+2)+{1 \over 4}\cdot \max(1-1,1-2)+{1 \over 4}\cdot \max(-1+1,-1+2)+{1 \over 4}\cdot \max(-1-1,-1-2)\right)\\[5pt]&={1 \over 8}(3+0+1-2)={1 \over 4}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/648d58d1aa685edcb645203422b9514b043a100d)
Rademacher 복잡성 사용
Rademacher 복잡성은 기능 클래스의 학습 가능성에 대한 데이터 의존적인 상위 범위를 도출하는 데 사용될 수 있다.직관적으로 Rademacher 복잡성이 작은 함수 클래스는 배우기 쉽다.
대표성을 제한한다.
머신러닝(machine )에서는 일부 샘플 데이터 S[\의 실제 분포를 나타내는 트레이닝 세트를 갖는 것이 바람직하다
이는 대표성의 개념을 사용하여 정량화할 수 있다.이그려진 확률
를 P {\displaystyle P로 표시하십시오.Denote by
the set of hypotheses (potential classifiers) and denote by
the corresponding set of error functions, i.e., for every hypothesis
, there is a function
, that maps each training sample (features,label)분류자 의 오류에 대해 설명하십시오(
이 경우 가설과 분류자는 서로 교환하여 사용된다).예를 들어, 이(가) 이진 분류기를 나타내는
경우, 오류 함수는 0–1 손실 함수, 즉 오류 가 샘플을 올바르게
분류하면 1을 반환하고
다른 것은 0을 반환한다.기본 가설이 무관할 때는
을 생략하고 대신 f
를 쓴다.정의:
-
– 실제 분포 의
일부 오류 함수 의 예상 오류
- () i= i)
– 샘플
에
있는 일부 오류 함수 의 추정 오류.
및
에 대한 샘플
의 대표성은 다음과 같이 정의된다.

과대 적합을 방지할 수 있는 방법을 제공하기 때문에 더 작은 대표성이 더 낫다. 즉, 분류자의 실제 오차가 추정 오차보다 그리 높지 않다는 것을 의미하며, 따라서 추정 오차가 낮은 분류자를 선택하면 실제 오차도 낮다는 것을 보장할 것이다.그러나 대표성의 개념은 상대적이므로 구별되는 표본에 걸쳐 비교할 수 없다는 점에 유의하십시오.
샘플의 예상 대표성은 함수 클래스의 Rademacher 복잡성에 의해 상단으로 제한될 수 있다.[2]: 326
![{\displaystyle \operatorname {E} _{S\sim P^{m}}[\operatorname {Rep} _{P}(F,S)]\leq 2\cdot \operatorname {E} _{S\sim P^{m}}[\operatorname {Rad} (F\circ S)]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/09909da91e76d4385aff2e1e2c6a50c6433ad544)
일반화 오류 경계
Rademacher 복잡성이 작을 때는 경험적 위험 최소화를 이용하여 가설 등급 H를 학습하는 것이 가능하다.
예를 들어 (이항 오차 함수를 사용하는 경우)[2]: 328 모든 가설 > 0 >
에 대해 가설 h 이상 확률로,
> {\

Rademacher 복잡성 경계
더 작은 Rademacher 복잡성이 더 좋기 때문에 다양한 기능 세트의 Rademacher 복잡성에 대한 상한을 갖는 것이 유용하다.다음 규칙을 사용하여 집합 m {\의 Rademacher 복잡도를 상한으로 지정할 수 있다
[2]: 329–330
1. 의 모든 벡터가 에서 ∈ \mattb {R}{m
에 있는 일정한 벡터에 의해 번역된
경우 Rad(A)는 변경되지 않는다.
2. 의 모든 벡터에 ∈ R {
을(를) 곱하면
Rad(A)에 c을(를
곱한다.
3. Rad(A + B) = Rad(A) + Rad(B)[3]: 56
4. (Kakade & Tewari A {\ A}의
모든 벡터를 립스치츠 함수에 의해 작동한다면, Rad(A)는 (최대) 함수의 립스치츠 상수에 곱한 값이다.특히 의 모든 벡터가 수축 매핑에 의해 작동되는
경우 Rad(A)는 엄격히 감소한다.
5. 의 볼록 선체의 Rademacher 복잡성은 Rad(A)와
같다.
6. (마사지 보조정리)유한 집합의 Rademacher 복잡성은 설정된 크기에 따라 로그적으로 증가한다.형식적으로, 을(를) m{\^{
의
N{\N} 벡터 집합으로
하고 {\ {을(를) 의 벡터의 평균으로
설정한 다음
다음:

특히 이
(가) 이진 벡터 집합인 경우 표준은 최대 이므로

VC 치수와 관련된 한계
H 을(를) 차원이 d 인 세트 패밀리로 한다
의 성장 함수는 다음과 같이 제한되어 있는
것으로 알려져 있다.
- 모든 > +
: (, ) ( / d) d
즉, 최대 요소를
가진
모든 h 에 대해 ≤ m/ ) d{\ h 을 의미한다
세트 패밀리 은(는) ^{에 대한 이진 벡터 집합으로 간주할
수 있다
이를 마사트의 보조정리법으로 대체하면 다음과 같은 효과를 얻을 수 있다.

더 진보된 기술(더들리의 엔트로피와 Haussler의 상단 bound[4]마련)사람을 보여 줄 수 있고, 예를 들어 지속적인 C{C\displaystyle},{0,1}{\displaystyle\와 같이{0,1\}}-indicator 기능의 Vapnik–Chervonenkis 차원 d{\displaystyle d}에 있는 모든 클래스 Rademacher 복잡성에 대문자고 있어 그런 존재한다.bou {
에 의해 Nedded.
선형 클래스와 관련된 한계
범위는 S의 선형 연산과 관련이 있으며,
n 의 벡터의
상수 집합이다
[2]: 332–333
1. Define
the set of dot-products of the vectors in
with vectors in the unit ball.다음:

2. Define
the set of dot-products of the vectors in
with vectors in the unit ball of the 1-norm.다음:

포함 숫자와 관련된 한계
다음 경계는 A {\의
Rademacher 복잡성과 외부 피복 번호, 즉 이A {\을
(를) 포함하는 특정 r{\r}의 볼 수입니다
그 바운드는 더들리 덕분이다.[2]: 338
은 길이(일반)가 최대 인 벡터 집합이라고
가정합시다
그런 다음, 모든 정수 > 에 대해

특히, 이(가) R ^{의 d차원 하위 공간에 놓여
있는 경우
다음 작업을 수행하십시오.

이것을 이전 바운드로 대체하면 Rademacher 복잡성에 대해 다음과 같은 바운드가 발생한다.

가우스 복잡성
가우스 복잡성은 유사한 물리적 의미를 갖는 유사한 복잡성으로, 대신
임의 g 를 사용하여 Rademacer 복잡도에서 얻을 수 있다
서 g 는 0-mean과 va를 갖는 가우스 i.d 랜덤 변수다
.riance 1, 즉 ~ N( 1) )
. 가우스와 라디마허 복합성은 로그 인자에 해당하는 것으로 알려져 있다.
라데마허와 가우스 복잡성의 동등성
집합이 주어지면 다음
값이 유지된다.

여기서 ( ) 은
A의 가우스 복잡도 입니다.
참조
- Peter L. Bartlett, Shahar Mendelson(2002) Rademacher 및 Gaussian Complexities: 위험 범위 및 구조 결과.기계학습연구 제3권 463-482호
- 조르지오 게코, 마르첼로 상구이네티(2008) Rademacher's Complexity를 통한 근사 오차 한계.응용 수학 과학, 2008년 2권, 4, 153–176호