기능 학습

Feature learning

기계학습에서 기능학습 또는 표현학습[1] 시스템이 원시데이터에서 기능검출 또는 분류에 필요한 표현을 자동으로 검출할 수 있도록 하는 일련의 기술입니다.이것에 의해, 수동의 기능 엔지니어링이 대체되어 머신이 기능을 학습해, 그것들을 사용해 특정의 태스크를 실행할 수 있게 됩니다.

기능 학습은 분류와 같은 기계 학습 태스크가 종종 수학적으로나 계산적으로 처리하기에 편리한 입력을 필요로 한다는 사실에 의해 동기 부여됩니다.그러나 이미지, 비디오 및 센서 데이터와 같은 실제 데이터는 알고리즘으로 특정 기능을 정의하려는 시도에도 영향을 미치지 않습니다.대안은 명시적 알고리즘에 의존하지 않고 검사를 통해 그러한 특징이나 표현을 발견하는 것이다.

기능 학습은 지도 또는 비지도 중 하나입니다.

감독.

감독 기능 학습은 라벨이 부착된 데이터에서 기능을 학습하는 것입니다.데이터 라벨을 사용하면 시스템이 라벨을 생성하지 못하는 정도를 오차항으로 계산할 수 있습니다.오류항은 학습 프로세스를 수정하기 위한 피드백으로 사용할 수 있습니다(오류 감소/최소화).접근방식은 다음과 같습니다.

지도 사전 학습

사전학습은 각 데이터 포인트가 대표요소의 가중치 합계로 표현될 수 있도록 입력 데이터로부터 대표요소의 집합(사전)을 개발한다.사전 요소와 가중치는 (입력 데이터에 대한) 평균 표현 오류를 최소화하고, 희소성을 활성화하기 위해 가중치에 대한 L1 정규화를 통해 찾을 수 있다(즉, 각 데이터 포인트의 표현은 0이 아닌 몇 개의 가중치만 가진다).

지도 사전 학습은 입력 데이터의 기초가 되는 구조와 사전 요소를 최적화하기 위한 라벨을 모두 이용한다.예를[6] 들면, 이 지도 사전 학습 기술은, 입력 데이터에 근거해 사전 요소, 데이터 포인트를 나타내기 위한 가중치, 분류기의 파라메타를 공동으로 최적화해 분류 문제에 사전 학습을 적용한다.특히, 분류 오차, 표현 오차, 각 데이터 포인트의 대표 가중치에 대한 L1 정규화(데이터의 희박한 표현을 가능하게 하기 위한) 및 분류기의 파라미터에 대한 L2 정규화로 이루어진 최소화 문제가 공식화된다.

뉴럴 네트워크

뉴럴 네트워크는 상호 연결된 노드의 여러 계층으로 구성된 "네트워크"를 사용하는 학습 알고리즘 패밀리입니다.이것은 동물의 신경계에서 영감을 얻었는데, 이 신경계는 노드를 뉴런으로 보고 가장자리는 시냅스로 본다.각 엣지는 관련된 가중치를 가지며, 네트워크는 네트워크의 입력 레이어에서 출력 레이어로 입력 데이터를 전달하기 위한 계산 규칙을 정의합니다.뉴럴 네트워크와 관련된 네트워크 함수는 가중치에 의해 파라미터화된 입력층과 출력층 간의 관계를 특징짓는다.적절하게 정의된 네트워크 기능을 통해 네트워크 기능(무게)을 통해 비용 함수를 최소화함으로써 다양한 학습 태스크를 수행할 수 있습니다.

다층 뉴럴 네트워크는 출력 계층에서 분류 또는 회귀에 사용되는 숨겨진 계층에서 입력의 표현을 학습하기 때문에 기능 학습을 수행하기 위해 사용될 수 있다.이러한 유형의 네트워크 아키텍처 중 가장 일반적인 것은 샴 네트워크입니다.

감독 없음

비지도 특징 학습은 레이블이 없는 데이터에서 특징을 학습하는 것이다.비지도 기능 학습의 목표는 종종 고차원 입력 데이터의 기초가 되는 구조를 포착하는 저차원 기능을 발견하는 것이다.기능 학습을 비감독 방식으로 수행할 경우 레이블이 없는 데이터 집합에서 학습한 기능을 사용하여 레이블이 지정된 데이터가 [7][8]있는 감독 환경에서 성능을 향상시키는 반감독 방식의 학습을 가능하게 한다.몇 가지 접근법이 다음에 소개됩니다.

K-평균 군집화

K-평균 클러스터링은 벡터 양자화를 위한 접근법이다.특히, n개의 벡터 집합이 주어지면, k-평균 군집화는 각 벡터가 가장 가까운 평균을 가진 군집에 속하도록 이들을 k개의 군집(즉, 부분 집합)으로 그룹화한다.문제는 차선의 탐욕 알고리즘이 개발되었지만 계산상 NP-hard이다.

K-평균 군집 분석을 사용하여 레이블이 지정되지 않은 입력 집합을 k개의 군집으로 그룹화한 다음 이러한 군집의 중심을 사용하여 피쳐를 생성할 수 있습니다.이러한 기능은 여러 가지 방법으로 생성할 수 있습니다.가장 간단한 방법은 각 표본에 k개의 이항 피쳐를 추가하는 것입니다. k-평균에 의해 학습된 j번째 중심이 [3]고려 중인 표본에 가장 가까운 경우 각 특징 j는 이 1입니다.클러스터까지의 거리는, 레이디얼 베이스 함수(RBF 네트워크[9] 트레이닝에 사용되고 있는 기술)를 사용해 변환한 후에, 피쳐로서 사용할 수도 있습니다.Coates와 Ng는 k-평균의 특정 변형이 희박한 코딩 [10]알고리즘과 유사하게 동작한다는 점에 주목한다.

감독되지 않은 특징 학습 방법에 대한 비교 평가에서 Coates, Lee 및 Ng는 적절한 변환을 사용한 k-평균 클러스터링이 이미지 분류 [3]작업에서 더 최근에 발명된 자동 인코더와 RBM을 능가한다는 것을 발견했다.K-평균은 특히 명명된 엔티티 [11]인식을 위해 NLP 영역의 성능을 향상시킨다. 여기서 브라운 클러스터링 및 분산된 단어 표현(신경 단어 [8]임베딩이라고도 함)과 경쟁한다.

주성분 분석

주성분 분석(PCA)은 치수 축소에 자주 사용됩니다.라벨이 부착되지 않은 n개의 입력 데이터 벡터가 주어졌을 때 PCA는 데이터 행렬의 최대 단수값 p에 대응하는 p(입력 데이터의 치수보다 훨씬 작은) 오른쪽 단수 벡터를 생성한다.여기서 데이터 행렬의 k번째 행은 입력의 샘플 평균에 의해 시프트된 k번째 입력 데이터 벡터이다(즉, sampl을 뺀 값).데이터 벡터로부터의 e 평균).마찬가지로 이들 특이 벡터는 입력 벡터의 샘플 공분산 행렬의 최대 고유값 p에 대응하는 고유 벡터이다.이러한 p개의 특이 벡터는 입력 데이터에서 학습된 특징 벡터이며, 데이터가 가장 큰 변화를 보이는 방향을 나타냅니다.

p 단수 벡터는 데이터 행렬의 선형 함수이기 때문에 PCA는 선형 특징 학습 접근법이다.단수 벡터는 p회 반복의 단순한 알고리즘을 통해 생성할 수 있습니다.ih 반복에서는, (i-1)번째 고유 벡터상의 데이터 행렬의 투영을 감산해, ih 특이 벡터를 잔차 데이터 행렬의 최대 단수에 대응하는 우측 특이 벡터로서 구한다.

PCA에는 몇 가지 제한이 있습니다.첫째, 분산이 큰 방향이 가장 중요한 것으로 가정하지만 그렇지 않을 수 있다.PCA는 원래 데이터의 직교 변환에만 의존하며, 데이터의 1차 및 2차 모멘트만 이용하므로 데이터 분포의 특성을 제대로 파악하지 못할 수 있습니다.또한 PCA는 입력 데이터 벡터가 상관되어 있는 경우에만 효과적으로 차원을 줄일 수 있습니다(그 결과 몇 가지 주요 고유값이 생성됩니다).

로컬 선형 임베딩

로컬 선형 임베딩(LLE)은 (라벨이 없는) 고차원 입력으로부터 저차원 인접 보존 표현을 생성하기 위한 비선형 학습 접근법이다.이 접근방식은 Roweis와 Saul(2000)[12][13]에 의해 제안되었다.LLE의 일반적인 생각은 원래 데이터 집합에서 인근 지역의 기하학적 특성을 유지하면서 저차원 점을 사용하여 원래 고차원 데이터를 재구성하는 것이다.

LLE은 크게 두 가지 단계로 구성됩니다.첫 번째 단계는 "근린 보존"을 위한 것으로, 여기서 각 입력 데이터 포인트 Xi는 K개의 가장 가까운 인접 데이터 포인트의 가중치 합계로 재구성되고, 최적의 가중치는 관련 가중치가 다음과 같은 제약 조건 하에서 평균 제곱 재구성 오차(즉, 입력 포인트와 재구성의 차이)를 최소화함으로써 구한다.각 포인트의 합계는 1이 됩니다.두 번째 단계는 첫 번째 단계에서 최적화된 가중치를 사용하여 표현 오류를 최소화하는 저차원 공간에서 벡터를 찾는 "치수 감소"입니다.첫 번째 단계에서는 최소 제곱 문제로 해결할 수 있는 고정 데이터로 가중치를 최적화합니다.두 번째 단계에서는 저차원 점이 고정 가중치로 최적화되며, 이는 스파스 고유값 분해를 통해 해결할 수 있다.

첫 번째 단계에서 얻은 재구성 가중치는 입력 [13]데이터에서 인근 지역의 "내부 기하학적 특성"을 포착한다.원본 데이터는 매끄러운 저차원 다양체에 있다고 가정하고 원본 데이터의 가중치에 의해 포착된 "내부 기하학적 특성"도 다양체에 있을 것으로 예상한다.이것이 LLE의 두 번째 단계에서 동일한 가중치가 사용되는 이유입니다.PCA에 비해 LLE는 기본 데이터 구조를 이용하는 데 더 강력합니다.

독립 성분 분석

독립 성분 분석(ICA)은 독립 비-가우스 [14]성분의 가중치 합계를 사용하여 데이터 표현을 형성하는 기술입니다.모든 구성요소가 가우스 분포를 따를 때 가중치를 고유하게 결정할 수 없기 때문에 비-가우스의 가정이 부과된다.

감독되지 않은 사전 학습

감독되지 않은 사전 학습은 데이터 레이블을 사용하지 않으며 사전 요소를 최적화하기 위해 데이터의 기초가 되는 구조를 이용한다.비지도 사전 학습의 예는 라벨이 부착되지 않은 입력 데이터에서 데이터 표현을 위한 기본 함수(사전 요소)를 학습하는 것을 목표로 하는 스파스 코딩이다.sparse coding은 [15]사전 요소의 수가 입력 데이터의 치수보다 큰 과잉 사전을 학습하기 위해 적용될 수 있습니다.Aharon 등이 제안한 희박한 [16]표현을 가능하게 하는 요소 사전 학습을 위한 알고리즘 K-SVD.

다층/심층 아키텍처

생물학적 신경 시스템의 계층적 아키텍처는 학습 [17]노드의 여러 층을 쌓음으로써 특징 학습을 위한 딥 러닝 아키텍처에 영감을 준다.이러한 아키텍처는 종종 분산 표현 가정을 기반으로 설계됩니다. 관찰된 데이터는 여러 수준에서 다양한 요소의 상호작용에 의해 생성됩니다.딥 러닝 아키텍처에서 각 중간층의 출력은 원래 입력 데이터의 표현으로 볼 수 있다.각 레벨은 이전 레벨에 의해 생성된 표현을 입력으로 사용하고 출력으로 새로운 표현을 생성하여 상위 레벨로 공급한다.하위 레이어의 입력은 원시 데이터이며, 최종 레이어의 출력은 최종 저차원 피쳐 또는 표현입니다.

제한 볼츠만 기계

제한된 볼츠만 기계(RBM)는 다층 학습 아키텍처의 구성 [3][18]요소로 자주 사용됩니다.RBM은 2진수 숨겨진 변수 그룹, 가시 변수 그룹 및 숨겨진 노드와 가시적인 노드를 연결하는 에지로 구성된 무방향 이분 그래프로 나타낼 수 있다.이것은 노드 내 접속이 없는 제약이 있는 보다 일반적인 볼츠만 기계의 특수한 경우입니다.RBM의 각 엣지는 무게와 관련지어집니다.가중치는 연결과 함께 에너지 함수를 정의하며, 이를 기반으로 가시적 노드 및 숨겨진 노드의 공동 분포를 고안할 수 있습니다.RBM의 토폴로지에 따라 숨겨진(가시되는) 변수는 표시 가능한([clarification needed]숨긴) 변수에 따라 독립적입니다.이러한 조건부 독립성은 계산을 용이하게 한다.

RBM은 비감독 기능 학습을 위한 단일 레이어 아키텍처로 볼 수 있습니다.특히 가시 변수는 입력 데이터에 대응하고 숨겨진 변수는 특징 검출기에 대응합니다.가중치는 힌튼의 대조적 발산([18]CD) 알고리즘을 사용하여 가시 변수의 확률을 최대화함으로써 훈련할 수 있다.

일반적으로 최대화 문제를 해결함으로써 RBM은 비희소 표현을 초래하는 경향이 있습니다.스파스 표현을 가능하게[19] 하기 위해 스파스 RBM이 제안되었습니다.이 개념은 데이터 우도 함수의 목적 함수에 정규화 항을 추가하여 작은 상수\p\에서예상되는 은닉 변수의 편차를 벌칙하는 것입니다.

자동 인코더

인코더와 디코더로 구성된 자동 인코더는 딥 러닝 아키텍처의 패러다임입니다.힌튼과 살라후치노프는[18] 예를 들어 인코더가 원시 데이터(예를 들어 화상)를 입력으로 사용하여 특징 또는 표현을 출력으로 생성하고, 디코더는 인코더로부터 추출된 특징을 입력으로 사용하여 원래의 입력 원시 데이터를 출력으로 재구성한다.인코더와 디코더는 여러 레이어의 RBM을 스태킹하여 구축됩니다.아키텍처에 관여하는 파라미터는 원래 레이어별로 엄격한 훈련을 받았습니다.기능 검출기의 레이어를 학습한 후에는 대응하는 RBM을 훈련하기 위한 가시적인 변수로 지칩니다.현재의 접근방식은 일반적으로 확률적 경사 강하 방법을 사용한 엔드 투 엔드 훈련을 적용한다.정지 조건이 충족될 때까지 훈련을 반복할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Y. Bengio; A. Courville; P. Vincent (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
  2. ^ Nathan Srebro; Jason D. M. Rennie; Tommi S. Jaakkola (2004). Maximum-Margin Matrix Factorization. NIPS.
  3. ^ a b c d Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). An analysis of single-layer networks in unsupervised feature learning (PDF). Int'l Conf. on AI and Statistics (AISTATS). Archived from the original (PDF) on 2017-08-13. Retrieved 2014-11-24.
  4. ^ Csurka, Gabriella; Dance, Christopher C.; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Visual categorization with bags of keypoints (PDF). ECCV Workshop on Statistical Learning in Computer Vision.
  5. ^ Daniel Jurafsky; James H. Martin (2009). Speech and Language Processing. Pearson Education International. pp. 145–146.
  6. ^ Mairal, Julien; Bach, Francis; Ponce, Jean; Sapiro, Guillermo; Zisserman, Andrew (2009). "Supervised Dictionary Learning". Advances in Neural Information Processing Systems.
  7. ^ Percy Liang (2005). Semi-Supervised Learning for Natural Language (PDF) (M. Eng.). MIT. pp. 44–52.
  8. ^ a b Joseph Turian; Lev Ratinov; Yoshua Bengio (2010). Word representations: a simple and general method for semi-supervised learning (PDF). Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Archived from the original (PDF) on 2014-02-26. Retrieved 2014-02-22.
  9. ^ Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). "Three learning phases for radial-basis-function networks". Neural Networks. 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312. doi:10.1016/s0893-6080(01)00027-2. PMID 11411631.
  10. ^ Coates, Adam; Ng, Andrew Y. (2012). "Learning feature representations with k-means". In G. Montavon, G. B. Orr and K.-R. Müller (ed.). Neural Networks: Tricks of the Trade. Springer.
  11. ^ Dekang Lin; Xiaoyun Wu (2009). Phrase clustering for discriminative learning (PDF). Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP. pp. 1030–1038.
  12. ^ Roweis, Sam T; Saul, Lawrence K (2000). "Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science. New Series. 290 (5500): 2323–2326. Bibcode:2000Sci...290.2323R. doi:10.1126/science.290.5500.2323. JSTOR 3081722. PMID 11125150.
  13. ^ a b Saul, Lawrence K; Roweis, Sam T (2000). "An Introduction to Locally Linear Embedding". {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  14. ^ Hyvärinen, Aapo; Oja, Erkki (2000). "Independent Component Analysis: Algorithms and Applications". Neural Networks. 13 (4): 411–430. doi:10.1016/s0893-6080(00)00026-5. PMID 10946390.
  15. ^ Lee, Honglak; Battle, Alexis; Raina, Rajat; Ng, Andrew Y (2007). "Efficient sparse coding algorithms". Advances in Neural Information Processing Systems.
  16. ^ Aharon, Michal; Elad, Michael; Bruckstein, Alfred (2006). "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation". IEEE Trans. Signal Process. 54 (11): 4311–4322. Bibcode:2006ITSP...54.4311A. doi:10.1109/TSP.2006.881199. S2CID 7477309.
  17. ^ Bengio, Yoshua (2009). "Learning Deep Architectures for AI". Foundations and Trends in Machine Learning. 2 (1): 1–127. doi:10.1561/2200000006.
  18. ^ a b c Hinton, G. E.; Salakhutdinov, R. R. (2006). "Reducing the Dimensionality of Data with Neural Networks" (PDF). Science. 313 (5786): 504–507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773.
  19. ^ Lee, Honglak; Ekanadham, Chaitanya; Andrew, Ng (2008). "Sparse deep belief net model for visual area V2". Advances in Neural Information Processing Systems.