인공신경망의 종류
Types of artificial neural networks인공신경망(ANN)에는 많은 종류가 있다.
인공 신경망은 생물학적 신경망에서 영감을 받은 계산 모델이며, 일반적으로 알려지지 않은 함수를 근사하는 데 사용됩니다.특히 뉴런의 행동과 뉴런이 입력(예: 눈 또는 손의 신경 말단), 처리 및 뇌 출력(예: 빛, 촉각 또는 열에 반응) 사이에 전달하는 전기 신호에서 영감을 받습니다.뉴런이 의미적으로 소통하는 방법은 현재 진행 중인 [1][2][3][4]연구 분야이다.대부분의 인공 신경망은 좀 더 복잡한 생물학적 네트워크와 유사할 뿐이지만, 의도된 작업(예: 분류 또는 세분화)에서는 매우 효과적이다.
일부 인공 신경망은 적응 시스템이며, 예를 들어 지속적으로 변화하는 모집단과 환경을 모델링하는 데 사용됩니다.
뉴럴 네트워크는 하드웨어(뉴런은 물리적 구성요소로 표시됨) 또는 소프트웨어 기반(컴퓨터 모델)일 수 있으며 다양한 토폴로지 및 학습 알고리즘을 사용할 수 있습니다.
피드포워드
피드포워드 뉴럴 네트워크는 가장 간단하고 첫 번째 유형이었다.이 네트워크에서 정보는 사이클/루프 없이 입력 레이어에서 숨겨진 레이어를 통해 출력 레이어로 직접 이동합니다.피드포워드 네트워크는 바이너리 McCulloch-Pitts 뉴런과 같은 다양한 유형의 유닛으로 구성할 수 있으며, 그 중 가장 단순한 것이 퍼셉트론입니다.연속 뉴런은 종종 S자형 활성화와 함께 역전파의 맥락에서 사용된다.
데이터 처리 그룹화 방법
GMDH([5]Group Method of Data Handling)는 완전 자동 구조 및 파라메트릭 모델 최적화를 특징으로 합니다.노드 활성화 함수는 추가와 곱셈을 허용하는 콜모고로프-가보 다항식이다.8층으로 [6]이루어진 심층 다층 퍼셉트론을 사용합니다.각 계층이 회귀 분석에 의해 훈련되는 계층별로 성장하는 감독 학습 네트워크입니다.검증 세트를 사용하여 불필요한 아이템을 검출하고 정규화를 통해 플루닝합니다.결과 네트워크의 크기와 깊이는 [7]작업에 따라 달라집니다.
자동 인코더
자동 인코더, 자동 어소시에이터 또는 Diabolo[8]: 19 네트워크는 멀티 레이어 퍼셉트론(MLP)과 유사하며 입력 레이어, 출력 레이어 및 이들을 연결하는 하나 이상의 숨겨진 레이어가 있습니다.단, 출력층의 유닛 수는 입력층과 동일합니다.그 목적은 (목표값을 방출하는 것이 아니라) 자체 입력을 재구성하는 것입니다.따라서 자동 인코더는 비감독 학습 모델입니다.자동 인코더는 효율적인 [9][10]코딩의 비감독 학습, 일반적으로 차원 감소 및 데이터의 [11][12]생성 모델 학습에 사용됩니다.
확률론적
확률적 뉴럴 네트워크(PNN)는 4층 피드포워드 뉴럴 네트워크입니다.레이어는 입력, 숨김, 패턴/집약 및 출력입니다.PNN 알고리즘에서 각 클래스의 부모확률분포함수(PDF)는 파르젠창과 비모수함수에 의해 근사된다.그런 다음 각 클래스의 PDF를 사용하여 새로운 입력의 클래스 확률을 추정하여 Bayes의 규칙을 사용하여 가장 높은 후방 [13]확률을 가진 클래스에 할당합니다.그것은[14] 베이지안 네트워크와 커널 피셔 판별 [15]분석이라고 불리는 통계 알고리즘에서 파생되었다.분류 및 패턴 인식에 사용됩니다.
시간 지연
TDNN(Time Delay Neural Network)은 시퀀셜 데이터의 피드포워드 아키텍처로 시퀀스 위치에 관계없이 기능을 인식합니다.시간 이동 불변성을 달성하기 위해 입력에 지연을 가산하여 여러 데이터 포인트(시점)를 함께 분석한다.
일반적으로 더 큰 패턴 인식 시스템의 일부를 구성합니다.연결 가중치가 역 전파(감독 학습)[16]로 훈련되는 퍼셉트론 네트워크를 사용하여 구현되었습니다.
컨볼루션
컨볼루션 뉴럴 네트워크(CNN, ConvNet 또는 시프트 불변성 또는 공간 불변성)는 하나 이상의 컨볼루션 레이어([17][18]일반 ANN의 레이어와 일치)로 구성된 딥 네트워크의 클래스입니다.묶은 무게와 풀링 레이어를 사용합니다.특히 max-pooling입니다.[19]그것은 종종 후쿠시마의 컨볼루션 [20]아키텍처를 통해 구조된다.최소 [21]전처리를 사용하는 다층 퍼셉트론의 변형입니다.이 아키텍처를 통해 CNN은 입력 데이터의 2D 구조를 활용할 수 있습니다.
단위 연결 패턴은 시각 피질의 구성에서 영감을 얻습니다.유닛은 수용장이라고 알려진 공간의 제한된 영역에서 자극에 반응합니다.수용 필드는 부분적으로 겹쳐서 전체 시야를 덮습니다.단위 응답은 수학적으로 컨볼루션 [22]연산에 의해 근사될 수 있다.
CNN은 시각 [23][24]및 기타 2차원 데이터를 처리하는 데 적합합니다.그들은 영상과 음성 어플리케이션 모두에서 우수한 결과를 보였다.표준 역전파를 사용하여 훈련할 수 있습니다.CNN은 다른 일반 심층 피드포워드 뉴럴 네트워크보다 훈련하기 쉽고 [25]추정할 매개 변수가 훨씬 적다.
캡슐 뉴럴 네트워크(CapsNet)는 CNN에 캡슐이라고 불리는 구조를 추가하고 여러 캡슐의 출력을 재사용하여 (다양한 섭동에 대해) 보다 안정적인 [26]표현을 형성합니다.
컴퓨터 비전에 응용되는 예로는[27] DeepDream과 로봇 [28]내비게이션이 있습니다.이미지 및 비디오 인식, 추천 시스템[29] 및 자연어 [30]처리 분야에서 광범위하게 응용되고 있습니다.
딥 스태킹 네트워크
딥 스태킹 네트워크(DSN)([31]딥 볼록 네트워크)는 단순화된 뉴럴 네트워크 모듈의 블록 계층에 기초한다.그것은 [32]덩앤동에 의해 2011년에 도입되었다.그것은 스택 [33]일반화와의 메커니즘의 유사성을 강조하면서 폐쇄형 솔루션의 볼록 최적화 문제로 학습을 공식화한다.각 DSN 블록은 전체 [34]블록에 대해 역전파 없이 감독 방식으로 자체 훈련하기 쉬운 단순한 모듈입니다.
각 블록은 단일 숨겨진 레이어를 가진 단순화된 MLP(Multi-Layer Perceptron)로 구성됩니다.숨겨진 레이어 h에는 로지스틱 S자형 단위가 있고 출력 레이어에는 선형 단위가 있습니다.이들 레이어 간의 접속은 중량 매트릭스 U로 나타납니다.입력 레이어와 숨김 레이어 간의 접속에는 중량 매트릭스 W가 있습니다.목표 벡터 t는 행렬 T의 열을 형성하고 입력 데이터 벡터 x는 행렬 X의 열을 형성한다.숨겨진 유닛의 는 ( ( T) { \ { \ { H } = \ sigma { \ symbol { W} } = \ { \ W }。모듈은 순서대로 트레이닝되므로 각 단계에서 하위 레이어 웨이트 W를 알 수 있습니다.이 함수는 요소별 로지스틱 Sigmoid 연산을 수행합니다.각 블록은 동일한 최종 라벨 클래스 y를 추정하여 그 추정치를 원본 입력 X와 연결하여 다음 블록의 확장 입력을 형성한다.따라서 첫 번째 블록에 대한 입력에는 원래 데이터만 포함되며 다운스트림 블록의 입력에는 이전 블록의 출력이 추가됩니다.네트워크 내의 다른 가중치가 주어진 상위 레이어 가중치 매트릭스 U를 학습하는 것은 볼록 최적화 문제로 공식화할 수 있습니다.
폐쇄형 솔루션을 [31]가지고 있습니다.
DBN과 같은 다른 심층 아키텍처와는 달리 변환된 기능 표현을 검색하는 것이 목표입니다.이러한 아키텍처의 계층 구조는 배치 모드 최적화 문제로서 병렬 학습을 단순화합니다.완전히 차별적인 작업에서는 DSN이 기존 DBN보다 성능이 우수합니다.
텐서 딥 스태킹 네트워크
이 아키텍처는 DSN 확장입니다.공분산 통계의 고차 정보를 사용하고 하위 계층의 비볼록 문제를 상위 [35]계층의 볼록한 하위 문제로 변환하는 두 가지 중요한 개선 사항을 제공합니다.TDSN은 3차 텐서를 통해 동일한 계층에 있는 두 개의 숨겨진 단위 집합 각각에서 예측에 이르는 이중 선형 매핑에서 공분산 통계를 사용한다.
기존 [36][37][38]DNN에서는 병렬화 및 scalability가 심각하게 고려되지 않지만 DSN 및 TDSN의 모든 학습은 병렬화를 [39][40]가능하게 하기 위해 배치모드로 이루어집니다.병렬화를 통해 대규모(디퍼) 아키텍처 및 데이터 세트로 설계를 확장할 수 있습니다.
기본 아키텍처는 분류 및 회귀와 같은 다양한 작업에 적합합니다.
법령에 관한 피드백
규제 피드백 네트워크는 네트워크 전체의 폭발과 감각 인식에서 보편적으로 발견되는 유사성 어려움을 포함하여 인식 중에 발견된 뇌 현상을 설명하는 모델로 시작되었다.인식 중 최적화를 실행하는 메커니즘은 이들을 활성화하는 동일한 입력에 대한 억제적 피드백 접속을 사용하여 작성된다.이것에 의해, 학습중의 요건이 경감되어 학습과 갱신이 용이하게 되어, 복잡한 인식을 실시할 수 있게 됩니다.
반지름 기저 함수(RBF)
반지름 기준 함수는 중심에 대한 거리 기준이 있는 함수입니다.방사 베이스 함수는 다층 퍼셉트론에서 S자형 은층 전달 특성을 대체하기 위해 적용되었다.RBF 네트워크에는 2개의 레이어가 있습니다.첫 번째로 입력은 '숨겨진' 레이어 내의 각 RBF에 매핑됩니다.선택한 RBF는 보통 가우스입니다.회귀 문제에서 출력 계층은 평균 예측 출력을 나타내는 숨겨진 계층 값의 선형 조합입니다.이 출력 레이어 값의 해석은 통계량의 회귀 모형과 동일합니다.분류 문제에서 출력 계층은 일반적으로 숨겨진 계층 값의 선형 조합의 Sigmoid 함수이며, 사후 확률을 나타냅니다.두 경우 모두 고전 통계학에서는 능선 회귀라고 하는 수축 기법에 의해 성능이 향상되는 경우가 많습니다.이는 베이지안 프레임워크에서 작은 파라미터 값(따라서 부드러운 출력 함수)에 대한 이전의 믿음에 해당합니다.
RBF 네트워크는 멀티레이어 퍼셉트론과 같은 방법으로 로컬 최소화를 회피할 수 있는 장점이 있습니다.이는 학습 프로세스에서 조정되는 파라미터는 숨겨진 레이어에서 출력 레이어로의 선형 매핑뿐이기 때문입니다.선형성을 사용하면 오차 표면이 2차이므로 쉽게 찾을 수 있는 최소값이 하나만 있습니다.회귀 문제에서 이는 하나의 행렬 연산에서 찾을 수 있습니다.분류 문제에서 S자형 출력 함수에 의해 도입된 고정 비선형성은 반복 재가중 최소 제곱을 사용하여 가장 효율적으로 처리된다.
RBF 네트워크는 레이디얼 베이스 함수에 의한 입력 공간의 양호한 커버리지를 필요로 하는 단점이 있습니다.RBF 중심은 입력 데이터의 분포와 관련하여 결정되지만, 예측 작업은 고려하지 않는다.그 결과 태스크와 무관한 입력공간 영역에 대표자원이 낭비될 수 있습니다.일반적인 솔루션은 각 데이터 포인트를 자체 센터에 연결하는 것이지만, 최종 레이어에서 해결할 선형 시스템을 확장할 수 있고 과적합을 방지하기 위해 수축 기술이 필요합니다.
각 입력 데이터를 RBF에 관련짓는 것은 자연스럽게 서포트 벡터 머신(SVM)이나 가우스 프로세스(RBF는 커널 함수)와 같은 커널 방법으로 이어집니다.세 가지 접근법 모두 비선형 커널 함수를 사용하여 입력 데이터를 선형 모델을 사용하여 학습 문제를 해결할 수 있는 공간에 투영합니다.가우스 프로세스와 마찬가지로 SVM과 달리 RBF 네트워크는 일반적으로 확률을 최대화(오류 최소화)함으로써 최대우도 프레임워크로 훈련됩니다.SVM은 마진을 최대화하는 대신 과적합을 방지합니다.대부분의 분류 애플리케이션에서 SVM은 RBF 네트워크를 능가합니다.회귀 애플리케이션에서는 입력 공간의 치수가 상대적으로 작을 때 경쟁력을 가질 수 있습니다.
RBF 네트워크의 구조
RBF 뉴럴네트워크는 개념적으로 K-Nearest Neighbor(k-NN) 모델과 유사합니다.기본적인 생각은 유사한 입력이 유사한 출력을 생성한다는 것이다.
교육 세트에 예측 변수 x와 y가 두 개 있고 목표 변수가 양수와 음수라는 두 개의 범주로 구성된 경우.예측 변수 값이 x=6, y=5.1인 새로운 경우, 목표 변수는 어떻게 계산됩니까?
이 예에서 실행되는 가장 가까운 네이버 분류는 고려되는 네이버포인트 수에 따라 달라집니다.1-NN을 사용하고 가장 가까운 점이 음수인 경우 새 점을 음수로 분류해야 합니다.또는 9-NN 분류를 사용하고 가장 가까운 9점을 고려할 경우 주변 8개의 양점의 효과가 가장 가까운 9점(음수)을 초과할 수 있다.
RBF 네트워크는 프레딕터 변수(이 예에서는 x, y)에 의해 기술된 공간에 뉴런을 배치합니다.이 공간은 예측 변수만큼 차원이 많습니다.유클리드 거리는 새로운 지점에서 각 뉴런의 중심까지 계산되며, 각 뉴런의 무게(영향)를 계산하기 위해 거리에 방사 기저 함수(RBF)를 적용한다.반지름 거리가 함수에 대한 인수이기 때문에 반지름 기준 함수의 이름이 붙여졌습니다.
무게 = RBF(거리)
반지름 기준 함수
새 포인트의 값은 RBF 함수의 출력 값에 각 뉴런에 대해 계산된 가중치를 곱한 값을 합하여 구합니다.
뉴런의 반지름 기저 함수에는 중심과 반지름(확산이라고도 함)이 있습니다.반지름은 뉴런마다 다를 수 있으며, DTREG에 의해 생성된 RBF 네트워크에서는 반지름이 각 차원에서 다를 수 있습니다.
확산이 클수록, 한 지점에서 떨어진 뉴런은 더 큰 영향을 미친다.
아키텍처
RBF 네트워크에는, 다음의 3개의 레이어가 있습니다.
- 입력 레이어:각 예측 변수의 입력 계층에 하나의 뉴런이 나타납니다.범주형 변수의 경우 N-1 뉴런이 사용됩니다. 여기서 N은 범주의 수입니다.입력 뉴런은 중앙값을 뺀 후 사분위간 범위로 나누어 값 범위를 표준화합니다.입력 뉴런은 숨겨진 층에 있는 각각의 뉴런에 값을 공급합니다.
- 숨김 레이어:이 층에는 다양한 수의 뉴런이 있습니다(훈련 과정에 의해 결정됨).각 뉴런은 예측 변수만큼 차원이 많은 점을 중심으로 하는 반지름 기저 함수로 구성됩니다.RBF 함수의 확산(반경)은 치수마다 다를 수 있습니다.중심과 확산은 훈련에 의해 결정됩니다.입력층으로부터의 입력값의 x 벡터가 제시되었을 때, 숨겨진 뉴런은 뉴런의 중심점으로부터 테스트 케이스의 유클리드 거리를 계산한 후 확산값을 사용하여 RBF 커널 함수를 이 거리에 적용한다.결과 값은 합계 레이어에 전달됩니다.
- 합계 레이어:숨겨진 층의 뉴런에서 나오는 값은 뉴런과 관련된 무게에 곱해지고 다른 뉴런의 가중치에 추가됩니다.이 합계가 출력이 됩니다.분류 문제의 경우, 각 대상 범주에 대해 (별도의 가중치 및 합계 단위를 사용하여) 하나의 출력이 생성됩니다.범주의 값 출력은 평가 중인 사례에 해당 범주가 있을 확률입니다.
트레이닝
다음 파라미터는 트레이닝 프로세스에 의해 결정됩니다.
- 숨겨진 층에 있는 뉴런의 수
- 각 숨겨진 레이어 RBF 함수의 중심 좌표
- 각 치수에 있는 각 RBF 함수의 반지름(확산)
- RBF 함수 출력이 합계 레이어에 전달될 때 적용되는 가중치
RBF 네트워크의 트레이닝에는, 다양한 방법이 사용되고 있습니다.한 가지 방법은 먼저 K-평균 클러스터링을 사용하여 클러스터 센터를 찾은 다음 RBF 기능의 중심으로 사용됩니다.그러나 K-평균 군집화는 계산 집약적이며 최적의 센터 수를 생성하지 못하는 경우가 많습니다.또 다른 방법은 교육 포인트의 랜덤 부분 집합을 중심으로 사용하는 것입니다.
DTREG는 각 뉴런에 대한 최적의 중심점과 확산을 결정하기 위해 진화적 접근법을 사용하는 훈련 알고리즘을 사용합니다.예측된 Leave-One-Out(LOO; 탈퇴원아웃) 오류를 감시하고 오버핏으로 인해 LOO 오류가 증가하기 시작하면 종료함으로써 네트워크에 뉴런 추가를 중지할 시기를 결정합니다.
숨겨진 층과 총화 층의 뉴런 사이의 최적 무게 계산은 능선 회귀를 사용하여 수행됩니다.반복 절차는 일반화 교차 검증(GCV) 오류를 최소화하는 최적의 정규화 람다 매개변수를 계산합니다.
일반 회귀 신경망
GRNN은 확률론적 신경망과 유사하지만 분류보다는 회귀와 근사치에 사용된다.
깊은 믿음의 네트워크
Deep Believe Network(DBN; 깊은 신뢰 네트워크)는 여러 개의 숨겨진 계층으로 구성된 확률론적 생성 모델입니다.단순한 학습 [41]모듈의 구성이라고 볼 수 있습니다.
DBN은 학습된 DBN 가중치를 초기 DNN 가중치로 사용함으로써 심층 뉴럴 네트워크(DNN)를 생성적으로 사전 훈련하기 위해 사용할 수 있다.그 후 다양한 식별 알고리즘이 이러한 가중치를 조정할 수 있습니다.이것은 특히 훈련 데이터가 제한적일 때 도움이 된다. 왜냐하면 제대로 초기화되지 않은 체중은 학습을 크게 방해할 수 있기 때문이다.이러한 사전 훈련 체중은 무작위 선택보다 최적의 체중에 가까운 체중 공간의 영역에 도달한다.따라서 모델링이 향상되고 궁극의 [42]컨버전스가 빨라집니다.
반복신경망
Recurrent Neural Network(RNN; 반복신경망)는 데이터를 이후 처리 단계에서 이전 단계로 전진 또는 후진으로 전파합니다.RNN은 일반 시퀀스 프로세서로 사용할 수 있습니다.
완전 재발
이 아키텍처는 1980년대에 개발되었습니다.이 네트워크는 각 유닛 쌍 간에 직접 연결을 만듭니다.각각은 시간에 따라 달라지는 실제 값(0 또는 1보다 많음) 액티베이션(출력)을 가집니다.각 연결에는 변경 가능한 실제 값 가중치가 있습니다.일부 노드는 레이블이 지정된 노드, 일부 출력 노드, 나머지 숨겨진 노드라고 합니다.
이산 시간 설정에서의 지도 학습의 경우, 실값 입력 벡터의 트레이닝 시퀀스는 입력 노드의 활성화 시퀀스가 되며, 한 번에 1개의 입력 벡터가 된다.각 시간 스텝에서 비입력 유닛은 접속을 받는 모든 유닛의 활성화 가중치 합계의 비선형 함수로서 현재의 활성화를 계산한다.시스템은 특정 시간 단계에서 일부 출력 장치를 명시적으로(수신 신호와 무관하게) 활성화할 수 있습니다.예를 들어 입력 시퀀스가 음성 디지트에 대응하는 음성 신호일 경우 시퀀스 말미의 최종 타깃 출력은 디지트를 분류하는 라벨이 될 수 있다.각 시퀀스에서 오차는 네트워크에 의해 계산된 모든 활성화의 편차를 대응하는 타깃 신호로부터 합한 것입니다.다수의 시퀀스로 구성된 훈련 세트의 경우 총 오차는 모든 개별 시퀀스의 오차의 합입니다.
전체 오차를 최소화하기 위해 비선형 활성화 함수가 미분 가능한 경우, 경사 강하를 사용하여 오차에 대한 도함수에 비례하여 각 체중을 변경할 수 있다.표준 방식은 "시간을 통한 역전파" 또는 BPTT라고 불리며 피드포워드 네트워크 [43][44]역전파의 일반화입니다.계산 비용이 더 많이 드는 온라인 변형은 "실시간 반복 학습" 또는 [45][46]RTRL이라고 불립니다.BPTT와 달리 이 알고리즘은 시간적으로는 로컬이지만 [47][48]공간적으로는 로컬이 아닙니다.중간 복잡도를 가진 BPTT와 RTRL 사이의 온라인 하이브리드가 존재하며,[49][50][51] 연속 시간에 대한 변형도 있다.표준 RNN 아키텍처의 구배 강하 시 주요 문제는 오류 구배가 중요한 [52][53]이벤트 간의 시간 지연 크기와 함께 기하급수적으로 빠르게 사라진다는 것이다.장기 단기 메모리 아키텍처는 이러한 [54]문제를 해결합니다.
강화 학습 환경에서는 교사가 목표 신호를 제공하지 않습니다.대신 피트니스 함수, 보상 함수 또는 효용 함수는 때때로 성능을 평가하기 위해 사용되며, 이는 환경에 영향을 미치는 액추에이터에 연결된 출력 장치를 통해 입력 스트림에 영향을 미친다.체중 행렬을 최적화하기 위해 진화 계산의 변형이 종종 사용된다.
홉필드
홉필드 네트워크(유사한 어트랙터 기반 네트워크와 마찬가지로)는 패턴의 시퀀스를 처리하도록 설계되지 않았기 때문에 일반적인 RNN은 아니지만 역사적으로 관심이 있습니다.대신 고정 입력이 필요합니다.모든 접속이 대칭인 RNN입니다.그것은 그것이 수렴할 것을 보증한다.Hebbian learning을 사용하여 접속을 훈련하는 경우 Hopfield 네트워크는 접속 변경에 대한 내성을 가진 견고한 콘텐츠 주소 지정 메모리로 동작할 수 있습니다.
볼츠만 기계
Boltzmann 머신은 노이즈가 많은 홉필드 네트워크라고 생각할 수 있습니다.잠재 변수(숨겨진 단위)의 학습을 입증한 최초의 신경 네트워크 중 하나이다.Boltzmann의 기계 학습은 처음에는 시뮬레이션이 느렸지만, 대조적인 발산 알고리즘으로 Boltzmann의 기계와 Products of Experts에 대한 교육 속도가 빨라졌습니다.
자기 조직 지도
자기조직화 지도(SOM)는 비지도 학습을 사용합니다.한 쌍의 뉴런은 입력 공간의 점을 출력 공간의 좌표에 매핑하는 것을 학습한다.입력공간은 출력공간과 다른 치수와 토폴로지를 가질 수 있으며 SOM은 이를 유지하려고 합니다.
학습 벡터 양자화
Learning Vector Quantization(LVQ; 학습 벡터 양자화)는 뉴럴 네트워크 아키텍처로 해석할 수 있습니다.클래스의 프로토타입 대표자는 거리 기반 분류 체계에서 적절한 거리 측정과 함께 매개변수를 구한다.
단순 반복
단순 반복 네트워크에는 3개의 레이어가 있으며 입력 레이어에 "콘텍스트 단위" 세트가 추가됩니다.이러한 유닛은 숨겨진 레이어 또는 출력 레이어에서 고정 [55]무게1로 연결됩니다.각 시간 스텝에서 입력은 표준 피드포워드 방식으로 전파되고 그 후 역전파형 학습규칙이 적용된다(구배 강하를 하지 않음).고정 백 접속은 숨겨진 유닛의 이전 값 복사본을 컨텍스트 단위로 남깁니다(학습 규칙이 적용되기 전에 연결을 통해 전파되기 때문입니다).
저장소 컴퓨팅
저장고 컴퓨팅은 신경망의 [56]확장으로 볼 수 있는 계산 프레임워크입니다.일반적으로 입력 신호는 저장소로 불리는 고정(랜덤) 동적 시스템에 공급되며, 저장소의 동적 시스템은 입력을 더 높은 차원에 매핑합니다.판독 메커니즘은 리저버를 원하는 출력에 매핑하도록 훈련됩니다.트레이닝은 판독 단계에서만 실시됩니다.액체 상태의[57] 기계는 저장고 [58]컴퓨팅의 한 종류입니다.
에코 상태
Echo State Network(ESN; 에코 스테이트 네트워크)에서는, 접속이 드문 랜덤 숨김 레이어가 채용되고 있습니다.출력 뉴런의 무게는 네트워크에서 훈련되는 유일한 부분입니다.ESN은 특정 [59]시계열을 재현하는 데 능숙합니다.
장기 단기 기억력
Long Short-Term Memory(LSTM;[54] 장기단기메모리)는 소실 구배 문제를 회피합니다.입력간 지연이 길어도 작동하며 저주파 성분과 고주파 성분을 혼합한 신호를 처리할 수 있습니다.LSTM RNN은 언어 학습[60] 및 연결 필기 [61]인식과 같은 애플리케이션에서 다른 RNN 및 HMM과 같은 시퀀스 학습 방법을 능가했다.
쌍방향
양방향 RNN(BRNN)은 유한 시퀀스를 사용하여 [62]요소의 과거와 미래 컨텍스트를 모두 기반으로 시퀀스의 각 요소를 예측하거나 레이블을 지정합니다.이것은 2개의 RNN의 출력을 추가하여 이루어집니다.하나는 왼쪽에서 오른쪽으로 시퀀스를 처리하고 다른 하나는 오른쪽에서 왼쪽으로 시퀀스를 처리합니다.조합된 출력은 교사가 지정한 목표 신호의 예측입니다.이 기술은 LSTM과 [63]결합할 때 특히 유용하다는 것이 입증되었습니다.
계층적
계층 RNN은 다양한 방법으로 요소를 연결하여 계층 동작을 유용한 하위 프로그램으로 [64][65]분해합니다.
확률적
기존의 뉴럴 네트워크, 확률적 인공 뉴럴 네트워크에서 랜덤 함수에 대한 근사치로 사용되는 구역.
유전자 척도
시리즈가 여러 척도로 분해되는 RNN(종종 LSTM)으로, 모든 척도가 연속된 두 점 사이의 기본 길이를 알려줍니다.첫 번째 차수 척도는 일반 RNN으로 구성되며 두 번째 차수는 두 개의 지수로 구분된 모든 점으로 구성됩니다.N차 RNN은 첫 번째 노드와 마지막 노드를 연결합니다.모든 다양한 척도의 산출물은 기계 위원회로 취급되며 관련 점수는 다음 반복을 위해 유전적으로 사용된다.
모듈러형
생물학적 연구는 인간의 뇌가 작은 네트워크의 집합으로 작동한다는 것을 보여주었다.이러한 실현은 모듈러형 뉴럴 네트워크의 개념을 낳았으며, 이 개념에서는 여러 개의 작은 네트워크가 협력하거나 문제를 해결하기 위해 경쟁합니다.
기계 위원회
Committee of Machine(CoM; 기계 위원회)은 주어진 예에서 함께 "투표"하는 서로 다른 신경 네트워크의 집합입니다.이것은 일반적으로 개개의 네트워크보다 훨씬 좋은 결과를 가져옵니다.신경망은 국지적 최소화에 시달리기 때문에, 동일한 아키텍처와 훈련에서 시작하지만 무작위로 다른 초기 가중치를 사용하는 것은 종종 매우 다른 결과를 [citation needed]낳는다.CoM은 결과를 안정시키는 경향이 있습니다.
CoM은 훈련 데이터의 무작위로 선택된 다른 하위 집합에 대한 훈련이 아닌 다른 시작 가중치에서 훈련함으로써 위원회에 필요한 다양한 기계를 얻는다는 점을 제외하면 일반적인 기계 학습 배깅 방법과 유사하다.
어소시에이티브
ASNN(associative neural network)은 다중 피드포워드 뉴럴 네트워크와 k-근접 인접 기술을 결합한 기계 위원회의 확장입니다.kNN에 대해 분석된 사례 중 앙상블 응답 간의 상관관계를 거리 측정값으로 사용한다.이는 뉴럴 네트워크 앙상블의 편견을 교정합니다.연상신경망은 트레이닝 세트와 일치할 수 있는 메모리를 가지고 있다.새로운 데이터를 사용할 수 있게 되면 네트워크는 예측 능력을 즉시 향상시키고 재교육 없이 데이터 근사치(자기학습)를 제공합니다.ASNN의 또 다른 중요한 특징은 [66]모델 공간에서 데이터 사례 간의 상관관계를 분석하여 뉴럴 네트워크 결과를 해석할 수 있는 가능성이다.
물리적.
물리적 뉴럴 네트워크는 인위적인 시냅스를 시뮬레이트하기 위해 전기적으로 조정 가능한 저항 재료를 포함한다.예를 들어 ADALIN memristor 기반의 뉴럴 네트워크가 있습니다.[67]광뉴럴 네트워크는 광학 컴포넌트를 가진 인공뉴럴 네트워크의 물리적 구현입니다.
기타 타입
즉석에서 트레이닝 완료
순간적으로 훈련되는 신경 네트워크(ITNN)는 순간적으로 발생하는 단기 학습 현상에 영감을 받았다.이러한 네트워크에서는 숨겨진 레이어와 출력 레이어의 가중치는 트레이닝 벡터 데이터에서 직접 매핑됩니다.보통 바이너리 데이터로 동작하지만 작은 추가 처리가 필요한 연속 데이터용 버전이 있습니다.
스파이킹
Spiking Neural Network(SNN; 스파이킹뉴럴 네트워크)는 입력 타이밍을 명시적으로 고려합니다.네트워크 입력 및 출력은 일반적으로 일련의 스파이크(델타 함수 또는 더 복잡한 모양)로 표시됩니다.SNN은 시간 도메인의 정보(시그널은 시간에 따라 다릅니다)를 처리할 수 있습니다.이들은 종종 반복적인 네트워크로 구현됩니다.SNN도 펄스 컴퓨터의 [68]한 형태입니다.
축방향 전도 지연을 수반하는 스파이킹뉴럴 네트워크는 다동기화를 나타내므로 메모리 [69]용량이 매우 커질 수 있습니다.
SNN과 그러한 네트워크에서 신경 어셈블리의 시간적 상관관계는 시각 시스템에서 그림/그라운드 분리 및 영역 연결을 모델링하는 데 사용되었다.
법령에 관한 피드백
규제 피드백 네트워크는 부정적인 피드백을 사용하여 [70]추론합니다.피드백은 유닛의 최적 활성화를 찾기 위해 사용됩니다.이는 비파라미터 방식과 가장 유사하지만 피드포워드 네트워크를 수학적으로 에뮬레이트한다는 점에서 K-근접 네이버와는 다릅니다.
네오인지트론
네오인지트론은 시각 피질을 본떠 만들어진 계층적 다층 네트워크입니다.패턴 인식 [71][72][73]태스크에 사용하기 위한 캐스케이드 모델로서 복수의 타입의 유닛(원래는 단순한 셀과 복잡한 셀이라고 불린다)을 사용합니다.로컬 피쳐는 C셀에 의해 변형이 허용되는 S셀에 의해 추출됩니다.입력의 로컬 피쳐는 단계적으로 통합되어 상위 [74]레이어로 분류됩니다.다양한 종류의 네오인지트론[75] 중에는 선택적인 주의를 [76]얻기 위해 역전파를 이용하여 동일한 입력의 여러 패턴을 검출할 수 있는 시스템이 있다.패턴 인식 작업과 영감을 준 컨볼루션 신경망에 [77]사용되어 왔다.
복합 계층형 모델
복합 계층적 심층 모델은 비모수적 베이지안 모델을 사용하여 심층 네트워크를 구성합니다.기능은 DBN,[78] Deep Boltzmann 머신(DBM),[80] 딥 오토 인코더,[81][82] 컨볼루션 바리안트,[79][83] ssRBM, 딥 코딩 네트워크,[84] 스파스 기능 [85]학습이 있는 DBN,[86] 조건부 DBN,[87] 디노이징 오토 [88]인코더 등의 딥 아키텍처를 사용하여 학습할 수 있습니다.이를 통해 더 나은 표현을 제공하여 고차원 데이터로 더 빨리 학습하고 더 정확하게 분류할 수 있습니다.그러나, 이러한 아키텍처는, 모든 네트워크 유닛이 입력(분산형 표현)의 표현에 관여해, 함께 조정(높은 자유도)해야 하기 때문에, 몇개의 예와 함께 새로운 클래스를 학습하는 데는 서툴다.자유도를 제한하면 학습해야 할 파라미터의 수가 감소하여 소수의 예에서 새로운 클래스를 쉽게 학습할 수 있습니다.계층적 베이시안(HB) 모델은 컴퓨터[89][90][91][92][93] 비전, 통계 및 인지 과학 등의 몇 가지 예에서 학습할 수 있습니다.
복합 HD 아키텍처는 HB와 딥 네트워크의 특성을 통합하는 것을 목표로 합니다.복합 HDP-DBM 아키텍처는 DBM 아키텍처를 포함하는 계층 모델로서의 Hierarchical Dirichlet Process(HDP; 계층형 디리클레 프로세스)입니다.모델 레이어를 흐르는 추상 개념에서 일반화된 완전 생성 모델이며, "합리적으로" 자연스럽게 보이는 새로운 클래스의 새로운 예를 합성할 수 있습니다.모든 레벨은 공동 로그 확률 [94]점수를 최대화하여 공동으로 학습한다.
3개의 숨겨진 레이어가 있는 DBM에서 가시적인 입력 "''"의 확률은 다음과 같습니다.
서 h { ( ) , ( ) , ( ) { { } = \ { \ { h} ^{ (1) }, {\h}^{ ( {\} {\} } {\ { W의 집합입니다은 (는) 모델 매개 변수로서 눈에 보이는 상호 작용 항과 숨겨진 상호 작용 항을 나타냅니다.
학습된 DBM 모델은 P h를 정의하는 무방향 모델입니다.학습된 것을 나타내는1가지 방법은 조건부 P 입니다 3 P
서 P 1, h P h는 2층 DBM으로 볼 수 있지만 h 에서는 바이어스 항을 갖는 조건부 DBM 모델을 나타냅니다.
심층 예측 코딩 네트워크
심층 예측 부호화 네트워크(DPCN)는 하향식 정보를 사용하여 로컬로 연결된 심층 생성 모델을 통해 상향식 추론 절차에 필요한 우선순위를 경험적으로 조정하는 예측 부호화 방식입니다.이는 선형 동적 모델을 사용하여 시변 관측치에서 희박한 특징을 추출함으로써 작동한다.그런 다음 풀링 전략을 사용하여 불변 피쳐 표현을 학습합니다.이러한 단위는 심층 아키텍처를 형성하기 위해 구성되며 욕심 많은 계층별 비지도 학습에 의해 훈련된다.계층은 마르코프 사슬의 일종을 구성하며, 따라서 어떤 계층에서든 상태는 선행 계층과 후속 계층에만 의존합니다.
DPCN은 상위 계층의 정보와 이전 [95]상태의 시간적 의존성을 사용하여 하향식 접근법을 사용하여 계층의 표현을 예측합니다.
DPCN을 확장하여 [95]컨볼루션네트워크를 형성할 수 있습니다.
다층 커널 머신
MKM(Multilayer Kernel Machine)은 약한 비선형 커널을 반복적으로 적용하여 고도로 비선형적인 함수를 학습하는 방법이다.그들은 딥 [97]러닝의 비지도 욕심 계층별 사전 훈련 단계를 위한 방법으로 커널 주성분 분석(KPCA)[96]을 사용한다.
+ ( \ + 1)는 이전 \ \ ell을 학습하여 커널에 의해 유도된 피처 도메인에 있는 레이어l \ _ { } 출력의 주요 컴포넌트PC)를 추출합니다.각 계층에서 업데이트된 표현의 치수를 줄이기 위해, 감독 전략은 KPCA에 의해 추출된 특징 중에서 가장 유용한 특징을 선택한다.프로세스는 다음과 같습니다.
- 라벨과의 상호 정보에 따라 n 기능의 순위를 매긴다.
- K와 { , , {\ { m { \ ell } \ \ { 1 , , n _ { \ ell \ 의 다른 값에 대해서는 가장 유효한 style }}의 기능만을 사용하여 K-nearest neighbor(K-NN) 분류기의 분류 에러율을 계산합니다.
- 분류자가 가장 낮은 오류율에 도달한 m ( \ m _ { \ ell} ) value 、 보유하는 기능의 수를 결정합니다.
MKM의 KPCA 방식에는 몇 가지 단점이 있습니다.
딥러닝을 위해 커널 머신을 사용하는 보다 간단한 방법이 구어 [98]이해를 위해 개발되었습니다.주요 아이디어는 커널 머신을 사용하여 숨겨진 유닛의 수가 무한히 많은 얕은 뉴럴 넷을 근사한 다음 스택을 사용하여 커널 머신의 출력과 원시 입력을 결합하여 커널 머신의 상위 레벨을 구축하는 것입니다.딥 볼록 네트워크의 레벨 수는 교차 검증에 의해 결정되는 전체 시스템의 하이퍼 파라미터입니다.
역학
동적 신경망은 비선형 다변량 행동을 다루고 과도 현상 및 지연 효과와 같은 시간 의존적 행동을 포함한다.관측된 데이터에서 시스템 프로세스를 추정하는 기법은 일반적인 시스템 식별 범주에 속합니다.
캐스케이드
캐스케이드 상관관계는 아키텍처 및 지도 학습 알고리즘입니다.고정 [99]토폴로지의 네트워크에서의 가중치 조정뿐만 아니라 캐스케이드 상관관계는 최소 네트워크부터 시작하여 새로운 숨겨진 유닛을 하나씩 트레이닝 및 추가함으로써 멀티레이어 구조를 만듭니다.네트워크에 새로운 숨김 장치가 추가되면 입력 측 무게가 동결됩니다.그 후, 이 유닛은 네트워크내의 항구적인 기능 검출기가 되어, 출력을 생성하거나 보다 복잡한 다른 기능 검출기를 작성하는 데 사용할 수 있습니다.캐스케이드 상관 아키텍처에는 몇 가지 장점이 있습니다.트레이닝 세트가 변경되어 백프로포테이션이 필요 없는 경우에도 신속하게 학습하고 자체 규모와 토폴로지를 결정하며 구축한 구조를 유지합니다.
신경 혼미
신경퍼지 네트워크는 인공신경망의 본체에 있는 퍼지 추론 시스템이다.FIS 유형에 따라 여러 계층이 퍼지 추론, 추론, 집계 및 디퍼지화와 관련된 프로세스를 시뮬레이션한다.FIS를 ANN의 일반 구조에 포함시키면 사용 가능한 ANN 훈련 방법을 사용하여 퍼지 시스템의 매개변수를 찾는 이점이 있다.
구성 패턴 생성
합성 패턴 생성 네트워크(CPPN)는 활성화 함수의 집합과 적용 방법이 다른 인공 신경망의 변형이다.일반적인 인공 신경망은 종종 S자형 함수(가우스 함수도 포함)만을 포함하지만 CPPN은 두 가지 유형의 함수와 다른 많은 함수 모두를 포함할 수 있습니다.또한, 일반적인 인공 신경망과 달리 CPPN은 가능한 입력의 전체 공간에 걸쳐 적용되어 완전한 이미지를 나타낼 수 있다.이들은 함수의 합성이기 때문에 CPPN은 사실상 무한 해상도로 이미지를 인코딩하고 최적의 해상도로 특정 디스플레이를 위해 샘플링할 수 있습니다.
메모리 네트워크
메모리 네트워크에는[100][101] 장기 메모리가 포함되어 있습니다.장기 기억은 예측에 사용할 목적으로 읽고 쓸 수 있습니다.이러한 모델은 장기기억이 효과적으로 (동적인) 지식기반으로 기능하고 출력이 텍스트 응답인 [102]QA(질문응답) 컨텍스트에서 적용되었습니다.
희박한 분산 메모리 또는 계층형 시간 메모리에서는 뉴런이 기본적으로 주소 인코더 및 디코더 역할을 하는 콘텐츠 주소 지정 가능 메모리의 주소로 사용됩니다.그러나 그러한 기억의 초기 제어기는 구별이 [103]되지 않았다.
원샷 관련 메모리
이런 유형의 네트워크에서는 재훈련 없이 새로운 패턴을 추가할 수 있습니다.이는 인접하게 연결된 계층형 [104]배열을 사용하여 각각의 새로운 패턴을 직교 평면에 할당하는 특정 메모리 구조를 생성하여 이루어집니다.네트워크는 실시간 패턴 인식과 높은 확장성을 제공합니다.이는 병렬 처리를 필요로 하기 때문에 무선 센서 네트워크, 그리드 컴퓨팅, GPGPU 등의 플랫폼에 가장 적합합니다.
계층형 시간 메모리
계층형 시간 메모리(HTM)는 신피질의 구조적 및 알고리즘적 특성 중 일부를 모델링합니다.HTM은 기억-예측 이론에 기초한 생체 모방 모델이다.HTM은 관찰된 입력 패턴과 시퀀스의 높은 수준의 원인을 발견하고 추론하는 방법이며, 따라서 점점 더 복잡한 세계 모델을 구축한다.
HTM은 신피질을 모방하는 기존 아이디어를 많은 기능을 제공하는 단순한 설계와 결합합니다.HTM은 베이지안 네트워크, 공간 및 시간 클러스터링 알고리즘에서 사용되는 접근방식을 결합하고 확장하며, 뉴럴 네트워크에서 공통적인 노드의 트리형 계층을 사용합니다.
홀로그래픽 연상 메모리
HAM(Holographic Associative Memory)은 아날로그 상관관계 기반 연상 자극 반응 시스템입니다.정보는 복소수의 위상 방향에 매핑됩니다.메모리는 관련 메모리 작업, 일반화 및 패턴 인식에 효과적이며, 변경 가능한 주의를 기울입니다.동적 검색 위치 파악은 생물학적 기억의 핵심입니다.시각적 지각에서 인간은 패턴의 특정 물체에 초점을 맞춘다.인간은 배우지 않고도 초점을 물체에서 물체로 바꿀 수 있다.HAM은 포커스에 대한 명시적 표현을 생성하여 이 기능을 모방할 수 있습니다.패턴의 바이모달 표현과 홀로그램과 같은 복잡한 구형 무게 상태 공간을 사용합니다.기본 초구면 연산은 광학 [105]연산으로 구현될 수 있기 때문에 HAM은 광학적 실현에 유용합니다.
Long Short-Term Memory(LSTM; 장기단기억장치)와 별도로, 다른 접근법도 반복 기능에 차별화 가능한 메모리를 추가했습니다.예를 들어 다음과 같습니다.
- 뉴럴 스택[106][107] 머신이라고 하는 대체 메모리 네트워크를 위한 차별화된 푸시 및 팝 액션
- 제어 네트워크의 외부 차별화 스토리지가 다른 네트워크의[108] 고속 가중치 내에 있는 메모리 네트워크
- LSTM 포겟게이트[109]
- 특수 출력 유닛을 갖춘 자기 참조형 RNN으로 RNN 자체의 가중치를 구별 가능한 방식으로 신속하게 처리(내부 스토리지)[110][111]
- 무한[112] 메모리 변환 학습
신경 튜링 기계
신경 튜링[113] 기계는 LSTM 네트워크를 외부 메모리 자원에 연결하며, 이를 통해 주의 프로세스에 의해 상호 작용할 수 있습니다.결합된 시스템은 튜링 기계와 유사하지만 엔드 투 엔드로 미분할 수 있어 경사 강하로 효율적으로 훈련될 수 있다.예비 결과는 신경 튜링 기계가 입력 및 출력 예로부터 복사, 정렬 및 연상 호출과 같은 단순한 알고리즘을 추론할 수 있다는 것을 보여준다.
DNC(Differentible Neural Computer)는 NTM 확장입니다.그들은 시퀀스 처리 [114][115][116][117][118]작업에서 뉴럴 튜링 기계, 장기 단기 메모리 시스템 및 메모리 네트워크를 능가했다.
시멘틱 해시
이전 경험을 직접 나타내며 로컬 모델을 형성하기 위해 유사한 경험을 사용하는 접근방식을 종종 가장 가까운 이웃 방법 또는 k-가장 가까운 이웃 [119]방법이라고 한다.딥 러닝은 딥 그래픽이 많은 문서 [clarification needed]집합에서 얻은 단어 수[121] 벡터를 모델링하는 의미 해시에[120] 유용하다.문서는 의미상 유사한 문서가 가까운 주소에 위치하도록 메모리 주소에 매핑됩니다.쿼리 문서와 유사한 문서는 쿼리 문서의 주소와 몇 비트만 다른 모든 주소에 액세스함으로써 찾을 수 있다.1000비트 주소에서 작동하는 희소 분산 메모리와 달리, 시멘틱 해시는 기존 컴퓨터 아키텍처에서 발견된 32비트 또는 64비트 주소에서 작동합니다.
포인터 네트워크
심층 신경망은 훈련성을 유지하면서 심화와 매개변수 감소를 통해 잠재적으로 개선될 수 있습니다.포인터 networks[122]및 신경 임의 추출 방식의 machines[123] 같은는 동안은 매우 깊(예:1만겹)로는 신경 네트워크 훈련 실용적인 하지 않더라도CPU-like 구조 외부 임의 접근 기억 장치 그리고 일반적으로 컴퓨터 아키텍처에 등록, ALU와 요강과 같은 소속 다른 요소들을 사용하여 이러한 한계들을 이겨 낸다.inters.이러한 시스템은 메모리 셀 및 레지스터에 저장된 확률 분포 벡터에서 작동합니다.따라서, 모델은 완전히 차별화 가능하며 엔드 투 엔드로 훈련합니다.이들 모델의 주요 특징은 깊이, 단기 메모리의 크기 및 파라미터의 수를 독립적으로 변경할 수 있다는 것입니다.
하이브리드
인코더-디코더 네트워크
인코더-디코더 프레임워크는 고도로 구조화된 입력을 고도로 구조화된 출력에 매핑하는 신경망을 기반으로 합니다.이 접근방식은 기계 [124][125][126]번역의 맥락에서 발생했는데, 여기서 입력과 출력은 두 개의 자연 언어로 쓰여진 문장이다.그 작업에서, LSTM RNN 또는 CNN은 소스 문장을 요약하기 위한 인코더로 사용되었고,[127] 요약은 변환을 생성하기 위해 조건부 RNN 언어 모델을 사용하여 디코딩되었다.이러한 시스템은 구성 요소를 공유한다. 즉, 게이트 RNN과 CNN 및 훈련된 주의 메커니즘이다.
「 」를 참조해 주세요.
- 적응 공명 이론
- 인공 생명
- 자동 연관 메모리
- 자동 인코더
- 생물학적으로 영감을 받은 컴퓨팅
- 블루 브레인
- 연결주의 전문가 시스템
- 역전파망
- Decision Tree(결정 트리)
- 엑스퍼트 시스템
- 유전 알고리즘
- 현장 적응형 표
- 대용량 메모리 저장 및 검색 뉴럴 네트워크
- 선형 판별 분석
- 로지스틱 회귀 분석
- 다층 퍼셉트론
- 신경 가스
- NeuroEvolution, NeuroEvolution of Augmented Topology(NEAT)
- Ni1000 칩
- 광뉴럴 네트워크
- 입자 군집 최적화
- 예측 분석
- 주성분 분석
- 어닐링 시뮬레이션
- 수축기 어레이
- 시간 지연 뉴럴 네트워크(TDNN)
- 그래프 뉴럴 네트워크
레퍼런스
- ^ 서던 캘리포니아 대학교 (2004년 6월 16일). 회색 사항: 뉴런이 정보를 처리하는 방법에 대한 새로운 단서. Science Daily Quote: "..."근대 신경과학 연구를 100년 동안 했는데도 뉴런의 기본적인 정보처리 기능을 아직 모른다는 것이 놀랍습니다."라고 Bartlett Mel은 말했다."
- ^ 바이즈만 과학 연구소 (2007년 4월 2일). 그것은 단지 운명의 게임일 뿐이다: 인식의 선도 이론이 의문을 제기한다. Science Daily 인용: "1980년대 이후 많은 신경과학자들이 마침내 뇌의 기능을 이해하기 위한 열쇠를 가지고 있다고 믿었다.그러나 우리는 뇌가 정확한 활동 패턴을 사용하여 정보를 부호화하지 않을 수 있다는 강력한 증거를 제공했습니다."라고 말했다."
- ^ 캘리포니아 대학교 – 로스앤젤레스(2004년, 12월 14일). UCLA 신경과학자가 해양 달팽이에 대한 연구를 통해 인간의 뇌에 대한 통찰력을 얻습니다. Science Daily의 견적: "..."우리의 연구는 이런 종류의 연관성을 형성하기 위한 뇌 메커니즘이 달팽이와 고등 유기체에서 매우 유사할 수 있다는 것을 암시합니다.우리는 이 동물들에 대한 아주 단순한 종류의 학습조차도 완전히 이해하지 못한다."고 말했다."
- ^ 예일 대학교 (2006년 4월 13일). 뇌는 아날로그 모드와 디지털 모드를 동시에 통신합니다. Science Daily의 견적: "...맥코믹 박사는 앞으로 뇌의 신경 작동에 대한 연구와 모델들은 의사소통의 아날로그-디지털 혼합 특성을 고려해야 할 것이라고 말했다."이 혼합 신호 전송 방식을 완전히 이해해야만 뇌와 그 장애에 대한 진정한 심도 있는 이해를 얻을 수 있을 것입니다,"라고 그는 말했다.."
- ^ Ivakhnenko, Alexey Grigorevich (1968). "The group method of data handling – a rival of the method of stochastic approximation". Soviet Automatic Control. 13 (3): 43–55.
- ^ Ivakhnenko, A. G. (1971). "Polynomial Theory of Complex Systems". IEEE Transactions on Systems, Man, and Cybernetics. 1 (4): 364–378. doi:10.1109/TSMC.1971.4308320. S2CID 17606980.
- ^ Kondo, T.; Ueno, J. (2008). "Multi-layered GMDH-type neural network self-selecting optimum neural network architecture and its application to 3-dimensional medical image recognition of blood vessels". International Journal of Innovative Computing, Information and Control. 4 (1): 175–187.
- ^ Bengio, Y. (2009). "Learning Deep Architectures for AI" (PDF). Foundations and Trends in Machine Learning. 2: 1–127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006.
- ^ Liou, Cheng-Yuan (2008). "Modeling word perception using the Elman network" (PDF). Neurocomputing. 71 (16–18): 3150–3157. doi:10.1016/j.neucom.2008.04.030.
- ^ Liou, Cheng-Yuan (2014). "Autoencoder for words". Neurocomputing. 139: 84–96. doi:10.1016/j.neucom.2013.09.055.
- ^ Diederik P Kingma; Welling, Max (2013). "Auto-Encoding Variational Bayes". arXiv:1312.6114 [stat.ML].
- ^ Generating Faces with Torch, Boesen A., Larsen L. and Sonderby S.K, 2015년 torch.ch/blog/2015/11/13/gan.html
- ^ "Competitive probabilistic neural network (PDF Download Available)". ResearchGate. Retrieved 2017-03-16.
- ^ "Archived copy". Archived from the original on 2010-12-18. Retrieved 2012-03-22.
{{cite web}}
: CS1 maint: 제목으로 아카이브된 복사(링크) - ^ "Archived copy" (PDF). Archived from the original (PDF) on 2012-01-31. Retrieved 2012-03-22.
{{cite web}}
: CS1 maint: 제목으로 아카이브된 복사(링크) - ^ TDNN 기초, Kapitel aus dem 온라인 Handbuch des SNNS
- ^ Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32): 4790–7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/ao.29.004790. PMID 20577468.
- ^ Zhang, Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of Annual Conference of the Japan Society of Applied Physics.
- ^ J. Weng, N.Ahuja와 T. S. Huang, "2D 이미지에서 3D 객체의 인식과 분할을 학습합니다." Proc. 제4회 국제회의 컴퓨터 비전, 독일 베를린, 페이지 121-128, 1993년 5월.
- ^ Fukushima, K. (1980). "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biol. Cybern. 36 (4): 193–202. doi:10.1007/bf00344251. PMID 7370364. S2CID 206775608.
- ^ LeCun, Yann. "LeNet-5, convolutional neural networks". Retrieved 16 November 2013.
- ^ "Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation". DeepLearning 0.1. LISA Lab. Retrieved 31 August 2013.
- ^ LeKun 등, "수기 우편 번호 인식에 적용되는 역 전파", 신경 계산, 1, 페이지 541–551, 1989.
- ^ 얀 레쿤(2016).온라인 딥 러닝 슬라이드
- ^ "Unsupervised Feature Learning and Deep Learning Tutorial". ufldl.stanford.edu.
- ^ Hinton, Geoffrey E.; Krizhevsky, Alex; Wang, Sida D. (2011), "Transforming Auto-Encoders", Lecture Notes in Computer Science, Springer, pp. 44–51, CiteSeerX 10.1.1.220.5099, doi:10.1007/978-3-642-21735-7_6, ISBN 9783642217340
- ^ Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott E.; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Going deeper with convolutions". IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015, Boston, MA, USA, June 7–12, 2015. IEEE Computer Society. pp. 1–9. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594.
- ^ Ran, Lingyan; Zhang, Yanning; Zhang, Qilin; Yang, Tao (2017-06-12). "Convolutional Neural Network-Based Robot Navigation Using Uncalibrated Spherical Images" (PDF). Sensors. 17 (6): 1341. Bibcode:2017Senso..17.1341R. doi:10.3390/s17061341. ISSN 1424-8220. PMC 5492478. PMID 28604624.
- ^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013-01-01). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q. (eds.). Deep content-based music recommendation (PDF). Curran Associates. pp. 2643–2651.
- ^ Collobert, Ronan; Weston, Jason (2008-01-01). A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning. Proceedings of the 25th International Conference on Machine Learning. New York, NY, USA: ACM. pp. 160–167. doi:10.1145/1390156.1390177. ISBN 978-1-60558-205-4. S2CID 2617020.
- ^ a b Deng, Li; Yu, Dong; Platt, John (2012). "Scalable stacking and learning for building deep architectures" (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2133–2136. doi:10.1109/ICASSP.2012.6288333. ISBN 978-1-4673-0046-9. S2CID 16171497.
- ^ Deng, Li; Yu, Dong (2011). "Deep Convex Net: A Scalable Architecture for Speech Pattern Classification" (PDF). Proceedings of the Interspeech: 2285–2288. doi:10.21437/Interspeech.2011-607.
- ^ David, Wolpert (1992). "Stacked generalization". Neural Networks. 5 (2): 241–259. CiteSeerX 10.1.1.133.8090. doi:10.1016/S0893-6080(05)80023-1.
- ^ Bengio, Y. (2009-11-15). "Learning Deep Architectures for AI". Foundations and Trends in Machine Learning. 2 (1): 1–127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. ISSN 1935-8237.
- ^ Hutchinson, Brian; Deng, Li; Yu, Dong (2012). "Tensor deep stacking networks". IEEE Transactions on Pattern Analysis and Machine Intelligence. 1–15 (8): 1944–1957. doi:10.1109/tpami.2012.268. PMID 23267198. S2CID 344385.
- ^ Hinton, Geoffrey; Salakhutdinov, Ruslan (2006). "Reducing the Dimensionality of Data with Neural Networks". Science. 313 (5786): 504–507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773.
- ^ Dahl, G.; Yu, D.; Deng, L.; Acero, A. (2012). "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition". IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 30–42. CiteSeerX 10.1.1.227.8990. doi:10.1109/tasl.2011.2134090. S2CID 14862572.
- ^ Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). "Acoustic Modeling Using Deep Belief Networks". IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 14–22. CiteSeerX 10.1.1.338.2670. doi:10.1109/tasl.2011.2109382. S2CID 9530137.
- ^ Deng, Li; Yu, Dong (2011). "Deep Convex Net: A Scalable Architecture for Speech Pattern Classification" (PDF). Proceedings of the Interspeech: 2285–2288. doi:10.21437/Interspeech.2011-607.
- ^ Deng, Li; Yu, Dong; Platt, John (2012). "Scalable stacking and learning for building deep architectures" (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2133–2136. doi:10.1109/ICASSP.2012.6288333. ISBN 978-1-4673-0046-9. S2CID 16171497.
- ^ Hinton, G.E. (2009). "Deep belief networks". Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.
- ^ Larochelle, Hugo; Erhan, Dumitru; Courville, Aaron; Bergstra, James; Bengio, Yoshua (2007). An Empirical Evaluation of Deep Architectures on Problems with Many Factors of Variation. Proceedings of the 24th International Conference on Machine Learning. ICML '07. New York, NY, USA: ACM. pp. 473–480. CiteSeerX 10.1.1.77.3242. doi:10.1145/1273496.1273556. ISBN 9781595937933. S2CID 14805281.
- ^ Werbos, P. J. (1988). "Generalization of backpropagation with application to a recurrent gas market model". Neural Networks. 1 (4): 339–356. doi:10.1016/0893-6080(88)90007-x.
- ^ 데이비드 E.루멜하트; 제프리 E.힌튼, 로널드 J. 윌리엄스오류 전파에 의한 내부 표현 학습
- ^ A. J. 로빈슨과 F.폴사이드.유틸리티에 의한 동적 에러 전파 네트워크.기술 보고서 CUED/F-INFENG/TR.1, 케임브리지 대학 공학부, 1987.
- ^ R. J. 윌리엄스와 D.집서반복 네트워크와 그 계산 복잡성에 대한 그라데이션 기반 학습 알고리즘.백 전파:이론, 아키텍처 및 응용 프로그램.힐스데일, 뉴저지주: 얼바움, 1994.
- ^ Schmidhuber, J. (1989). "A local learning algorithm for dynamic feedforward and recurrent networks". Connection Science. 1 (4): 403–412. doi:10.1080/09540098908915650. S2CID 18721007.
- ^ 신경 및 적응 시스템:시뮬레이션을 통한 기초J.C. 프린시페, N.R. 울리아노, W.C. 르페브르
- ^ Schmidhuber, J. (1992). "A fixed size storage O(n3) time complexity learning algorithm for fully recurrent continually running networks". Neural Computation. 4 (2): 243–248. doi:10.1162/neco.1992.4.2.243. S2CID 11761172.
- ^ R. J. 윌리엄스반복 신경망에 대한 정확한 구배 계산 알고리즘의 복잡성.테크니컬 리포트 테크니컬 리포트 NU-CCS-89-27, 보스턴:노스이스턴 대학교 컴퓨터 과학 대학, 1989년
- ^ Pearlmutter, B. A. (1989). "Learning state space trajectories in recurrent neural networks" (PDF). Neural Computation. 1 (2): 263–269. doi:10.1162/neco.1989.1.2.263. S2CID 16813485.
- ^ S. 호크레이터운터수춘겐주 다이나믹센뉴로날렌 네트젠.졸업장 논문, 연구소 f.Informatik, Technische University.뮌헨, 1991년
- ^ S. Hochreiter, Y. Bengio, P. Frasconi, J. Schmidhuber.반복망에서의 경사 흐름: 장기 의존성을 학습하는 어려움.편집자인 S. C. Kremer와 J. F. Kolen의 동적 반복 신경 네트워크 필드 가이드.IEEE Press, 2001.
- ^ a b Hochreiter, S.; Schmidhuber, J. (1997). "Long short-term memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
- ^ Neural Networks as Cybernetic Systems 제2판 및 개정판 Holk Cruse [ 1 ]
- ^ Schrauwen, Benjamin, David Verstraeten 및 Jan Van Camphout "저장소 컴퓨팅의 개요: 이론, 응용 프로그램 및 구현"인공 신경망에 관한 유럽 심포지엄의 진행 ESANN 2007, 페이지 471–482.
- ^ Mass, Wolfgang; Nachtschlaeger, T.; Markram, H. (2002). "Real-time computing without stable states: A new framework for neural computation based on perturbations". Neural Computation. 14 (11): 2531–2560. doi:10.1162/089976602760407955. PMID 12433288. S2CID 1045112.
- ^ 에코 스테이트 네트워크, Scholarpedia
- ^ Jaeger, H.; Harnessing (2004). "Predicting chaotic systems and saving energy in wireless communication". Science. 304 (5667): 78–80. Bibcode:2004Sci...304...78J. CiteSeerX 10.1.1.719.2301. doi:10.1126/science.1091277. PMID 15064413. S2CID 2184251.
- ^ F. A. 거스와 J. 슈미드허버LSTM 반복 네트워크는 단순한 컨텍스트프리 및 컨텍스트에 민감한 언어인 IEEE Transactions on Neural Networks 12(6): 1333–1340, 2001을 학습합니다.
- ^ 그레이브스, J. 슈미드허버다차원 반복 신경망을 사용한 오프라인 필기 인식.신경 정보 처리 시스템 22, NIPS'22, 페이지 545-552, 밴쿠버, MIT Press, 2009.
- ^ Schuster, Mike; Paliwal, Kuldip K. (1997). "Bidirectional recurrent neural networks". IEEE Transactions on Signal Processing. 45 (11): 2673–2681. Bibcode:1997ITSP...45.2673S. CiteSeerX 10.1.1.331.9441. doi:10.1109/78.650093.
- ^ Graves, A.; Schmidhuber, J. (2005). "Framewise phoneme classification with bidirectional LSTM and other neural network architectures". Neural Networks. 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800. doi:10.1016/j.neunet.2005.06.042. PMID 16112549.
- ^ Schmidhuber, J. (1992). "Learning complex, extended sequences using the principle of history compression". Neural Computation. 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
- ^ 진화된 반복신경망에서의 움직임 원소의 동적 표현
- ^ "Associative Neural Network". www.vcclab.org. Retrieved 2017-06-17.
- ^ Anderson, James A.; Rosenfeld, Edward (2000). Talking Nets: An Oral History of Neural Networks. ISBN 9780262511117.
- ^ Gerstner; Kistler. "Spiking Neuron Models: Single Neurons, Populations, Plasticity". icwww.epfl.ch. Retrieved 2017-06-18. 온라인 교재 무료 제공
- ^ Izhikevich EM (February 2006). "Polychronization: computation with spikes". Neural Computation. 18 (2): 245–82. doi:10.1162/089976606775093882. PMID 16378515. S2CID 14253998.
- ^ Acchler T., Omar C., Amir E., "Sheding Weights: More With Less", IEEE Proc.뉴럴 네트워크 국제 공동 회의, 2008
- ^ David H. Hubel and Torsten N. Wiesel (2005). Brain and visual perception: the story of a 25-year collaboration. Oxford University Press. p. 106. ISBN 978-0-19-517618-6.
- ^ Hubel, DH; Wiesel, TN (October 1959). "Receptive fields of single neurones in the cat's striate cortex". J. Physiol. 148 (3): 574–91. doi:10.1113/jphysiol.1959.sp006308. PMC 1363130. PMID 14403679.
- ^ 후쿠시마 1987, 페이지 83
- ^ 후쿠시마 1987, 페이지 84
- ^ 후쿠시마 2007년
- ^ 후쿠시마 1987, 페이지 81, 85
- ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep learning". Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
- ^ Hinton, G. E.; Osindero, S.; Teh, Y. (2006). "A fast learning algorithm for deep belief nets" (PDF). Neural Computation. 18 (7): 1527–1554. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
- ^ Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). "Efficient Learning of Deep Boltzmann Machines" (PDF). 3: 448–455.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). "Exploring Strategies for Training Deep Neural Networks". The Journal of Machine Learning Research. 10: 1–40.
- ^ Coates, Adam; Carpenter, Blake (2011). "Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning" (PDF): 440–445.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Lee, Honglak; Grosse, Roger (2009). Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. Proceedings of the 26th Annual International Conference on Machine Learning. pp. 1–8. CiteSeerX 10.1.1.149.6800. doi:10.1145/1553374.1553453. ISBN 9781605585161. S2CID 12008458.
- ^ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "Unsupervised Models of Images by Spike-and-Slab RBMs" (PDF). Proceedings of the 28th International Conference on Machine Learning. Vol. 10. pp. 1–8.
- ^ Lin, Yuanqing; Zhang, Tong; Zhu, Shenghuo; Yu, Kai (2010). "Deep Coding Network". Advances in Neural Information Processing Systems 23 (NIPS 2010). Vol. 23. pp. 1–9.
- ^ Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). "Sparse Feature Learning for Deep Belief Networks" (PDF). Advances in Neural Information Processing Systems. 23: 1–8.
- ^ Socher, Richard; Lin, Clif (2011). "Parsing Natural Scenes and Natural Language with Recursive Neural Networks" (PDF). Proceedings of the 26th International Conference on Machine Learning.
- ^ Taylor, Graham; Hinton, Geoffrey (2006). "Modeling Human Motion Using Binary Latent Variables" (PDF). Advances in Neural Information Processing Systems.
- ^ Vincent, Pascal; Larochelle, Hugo (2008). Extracting and composing robust features with denoising autoencoders. Proceedings of the 25th International Conference on Machine Learning – ICML '08. pp. 1096–1103. CiteSeerX 10.1.1.298.4083. doi:10.1145/1390156.1390294. ISBN 9781605582054. S2CID 207168299.
- ^ Kemp, Charles; Perfors, Amy; Tenenbaum, Joshua (2007). "Learning overhypotheses with hierarchical Bayesian models". Developmental Science. 10 (3): 307–21. CiteSeerX 10.1.1.141.5560. doi:10.1111/j.1467-7687.2007.00585.x. PMID 17444972.
- ^ Xu, Fei; Tenenbaum, Joshua (2007). "Word learning as Bayesian inference". Psychol. Rev. 114 (2): 245–72. CiteSeerX 10.1.1.57.9649. doi:10.1037/0033-295X.114.2.245. PMID 17500627.
- ^ Chen, Bo; Polatkan, Gungor (2011). "The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning" (PDF). Proceedings of the 28th International Conference on International Conference on Machine Learning. Omnipress. pp. 361–368. ISBN 978-1-4503-0619-5.
- ^ Fei-Fei, Li; Fergus, Rob (2006). "One-shot learning of object categories". IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (4): 594–611. CiteSeerX 10.1.1.110.9024. doi:10.1109/TPAMI.2006.79. PMID 16566508. S2CID 6953475.
- ^ Rodriguez, Abel; Dunson, David (2008). "The Nested Dirichlet Process". Journal of the American Statistical Association. 103 (483): 1131–1154. CiteSeerX 10.1.1.70.9873. doi:10.1198/016214508000000553. S2CID 13462201.
- ^ Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). "Learning with Hierarchical-Deep Models". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1958–71. CiteSeerX 10.1.1.372.909. doi:10.1109/TPAMI.2012.269. PMID 23787346. S2CID 4508400.
- ^ a b Chalasani, Rakesh; Principe, Jose (2013). "Deep Predictive Coding Networks". arXiv:1301.3541 [cs.LG].
- ^ Scholkopf, B; Smola, Alexander (1998). "Nonlinear component analysis as a kernel eigenvalue problem". Neural Computation. 44 (5): 1299–1319. CiteSeerX 10.1.1.53.8911. doi:10.1162/089976698300017467. S2CID 6674407.
- ^ Cho, Youngmin (2012). "Kernel Methods for Deep Learning" (PDF): 1–9.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Deng, Li; Tur, Gokhan; He, Xiaodong; Hakkani-Tür, Dilek (2012-12-01). "Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding". Microsoft Research.
- ^ Fahlman, Scott E.; Lebiere, Christian (August 29, 1991). "The Cascade-Correlation Learning Architecture" (PDF). Carnegie Mellon University. Retrieved 4 October 2014.
- ^ Schmidhuber, Juergen (2014). "Memory Networks". arXiv:1410.3916 [cs.AI].
- ^ Schmidhuber, Juergen (2015). "End-To-End Memory Networks". arXiv:1503.08895 [cs.NE].
- ^ Schmidhuber, Juergen (2015). "Large-scale Simple Question Answering with Memory Networks". arXiv:1506.02075 [cs.LG].
- ^ Hinton, Geoffrey E. (1984). "Distributed representations". Archived from the original on 2016-05-02.
- ^ Nasution, B.B.; Khan, A.I. (February 2008). "A Hierarchical Graph Neuron Scheme for Real-Time Pattern Recognition". IEEE Transactions on Neural Networks. 19 (2): 212–229. doi:10.1109/TNN.2007.905857. PMID 18269954. S2CID 17573325.
- ^ Sutherland, John G. (1 January 1990). "A holographic model of memory, learning and expression". International Journal of Neural Systems. 01 (3): 259–267. doi:10.1142/S0129065790000163.
- ^ S. Das, C.L. Giles, G.Z. Sun, "Learning Context Free Grammars: 외부 스택 메모리를 사용하는 반복 신경 네트워크의 한계" Cog 14번째 연례 회의.사회과학부, 1992년 페이지 79
- ^ Mozer, M. C.; Das, S. (1993). "A connectionist symbol manipulator that discovers the structure of context-free languages". Advances in Neural Information Processing Systems. 5: 863–870.
- ^ Schmidhuber, J. (1992). "Learning to control fast-weight memories: An alternative to recurrent nets". Neural Computation. 4 (1): 131–139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347.
- ^ Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). "Learning precise timing with LSTM recurrent networks" (PDF). JMLR. 3: 115–143.
- ^ Jürgen Schmidhuber (1993). "An introspective network that can learn to run its own weight change algorithm". Proceedings of the International Conference on Artificial Neural Networks, Brighton. IEE. pp. 191–195.
- ^ Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). "Learning to Learn Using Gradient Descent". ICANN. 2130: 87–94. CiteSeerX 10.1.1.5.323.
- ^ Schmidhuber, Juergen (2015). "Learning to Transduce with Unbounded Memory". arXiv:1506.02516 [cs.NE].
- ^ Schmidhuber, Juergen (2014). "Neural Turing Machines". arXiv:1410.5401 [cs.NE].
- ^ Burgess, Matt. "DeepMind's AI learned to ride the London Underground using human-like reason and memory". WIRED UK. Retrieved 2016-10-19.
- ^ "DeepMind AI 'Learns' to Navigate London Tube". PCMAG. Retrieved 2016-10-19.
- ^ Mannes, John. "DeepMind's differentiable neural computer helps you navigate the subway with its memory". TechCrunch. Retrieved 2016-10-19.
- ^ Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (2016-10-12). "Hybrid computing using a neural network with dynamic external memory". Nature. 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.
- ^ "Differentiable neural computers DeepMind". DeepMind. Retrieved 2016-10-19.
- ^ Atkeson, Christopher G.; Schaal, Stefan (1995). "Memory-based neural networks for robot learning". Neurocomputing. 9 (3): 243–269. doi:10.1016/0925-2312(95)00033-6.
- ^ 살라후트디노프, 루슬란, 제프리 힌튼입니다'시맨틱 해싱'국제 근사 추리 저널 50.7 (2009) : 969~978.
- ^ Le, Quoc V.; Mikolov, Tomas (2014). "Distributed representations of sentences and documents". arXiv:1405.4053 [cs.CL].
- ^ Schmidhuber, Juergen (2015). "Pointer Networks". arXiv:1506.03134 [stat.ML].
- ^ Schmidhuber, Juergen (2015). "Neural Random-Access Machines". arXiv:1511.06392 [cs.LG].
- ^ Kalchbrenner, N.; Blunsom, P. (2013). Recurrent continuous translation models. EMNLP'2013. pp. 1700–1709.
- ^ Sutskever, I.; Vinyals, O.; Le, Q. V. (2014). "Sequence to sequence learning with neural networks" (PDF). Twenty-eighth Conference on Neural Information Processing Systems. arXiv:1409.3215.
- ^ Schmidhuber, Juergen (2014). "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation". arXiv:1406.1078 [cs.CL].
- ^ Schmidhuber, Juergen; Courville, Aaron; Bengio, Yoshua (2015). "Describing Multimedia Content using Attention-based Encoder—Decoder Networks". IEEE Transactions on Multimedia. 17 (11): 1875–1886. arXiv:1507.01053. Bibcode:2015arXiv150701053C. doi:10.1109/TMM.2015.2477044. S2CID 1179542.