장벽(컴퓨터 과학)

병렬 컴퓨팅에서 장벽은 동기화 방법의 한 종류입니다.소스 코드의 스레드 또는 프로세스 그룹에 대한 장벽은 모든 스레드/프로세스가 이 장벽에 도달할 때까지 이 시점에서 정지해야 함을 의미합니다.

많은 집합 루틴과 지시 기반 병렬 언어에는 암묵적인 장벽이 있습니다.예를 들어 OpenMP를 사용한 Fortran의 병렬 실행 루프는 마지막 반복이 완료될 때까지 스레드 상에서 계속할 수 없습니다.이는 프로그램이 완료된 직후에 루프 결과에 의존하는 경우입니다.메시지 전달에 있어서, 글로벌한 통신(감축이나 산란 등)은, 장벽이 되는 경우가 있습니다.

동시 컴퓨팅에서는 장벽이 높아지거나 낮아지는 경우가 있습니다.래치라는 용어는 상승 상태에서 시작하여 하강 상태에서 다시 상승할 수 없는 장벽을 가리키는 데 사용되기도 한다.카운트다운 래치라는 용어는 미리 정해진 수의 스레드/프로세스가 도착하면 자동으로 내려가는 래치를 가리키는 데 사용되기도 합니다.

실행

기본 장벽에는 주로 두 가지 변수가 있으며, 하나는 장벽의 통과/정지 상태를 기록하고 다른 하나는 장벽에 진입한 총 스레드 수를 유지합니다.장벽 상태는 장벽에 들어오는 첫 번째 스레드에 의해 "정지"되도록 초기화되었습니다.스레드가 들어갈 때마다 장벽에 이미 있는 스레드 수에 따라 마지막 스레드만 장벽 상태를 "통과"로 설정하여 모든 스레드가 장벽 밖으로 나갈 수 있도록 합니다.한편, 들어오는 스레드가 마지막 스레드가 아닐 때는 장벽에 갇혀 장벽 상태가 '정지'에서 '통과'로 바뀌었는지 계속 테스트하고 장벽 상태가 '통과'로 바뀌어야 빠져나간다.다음 C 코드는 이 ^[1]^[2]절차를 보여줍니다.

구조 barrier_type {     // 장벽에 진입한 프로세서 수     // 0으로 초기화     인트 도착 카운터;     // 장애물을 통과한 프로세서 수     // p로 초기화     인트 leave_counter(카운터);     인트 깃발;     표준::뮤텍스 잠그다; };  // p 프로세서의 장벽 무효 장벽(barrier_type* b, 인트 p) {     b->잠그다.잠그다();     한다면 (b->도착 카운터 == 0)     {         b->잠그다.언락();         하는 동안에 (b->leave_counter(카운터) != p); // 클리어하기 전에 모두 나갈 때까지 기다립니다.         b->잠그다.잠그다();         b->깃발 = 0; // first arriver가 플래그를 지웁니다.     }     b->도착 카운터++;     한다면 (b->도착 카운터 == p) // 마지막 도착자가 플래그를 설정합니다.     {         b->도착 카운터 = 0;         b->leave_counter(카운터) = 0;         b->깃발 = 1;     }     b->잠그다.언락();      하는 동안에 (b->깃발 == 0); // 플래그 대기     b->잠그다.잠그다();     b->leave_counter(카운터)++;     b->잠그다.언락(); }

잠재적인 문제는 다음과 같습니다.

모든 스레드가 pass/stop 글로벌 변수에 반복적으로 액세스하기 때문에 통신 트래픽이 다소 높아져 scalability가 저하됩니다.

이 문제는 스레드를 다시 그룹화하고 트리 장벽 결합과 같은 다단계 장벽을 사용하여 해결할 수 있습니다.또, 하드웨어의 실장에서는, scalability가 향상하는 메리트가 있습니다.

센스 역방향 집중 장벽

패스/스톱을 나타내기 위해 동일한 값을 사용하는 대신 순차 장벽은 패스/스톱 상태에 대해 반대 값을 사용합니다.예를 들어 장벽 1이 스레드 정지에 0을 사용하는 경우 장벽 2는 스레드 정지에 1을 사용하고 장벽 3은 스레드 정지에 0을 사용합니다.^[3]다음 C코드가 ^[1]^[4]^[2]이를 나타냅니다.

구조 barrier_type {     인트 계산대; // 0으로 초기화     인트 깃발; // 0으로 초기화     표준::뮤텍스 잠그다; };  인트 local_sense = 0; // 프로세서당 프라이빗  // p 프로세서의 장벽 무효 장벽(barrier_type* b, 인트 p) {     local_sense = 1 - local_sense;     b->잠그다.잠그다();     b->계산대++;     인트 오시다 = b->계산대;     한다면 (오시다 == p) // 마지막 도착자가 플래그를 설정합니다.     {         b->잠그다.언락();         b->계산대 = 0;         // 카운터로의 변경을 보증하는 메모리 펜스         // 플래그 변경 전에 표시됨         b->깃발 = local_sense;     }     또 다른     {         b->잠그다.언락();         하는 동안에 (b->깃발 != local_sense); // 플래그 대기     } }

트리 장벽의 조합

조합 트리 장벽은 모든 스레드가 동일한 ^[3]위치에서 회전하는 경우를 방지하여 확장성을 해결하기 위한 계층적 장벽 구현 방법입니다.

k-트리 장벽에서는 모든 스레드가 k개의 스레드의 하위 그룹으로 균등하게 분할되며 이러한 하위 그룹 내에서 1차 동기화가 수행됩니다.모든 서브그룹의 동기화가 완료되면 각 서브그룹의 첫 번째 스레드가 추가 동기화를 위해 두 번째 레벨로 들어갑니다.두 번째 레벨에서는 첫 번째 레벨과 마찬가지로 스레드가 k개의 스레드의 새로운 서브그룹을 형성하고 그룹 내에서 동기화하여 각 서브그룹에서1개의 스레드를 다음 레벨로 송신합니다.최종적으로 최종 레벨에서는 동기화할 서브그룹은 1개뿐입니다.최종 레벨 동기 후에 해제 신호가 상위 레벨로 전송되어 모든 스레드가 ^[4]^[5]장벽을 통과한다.

하드웨어 장벽 구현

하드웨어 장벽은 위의 기본 장벽 ^[1]모델을 구현하기 위해 하드웨어를 사용합니다.

가장 간단한 하드웨어 구현에서는 전용 와이어를 사용하여 신호를 전송하여 장벽을 구현합니다.이 전용 와이어는 OR/AND 연산을 수행하여 통과/블록 플래그 및 스레드 카운터 역할을 합니다.소형 시스템에서는 이러한 모델이 작동하며 통신 속도는 큰 문제가 되지 않습니다.대규모 멀티프로세서 시스템에서는 이러한 하드웨어 설계를 통해 장벽 구현의 지연 시간이 길어질 수 있습니다.프로세서 간의 네트워크 접속은 지연을 줄이기 위한 하나의 구현으로, 트리 ^[6]장벽 결합과 유사합니다.

「」를 참조해 주세요.

레퍼런스

^ ^a ^b ^c Solihin, Yan (2015-01-01). Fundamentals of Parallel Multicore Architecture (1st ed.). Chapman & Hall/CRC. ISBN 978-1482211184.
^ ^a ^b "Implementing Barriers". Carnegie Mellon University.
^ ^a ^b Culler, David (1998). Parallel Computer Architecture, A Hardware/Software Approach. ISBN 978-1558603431.
^ ^a ^b Nanjegowda, Ramachandra; Hernandez, Oscar; Chapman, Barbara; Jin, Haoqiang H. (2009-06-03). Müller, Matthias S.; Supinski, Bronis R. de; Chapman, Barbara M. (eds.). Evolving OpenMP in an Age of Extreme Parallelism. Lecture Notes in Computer Science. Springer Berlin Heidelberg. pp. 42–52. doi:10.1007/978-3-642-02303-3_4. ISBN 9783642022845.
^ Nikolopoulos, Dimitrios S.; Papatheodorou, Theodore S. (1999-01-01). A Quantitative Architectural Evaluation of Synchronization Algorithms and Disciplines on ccNUMA Systems: The Case of the SGI Origin2000. Proceedings of the 13th International Conference on Supercomputing. ICS '99. New York, NY, USA: ACM. pp. 319–328. doi:10.1145/305138.305209. ISBN 978-1581131642. S2CID 6097544.
^ N.R. 아디가 등BlueGene/L Supercomputer 개요하이 퍼포먼스 네트워킹 및 컴퓨팅에 관한 회의, 2002년.

외부 링크

"Parallel Programming with Barrier Synchronization". sourceallies.com. March 2012.

[:0-1] Solihin, Yan (2015-01-01). Fundamentals of Parallel Multicore Architecture (1st ed.). Chapman & Hall/CRC. ISBN 978-1482211184.

[impl-2] "Implementing Barriers". Carnegie Mellon University.

[:2-3] Culler, David (1998). Parallel Computer Architecture, A Hardware/Software Approach. ISBN 978-1558603431.

[:1-4] Nanjegowda, Ramachandra; Hernandez, Oscar; Chapman, Barbara; Jin, Haoqiang H. (2009-06-03). Müller, Matthias S.; Supinski, Bronis R. de; Chapman, Barbara M. (eds.). Evolving OpenMP in an Age of Extreme Parallelism. Lecture Notes in Computer Science. Springer Berlin Heidelberg. pp. 42–52. doi:10.1007/978-3-642-02303-3_4. ISBN 9783642022845.

[5] Nikolopoulos, Dimitrios S.; Papatheodorou, Theodore S. (1999-01-01). A Quantitative Architectural Evaluation of Synchronization Algorithms and Disciplines on ccNUMA Systems: The Case of the SGI Origin2000. Proceedings of the 13th International Conference on Supercomputing. ICS '99. New York, NY, USA: ACM. pp. 319–328. doi:10.1145/305138.305209. ISBN 978-1581131642. S2CID 6097544.

[6] N.R. 아디가 등BlueGene/L Supercomputer 개요하이 퍼포먼스 네트워킹 및 컴퓨팅에 관한 회의, 2002년.

[1]

[2]

[3]

[4]

[5]

[6]

v t 동시 컴퓨팅
일반	동시성 동시성 제어 선형성
공정계산	CSP CCS ACP 로고 - - calculuscalculus 환경미적분 API 계산 PEPA 결합계산
고전적인 문제	ABA 문제 흡연자 문제 교착 상태 식사 철학자의 문제 생산자-소비자 레이스 조건 독자-라이터 문제 잠자는 이발사 문제
카테고리: 동시 컴퓨팅

v t 병렬 컴퓨팅
일반	분산 컴퓨팅 병렬 컴퓨팅 대규모 병렬화 클라우드 컴퓨팅 하이 퍼포먼스 멀티프로세서 멀티코어 프로세서 GPGPU 컴퓨터 네트워크 수축기 어레이
레벨	조금 설명 실 작업 데이터. 기억 고리 파이프라인
멀티스레딩	일시적 동시(SMT) 투기적(SpMT) 프리엠프티브 협동조합 클러스터화 멀티스레드(CMT) 하드웨어 스카우트
이론.	PRAM 모델 PEM 모델 병렬 알고리즘 분석 암달의 법칙 구스타프슨의 법칙 비용 효율 카르프-플랫 미터법 속도를 줄이세요. 스피드업
요소들	과정 실 파이버전 명령 창 어레이 데이터 구조
코디네이션	멀티프로세서 메모리 일관성 캐시 일관성 캐시 무효화 장벽 동기 응용 프로그램 체크 포인트
프로그래밍	스트림 처리 데이터 흐름 프로그래밍 모델 암묵적 병렬화 명시적 병렬화 동시성 논블로킹 알고리즘
하드웨어	플린의 분류법 SISD SIMD 어레이 처리(SIMT) 파이프라인 처리 연관 처리 미스테리 MIMD 데이터 흐름 아키텍처 파이프라인 프로세서 슈퍼스칼라 프로세서 벡터 프로세서 멀티프로세서 대칭의 비대칭의 기억 공유했습니다. 분산된 분산 공유 UMA NUMA 혼수 상태 대규모 병렬 컴퓨터 컴퓨터 클러스터 그리드 컴퓨터 하드웨어 액셀러레이션
API	아테지 PX 부스트 예배당 HPX Charm++ 칠크 코어레이 포트란 쿠다 드라이어드 C++ AMP 글로벌 어레이 GPUO펜 MPI OpenMP OpenCL OpenHMPP 오픈 ACC 병렬 확장 PVM 스레드 뗏목 립 ROCM UPC TBB ZPL
문제	자동 병렬화 교착 상태 결정론적 알고리즘 민망할 정도로 평행하다 병렬 속도 저하 레이스 조건 소프트웨어 록아웃 확장성 기아
카테고리: 병렬 컴퓨팅

Search

장벽(컴퓨터 과학)

네임스페이스

더

목차

실행

센스 역방향 집중 장벽

트리 장벽의 조합

하드웨어 장벽 구현

「」를 참조해 주세요.

레퍼런스

외부 링크

Search

장벽(컴퓨터 과학)

실행

센스 역방향 집중 장벽

트리 장벽의 조합

하드웨어 장벽 구현

「 」를 참조해 주세요.

레퍼런스

외부 링크

「」를 참조해 주세요.