Speedup

컴퓨터 아키텍처에서 속도 향상이란 동일한 문제를 처리하는 두 시스템의 상대적 성능을 측정하는 수치입니다.보다 엄밀히 말하면, 서로 다른 자원을 가진 두 개의 유사한 아키텍처에서 실행되는 태스크의 실행 속도를 향상시키는 것입니다.속도 향상 개념은 병렬 처리에 특히 중점을 둔 Amdahl의 법칙에 의해 확립되었습니다.그러나 속도 향상은 리소스 확장 후 성능에 미치는 영향을 나타내기 위해 더 일반적으로 사용할 수 있습니다.

정의들

속도 향상은 지연 시간과 ^[1]스루풋이라는 두 가지 다른 수량에 대해 정의할 수 있습니다.

아키텍처의 레이텐시는 태스크 실행 속도에 역수입니다.

L=sqfrac {1}{v}}=sqfrac {T}{W}}

어디에

v는 작업 실행 속도입니다.
T는 태스크 실행 시간입니다.
W는 태스크 실행 워크로드입니다.

아키텍처의 throughput은 태스크 실행률입니다.

Q=\rho vA=frac{rho AW}{T}}=440frac{rho A}{L}

어디에

§는 실행 밀도(예를 들어 파이프라인 아키텍처에 대한 명령 파이프라인의 단계 수)이다.
A는 실행 능력(예를 들어 병렬 아키텍처의 프로세서 수)입니다.

지연 시간은 종종 실행 워크로드 단위당 초 단위로 측정됩니다.throughput은 종종 초당 실행 워크로드 단위로 측정됩니다.throughput의 또 다른 단위는 Instructions per Cycle(IPC; 사이클/사이클/사이클/인스트럭션)이며, 그 역수인 CPI(cycles/instruction)는 지연의 또 다른 단위입니다.

속도 향상은 차원이 없으며 수량 유형별로 다르게 정의되므로 일관된 메트릭이 됩니다.

레이텐시의 고속화

지연 시간 단축은 다음 ^[2]공식으로 정의됩니다.

({displaystyle S_{\text{latency}}=black{L_{1}}{L_{2}}=black{T_{1}W_{2}}}{T_{2}W_{1}}},}

어디에

S는_latency 아키텍처 1에 대한 아키텍처 2의 레이텐시 속도 향상입니다.
L은₁ 아키텍처 1의 레이텐시입니다.
L은₂ 아키텍처 2의 레이텐시입니다.

대기 시간 증가는 Amdahl의 법칙 또는 Gustafson의 법칙에서 예측할 수 있습니다.

스루풋의 고속화

throughput의 속도 향상은 다음 ^[3]공식으로 정의됩니다.

S_{\text{throughput}}=syslogfrac {Q_{1}=syslogfrac {rho_{2}A_{2}T_{1}W_{2}}{\rho_{1}A_{1}T_{2}W_{1}}=440frac({rho_{2})A_{2}}{\rho_{1}A_{1}}S_{\text{latency}}

어디에

S는_throughput 아키텍처1에 대한 아키텍처2의 throughput의 고속화입니다.
Q는₁ 아키텍처 1의 throughput입니다.
Q는₂ 아키텍처 2의 스루풋입니다.

예

실행 시간 사용

프로그램 실행 시 분기 예측 변수의 효과를 테스트하고 있습니다.먼저 프로세서의 표준 분기 프레딕터를 사용하여 프로그램을 실행하며 실행 시간은 2.25초입니다.다음으로, 같은 프로세서에서 수정(개선된) 분기 프레딕터를 사용하여 프로그램을 실행합니다.이것에 의해, 1.50초의 실행 시간이 발생합니다.두 경우 모두 실행 워크로드는 동일합니다.속도 향상 공식을 사용하면

S_{\text{latency}=snewfrac {L_{\text{new}}}=snewfrac {2.25~\mathrm {s}} {1.50~\mathrm {s}} = 1.5

델의 새로운 브랜치 프레딕터는 기존 브랜치 프레딕터보다 1.5배 빠른 속도를 실현했습니다.

명령당 사이클 및 주기당 명령 사용

레이텐시인 명령당 사이클 수(CPI)도 측정할 수 있습니다.먼저 CPI가 3인 표준 분기 예측기를 사용하여 프로그램을 실행합니다.다음으로 CPI가 2인 수정된 분기 예측기를 사용하여 프로그램을 실행합니다.두 경우 모두 실행 워크로드는 동일하며 두 아키텍처 모두 파이프라인 또는 병렬 아키텍처가 아닙니다.속도 향상 공식을 사용하면

S_{\text{latency}=snewfrac {L_{\text{old}}}{L_{\text{new}}}=snewfrac {3~{\text{C}}}PI}}{2~{\text{C}PI}}}}=1.5

또한 사이클당 명령(IPC)으로 속도 향상을 측정할 수 있습니다.IPC는 스루풋이며 CPI의 역수입니다.속도 향상 공식을 사용하면

S_{\text{throughput}}=syslogfrac {Q_{\text{new}}}{Q_{\text{old}}}=syslogfrac {0.5~{\text{\text}}}IPC}} {0.33~{\text{\text}IPC}}}}}= 1.5.

측정 수량은 다르지만 동일한 1.5배의 속도 향상을 달성했습니다.

기타 상세

S가 작업의 실행 속도를 높이고 아키텍처의 자원 개선에서 이익을 얻는 작업의 실행 속도를 높인다.선형 속도 상승 또는 이상적인 속도 상승은 S = s일 때 얻어진다. 선형 속도 상승으로 작업을 실행할 때 로컬 속도 상승이 두 배로 증가하면 전체 속도 상승이 두 배로 증가한다.이는 이상적인 방법이기 때문에 매우 뛰어난 확장성으로 간주됩니다.

효율성은 다음과 같이 정의된 개선된 시스템의 자원 사용률 지표입니다.

(\displaystyle \eta = flac {S} {s} ).}

일반적으로 값은 0 ~1 입니다.선형 속도 향상 및 단일 프로세서에서 실행되는 프로그램의 효율은 1이지만, 크기가 조정되기 어려운 프로그램의 효율은 프로세서 A = s의 수가 증가함에 따라 0에 근접하는 1/ln(s)^{[citation needed]}과 같습니다.

엔지니어링 컨텍스트에서 효율 곡선은 속도 향상 곡선보다 그래프에 더 자주 사용됩니다.

그래프의 모든 영역이 유용하다(속도 상승 곡선의 경우 공간의 절반이 낭비된다).
시스템 개선이 얼마나 잘 작동하고 있는지 쉽게 알 수 있다.
"완벽한 속도 상승" 곡선을 그릴 필요가 없습니다.

마케팅 상황에서 속도 향상 곡선이 더 자주 사용됩니다. 주로 곡선이 위로 올라가 오른쪽으로 이동하기 때문에 정보가 부족한 사람들에게 더 잘 보이기 때문입니다.

초선형 속도 향상

병렬 컴퓨팅에서 A 프로세서를 사용할 때 A 이상의 속도 증가가 관찰되는 경우가 있는데, 이를 초선형 속도 증가라고 합니다.초선형 속도 향상은 거의 발생하지 않으며, 이론상 최대 속도 향상은 A 프로세서를 사용할 때 A여야 한다고 생각하는 초보자를 혼란스럽게 하는 경우가 많습니다.

저레벨 계산에서 초선형 속도를 높이는 이유 중 하나는 현대 컴퓨터의 다른 메모리 계층에 기인하는 캐시 효과입니다.병렬 컴퓨팅에서는 프로세서의 수뿐만 아니라 다른 프로세서에서 축적된 캐시의 크기도 변화합니다.축적된 캐시 사이즈가 커지면 작업 세트의 대부분이 캐시에 들어갈 수 있고 메모리 액세스 시간이 대폭 단축되므로 실제 ^[4]계산과 더불어 속도가 향상됩니다.

BLAST 구현에 의해 검색된 게놈 데이터와 같은 대규모 데이터 세트를 검색할 때도 유사한 상황이 발생합니다.클러스터 내의 각 노드에서 축적된 RAM을 통해 데이터셋을 디스크에서 RAM으로 이동할 수 있으므로 ^[5]mpiBLast 등의 검색에 소요되는 시간이 대폭 단축됩니다.

또한 병렬로 백트래킹을 수행할 때도 초선형 속도 상승이 발생할 수 있습니다.한 스레드의 예외로 인해 다른 여러 스레드가 ^[6]그 예외에 도달하기 전에 백트래킹이 조기에 발생할 수 있습니다.

최적화를 ^[7]위한 브랜치앤바운드의 병렬 실장에서도 초선형 스피드 업이 발생할 수 있습니다.즉, 1개의 프로세서가 1개의 노드를 처리하는 것은 다른 프로세서가 다른 노드에 대해 수행해야 하는 작업에 영향을 줄 수 있습니다.

「」를 참조해 주세요.

레퍼런스

^ Martin, Milo. "Performance and Benchmarking" (PDF). Retrieved 5 June 2014.
^ Hennessy, John L.; David A., Patterson (2012). Computer Architecture: A Quantitive Approach. Waltham, MA: Morgan Kaufmann. pp. 46–47. ISBN 978-0-12-383872-8.
^ Baer, Jean-Loup (2010). Microprocessor Architecture: From Simple Pipelines to Chip Multiprocessors. New York: Cambridge University Press. pp. 10. ISBN 978-0-521-76992-1.
^ Benzi, John; Damodaran, M. (2007). "Parallel Three Dimensional Direct Simulation Monte Carlo for Simulating Micro Flows". Parallel Computational Fluid Dynamics 2007: Implementations and Experiences on Large Scale and Grid Computing. Parallel Computational Fluid Dynamics. Springer. p. 95. Retrieved 2013-03-21.
^ http://people.cs.vt.edu/~feng/presentations/030903-ParCo.pdf^{[베어 URL PDF]}
^ Speckenmeyer, Ewald (2005). "Superlinear Speedup for Parallel Backtracking". Lecture Notes in Computer Science. 297: 985–993. doi:10.1007/3-540-18991-2_58. ISBN 978-3-540-18991-6.
^ "Gurobi versus CPLEX benchmarks". cmu.edu. 29 January 2009. Retrieved 23 April 2018.

[1] Martin, Milo. "Performance and Benchmarking" (PDF). Retrieved 5 June 2014.

[2] Hennessy, John L.; David A., Patterson (2012). Computer Architecture: A Quantitive Approach. Waltham, MA: Morgan Kaufmann. pp. 46–47. ISBN 978-0-12-383872-8.

[3] Baer, Jean-Loup (2010). Microprocessor Architecture: From Simple Pipelines to Chip Multiprocessors. New York: Cambridge University Press. pp. 10. ISBN 978-0-521-76992-1.

[4] Benzi, John; Damodaran, M. (2007). "Parallel Three Dimensional Direct Simulation Monte Carlo for Simulating Micro Flows". Parallel Computational Fluid Dynamics 2007: Implementations and Experiences on Large Scale and Grid Computing. Parallel Computational Fluid Dynamics. Springer. p. 95. Retrieved 2013-03-21.

[5] ttp://people.cs.vt.edu/~feng/presentations/030903-ParCo.pdf^{[베어 URL PDF]}

[6] Speckenmeyer, Ewald (2005). "Superlinear Speedup for Parallel Backtracking". Lecture Notes in Computer Science. 297: 985–993. doi:10.1007/3-540-18991-2_58. ISBN 978-3-540-18991-6.

[7] "Gurobi versus CPLEX benchmarks". cmu.edu. 29 January 2009. Retrieved 23 April 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

v t 병렬 컴퓨팅
일반	분산 컴퓨팅 병렬 컴퓨팅 대규모 병렬화 클라우드 컴퓨팅 하이 퍼포먼스 멀티프로세서 멀티코어 프로세서 GPGPU 컴퓨터 네트워크 수축기 어레이
레벨	조금 설명 실 작업 데이터. 기억 고리 파이프라인
멀티스레딩	일시적 동시(SMT) 투기적(SpMT) 선점 협동 조합 클러스터화 멀티스레드(CMT) 하드웨어 스카우트
이론.	피램.. 모델 PEM모델 병렬 알고리즘 분석 암달의 법칙 구스타프슨의 법칙 비용 효율성 Karp–Flatt 미터 속도를 줄이세요. Speedup
요소들	과정 실 섬유 명령 창 배열
코디네이션	멀티프로세서 메모리 일관성 캐시 일관성 캐시 무효화 장벽 동기 응용 프로그램 체크 포인트
프로그래밍	스트림 처리 데이터 흐름 프로그래밍 모델 암묵적 병렬화 명시적 병렬화 동시성 논블로킹 알고리즘
하드웨어	플린의 분류법 SISD SIMD 어레이 처리(SIMT) 파이프라인 처리 연관 처리 미스테리 MIMD 데이터 흐름 아키텍처 파이프라인 프로세서 슈퍼스칼라 프로세서 벡터 프로세서 멀티프로세서 대칭의 비대칭의 기억 공유했습니다. 분산된 분산 공유 UMA NUMA 혼수 상태 대규모 병렬 컴퓨터 컴퓨터 클러스터 그리드 컴퓨터 하드웨어 액셀러레이션
API	아테지 PX 부스트 예배당 HPX Charm++ 칠크 코어레이 포트란 쿠다 드라이어드 C++ AMP 글로벌 어레이 GPUO펜 MPI OpenMP OpenCL OpenHMPP 오픈 ACC 병렬 확장 PVM 스레드 뗏목 립 ROCM UPC TBB ZPL
문제	자동 병렬화 교착 상태 결정론적 알고리즘 민망할 정도로 평행하다 병렬 속도 저하 레이스 조건 소프트웨어 록아웃 확장성 기아
카테고리: 병렬 컴퓨팅

Search

Speedup

네임스페이스

더

목차