크레용 XMT

Cray XMT
크레용 XMT
Computer Museum of America (41).jpg
디자이너크레파스
비트64비트
소개했다2005
버전3세대 테라 MTA
엔디안니스빅엔디안
전임자크레용 MTA-2
후계자크레용 XMT2
레지스터
스트림당 32개의 범용(CPU당 4096개)
스트림당 8개 대상(CPU당 1024개)

Cray XMT(Cray eXtreme MultiThreading,[1] 코드명 Eldorado[2])는 큰 그래프 문제(예: 의미론 데이터베이스, 빅데이터, 패턴 매칭)를 대상으로 한 3세대 Tera MTA 아키텍처를 기반으로 한 Cray의 확장 가능한 멀티스레드 공유 메모리 슈퍼컴퓨터 아키텍처다.[3][4][5]2005년에 발표되었으며, 이전에 성공적이지 못했던 Cray MTA-2를 대체하였다.크레용 XT3 블레이드 내부에 스레드스톰3 CPU를 사용한다.상품 부품과 기존 서브시스템을 다른 상용 시스템에 활용할 수 있도록 설계돼 크레이 MTA-2의 높은 맞춤 제작비 및 지원 단점을 완화했다.[2]Cray MTA-2에 비해 크게 개선되었으며, 특히 최고 성능을 거의 3배 가까이 향상시켰으며, 최대 CPU 수를 8,192로, 최대 메모리는 128TB로 대폭 증가시켰으며, 데이터 TLB는 최대 512TB이다.[2][3]

크레용 XMT는 DDR1 ECC 모듈에서 스크램블[3] 콘텐츠 주소 지정 메모리[6] 모델을 사용하여 시스템의 전체 공유 글로벌 주소 공간 간에 메모리 액세스를 암시적으로 로드 밸런싱한다.[5]64비트 메모리 워드당 4개의 추가 확장 메모리 의미 비트(전체/빈 비트, 포워딩 비트 및 2개의 트랩 비트)를 사용하면 모든 메모리에서 가볍고 미세한 동기화가 가능하다.[7]하드웨어 인터럽트는 없고 하드웨어 스레드는 OS가 아닌 지침에 의해 할당된다.[5][7]

Front-end(로그인, 입출력, 및 기타 서비스 노드, AMD옵테론 프로세서를 활용하고 SLES 리눅스 실행)과 백엔드(컴퓨팅 노드, 그리고 달리기 Threadstorm3 프로세서 MTK, 단순한 BSDUnix기반 microkernel[3]을 활용함)은 LUC(경량 사용자 통신)인터페이스는RPC-style 양방향 클라이언트/서버 인터페이스를 통해서 의사 소통을 한다.[1][5]

스레드스톰3

스레드스톰3
Cray Threadstorm Architecture.png
일반 정보
시작됨2005
중단됨2011
설계자크레파스
퍼포먼스
최대 CPU 클럭 속도500MHz
하이퍼트랜스포트 속도300 GT/s까지
건축과 분류
명령 집합MTA ISA
물리적 사양
코어스
  • 1
소켓
역사
전임자Cray MTA-2 CPU
후계자스레드스톰4

128하드웨어 흐름에 각 소프트웨어 스레드에 Threadstorm3(에"MT프로세서"[2]과 Threadstorm로 XMT2[8]기 전에 언급)가 64비트single-core very배럴당 처리기(940-pin Socket 940과 호환되는 AMD옵테론 프로세서에서 사용하는),(효과적으로 CPU당 128하드웨어 스레드를 만드는 것), 500MHz에서 MT를 사용하여 실행하는 매핑 될 수 있다.한일자루션 세트 또는 그 위층 세트.[7][9][nb 1]128KB, 4방향 연관 데이터 버퍼를 가지고 있다.각 스레드스톰3에는 128개의 개별 레지스터 세트와 프로그램 카운터(각 스트림당 하나씩)가 있으며, 각 사이클마다 상당히[10] 완전하게 컨텍스트 교환된다.[5]예상 최고 성능은 1.5GFLOPS이다.3개의 기능 유닛(메모리, 퓨전 곱하기 및 제어)을 가지고 있으며, 이 유닛은 동일한 MTA 명령으로부터 작동을 수신하고 동일한 사이클 내에서 작동한다.[7]각 스트림에는 프로그램 카운터를 포함하는 32개의 범용 레지스터, 8개의 대상 레지스터, 상태 워드가 있다.[6]스레드 간 작업 할당에 대한 높은 수준의 제어는 불가능하다.[5][nb 2]MTA의 파이프라인 길이가 21이기 때문에, 각 스트림은 21 사이클 이전에 지시사항을 다시 실행하도록 선택된다.[11]프로세서 패키지의 TDP는 30W이다.[12]

각 사이클에서 스레드 레벨 컨텍스트 스위치로 인해 스레드스톰 CPU의 성능은 메모리 액세스 시간에 의해 제한되지 않는다.단순화된 모델에서, 각 클럭 사이클마다 하나의 스레드로부터의 명령이 실행되고 또 다른 메모리 요청은 다음 실행이 준비될 때까지 요청된 데이터가 도착했다는 이해로 대기열에 들어간다.[13]이것은 메모리 접속을 방해하는 많은 전통적인 구조와는 반대된다.아키텍처는 후속 메모리 액세스를 쉽게 예측할 수 없어 기존 캐시 모델에 잘 맞지 않는 데이터 보행 방식에서 탁월하다.[1]스레드스톰의 주요 건축가는 버튼 J. 스미스였다.[1]

크레용 XMT2

크레용 XMT2
디자이너크레파스
비트64비트
소개했다2011
버전4세대 테라 MTA
엔디안니스빅엔디안
전임자크레용 XMT
레지스터
스트림당 32개의 범용(CPU당 4096개)

스트림당 8개 대상(CPU당 1024개)

스트림당 8개의 트랩(CPU당 1024개)

Cray XMT2[3]("차세대 XMT"[8] 또는 단순 XMT[6])는 4세대 Tera MTA 아키텍처에 기반을 둔 Cray의 확장 가능한 멀티스레드 공유 메모리 슈퍼컴퓨터다.[5]2011년에 출시된 이 제품은 메모리 핫스팟에 문제가 있었던 Cray XMT를 대체했다.[8]크레용 XT5 블레이드 내부에 스레드스톰4 CPU를 사용하며 노드당 메모리 모듈 2배, DDR2를 사용해 XMT 대비 메모리 용량을 8배 늘려 512TB, 메모리 대역폭(300MHz대신 200MHz)을 3배 늘렸다.[6][8]CPU 및 HyperTransport 1.x 구성 요소를 사용하지 않도록 설정한 Threadstorm4 패키지와 함께 노드 쌍 링크 간 스레드 스톰 연결과 메모리 전용 노드를 소개한다.[5]기본 스크램블 콘텐츠 주소 지정 메모리 모델은 XMT에서 상속되었다. XMT2는 XMT에서처럼 4개 대신 2개의 추가 EMS 비트(전체/비어 있음 및 확장)를 사용한다.

스레드스톰4

스레드스톰4
Cray Threadstorm Architecture.png
일반 정보
시작됨2011
중단됨2015?
설계자크레파스
퍼포먼스
최대 CPU 클럭 속도500MHz
하이퍼트랜스포트 속도400 GT/s까지
건축과 분류
명령 집합MTA ISA
물리적 사양
코어스
  • 1
소켓
역사
전임자스레드스톰3

스레드스톰4("스프레드스톰 IV"[1] 및 "스프레드스톰 4.0"[nb 3]도 포함)는 128개의 하드웨어 스트림을 가진 64비트 싱글 코어 VLIW 배럴 프로세서(AMD Opteron 프로세서가 사용하는 1207핀 소켓 F와 호환됨)로, 이전인 스레드스톰3와 매우 유사하다.향상된 DDR2 지원 메모리 컨트롤러와 스트림당 8개의 트랩 레지스터가 추가된다.크레이는 기존 Cray XT5[nb 4] 인프라의 재사용과 DDR3보다 버스트 길이가 짧다는 이유로 DDR3 컨트롤러에 대해 의도적으로 반대 결정을 내렸다.[nb 5]더 긴 버스트 길이는 DDR3의 고속으로 보상될 수 있지만, 그것은 또한 더 많은 전력을 필요로 할 것이며, 크레용 엔지니어들은 이것을 피하고 싶어했다.[8]

전갈자리

크레이는 XMT를 출시한 후 스콜피오라고 불리는 스레드스톰3의 가능한 멀티 코어 변종을 조사했다.실행 파이프라인에 많은 하드웨어 스트림을 멀티플렉싱하고 모든 64비트 메모리 워드에 대해 추가 상태 비트를 구현하는 등 스레드스톰3의 대부분의 기능이 유지될 것이다.크레이는 후에 전갈피오를 버렸고, 그 프로젝트는 제조된 칩을 생산하지 않았다.[3]

미래

크레이가 공식적으로 XMT나 XMT2를 중단한 적이 없음에도 불구하고, 아마도 인텔의 Xeon[14] Xeon Phi와 같은 범용 프로세서와의 경쟁 때문에 전체 MTA 아키텍처뿐만 아니라 스레드스톰4에 대한 개발은 XMT2 이후에 조용히 종료되었다.2020년 현재 Cray는 온라인 카탈로그에서 XMT와 XMT2의 모든 고객 문서를 삭제했다.

사용자

Cray XMT2는 몇몇 연방 연구소와 학술 시설뿐만 아니라 일부 상업용 HPC 클라이언트(예: CSCS (64개의 스레드스톰4 CPU가 장착된 2TB 글로벌 메모리),[15] 노블리스 CAHPC)에 의해 구입되었다.[16]대부분의 XMT 및 XMT2 기반 시스템은 2020년까지 해체되었다.

메모들

  1. ^ Tera MTA ISA는 폐쇄적 소스로 제공되며, 이는 Threadstorm CPU에 사용된 ISA가 MTA ISA의 하위 집합이 될 수 없는 이전 MTA 시스템과의 역호환성을 주장하는 워크숍 발표 때문이다.
  2. ^ 지도급에서 가능한지는 알 수 없지만.
  3. ^ 물리적 패키지에.
  4. ^ DDR3 기반 Cray XT6는 XMT2보다 2년 앞선 2009년에 출시되었다.
  5. ^ Cray XMT는 대부분 단일 8바이트 워드 랜덤 액세스로 작동하고 128비트 메모리 채널을 가지고 있기 때문에 DDR2 버스트 길이 4로 통상적인 오버헤드는 56바이트다.버스트 길이가 8인 DDR3은 일반적인 오버헤드를 120바이트로 증가시킨다.

참조

  1. ^ a b c d e "Why is uRiKA So Fast on Graph-Oriented Queries?". YarcData Blog. November 14, 2012. Archived from the original on February 14, 2015.
  2. ^ a b c d Feo, John; Harper, David; Kahan, Simon; Konecny, Petr (2005). "Eldorado". Proceedings of the 2nd conference on Computing frontiers - CF '05. Ischia, Italy: ACM Press. p. 28. doi:10.1145/1062261.1062268. ISBN 978-1-59593-019-4.
  3. ^ a b c d e f Padua, David, ed. (2011). Encyclopedia of Parallel Computing. Boston, MA: Springer US. pp. 453–457, 2033. doi:10.1007/978-0-387-09766-4. ISBN 978-0-387-09765-7.
  4. ^ Mizell, David; Maschhoff, Kristyn (2009). "Early experiences with large-scale Cray XMT systems". 2009 IEEE International Symposium on Parallel & Distributed Processing. pp. 1–9. doi:10.1109/IPDPS.2009.5161108. ISBN 978-1-4244-3751-1. S2CID 1964042.
  5. ^ a b c d e f g h 몰트비, 제임스(2012년).Cray XMT 다중 처리 프로그래밍 모델"대규모 데이터 분석에 차세대 Cray XMT(UriKA) 사용"스위스 국립 슈퍼컴퓨팅 센터.
  6. ^ a b c d Cray XMT™ System Overview (S-2466-201) (PDF). Cray. 2011. Archived (PDF) from the original on December 3, 2012. Retrieved May 12, 2020.
  7. ^ a b c d Konecny, Petr (2011). Introducing the Cray XMT (PDF). Cray.
  8. ^ a b c d e Kopser A, Vollrath D (May 2011). Overview of the Next Generation Cray XMT (PDF). 53rd Cray User Group meeting, CUG 2011. Fairbanks, Alaska. Retrieved February 14, 2015.
  9. ^ Programming the Cray XMT (PDF). Cray. 2012. p. 14.
  10. ^ 카터, 래리 & 페오, 존 & 스네이블리, 앨런.(2002).Tera MTA의 성능프로그래밍 경험
  11. ^ Snavely, A.; Carter, L.; Boisseau, J.; Majumdar, A.; Kang Su Gatlin; Mitchell, N.; Feo, J.; Koblenz, B. (1998). "Multi-processor Performance on the Tera MTA". Proceedings of the IEEE/ACM SC98 Conference. Orlando, FL, USA: IEEE. p. 4. doi:10.1109/SC.1998.10049. ISBN 978-0-8186-8707-5. S2CID 8258396.
  12. ^ Cray XMT Brochure (PDF). Cray. 2005. Archived from the original (PDF) on December 24, 2016.
  13. ^ Nieplocha J, Marquez A, Petrini F, Chavarria-Miranda D (2007). "Unconventional Architectures for High-Throughput Sciences" (PDF). SciDAC Review. Pacific Northwest National Laboratory (5, Fall 2007): 46–50. Archived from the original (PDF) on February 14, 2015. Retrieved February 14, 2015.
  14. ^ "Cray CTO Connects The Dots On Future Interconnects". The Next Platform. 8 January 2016. Retrieved 2 May 2016. Steve Scott: You can do it just great with a Xeon. We are not planning on doing another ThreadStorm processor. But it does take some software technology that comes out of the ThreadStorm legacy.
  15. ^ "CSCS Matterhorn". Swiss National Supercomputing Centre.
  16. ^ Sorin, Nita (December 16, 2011). "Cray Delivers XMT Supercomputer Powered by Its Own 128 Thread CPUs". Softpedia News.