버스트 버퍼
Burst buffer고성능 컴퓨팅 환경에서 버스트 버퍼는 프런트 엔드 컴퓨팅 프로세스와 백엔드 스토리지 시스템 사이에 위치한 빠른 중간 스토리지 계층이다. 컴퓨팅 노드의 처리 속도와 스토리지 시스템의 입출력(I/O) 대역폭 사이의 성능 차이를 메운다. 버스트 버퍼는 NVRAM과 SSD와 같은 고성능 스토리지 디바이스 어레이에서 구축되는 경우가 많다. 일반적으로 백엔드 스토리지 시스템보다 1 ~ 2배 더 높은 I/O 대역폭을 제공한다.
사용 사례
버스트 버퍼는 슈퍼컴퓨터의 과학적 데이터 이동을 가속화한다. 예를 들어, 과학 애플리케이션의 수명 주기는 일반적으로 계산 단계와 I/O 단계를 번갈아 사용한다.[1] 즉, 각 컴퓨팅 라운드(즉, 컴퓨팅 단계) 후에 모든 컴퓨팅 프로세스가 백엔드 스토리지 시스템(즉, I/O 단계)에 중간 데이터를 동시에 쓰고, 그 다음에 또 다른 컴퓨팅 및 데이터 이동 작업이 이어진다. 버스트 버퍼의 파병으로, 프로세스 빠르게 계산 대신 느린 하드 디스크 기반 저장 시스템 쓰는 것의 한 라운드를 마친 후에 버퍼에 하고, 즉시 계산의 다음 라운드에 데이터를 백엔드 저장 시스템으로 이전하게 되기를 기다리지 않고 진행하고 데이터는 그때 asynchro[2][3]그들의 데이터를 쓸 수 있다.nously는 다음 컴퓨팅 라운드에서 동시에 버스트 버퍼에서 스토리지 시스템으로 플러시됨. 이러한 방식으로 데이터를 스토리지 시스템으로 이동하는 데 소요되는 긴 I/O 시간은 계산 시간 뒤에 숨겨진다. 또한 버스트 버퍼에서 데이터를 버퍼링하면 애플리케이션은 스토리지 시스템의 효율적인 대역폭 활용을 위해 백엔드 스토리지 시스템으로 데이터 트래픽을 재구성할 수 있는 충분한 기회를 제공한다.[4][5] 또 다른 일반적인 사용 사례에서 과학 애플리케이션은 느린 스토리지 시스템과 상호 작용하지 않고 중간 데이터를 버스트 버퍼 내부 및 외부로 스테이징할 수 있다. 스토리지 시스템을 우회하면 애플리케이션은 버스트 버퍼의 성능 이점을 대부분 실현할 수 있다.[6]
대표적인 버스트 버퍼 아키텍처
고성능 컴퓨팅 환경에는 노드 로컬 버스트 버퍼와 원격 공유 버스트 버퍼의 두 가지 대표적인 버스트 버퍼 아키텍처가 있다. 노드-로컬 버스트 버퍼 아키텍처에서 버스트 버퍼 스토리지는 개별 컴퓨팅 노드에 위치하기 때문에 애그리게이트 버스트 버퍼 대역폭은 컴퓨팅 노드 수에 따라 선형적으로 증가한다. 이러한 확장성 편익은 최근 문헌에 잘 설명되어 있다.[7][8][9][10] 또한 모든 버스트 버퍼에 분산된 데이터에 대한 글로벌 네임스페이스를 유지하기 위한 확장 가능한 메타데이터 관리 전략에 대한 수요도 수반된다.[11][12] 원격 공유 버스트 버퍼 아키텍처에서 버스트 버퍼 스토리지는 컴퓨팅 노드와 백엔드 스토리지 시스템 사이에 위치한 더 적은 수의 I/O 노드에 상주한다. 컴퓨팅 노드와 버스트 버퍼 사이의 데이터 이동은 네트워크를 통해 이루어져야 한다. 버스트 버퍼를 I/O 노드에 배치하면 버스트 버퍼 서비스의 독립적 개발, 배포 및 유지보수가 용이하다. 따라서 DataWarp, Infinite Memory Engine과 같이 이러한 유형의 버스트 버퍼를 관리하기 위해 잘 알려진 몇몇 상용 소프트웨어 제품이 개발되었다. 슈퍼컴퓨터는 컴퓨팅 노드의 NVRAM, 전용 I/O 노드의 SSD 등 여러 이기종 버스트 버퍼 레이어가 구축됨에 따라 여러 스토리지 레이어에 걸쳐 데이터를 투명하게 이동할 필요가 있다.[13][14][15]
버스트 버퍼를 사용하여 배포된 슈퍼컴퓨터
그 중요성 때문에, 버스트 버퍼가 리더급 슈퍼컴퓨터에 널리 배치되었다. 예를 들어,node-local 폭발 버퍼 DASH슈퍼 컴퓨터에 도쿄 기술 학원, 세타 오로라 슈퍼 컴퓨터의 아르곤 국립 연구소에서, 오크리지 국립 연구소에서 정상 회담 슈퍼 컴퓨터, 그리고 로렌스 Live에서 시에라 슈퍼 컴퓨터에서 샌 디에이고 슈퍼 컴퓨터 Center,[16]쓰바메 슈퍼 컴퓨터에 설치 되었다.rmo국립연구소 등 원격 공유 버스트 버퍼는 광저우에 있는 국립 슈퍼컴퓨터센터의 톈허-2 슈퍼컴퓨터, 로스앨러모스 국립연구소의 트리니티 슈퍼컴퓨터, 로렌스 버클리 국립연구소의 코리 슈퍼컴퓨터, 에든버러 병렬컴퓨팅 센터의 ARCH2 슈퍼컴퓨터에 의해 채택되었다.
참조
- ^ Liu, Zhuo; Lofstead, Jay; Wang, Teng; Yu, Weikuan (September 2013). "A Case of System-Wide Power Management for Scientific Applications". 2013 IEEE International Conference on Cluster Computing (CLUSTER). IEEE. pp. 1–8. doi:10.1109/CLUSTER.2013.6702681. ISBN 978-1-4799-0898-1. S2CID 6156410.
- ^ Wang, Teng; Oral, Sarp; Wang, Yandong; Settlemyer, Brad; Atchley, Scott; Yu, Weikuan (October 2014). "BurstMem: A High-Performance Burst Buffer System for Scientific Applications". 2014 IEEE International Conference on Big Data (Big Data). IEEE. pp. 71–79. doi:10.1109/BigData.2014.7004215. ISBN 978-1-4799-5666-1. S2CID 16764901.
- ^ Liu, Ning; Cope, Jason; Carns, Philip; Carothers, Christopher; Ross, Robert; Grider, Gary; Crume, Adam; Maltzahn, Carlos (April 2012). "On the Role of Burst Buffers in Leadership-Class Storage systems". 012 IEEE 28th Symposium on Mass Storage Systems and Technologies (MSST). IEEE. pp. 1–11. doi:10.1109/MSST.2012.6232369. ISBN 978-1-4673-1747-4. S2CID 9676920.
- ^ Wang, Teng; Oral, Sarp; Pritchard, Michael; Wang, Bin; Yu, Weikuan (September 2015). "TRIO: Burst Buffer Based I/O Orchestration". 2015 IEEE International Conference on Cluster Computing. IEEE. pp. 194–203. doi:10.1109/CLUSTER.2015.38. ISBN 978-1-4673-6598-7. OSTI 1265517. S2CID 12482308.
- ^ Kougkas, Anthony; Dorier, Matthieu; Latham, Rob; Ross, Rob; Sun, Xian-He (March 2017). "Leveraging Burst Buffer Coordination to Prevent I/O Interference". 2016 IEEE 12th International Conference on e-Science (E-Science). IEEE. pp. 371–380. doi:10.1109/eScience.2016.7870922. ISBN 978-1-5090-4273-9. OSTI 1366308. S2CID 14514395.
- ^ Wang, Teng; Mohror, Kathryn; Moody, Adam; Sato, Kento; Yu, Weikuan (November 2016). "An Ephemeral Burst-Buffer File System for Scientific Applications". SC16: International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE. pp. 807–818. doi:10.1109/SC.2016.68. ISBN 978-1-4673-8815-3. S2CID 260667.
- ^ "BurstFS: A Distributed Burst Buffer File System for Scientific Applications" (PDF). November 2015.
- ^ Moody, Adam; Bronevetsky, Greg; Mohror, Kathryn; Supinski, Bronis R. de (November 2010). "Design, Modeling, and Evaluation of a Scalable Multi-level Checkpointing System". 2010 ACM/IEEE International Conference for High Performance Computing, Networking, Storage and Analysis. ACM. pp. 1–11. doi:10.1109/SC.2010.18. ISBN 978-1-4244-7557-5. S2CID 7352923.
- ^ "A 1 PB/s File System to Checkpoint Three Million MPI Tasks" (PDF). ACM. June 2013.
- ^ Zhao, Dongfang; Zhang, Zhao; Zhou, Xiaobing; Li, Tonglin; Wang, Ke; Kimpe, Dries; Carns, Philip; Ross, Robert; Raicu, Ioan (October 2014). "FusionFS: Toward supporting data-intensive scientific applications on extreme-scale high-performance computing systems". 2014 IEEE International Conference on Big Data (Big Data). IEEE. pp. 61–70. doi:10.1109/BigData.2014.7004214. ISBN 978-1-4799-5666-1. S2CID 5288472.
- ^ Wang, Teng; Moody, Adam; Zhu, Yue; Mohror, Kathryn; Sato, Kento; Islam, Tanzima; Yu, Weikuan (May 2017). "MetaKV: A Key-Value Store for Metadata Management of Distributed Burst Buffers". 2017 IEEE International Parallel and Distributed Processing Symposium (IPDPS). IEEE. pp. 1174–1183. doi:10.1109/IPDPS.2017.39. ISBN 978-1-5386-3914-6. S2CID 8148699.
- ^ Li, Tonglin; Zhou, Xiaobing; Brandstatter, Kevin; Zhao, Dongfang; Wang, Ke; Rajendran, Anupam; Zhang, Zhao; Raicu, Ioan (May 2013). "ZHT: A Light-Weight Reliable Persistent Dynamic Scalable Zero-Hop Distributed Hash Table". 2013 IEEE 27th International Symposium on Parallel and Distributed Processing. IEEE. pp. 775–787. CiteSeerX 10.1.1.365.7329. doi:10.1109/IPDPS.2013.110. ISBN 978-1-4673-6066-1. S2CID 16614868.
- ^ Wang, Teng; Byna, Suren; Dong, Bin; Tang, Houjun (Sep 2018). "UniviStor: Integrated Hierarchical and Distributed Storage for HPC". 2018 IEEE International Conference on Cluster Computing (CLUSTER). IEEE. pp. 134–144. doi:10.1109/CLUSTER.2018.00025. ISBN 978-1-5386-8319-4. S2CID 53235423.
- ^ "Hermes: a heterogeneous-aware multi-tiered distributed I/O buffering system". ACM. June 2018. doi:10.1145/3208040.3208059. S2CID 47019714.
{{cite journal}}: Cite 저널은 필요로 한다.journal=(도움말) - ^ Tang, Houjun; Byna, Suren; Tessier, Francois; Wang, Teng; Dong, Bin; Mu, Jingqing; Koziol, Quincey; Soumagne, Jerome; Vishwanath, Venkatram; Liu, Jialin; Warren, Richard (May 2018). "Toward Scalable and Asynchronous Object-centric Data Management for HPC". 2018 18th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID). IEEE. pp. 113–122. doi:10.1109/CCGRID.2018.00026. ISBN 978-1-5386-5815-4. S2CID 13811397.
- ^ "DASH: a Recipe for a Flash-based Data Intensive Supercomputer" (PDF). ACM. November 2010.
외부 링크
- Cray가 개발한 생산 버스트 버퍼 시스템인 Cray DataWarp.
- 데이터 다이렉트 네트워크가 개발한 생산 버스트 버퍼 시스템인 무한 메모리 엔진.
- 아르곤느 국립 연구소에서 호스팅하는 슈퍼컴퓨터 세타 슈퍼컴퓨터.
- 서밋 슈퍼컴퓨터, 오크리지 국립 연구소에서 주최하는 슈퍼컴퓨터.
- 시에라 슈퍼컴퓨터, 로렌스 국립 연구소에서 주최하는 슈퍼컴퓨터.
- 로스 알라모스 국립 연구소에서 호스팅하는 슈퍼컴퓨터 트리니티 슈퍼컴퓨터.
- 로런스 버클리 국립 연구소에서 주최하는 슈퍼컴퓨터 코리 슈퍼컴퓨터.
