안정성, 가용성 및 서비스 가능성

안정성, 가용성 및 서비스 가능성(RAS)은 안정성, 가용성 및 유지관리성(RAM)이라고도 하며 안정성 엔지니어링, 고가용성 및 서비스 가능성 설계를 포함하는 컴퓨터 하드웨어 엔지니어링 용어다.이 문구는 원래 국제 비즈니스 머신(IBM)이 메인프레임 컴퓨터의 견고함을 설명하는 용어로 사용하였다.^[1]^[2]

더 높은 수준의 RAS로 설계된 컴퓨터는 데이터 무결성을 보호하고 장애 없이 장기간^[3] 사용할 수 있도록 도와주는 많은 기능을 가지고 있다. 이 데이터 무결성과 가동 시간은 메인프레임과 내결함성 시스템의 특별한 판매 지점이다.

정의들

RAS는 하드웨어 지향 용어로 시작되었지만, 시스템 사고는 신뢰성-가용성-서비스성의 개념을 소프트웨어를 포함한 일반적인 시스템으로 확장했다.^[4]

신뢰성은 시스템이 주어진 시간 t까지 정확한 출력을 산출할 확률로 정의할 수 있다.^[5]하드웨어 고장을 방지, 감지 및 복구하는 데 도움이 되는 기능을 통해 안정성이 향상된다.신뢰할 수 있는 시스템은 자동으로 계속되지 않으며 수정되지 않은 손상된 데이터를 포함하는 결과를 제공하지 않는다.대신 일시적인(부드러운) 또는 간헐적인 오류에 대한 작업을 재시도하거나, 수정할 수 없는 오류에 대한 작업을 재시도하거나, 고장을 격리하여 더 높은 수준의 복구 메커니즘(중복적인 교체 하드웨어 등으로 페일오버할 수 있음)에 보고하거나, 영향을 받는 p를 중지하여 손상을 감지하고, 가능하면 이를 시정한다.로그램이나 전체 시스템 그리고 부패를 보고하는 것.신뢰성은 신뢰도 = exp(-t/MTBF)와 함께 평균 고장 시간 간(MTBF) 측면에서 특성화할 수 있다.^[5]
가용성은 특정 시간에 시스템이 작동될 확률, 즉 장치가 작동해야 하는 총 시간의 백분율로 실제로 작동하는 시간을 의미한다.고가용성 시스템은 매년 몇 분 또는 몇 시간의 다운타임으로 가용성을 보고할 수 있다.가용성 기능은 장애가 발생하더라도 시스템이 계속 작동할 수 있도록 한다.가용성이 높은 시스템은 오작동 부분을 비활성화하고 감소된 용량으로 계속 작동할 수 있다.이와는 대조적으로, 성능이 떨어지는 시스템은 충돌하여 완전히 작동하지 않을 수 있다.가용성은 일반적으로 시스템을 사용할 수 있을 것으로 예상되는 시간의 백분율로 주어진다(예: 99.999%("5nines").
사용성 또는 유지관리성은 시스템을 수리하거나 유지보수할 수 있는 단순성과 속도로서, 고장난 시스템을 수리하는 시간이 길어지면 가용성이 감소한다.서비스 가능성은 문제가 발생했을 때 시스템을 쉽게 진단하는 다양한 방법을 포함한다.고장을 조기에 감지하면 시스템 다운타임을 줄이거나 피할 수 있다.예를 들어, 일부 기업 시스템은 시스템 고장이 발생할 때 (인간의 개입 없이) 서비스 센터에 자동으로 전화를 걸 수 있다.전통적인 초점은 가능한 한 정상 작동에 지장을 주지 않고 올바른 수리에 초점을 맞춰왔다.

신뢰성과 가용성의 구분: 신뢰성은 데이터 손상을 방지하는 등 시스템이 올바르게 작동하는 능력을 측정하는 반면 가용성은 시스템이 올바르게 작동하지 않더라도 얼마나 자주 사용할 수 있는지를 측정한다.예를 들어, 서버는 영원히 실행되므로 이상적인 가용성을 가질 수 있지만 데이터 손상이 빈번하게 발생하여 신뢰성이 떨어질 수 있다.^[6]

고장 유형

신체적 결함은 일시적이거나 영구적일 수 있다.

영구적인 고장은 지속적인 오류를 초래하며 일반적으로 금속 전기화 또는 유전체 파괴와 같은 일부 물리적 고장에 기인한다.
일시적인 고장에는 일시적 고장 및 간헐적 고장이 포함된다.
- 과도(예: 소프트) 고장은 독립적인 일회성 오류를 초래하며 영구적인 하드웨어 고장에 기인하지 않는다. 예로는 메모리 비트를 플립하는 알파 입자, 전자기 노이즈 또는 전원 공급 변동을 들 수 있다.
- 간헐적 고장은 약한 시스템 구성 요소(예: 회로 파라미터 저하)로 인해 발생하며, 이로 인해 반복될 가능성이 있는 오류가 발생한다.^[5]

실패 응답

과도 및 간헐적 고장은 일반적으로 ECC 코드 또는 지침 재생(아래 참조)에 의한 감지 및 보정에 의해 처리될 수 있다.영구적인 고장은 수정 불가능한 오류를 야기할 것이며, 이는 프로세서 예비와 같은 중복 하드웨어에 의해 대체되거나 수정 불가능한 오류를 높은 수준의 복구 메커니즘에 전달함으로써 처리할 수 있다.성공적으로 보정된 간헐적 고장도 운영체제(OS)에 보고하여 예측고장 분석을 위한 정보를 제공할 수 있다.

하드웨어 기능

RAS 개선을 위한 하드웨어 기능 예시에는 하위시스템별로 열거된 다음이 포함된다.

프로세서:
- 지침 재시도(예: IBM 메인프레임의 대체 프로세서 복구 또는 ^[8]Itanium 시스템의 "Instructure Replay Technology")를 통한 프로세서 명령 오류 감지(예^[7]:^[9] 결과의 잔류물 검사)
- 마스터 체커 또는 투표 스키마를 수행하기 위해 잠금 단계에서 실행되는 프로세서
- OS에 오류를 보고하기 위한 Machine Check Architecture 및 ACPI Platform Error Interface
메모리:
- 패리티 또는 ECC(단일 장치 보정 포함) 메모리 구성 요소(캐시 및 메인 메모리) 보호, 잘못된 캐시 라인 비활성화, 메모리 스크러빙, 메모리 스페어링, 메모리 미러링,^[10] 잘못된 페이지 오프라이닝, 중복 비트 스티어링, 중복된 독립 메모리(RAIM)의 중복 어레이
I/O:
- 데이터 전송/재시도 및 데이터 스토리지(예: PCI Express(PCIE) 고급 오류 보고(AER),^[11] 중복 I/O 경로에 대한 주기적 이중화 체크섬.
저장:
- 하드 디스크 드라이브 및 솔리드 스테이트 드라이브 스토리지를 위한 RAID 구성
- 충돌 후 파일 복구를 위한 파일 시스템 저널링
- 데이터 및 메타데이터에 대한 체크섬 및 백그라운드 스크러빙.
- 하드 디스크 드라이브 및 솔리드 스테이트 드라이브를 위한 S.M.A.R.T. 기술.
전원/냉각:
- 단일 고장 지점(예: 전원 공급 장치)을 방지하기 위해 구성 요소 복제
- 클럭 주파수, 온도, 전압, 진동의 지정된 작동 범위에 대한 시스템 과설계.
- 온도가 사양을 벗어날 때 작동 주파수를 조절하는 온도 센서
- 서지 보호기, 무정전 전원 공급 장치, 보조 전원.
시스템:
- CPU, RAM, 하드 디스크 드라이브 및 솔리드 스테이트 드라이브와 같은 구성 요소의 핫 스왑.
- 어떤 간헐적인 수정 가능한 오류가 결국 하드 수정 불가능한 오류로 이어질지 예측하는 예측 실패 분석.
- 하나의 큰 시스템이 여러 개의 작은 시스템 역할을 할 수 있도록 컴퓨터 구성요소의 분할/도메인.
- 운영 체제 소프트웨어 장애의 심각도를 줄이는 가상 시스템.
- 게스트 가상 시스템에 가상 I/O를 제공하기 위한 중복 I/O 도메인^[12] 또는 I/O 파티션^[13].
- 하드웨어 및 소프트웨어의 완벽한 이중화를 위한 장애 조치 기능을 갖춘 컴퓨터 클러스터링 기능.
- 커널 소프트웨어 업데이트(예: Linux에서 Ksplice)를 위해 시스템을 재부팅할 필요가 없도록 동적 소프트웨어 업데이트.
- 서비스 가능성을 위한 독립적인 관리 프로세서: 원격 모니터링, 알림 및 제어

내결함성 설계는 RAS를 시스템 충돌이 재앙이 될 수 있는 증권 거래소나 항공 교통 통제와 같은 응용 프로그램을 위해 컴퓨터의 정의 기능이 되도록 함으로써 아이디어를 확장시켰다.안정성을 위해 잠금 단계에서 실행되는 중복 구성요소를 갖는 경향이 있는 내결함성 컴퓨터(예: Tandem Computers and Stratus Technologies 참조)는 높은 비용으로 인해 인기가 낮아졌다.컴퓨터 클러스터와 같은 분산 컴퓨팅 기술을 사용하는 고가용성 시스템은 종종 더 저렴한 대안으로 사용된다.^{[citation needed]}

참고 항목

참조

^ Siewiorek, Daniel P.; Swarz, Robert S. (1998). Reliable computer systems: design and evaluation. p. 508."RAS(신뢰성, 접근성 및 서비스 가능성)라는 약어는 복구 관리의 하위집합 개념을 대체하는 것으로 IBM에서 널리 받아들여졌다."
^ Data Processing Division, International Business Machines Corp., 1970 (1970). "Data processor, Issues 13-17". {{cite journal}}: Cite 저널 요구 (도움말)CS1 maint: 복수 이름: 작성자 목록(링크)- "다른 시스템/370 사용자가 경험하는 신뢰도[...]는 RAS(신뢰성-Availability-Serviceability)에 기반한 전략의 결과"
^ Siewert, Sam (Mar 2005). "Big iron lessons, Part 2: Reliability and availability: What's the difference?" (PDF).
^ 예를 들자면 Laros 3세, 제임스 H.(2012년).에너지 절약형 고성능 컴퓨팅:측정 및 동조.SpringerBriefs 컴퓨터 과학으로.(알. 스프링거 과학&비즈니스 매체이다. 페이지의 주 8. 아이 에스비엔 9781447144922.2014-07-08 Retrieved.역사적으로 신뢰성 가용성 및 사용성(RAS)시스템 일반적으로mainframe 계급 시스템으로 상인들 받았습니다. 그리고 그들의 개개의 잠재력에 시스템의 모든 하드웨어와 소프트웨어 요소들을 감시의 관리 목적을 위한 소프트웨어와 하드웨어의 RAS시스템이어야 한다 체계적인 노조[...]제공되었다.
^ ^a ^b ^c E.J. McClusky & S. Mitra (2004). "Fault Tolerance" in Computer Science Handbook 2ed. ed. A.B. Tucker. CRC Press.
^ Spencer, Richard H.; Floyd, Raymond E. (2011). Perspectives on Engineering. Bloomington, Indiana: AuthorHouse. p. 33. ISBN 9781463410919. Retrieved 2014-05-05. [...] a system server may have excellent availability (runs forever), but continues to have frequent data corruption (not very reliable).
^ Daniel Lipetz & Eric Schwarz (2011). "Self Checking in Current Floating-Point Units. Proceedings of 2011 20th IEEE Symposium on Computer Arithmetic" (PDF). Archived from the original (PDF) on 2012-01-24.
^ L. Spainhower & T. A. Gregg (September 1999). "IBM S/390 parallel enterprise server G5 fault tolerance: a historical perspective. IBM Journal of Research and Development. Volume 43 Issue 5" (PDF). CiteSeerX 10.1.1.85.5994.
^ "Intel Instruction Replay Technology Detects and Corrects Errors". Retrieved 2012-12-07.
^ HP. "Memory technology evolution: an overview of system memory technologies Technology brief, 9th edition (page 8)" (PDF). Archived from the original (PDF) on 2011-07-24.
^ Intel Corp. (2003). "PCI Express Provides Enterprise Reliability, Availability, and Serviceability".
^ "Best Practices for Data Reliability with Oracle VM Server for SPARC" (PDF). Retrieved 2013-07-02.
^ "IBM Power Redundancy considerations". Retrieved 2013-07-02.

외부 링크

Itanium 신뢰성, 가용성 및 서비스 가능성(RAS) 기능 Itanium 프로세서의 일반 및 특정 기능에 대한 RAS 기능 개요.
POWER7 System RAS 전원 시스템 안정성, 가용성 및 서비스 가능성의 주요 측면 다니엘 헨더슨, 짐 미첼, 조지 아렌스. 2012년 2월 10일 Power 프로세서의 RAS 기능 개요.
인텔 Always-on Enterprise(부록 B) 및 Intel Xeon Processor E7 제품군의 안정성 , 가용성 및 서비스 가능성 : 차세대 RAS 서버 지원 흰 종이.Xeon 프로세서의 RAS 기능 개요
zEnterprise 196 시스템 개요. IBM Corporation(10장) IBM z196 프로세서와 zEnterprise 196 서버의 RAS 기능 개요
오라클 SPARC M5-32 서버의 SPARC M5-32 서버 RAS 기능을 통해 애플리케이션 안정성 및 가용성 극대화

[1] Siewiorek, Daniel P.; Swarz, Robert S. (1998). Reliable computer systems: design and evaluation. p. 508."RAS(신뢰성, 접근성 및 서비스 가능성)라는 약어는 복구 관리의 하위집합 개념을 대체하는 것으로 IBM에서 널리 받아들여졌다."

[2] Data Processing Division, International Business Machines Corp., 1970 (1970). "Data processor, Issues 13-17". {{cite journal}}: Cite 저널 요구 (도움말)CS1 maint: 복수 이름: 작성자 목록(링크)- "다른 시스템/370 사용자가 경험하는 신뢰도[...]는 RAS(신뢰성-Availability-Serviceability)에 기반한 전략의 결과"

[3] Siewert, Sam (Mar 2005). "Big iron lessons, Part 2: Reliability and availability: What's the difference?" (PDF).

[4] 예를 들자면 Laros 3세, 제임스 H.(2012년).에너지 절약형 고성능 컴퓨팅:측정 및 동조.SpringerBriefs 컴퓨터 과학으로.(알. 스프링거 과학&비즈니스 매체이다. 페이지의 주 8. 아이 에스비엔 9781447144922.2014-07-08 Retrieved.역사적으로 신뢰성 가용성 및 사용성(RAS)시스템 일반적으로mainframe 계급 시스템으로 상인들 받았습니다. 그리고 그들의 개개의 잠재력에 시스템의 모든 하드웨어와 소프트웨어 요소들을 감시의 관리 목적을 위한 소프트웨어와 하드웨어의 RAS시스템이어야 한다 체계적인 노조[...]제공되었다.

[McClusky-5] E.J. McClusky & S. Mitra (2004). "Fault Tolerance" in Computer Science Handbook 2ed. ed. A.B. Tucker. CRC Press.

[6] Spencer, Richard H.; Floyd, Raymond E. (2011). Perspectives on Engineering. Bloomington, Indiana: AuthorHouse. p. 33. ISBN 9781463410919. Retrieved 2014-05-05. [...] a system server may have excellent availability (runs forever), but continues to have frequent data corruption (not very reliable).

[7] Daniel Lipetz & Eric Schwarz (2011). "Self Checking in Current Floating-Point Units. Proceedings of 2011 20th IEEE Symposium on Computer Arithmetic" (PDF). Archived from the original (PDF) on 2012-01-24.

[8] L. Spainhower & T. A. Gregg (September 1999). "IBM S/390 parallel enterprise server G5 fault tolerance: a historical perspective. IBM Journal of Research and Development. Volume 43 Issue 5" (PDF). CiteSeerX 10.1.1.85.5994.

[9] "Intel Instruction Replay Technology Detects and Corrects Errors". Retrieved 2012-12-07.

[10] HP. "Memory technology evolution: an overview of system memory technologies Technology brief, 9th edition (page 8)" (PDF). Archived from the original (PDF) on 2011-07-24.

[11] Intel Corp. (2003). "PCI Express Provides Enterprise Reliability, Availability, and Serviceability".

[12] "Best Practices for Data Reliability with Oracle VM Server for SPARC" (PDF). Retrieved 2013-07-02.

[13] "IBM Power Redundancy considerations". Retrieved 2013-07-02.

[1]

[2]

[3]

[4]

[5]

[6]

[8]

[7]

[9]

[10]

[11]

[12]

[13]

Search