안정성, 가용성 및 서비스 가능성

Reliability, availability and serviceability

안정성, 가용성서비스 가능성(RAS)은 안정성, 가용성 유지관리성(RAM)이라고도 하며 안정성 엔지니어링, 고가용성 및 서비스 가능성 설계를 포함하는 컴퓨터 하드웨어 엔지니어링 용어다.이 문구는 원래 국제 비즈니스 머신(IBM)메인프레임 컴퓨터의 견고함을 설명하는 용어로 사용하였다.[1][2]

더 높은 수준의 RAS로 설계된 컴퓨터는 데이터 무결성을 보호하고 장애 없이 장기간[3] 사용할 수 있도록 도와주는 많은 기능을 가지고 있다. 이 데이터 무결성과 가동 시간은 메인프레임과 내결함성 시스템의 특별한 판매 지점이다.

정의들

RAS는 하드웨어 지향 용어로 시작되었지만, 시스템 사고는 신뢰성-가용성-서비스성의 개념을 소프트웨어를 포함한 일반적인 시스템으로 확장했다.[4]

  • 신뢰성은 시스템이 주어진 시간 t까지 정확한 출력을 산출할 확률로 정의할 수 있다.[5]하드웨어 고장을 방지, 감지 및 복구하는 데 도움이 되는 기능을 통해 안정성이 향상된다.신뢰할 수 있는 시스템은 자동으로 계속되지 않으며 수정되지 않은 손상된 데이터를 포함하는 결과를 제공하지 않는다.대신 일시적인(부드러운) 또는 간헐적인 오류에 대한 작업을 재시도하거나, 수정할 수 없는 오류에 대한 작업을 재시도하거나, 고장을 격리하여 더 높은 수준의 복구 메커니즘(중복적인 교체 하드웨어 등으로 페일오버할 수 있음)에 보고하거나, 영향을 받는 p를 중지하여 손상을 감지하고, 가능하면 이를 시정한다.로그램이나 전체 시스템 그리고 부패를 보고하는 것.신뢰성은 신뢰도 = exp(-t/MTBF)와 함께 평균 고장 시간 간(MTBF) 측면에서 특성화할 수 있다.[5]
  • 가용성은 특정 시간에 시스템이 작동될 확률, 즉 장치가 작동해야 하는 총 시간의 백분율로 실제로 작동하는 시간을 의미한다.고가용성 시스템은 매년 몇 분 또는 몇 시간의 다운타임으로 가용성을 보고할 수 있다.가용성 기능은 장애가 발생하더라도 시스템이 계속 작동할 수 있도록 한다.가용성이 높은 시스템은 오작동 부분을 비활성화하고 감소된 용량으로 계속 작동할 수 있다.이와는 대조적으로, 성능이 떨어지는 시스템은 충돌하여 완전히 작동하지 않을 수 있다.가용성은 일반적으로 시스템을 사용할 수 있을 것으로 예상되는 시간의 백분율로 주어진다(예: 99.999%("5nines").
  • 사용성 또는 유지관리성은 시스템을 수리하거나 유지보수할 수 있는 단순성과 속도로서, 고장난 시스템을 수리하는 시간이 길어지면 가용성이 감소한다.서비스 가능성은 문제가 발생했을 때 시스템을 쉽게 진단하는 다양한 방법을 포함한다.고장을 조기에 감지하면 시스템 다운타임을 줄이거나 피할 수 있다.예를 들어, 일부 기업 시스템은 시스템 고장이 발생할 때 (인간의 개입 없이) 서비스 센터에 자동으로 전화를 걸 수 있다.전통적인 초점은 가능한 한 정상 작동에 지장을 주지 않고 올바른 수리에 초점을 맞춰왔다.

신뢰성과 가용성의 구분: 신뢰성은 데이터 손상을 방지하는 등 시스템이 올바르게 작동하는 능력을 측정하는 반면 가용성은 시스템이 올바르게 작동하지 않더라도 얼마나 자주 사용할 수 있는지를 측정한다.예를 들어, 서버는 영원히 실행되므로 이상적인 가용성을 가질 수 있지만 데이터 손상이 빈번하게 발생하여 신뢰성이 떨어질 수 있다.[6]

고장 유형

신체적 결함은 일시적이거나 영구적일 수 있다.

  • 영구적인 고장은 지속적인 오류를 초래하며 일반적으로 금속 전기화 또는 유전체 파괴와 같은 일부 물리적 고장에 기인한다.
  • 일시적인 고장에는 일시적 고장 및 간헐적 고장이 포함된다.
    • 과도(예: 소프트) 고장은 독립적인 일회성 오류를 초래하며 영구적인 하드웨어 고장에 기인하지 않는다. 예로는 메모리 비트를 플립하는 알파 입자, 전자기 노이즈 또는 전원 공급 변동을 들 수 있다.
    • 간헐적 고장은 약한 시스템 구성 요소(예: 회로 파라미터 저하)로 인해 발생하며, 이로 인해 반복될 가능성이 있는 오류가 발생한다.[5]

실패 응답

과도 및 간헐적 고장은 일반적으로 ECC 코드 또는 지침 재생(아래 참조)에 의한 감지 및 보정에 의해 처리될 수 있다.영구적인 고장은 수정 불가능한 오류를 야기할 것이며, 이는 프로세서 예비와 같은 중복 하드웨어에 의해 대체되거나 수정 불가능한 오류를 높은 수준의 복구 메커니즘에 전달함으로써 처리할 수 있다.성공적으로 보정된 간헐적 고장도 운영체제(OS)에 보고하여 예측고장 분석을 위한 정보를 제공할 수 있다.

하드웨어 기능

RAS 개선을 위한 하드웨어 기능 예시에는 하위시스템별로 열거된 다음이 포함된다.

내결함성 설계RAS시스템 충돌이 재앙이 될 수 있는 증권 거래소나 항공 교통 통제와 같은 응용 프로그램을 위해 컴퓨터의 정의 기능이 되도록 함으로써 아이디어를 확장시켰다.안정성을 위해 잠금 단계에서 실행되는 중복 구성요소를 갖는 경향이 있는 내결함성 컴퓨터(예: Tandem Computers and Stratus Technologies 참조)는 높은 비용으로 인해 인기가 낮아졌다.컴퓨터 클러스터와 같은 분산 컴퓨팅 기술을 사용하는 고가용성 시스템은 종종 더 저렴한 대안으로 사용된다.[citation needed]

참고 항목

참조

  1. ^ Siewiorek, Daniel P.; Swarz, Robert S. (1998). Reliable computer systems: design and evaluation. p. 508."RAS(신뢰성, 접근성 및 서비스 가능성)라는 약어는 복구 관리의 하위집합 개념을 대체하는 것으로 IBM에서 널리 받아들여졌다."
  2. ^ Data Processing Division, International Business Machines Corp., 1970 (1970). "Data processor, Issues 13-17". {{cite journal}}: Cite 저널 요구 (도움말)CS1 maint: 복수 이름: 작성자 목록(링크)- "다른 시스템/370 사용자가 경험하는 신뢰도[...]는 RAS(신뢰성-Availability-Serviceability)에 기반한 전략의 결과"
  3. ^ Siewert, Sam (Mar 2005). "Big iron lessons, Part 2: Reliability and availability: What's the difference?" (PDF).
  4. ^ 예를 들자면 Laros 3세, 제임스 H.(2012년).에너지 절약형 고성능 컴퓨팅:측정 및 동조.SpringerBriefs 컴퓨터 과학으로.(알. 스프링거 과학&비즈니스 매체이다. 페이지의 주 8. 아이 에스비엔 9781447144922.2014-07-08 Retrieved.역사적으로 신뢰성 가용성 및 사용성(RAS)시스템 일반적으로mainframe 계급 시스템으로 상인들 받았습니다. 그리고 그들의 개개의 잠재력에 시스템의 모든 하드웨어와 소프트웨어 요소들을 감시의 관리 목적을 위한 소프트웨어와 하드웨어의 RAS시스템이어야 한다 체계적인 노조[...]제공되었다.
  5. ^ a b c E.J. McClusky & S. Mitra (2004). "Fault Tolerance" in Computer Science Handbook 2ed. ed. A.B. Tucker. CRC Press.
  6. ^ Spencer, Richard H.; Floyd, Raymond E. (2011). Perspectives on Engineering. Bloomington, Indiana: AuthorHouse. p. 33. ISBN 9781463410919. Retrieved 2014-05-05. [...] a system server may have excellent availability (runs forever), but continues to have frequent data corruption (not very reliable).
  7. ^ Daniel Lipetz & Eric Schwarz (2011). "Self Checking in Current Floating-Point Units. Proceedings of 2011 20th IEEE Symposium on Computer Arithmetic" (PDF). Archived from the original (PDF) on 2012-01-24.
  8. ^ L. Spainhower & T. A. Gregg (September 1999). "IBM S/390 parallel enterprise server G5 fault tolerance: a historical perspective. IBM Journal of Research and Development. Volume 43 Issue 5" (PDF). CiteSeerX 10.1.1.85.5994.
  9. ^ "Intel Instruction Replay Technology Detects and Corrects Errors". Retrieved 2012-12-07.
  10. ^ HP. "Memory technology evolution: an overview of system memory technologies Technology brief, 9th edition (page 8)" (PDF). Archived from the original (PDF) on 2011-07-24.
  11. ^ Intel Corp. (2003). "PCI Express Provides Enterprise Reliability, Availability, and Serviceability".
  12. ^ "Best Practices for Data Reliability with Oracle VM Server for SPARC" (PDF). Retrieved 2013-07-02.
  13. ^ "IBM Power Redundancy considerations". Retrieved 2013-07-02.

외부 링크