매우 큰 데이터베이스

Very large database

매우 데이터베이스([1]원래는 매우 데이터 베이스로 작성됨) 또는 VLDB는 전문화된 아키텍처, 관리, 처리 및 유지보수 방법론을 요구할 수 있을 정도로 매우 많은 양의 데이터를 포함하는 데이터베이스다.[2][3][4][5]

정의

매우 크고 모호한 형용사는 광범위하고 주관적인 해석을 허용하지만, 측정 기준과 임계값을 정의하려는 시도가 있었다.초기 메트릭스는 데이터베이스 정규화를 통한 표준 형태의 데이터베이스 크기 또는 백업과 같은 전체 데이터베이스 작업 시간이었다.기술 향상은 매우 크다고 여겨지는 것을 지속적으로 변화시켰다.[6][7]

한 정의는 데이터베이스가 "기회의 창 내에서 유지되기에는 너무 큰 데이터베이스, 즉 데이터베이스가 조용한 시간"일 때 VLDB가 되었다는 것을 시사했다.[8]

VLDB 데이터베이스의 크기

인용할 수 있는 데이터의 절대량은 없다.예를 들어, 데이터가 1TB 이상인 데이터베이스를 VLDB로 간주한다고 말할 수 없다.컴퓨터 처리, 저장 및 백업 방법이 더 많은 양의 데이터를 더 잘 처리할 수 있게 됨에 따라 이 절대 데이터 양은 시간이 지남에 따라 달라졌다.[5]즉, VLDB 문제는 1TB가 접근하면 나타나기 시작할 수 있으며,[8][9] 30TB가 초과되었을 가능성이 높다.[10]

VLDB 과제

VLDB가 문제를 제기할 수 있는 주요 영역에는 구성, 스토리지, 성능, 유지보수, 관리, 가용성 및 서버 리소스가 포함된다.[11]: 11

배열

VLDB 영역에서 발생하는 문제를 줄이거나 줄이려면 VLDB 영역에 있는 데이터베이스의 신중한 구성이 필요하다.[11]: 36–53 [12]

관리

VLDB 관리의 복잡성은 데이터베이스 크기가 증가함에 따라 데이터베이스 관리자의 경우 기하급수적으로 증가할 수 있다.[13]

가용성 및 유지관리

데이터베이스 재구성 및 비 VLDB에서 상당히 실용적인 파일 복사본과 같은 유지 보수 및 복구와 관련된 VLDB 작업을 처리할 때 VLDB 데이터베이스에는 매우 많은 시간과 리소스가 소요된다.[14]특히 일반적으로 일반적인 RTO(복구 시간 목표)를 충족하는 것은 불가능하며, 디스크나 다른 스토리지 아카이브에서 파일을 복사하는 방법에 의해 중단으로 인해 데이터베이스를 사용할 수 없을 것으로 예상되는 최대 예상 시간이다.[13]클러스터링/복제/대기 데이터베이스와 같은 이러한 문제 기술을 극복하기 위해 파일 스냅샷, 스토리지 스냅샷 또는 백업 관리자가 RTO 및 가용성을 달성하는 데 도움이 될 수 있지만, 개별 방법에는 제한, 주의사항, 라이센스 및 인프라 요구사항이 있을 수 있지만 일부는 데이터 손실을 감수하고 복구 포고를 충족하지 못할 수 있다.목표(RPO)[15][16][13][17][18]많은 시스템의 경우 지리적으로 멀리 떨어진 솔루션만 허용될 수 있다.[19]

백업 및 복구

모범 사례는 전반적인 가용성 및 비즈니스 연속성 솔루션 측면에서 백업 및 복구를 설계하는 것이다.[20][21]

퍼포먼스

동일한 인프라를 고려할 때 일반적으로 성능이 저하될 수 있으며, 즉 데이터베이스 크기가 증가함에 따라 응답 시간이 증가하게 된다.일부 액세스는 처리(스캔)할 데이터가 더 많아져 비례적으로 더 오래 걸리는 반면(선형 시간) 데이터에 접근하기 위해 추가 스토리지 액세스가 필요할 수 있다(하위 선형 시간).[22]다른 효과들은 캐싱 효율성이 떨어지는 것이 캐싱의 효과일 수 있다. 왜냐하면 비례적으로 더 적은 데이터를 캐싱할 수 있고 B+와 같은 일부 인덱스는 자동으로 잘 유지되는 반면에 해시 테이블과 같은 다른 인덱스들은 재구축이 필요할 수 있기 때문이다.

데이터베이스 크기의 증가로 인해 데이터베이스의 접근자 수가 증가하면 더 많은 서버 및 네트워크 자원이 소비될 수 있으며, 경합 위험이 증가할 것이다.성능을 회복하기 위한 솔루션으로는 파티셔닝, 클러스터링, 샤딩 또는 데이터베이스 시스템 사용이 있다.[23]: 390 [24]

파티셔닝

파티셔닝은 백업 및 복구,[25] 정보 라이프사이클 관리(ILM)로 인한 대량[27]: 327–329 이동,[26]: 3 [27]: 105–118 경합 감소 및 일부 쿼리 처리의 최적화를 포함한 VLDB의 대량 작업 성능을 지원할 수 있다.[27]: 215–230

저장

VLDB의 요구를 충족하기 위해 데이터베이스 스토리지는 낮은 액세스 지연 시간 및 경합, 높은 처리량고가용성을 가져야 한다.

서버 리소스

VLDB의 크기가 증가하면 서버 및 네트워크 리소스에 부담이 될 수 있으며, 이를 해결하기 위해 인프라 투자가 필요할 수 있는 병목 현상이 나타날 수 있다.[13][28]

빅데이터와의 관계

VLDB는 빅데이터와 동일하지 않지만, 빅데이터의 스토리지 측면에는 VLDB 데이터베이스가 포함될 수 있다.[2], 빅데이터를 지원하는 스토리지 솔루션의 일부는 대량의 데이터를 지원하기 위해 처음부터 설계되었기 때문에 데이터베이스 관리자는 기존 RDBMS의 이전 버전에서 발생할 수 있는 VLDB 문제에 직면하지 않을 수 있다.[29]

참고 항목

참조

  1. ^ "Oracle Database Online Documentation 11g Release 1 (11.1) / Database Administration Database Concepts". oracle. 18 Very Large Databases (VLDB). Retrieved 3 October 2018.
  2. ^ a b "Very Large Database (VLDB)". Technopedia. Archived from the original on 4 July 2018. Retrieved 3 October 2018.
  3. ^ 게인스, R. S., R.가밀.대규모 데이터 기반: 새롭게 부상하는 연구 영역, 비공식적인 작업 보고서, Land Corporation
  4. ^ Data Processing Magazine. North American Publishing Company. 1964. p. 18,58.
  5. ^ a b Widlake, Marin (18 September 2009). "What is a VLDB?". mwidlake. Archived from the original on 6 October 2018. Retrieved 7 October 2018.
  6. ^ Sidley, Edgar H. (1 April 1980). Encyclopedia of Computer Science and Technology: Volume 14 - Very Large Data Base Systems to Zero-Memory and Markov Information Source. CRC Press. pp. 1–18. ISBN 9780824722142.
  7. ^ Gerritsen, Rob; Morgan, Howard; Zisman, Michael (June 1977). "On some metrics for databases or what is a very large database?". ACM SIGMOD Record. 9 (1): 50–74. doi:10.1145/984382.984393. ISSN 0163-5808. S2CID 6359244.
  8. ^ a b Rankins, Ray; Jensen, Paul; Bertucci, Paul (18 December 2002). "21". Microsoft SQL Server 2000 (2nd ed.). SAMS. ISBN 978-0672324673. Administering Very Large SQL Server Databases.
  9. ^ "Oracle Database Release 18 - VLDB and Partitioning Guide". Oracle. 1 Introduction to Very Large Databases. Archived from the original on 3 October 2018. Retrieved 3 October 2018.
  10. ^ "The Very Large Database Problem - How to Backup & Recover 30–100 TB Databases" (PDF). actifio. Archived (PDF) from the original on 19 February 2018.
  11. ^ a b Hussain, Syed Jaffer (2014). "Tuning & Applying Best Practices On Very Large Databases (VLDB)" (PDF). Sangam: AIOUG. Archived (PDF) from the original on 4 October 2018.
  12. ^ Chaves, Warner (7 January 2015). "Top 10 Must-Do Items for your SQL Server Very Large Database". SQLTURBO. Archived from the original on 13 December 2017. Retrieved 5 October 2018.
  13. ^ a b c d Furman, Dimitri (22 January 2018). Rajesh Setlem; Mike Weiner; Xiaochen Wu (eds.). "SQL Server VLDB in Azure: DBA Tasks Made Simple". MSDN. Archived from the original on 6 October 2018. Retrieved 6 October 2018.
  14. ^ "Specialized Requirements for Relational Data Warehouse Servers". Red Brick Systems, Inc. 21 June 1996. Archived from the original on 10 October 1997.
  15. ^ "Cluster design considerations". Crouchbase. Archived from the original on 17 October 2018. Retrieved 17 October 2017.
  16. ^ "Cross Datacenter Replication (XDCR)". Crouchbase. Archived from the original on 17 October 2018. Retrieved 17 October 2017.
  17. ^ Chien, Tim. "Snapshots Are NOT Backups". Oracle technetwork. Archived from the original on 7 September 2018. Retrieved 10 October 2018.
  18. ^ "Using a split mirror as a backup image". IBM Knowledge Center. Archived from the original on 9 January 2018. Retrieved 10 October 2018.
  19. ^ "Chapter 1 High Availability and Scalability". dev.mysql. Archived from the original on 15 December 2016. Retrieved 12 October 2018.
  20. ^ Brooks, Charlotte; Leung, Clem; Mirza, Aslam; Neal, Curtis; Qiu, Yin Lei; Sing, John; Wong, Francis TH; Wright, Ian R (March 2007). "Chapter 1. Three Business solution segments defined". IBM System Storage Business Continuity: Part 2 Solutions Guide. IBM Redbooks. ISBN 978-0738489728.
  21. ^ Akhtar, Ali Navid; Buchholtz, Jeff; Ryan, Michael; Setty, Kumar (2012). "Database Backup and Recovery Best Practices". Archived from the original on 29 June 2018. Retrieved 12 October 2012.
  22. ^ Tariq, Ovais (14 July 2011). "Understanding B+tree Indexes and how they Impact Performance". ovaistariq.net. Archived from the original on 7 February 2018. Retrieved 10 October 2018.
  23. ^ Shrestha, Raju (2017). High Availability and Performance of Database in the Cloud - Traditional Master-slave Replication versus Modern Cluster-based Solutions. 7th International Conference on Cloud Computing and Services. Vol. 1: CLOSER. SCITEPRESS – Science and Technology Publications, Lda. doi:10.5220/0006294604130420. ISBN 978-989-758-243-1. Archived from the original on 17 October 2018.
  24. ^ "Encyclopedia". Definition of: database machine. Archived from the original on 4 July 2016. Retrieved 10 October 2018.
  25. ^ Burleson, Donald (26 March 2015). "Oracle Backup VLDB tips". Burleson Consulting. Archived from the original on 30 June 2017. Retrieved 11 October 2016.
  26. ^ "Oracle Partitioning in Oracle Database 12c Release 2 Extreme Data Management and Performance for every System" (PDF). Oracle. March 2017. Archived (PDF) from the original on 15 December 2017. Retrieved 17 October 2018.
  27. ^ a b c Teske, Thomas (8 February 2018). Get the best out of Oracle Partitioning - A practical guide and reference (PDF) (Speech). Cern. Hermann Bär. 40-S2-C01 - Salle Curie (CERN): Oracle. Archived (PDF) from the original on 12 October 2018. Retrieved 12 October 2018.{{cite speech}}: CS1 maint : 위치(링크)
  28. ^ Steel, Phil; Poggemeyer, Liza; Plett, Corey (1 August 2018). "Server Hardware Performance Considerations". Microsoft IT Pro Center. Archived from the original on 17 October 2018. Retrieved 17 October 2018.
  29. ^ Li, Yishan; Manoharan, Sathiamoorthy (2013). A performance comparison of SQL and NoSQL databases. 2013 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing (PACRIM). IEEE. p. 15. doi:10.1109/PACRIM.2013.6625441. ISBN 978-1-4799-1501-9.