Page semi-protected

시계열 데이터베이스

Time series database

시계열 데이터베이스(TSDB)는 연관된 시간 쌍과 값 쌍을 통해 시계열을 저장하고 제공하도록 최적화된 소프트웨어 시스템이다.[1] 일부 필드에서는 시계열을 종단, 곡선, 추적 또는 추세라고 할 수 있다.[2] 몇몇 초기 시계열 데이터베이스는 감지 장비에서 측정된 값(데이터 기록가라고도 함)을 효율적으로 저장할 수 있는 산업용 애플리케이션과 연관되어 있지만, 현재는 훨씬 더 광범위한 애플리케이션을 지원하기 위해 사용되고 있다.

많은 경우에 시계열 데이터의 저장소는 데이터를 효율적으로 관리하기 위해 압축 알고리즘을 활용할 것이다.[3] 시계열 데이터를 다양한 데이터베이스 유형에 저장할 수 있지만, 시간을 핵심 인덱스로 하는 이러한 시스템의 설계는 참조 모델을 통해 이산 관계를 줄이는 관계형 데이터베이스와는 확연히 다르다.[4]

개요

시계열 데이터 집합은 다른 데이터 집합에 비해 상대적으로 크고 균일하며, 일반적으로 타임스탬프와 관련 데이터로 구성된다.[5] 또한 시계열 데이터셋은 서로 다른 테이블의 데이터 항목 간에 관계가 적을 수 있으며, 무한정 항목을 저장하지 않아도 된다.[5] 시계열 데이터셋의 고유한 속성은 시계열 데이터베이스가 범용 데이터베이스보다 스토리지 공간과 성능을 크게 개선할 수 있음을 의미한다.[5] 예를 들어, 시계열 데이터의 균일성 때문에 전문 압축 알고리즘은 덜 균일한 데이터에 대해 작동하도록 설계된 정규 압축 알고리즘보다 개선된 기능을 제공할 수 있다.[5] 또한 시계열 데이터베이스는 데이터를 무한정 저장하도록 설계된 일반 데이터베이스와 달리 오래된 데이터를 정기적으로 삭제하도록 구성할 수 있다.[5] 또한 특별한 데이터베이스 지수는 질의 성능의 향상을 제공할 수 있다.[5]

시계열 데이터베이스 목록

다음 데이터베이스 시스템은 시계열 데이터를 처리하도록 최적화된 기능을 가지고 있지만 전체 시계열 데이터베이스와 구별되는 것으로 간주되어야 한다.

이름 면허증 언어 참조
아파치 드루이드 아파치 라이선스 2.0 자바 해당 없음
아파치 피노 아파치 라이선스 2.0 자바 [6]
eXtremeDB 상업적 SQL, Python, C / C++, Java 및 C# [7]
유입DB MIT.[8] Chronograf AGPLv3, 클러스터링 커머셜[9] 가다 [7][10]
Informix TimeSeries 상업적 C / C++ [7][11]
Kx kdb+ 상업적 Q [7]
쿠두 아파치 라이선스 2.0 C++ [12]
몽고DB 서버측 공용 라이선스 C++, JavaScript, Python [13]
프로메테우스 아파치 라이선스 2.0 가다 [7]
리악-TS 아파치 라이선스 2.0 얼랑 [7]
RRDtool GPLv2 C [7]
속삭임 (그래피이트) 아파치 2 파이톤 [14]

참고 항목

참조

  1. ^ Mueen, Abdullah; Keogh, Eamonn; Zhu, Qiang; Cash, Sydney; Westover, Brandon (2009). "Exact Discovery of Time Series Motifs" (PDF). University of California, Riverside. 2009: 473–484. doi:10.1137/1.9781611972795.41. ISBN 978-0-89871-682-5. PMC 6814436. PMID 31656693. Archived from the original (PDF) on 25 June 2010. Retrieved 31 July 2019. Definition 2:A Time Series Database(D)is an unordered set of m time series possibly of different lengths.
  2. ^ Villar-Rodriguez, Esther; Del Ser, Javier; Oregi, Izaskun; Bilbao, Miren Nekane; Gil-Lopez, Sergio (2017). "Detection of non-technical losses in smart meter data based on load curve profiling and time series analysis". Energy. 137: 118–128. doi:10.1016/j.energy.2017.07.008. hdl:20.500.11824/693.
  3. ^ Pelkonen, Tuomas; Franklin, Scott; Teller, Justin; Cavallaro, Paul; Huang, Qi; Meza, Justin; Veeraraghavan, Kaushik (2015). "Gorilla". Proceedings of the VLDB Endowment. 8 (12): 1816–1827. doi:10.14778/2824032.2824078.
  4. ^ Asay, Matt (26 June 2019). "Why time series databases are exploding in popularity". TechRepublic. Archived from the original on 26 June 2019. Retrieved 31 July 2019. Relational databases and NoSQL databases can be used for time series data, but arguably developers will get better performance from purpose-built time series databases, rather than trying to apply a one-size-fits-all database to specific workloads.
  5. ^ a b c d e f Wayner, Peter (15 January 2021). "Database trends: The rise of the time-series database". VentureBeat. Retrieved 7 July 2021.
  6. ^ Fu, Yupeng; Soman, Chinmay (9 June 2021). "Real-time Data Infrastructure at Uber". Proceedings of the 2021 International Conference on Management of Data: 2503–2516. arXiv:2104.00087. doi:10.1145/3448016.3457552. ISBN 9781450383431. S2CID 232478317.
  7. ^ a b c d e f g Stephens, Rachel (2018-04-03). "State of the Time Series Database Market". Retrieved 2018-10-03.
  8. ^ "influxdb license". GitHub. Retrieved 2016-08-14.
  9. ^ "influxdb clustering". influxdata.com. Retrieved 2016-03-10.
  10. ^ Anadiotis, George (2018-09-28). "Processing time series data: What are the options?". zdnet.com. Retrieved 2016-03-10.
  11. ^ Dantale, Viabhav (2012-09-21). Solving Business Problems with Informix TimeSeries (PDF). IBM Redbooks. ISBN 9780738437231.
  12. ^ "Benchmarking Time Series workloads on Apache Kudu using TSBS". 18 March 2020.
  13. ^ "MongoDB's New Time Series Collections".
  14. ^ Joshi, Nishes (May 23, 2012). Interoperability in monitoring and reporting systems (Thesis). hdl:10852/9085.