아파치 피노

Apache Pinot
아파치 피노
Pinot Logo
원저작자
  • 키쇼레 고팔라크리슈나
  • 샹푸
개발자아파치 피노
안정된 릴리스
2022년 3월 18일 0.10.0, 4개월 전(2022-03-18)
저장소Pinot 저장소
기입처자바
운영 체제크로스 플랫폼
유형
면허증.Apache 라이센스 2.0
웹 사이트pinot.apache.org

Apache Pinot은 Java로 작성된 열 지향 오픈 소스 분산 데이터 저장소입니다.Pinot은 짧은 [1][2][3][4][5]지연으로 OLAP 쿼리를 실행하도록 설계되어 있습니다.실시간 데이터 [6][7][8]수집과 함께 불변의 데이터에 대한 신속한 분석(예: Aggregation)이 필요한 상황에 적합합니다.피노라는 이름은 다양한 와인을 생산하는 데 사용되는 액체로 압착된 피노 포도 덩굴에서 유래했습니다.데이터베이스의 설립자들은 다양한 파일 형식 또는 스트리밍 데이터 [9]소스에서 방대한 양의 데이터를 분석하기 위한 은유로 이 이름을 선택했습니다.

Pinot은 엔지니어링 직원이 예측 가능한 짧은 지연 시간, 몇 초 만에 데이터를 새로 고치고 폴트 톨러런스 및 [9][10]확장성과 같은 소셜 네트워킹 사이트의 요구사항을 충족하는 기성 솔루션이 없다고 판단한 후 LinkedIn에서 처음 개발되었습니다.Pinot은 [11]Uber,[8] Microsoft, Factorial과 같은 기술 회사의 생산에 사용됩니다.

역사

Pinot은 2013년 LinkedIn의 내부 프로젝트로 시작되어 다양한 사용자 대면 및 비즈니스 대면 제품을 지원합니다.LinkedIn에서 Pinot을 사용한 첫 번째 분석 제품은 회원이 자신의 프로필을 실시간으로 본 사람을 확인할 수 있는 소셜 네트워킹 사이트의 기능을 재설계한 것입니다.이 프로젝트는 2015년 6월 Apache 2.0 라이선스로 오픈 소스되었으며 2019년 [9][8]6월 LinkedIn에 의해 Apache 소프트웨어 재단에 기부되었다.

아키텍처

Architecture of Apache Pinot
Apache Pinot 아키텍처 다이어그램

Pinot은 클러스터 관리에 Apache Helix를 사용합니다.Helix는 다양한 컴포넌트에 에이전트로 내장되어 있으며 Apache ZooKeeper를 사용하여 전체적인 클러스터 상태와 상태를 조정하고 유지합니다.모든 Pinot 서버와 브로커는 Helix에 의해 관리됩니다.Helix는 분산 시스템에서 파티션과 복제본을 관리하기 위한 일반적인 클러스터 관리 프레임워크입니다.

쿼리 관리

쿼리는 블로커에 의해 수신됩니다(세그먼트 투 서버 라우팅 테이블과 대조하여 요구를 체크하고 실시간서버와 오프라인서버간의 요구를 분산시킵니다).

클러스터 관리

Pinot은 클러스터 관리에 Apache Helix를 활용합니다.Helix는 분산 시스템에서 복제된 분할된 리소스를 관리하기 위한 클러스터 관리 프레임워크입니다.Helix는 Zookeeper를 사용하여 클러스터 상태와 메타데이터를 저장합니다.

특징들

Pinot은 Apache Druid [12][13]의 동등한 OLAP 데이터스토어와 유사한 기능을 공유합니다.Druid와 마찬가지로 Pinot은 Run Length 및 Fixed Bit Length와 같은 다양한 압축 방식을 가진 컬럼 지향 데이터베이스입니다.Pinot은 정렬된 인덱스, 비트맵 인덱스, 반전된 인덱스, 스타 트리 인덱스 및 범위 인덱스 등 플러그형 인덱스 기술을 지원합니다.이 테크놀로지는 주로 Pinot을 다른 OLAP 데이터스토어와 구별합니다.

Pinot은 Kafka, AWS Kinesis 등의 스트림으로부터의 거의 실시간 수집 및 Hadoop, S3, Azure, GCS 의 소스로부터의 배치 수집을 지원합니다.다른 대부분의 OLAP 데이터스토어 및 데이터 웨어하우징 솔루션과 마찬가지로 Pinot은 데이터별로 선택, 집계, 필터링, 그룹화를 지원하는 SQL과 같은 쿼리 언어를 지원합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Cui, Tingting; Peng, Lijun; Pardoe, David; Liu, Kun; Agarwal, Deepak; Kumar, Deepak (14 August 2017). "Data-Driven Reserve Prices for Social Advertising Auctions at LinkedIn". Proceedings of the ADKDD'17. Adkdd'17. Association for Computing Machinery: 1–7. doi:10.1145/3124749.3124759. ISBN 9781450351942. S2CID 12327343.
  2. ^ Rosa, Marcello La (2021). ADVANCED INFORMATION SYSTEMS ENGINEERING: 33rd International Conference. Springer Nature. ISBN 978-3-030-79382-1.
  3. ^ Chin, Francis Y. L.; Chen, C. L. Philip; Khan, Latifur; Lee, Kisung; Zhang, Liang-Jie (20 June 2018). Big Data – BigData 2018: 7th International Congress, Held as Part of the Services Conference Federation, SCF 2018, Seattle, WA, USA, June 25–30, 2018, Proceedings. Springer. p. 153. ISBN 978-3-319-94301-5.
  4. ^ Im, Jean-François; Gopalakrishna, Kishore; Subramaniam, Subbu; Shrivastava, Mayank; Tumbde, Adwait; Jiang, Xiaotian; Dai, Jennifer; Lee, Seunghyun; Pawar, Neha; Li, Jialiang; Aringunram, Ravi (2018-05-27). Pinot: Realtime OLAP for 530 Million Users. Sigmod '18. Association for Computing Machinery. pp. 583–594. doi:10.1145/3183713.3190661. ISBN 9781450347037. S2CID 44083085.
  5. ^ "The Apache Software Foundation Announces Apache® Pinot™ as a Top-Level Project". blogs.apache.org.
  6. ^ Rogers, Ryan; Subramaniam, Subbu; Peng, Sean; Durfee, David; Lee, Seunghyun; Kancha, Santosh Kumar; Sahay, Shraddha; Ahammad, Parvez (16 November 2020). "LinkedIn's Audience Engagements API: A Privacy Preserving Data Analytics System at Scale". arXiv:2002.05839 [cs.CR].
  7. ^ Javadi, Seyyed Ahmad; Gupta, Harsh; Manhas, Robin; Sahu, Shweta; Gandhi, Anshul (July 2018). "EASY: Efficient Segment Assignment Strategy for Reducing Tail Latencies in Pinot". 2018 IEEE 38th International Conference on Distributed Computing Systems (ICDCS): 1432–1437. doi:10.1109/ICDCS.2018.00144. ISBN 978-1-5386-6871-9. S2CID 21659844.
  8. ^ a b c 포와르, 네하"Pinot Joins Apache Incubator" 2019-04-02년 Linked In Engineering Wayback Machine, 2019년 4월 1일 아카이브 완료
  9. ^ a b c Gopalakrishna, Kishore. "Open Sourcing Pinot: Scaling the Wall of Real-Time Analytics". engineering.linkedin.com. LinkedIn. Archived from the original on 10 September 2015. Retrieved 3 September 2020.
  10. ^ Yegulalp, Serdar (2015-06-11). "LinkedIn fills another SQL-on-Hadoop niche". InfoWorld.
  11. ^ Fu, Yupeng; Soman, Chinmay (9 June 2021). "Real-time Data Infrastructure at Uber". Proceedings of the 2021 International Conference on Management of Data. Sigmod/Pods '21. Association for Computing Machinery: 2503–2516. arXiv:2104.00087. doi:10.1145/3448016.3457552. ISBN 9781450383431. S2CID 232478317.
  12. ^ Ordonez, Carlos; Song, Il-Yeol; Anderst-Kotsis, Gabriele; Tjoa, A. Min; Khalil, Ismail (2 October 2019). Big Data Analytics and Knowledge Discovery: 21st International Conference, DaWaK 2019, Linz, Austria, August 26–29, 2019, Proceedings. Springer. p. 170. ISBN 978-3-030-27520-4.
  13. ^ Uttamchandani, Sandeep (10 September 2020). The Self-Service Data Roadmap. "O'Reilly Media, Inc.". ISBN 978-1-4920-7520-2.

외부 링크