Presto(SQL 쿼리 엔진)

Presto (SQL query engine)
매우 빠르게
원저작자Martin Traverso, Dain Sundstrom, David Phillips, Eric Hwang
초기 릴리즈2013년 11월 10일, 8년 전(2013년 11월 10일)
기입처자바
운영 체제크로스 플랫폼
표준SQL
유형데이터 웨어하우스
면허증.Apache 라이센스 2.0
웹 사이트

Presto(PrestoDB 및 PrestoSQL을 포함)는 SQL 쿼리 언어를 사용하는 빅데이터용 분산 쿼리 엔진입니다.이 아키텍처를 통해 사용자는 Hadoop, Cassandra, Kafka, AWS S3, Alluxio, MySQL, MongoDB [1]Teradata와 같은 데이터 소스를 쿼리할 수 있습니다.단일 쿼리 내에서 여러 데이터 소스의 데이터를 쿼리할 수도 있습니다.Presto는 Apache License에 따라 출시된 커뮤니티 기반 오픈 소스 소프트웨어입니다.

역사

Presto는 원래 Facebook, Inc.(나중에 Meta로 개명)에서 데이터 분석가가 Apache Hadoop의 대규모 데이터 웨어하우스에서 대화형 쿼리를 실행할 수 있도록 설계 및 개발되었습니다.최초 4명의 개발자는 Martin Traverso, Dain Sundstrom, David Phillips 및 Eric Hwang이었습니다.Presto 이전에 Facebook의 데이터 분석가는 수 페타바이트의 데이터 [2]웨어하우스에서 SQL 분석을 실행하기 위해 Apache Hive에 의존했습니다.Hive는 페이스북의 규모에 비해 너무 느리다고 생각되었고 Presto는 [3]빠른 쿼리를 실행하기 위한 공백을 메우기 위해 발명되었다.최초 개발은 2012년에 시작되어 그 해 말에 Facebook에 도입되었습니다.2013년 11월, Facebook은 오픈 소스 [3][4]릴리스를 발표했습니다.

넷플릭스는 2014년 아마존 심플 스토리지 서비스(S3)[5]에 저장된 10페타바이트의 데이터에 프레스토를 사용했다고 밝혔다.2016년 11월, 아마존은 [6]Presto에 기반을 둔 Athena라는 서비스를 발표했다.2017년 Teradata는 Starburst Data라는 회사를 설립하여 2014년 [7]Hadapt로부터 인수한 직원을 포함한 Presto를 상업적으로 지원하였습니다.Teradata의 QueryGrid 소프트웨어를 통해 Presto는 Teradata [8]관계형 데이터베이스에 액세스할 수 있었습니다.

2019년 1월에는 Presto Software Foundation이 발표되었습니다.이 재단은 Presto 오픈 소스 분산 SQL 쿼리 [9][10]엔진의 발전을 위한 비영리 단체입니다.동시에 Presto 개발은 Facebook에 의해 유지되는 PrestoDB와 Presto Software Foundation에 의해 유지되는 PrestoSQL을 코드 교차 폴링으로 구분했다.

2019년 9월 페이스북은 Linux Foundation에 PrestoDB를 기부하여 Presto [11]Foundation을 설립하였습니다.Presto의 크리에이터도, 최고 기고자 및 커밋도, 이 [12]재단에 초대되지 않았습니다.

2020년까지, 원래의 Presto 개발자들 4명 모두가 Starburst에 [13]합류했다.2020년 12월, Facebook이 "Presto"라는 상표(Linux [14]Foundation에 기부)를 가지고 있기 때문에 PrestoSQL은 Trino로 재상표되었다.

또 다른 회사인 Ahana는 2020년에 GV(구 Google Ventures, Alphabet, Inc.의 자회사)로부터 클라우드 [15]서비스로서의 PrestoDB 포크를 상용화하기 위한 시드 자금 지원을 받아 발표되었습니다.2021년 [16]8월, Ahana에 대한 2000만달러의 자금 조달 라운드가 발표되었습니다.

아키텍처

코디네이터 및 작업자와의 아키텍처 개요

Presto의 아키텍처는 클러스터 컴퓨팅을 사용하는 다른 데이터베이스 관리 시스템과 매우 유사하며 MPP(Massive Parallel Processing)라고도 합니다.한 명의 코디네이터가 여러 명의 작업자와 동시에 작업합니다.클라이언트는 구문 분석 및 계획된 SQL 문을 제출하고 이후 병렬 작업이 작업자에게 예약됩니다.작업자는 데이터 원본의 행을 공동으로 처리하고 클라이언트에 반환되는 결과를 생성합니다.각 쿼리에서 Hadoop MapReduce 메커니즘을 사용한 원래 Apache Hive 실행 모델과 비교하여 Presto는 디스크에 중간 결과를 쓰지 않으므로 속도가 크게 향상됩니다.Presto는 Java로 작성됩니다.

단일 Presto 쿼리는 여러 소스의 데이터를 결합할 수 있습니다.Presto는 Alluxio, Hadoop 분산 파일 시스템(종종 데이터 레이크로 불린다), Amazon S3, MySQL, Postgre의 파일을 포함한 데이터 소스에 대한 커넥터를 제공합니다.SQL, Microsoft SQL Server, Amazon Redshift, Apache Kudu, Apache Phoenix, Apache Kafka, Apache Cassandra, Apache Acumulo, MongoDBRedis.Apache Impala와 같은 다른 Hadoop 배포 전용 도구와 달리 Presto는 하둡의 모든 변형과 함께 또는 없이 작동할 수 있습니다.Presto는 컴퓨팅과 스토리지의 분리를 지원하며 사내 또는 클라우드 컴퓨팅을 사용하여 도입할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ 1.1. Presto의 Teradata 분포 - Presto 0.167-t.0.2 문서의 Teradata 분포
  2. ^ Mike Volpi (November 20, 2019). "Starburst and Presto: with Stellar Velocity". Index Ventures Blog. Retrieved January 27, 2022.
  3. ^ a b Joab Jackson (November 6, 2013). "Facebook goes open source with query engine for big data". Computer World. Retrieved April 26, 2017.
  4. ^ Jordan Novet (June 6, 2013). "Facebook unveils Presto engine for querying 250 PB data warehouse". Giga Om. Retrieved April 26, 2017.
  5. ^ Eva Tse, Zhenxiao Luo, Nezih Yigitbasi (October 7, 2014). "Using Presto in our Big Data Platform on AWS". Netflix technical blog. Retrieved April 26, 2017.{{cite news}}: CS1 maint: 작성자 파라미터 사용(링크)
  6. ^ Jeff Barr (November 30, 2016). "Amazon Athena – Interactive SQL Queries for Data in Amazon S3". AWS News Blog. Retrieved January 27, 2022.
  7. ^ Philip Howard (December 21, 2017). "Teradata spins off Starburst". Bloor. Retrieved January 26, 2022.
  8. ^ Lindsay Clark (December 17, 2020). "Hey Presto! Teradata admits its vision is dead by hooking QueryGrid analytics platform up to rival data warehouses". The Register. Retrieved January 26, 2022.
  9. ^ "Presto Software Foundation Launches to Advance Presto Open Source Community". Press release. January 31, 2019. Retrieved January 2, 2022.
  10. ^ "Presto's New Foundation Signals Growth for the Big Data SQL Engine". The New Stack. 2019-01-31. Retrieved 2019-02-01.
  11. ^ "Facebook, Uber, Twitter and Alibaba form Presto Foundation to Tackle Distributed Data Processing at Scale". 23 September 2019. Retrieved 2019-11-12.
  12. ^ Piotr Findeisen (November 22, 2019). "What's the relationship between prestosql and prestodb?". Comment on issue #38 of Trino Github. Retrieved January 27, 2022.
  13. ^ "Original Presto Co-Creators Reunite on the Starburst Technical Leadership Team". Press release. September 22, 2020. Retrieved January 26, 2022.
  14. ^ Martin Traverso, Dain Sundstrom, David Phillips (December 27, 2020). "We're rebranding PrestoSQL as Trino". Trino blog. Retrieved January 26, 2022.{{cite web}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  15. ^ Andrew Brust (June 2, 2020). "Ahana gets seed funding, and a tale of two Prestos: Presto-focused Ahana emerges from stealth, highlights schism in open source query engine's ecosystem". Retrieved January 26, 2022.
  16. ^ Sai Venkatesh (August 4, 2021). "Ahana raises $20M in Series A from Third Point Ventures". SaaS Industry. Retrieved January 26, 2022.

외부 링크