아파치 애로우
Apache Arrow| 개발자 | Apache 소프트웨어 재단 |
|---|---|
| 초기 릴리즈 | 2016년 10월 , 전( 10월 10일 |
| 안정된 릴리스 | 7.0.0[1] / 2022년 2월 ; 전 () |
| 저장소 | https://github.com/apache/arrow |
| 기입처 | C, C++, C#, Go, Java, JavaScript, MATLAB, Python, R, Ruby, Rust |
| 유형 | 데이터 형식, 알고리즘 |
| 면허증. | Apache 라이센스 2.0 |
| 웹 사이트 | arrow |
Apache Arrow는 컬럼 데이터를 처리하는 데이터 분석 응용 프로그램을 개발하기 위한 언어에 구애받지 않는 소프트웨어 프레임워크입니다.표준 컬럼 지향 메모리 포맷이 포함되어 있어 최신 CPU [2][3][4][5][6]및 GPU 하드웨어에 대한 효율적인 분석 작업을 위해 플랫하고 계층적인 데이터를 나타낼 수 있습니다.이것에 의해, 다이나믹 랜덤 액세스 [7]메모리의 코스트, 변동성, 물리적인 제약 등, 대량의 데이터 세트를 취급할 가능성이 제한되는 요인이 경감 또는 배제됩니다.
상호 운용성
Arrow는 Apache Parquet, Apache Spark, NumPy, PySpark, Panda 및 기타 데이터 처리 라이브러리와 함께 사용할 수 있습니다.이 프로젝트에는 C, C++, C#, Go, Java, JavaScript, Julia, MATLAB, Python, R, Ruby 및 Rust로 작성된 네이티브 소프트웨어 라이브러리가 포함됩니다.Arrow를 사용하면 이러한 언어와 [2]시스템 간에 시리얼라이제이션 오버헤드를 발생시키지 않고 제로 카피 읽기, 고속 데이터 액세스 및 교환이 가능합니다.
적용들
Arrow는 분석,[8] 유전체학,[9][7] 클라우드 컴퓨팅 [10]등 다양한 분야에서 사용되어 왔습니다.
Apache Parquet 및 ORC와의 비교
Apache Parquet 및 Apache ORC는 온디스크 컬럼 데이터 형식의 일반적인 예입니다.Arrow는 메모리 [11]내 데이터 처리를 위한 이러한 형식을 보완하기 위해 설계되었습니다.인메모리 처리를 위한 하드웨어 자원 엔지니어링의 단점은 온디스크 [12]스토리지와 관련된 단점과 다릅니다.Arrow 및 Parquet 프로젝트에는 두 [13]형식 간에 데이터를 읽고 쓸 수 있는 라이브러리가 포함되어 있습니다.
거버넌스
Apache Arrow는 2016년 2월 17일 Apache [14]Software Foundation에 의해 발표되었으며, 다른 오픈 소스 데이터 분석 [15][16][6][17][18]프로젝트의 개발자 연합이 개발을 주도했습니다.초기 코드베이스와 Java 라이브러리는 Apache [14]Drill의 코드로 시드되었습니다.
레퍼런스
- ^ "Apache Arrow 7.0.0 Release". 8 February 2022. Retrieved 15 April 2022.
- ^ a b "Apache Arrow and Distributed Compute with Kubernetes". 13 Dec 2018.
- ^ Baer, Tony (17 February 2016). "Apache Arrow: Lining Up The Ducks In A Row... Or Column". Seeking Alpha.
- ^ Baer, Tony (25 February 2019). "Apache Arrow: The little data accelerator that could". ZDNet.
- ^ Hall, Susan (23 February 2016). "Apache Arrow's Columnar Layouts of Data Could Accelerate Hadoop, Spark". The New Stack.
- ^ a b Yegulalp, Serdar (27 February 2016). "Apache Arrow aims to speed access to big data". InfoWorld.
- ^ a b Tanveer Ahmad (2019). "ArrowSAM: In-Memory Genomics Data Processing through Apache Arrow Framework". bioRxiv: 741843. doi:10.1101/741843.
- ^ Dinsmore T.W. (2016). "In-Memory Analytics". In-Memory Analytics. In: Disruptive Analytics. Apress, Berkeley, CA. pp. 97–116. doi:10.1007/978-1-4842-1311-7_5. ISBN 978-1-4842-1312-4.
- ^ Versaci F, Pireddu L, Zanetti G (2016). "Scalable genomics: from raw data to aligned reads on Apache YARN" (PDF). IEEE International Conference on Big Data: 1232–1241.
- ^ Maas M, Asanović K, Kubiatowicz J (2017). "Return of the runtimes: rethinking the language runtime system for the cloud 3.0 era". Proceedings of the 16th Workshop on Hot Topics in Operating Systems (ACM): 138–143. doi:10.1145/3102980.3103003.
- ^ Le Dem, Julien. "Apache Arrow and Apache Parquet: Why We Needed Different Projects for Columnar Data, On Disk and In-Memory". KDnuggets.
- ^ "Apache Arrow vs. Parquet and ORC: Do we really need a third Apache project for columnar data representation?". 2017-10-31.
- ^ "PyArrow:Reading and Writing the Apache Parquet Format".
- ^ a b "The Apache® Software Foundation Announces Apache Arrow™ as a Top-Level Project". The Apache Software Foundation Blog. Archived from the original on 2016-03-13.
- ^ Martin, Alexander J. (17 February 2016). "Apache Foundation rushes out Apache Arrow as top-level project". The Register.
- ^ "Big data gets a new open-source project, Apache Arrow: It offers performance improvements of more than 100x on analytical workloads, the foundation says". 2016-02-17.
- ^ Le Dem, Julien (28 November 2016). "The first release of Apache Arrow". SD Times.
- ^ "Julien Le Dem on the Future of Column-Oriented Data Processing with Apache Arrow".