Hive 설명

TiP™Log 2023. 5. 12. 12:20

share this post

pache Hive는 Apache Hadoop 프로젝트의 일부로 개발된 데이터 웨어하우징 솔루션입니다.

Hive는 대규모의 데이터를 처리하고 분석하기 위한 분산 데이터 저장 및 쿼리 기능을 제공합니다.

Hive는 사용자가 익숙한 SQL 스타일의 쿼리 언어를 사용하여 데이터를 쿼리하고 처리할 수 있게 해줍니다.

Hive는 데이터를 Hadoop의 HDFS(Hadoop Distributed File System)에 저장하고, Hadoop 클러스터의 맵리듀스 기능을 사용하여 데이터를 처리합니다.

Hive는 기본적으로 데이터 웨어하우스 작업에 특화되어 있으며, 대용량의 정형 및 반정형 데이터를 처리하는 데 적합합니다.

Hive는 테이블과 파티션으로 구성된 데이터 모델을 사용합니다. 테이블은 데이터를 구조화하고 저장하는 단위이며, 테이블은 열(column)과 데이터 유형(data type)을 가지고 있습니다.

파티션은 테이블을 분할하여 데이터를 더 작은 조각으로 나누는 방법입니다. 이렇게 함으로써 쿼리 성능을 향상시킬 수 있습니다.

Hive는 사용자가 SQL과 유사한 HiveQL 쿼리 언어를 사용하여 데이터를 조회하고 분석할 수 있습니다.

HiveQL은 사용자가 테이블과 파티션을 생성하고 수정하며, 데이터를 삽입하고 조회하는 등의 작업을 수행할 수 있게 해줍니다.

HiveQL은 내부적으로 맵리듀스 작업으로 변환되어 Hadoop 클러스터에서 실행됩니다.

또한 Hive는 사용자가 사용자 정의 함수(User-Defined Functions, UDF)를 작성하여 HiveQL 쿼리를 확장할 수 있는 기능을 제공합니다.

이를 통해 사용자는 자신의 비즈니스 로직에 맞게 커스텀 함수를 구현하여 쿼리 결과를 더욱 유연하게 가공할 수 있습니다.

요약하자면, Apache Hive는 대용량의 데이터를 저장하고 처리하기 위한 데이터 웨어하우징 솔루션으로, Hadoop 클러스터의 맵리듀스 기능을 이용하여 데이터를 쿼리하고 분석하는 기능을 제공합니다.

HiveQL 쿼리 언어를 사용하여 데이터를 조회하고 처리할 수 있으며, 사용자 정의 함수를 작성하여 기능을 확장할 수 있습니다.

728x90

지식 그래프 (Knowledge Graph) (0)	2023.05.12
Apache Kafka와 Spark 그리고 Nifi를 이용해서 데이터 pipeline을 구현 구성 방안 , Object Storage OpenSource 설명 (0)	2023.05.12
Nifi 설명 (0)	2023.05.12
Impala 설명 (0)	2023.05.12
Kafka 설명 (0)	2023.05.12
SPARK 설명 (1)	2023.05.12
[Mac] 애플TV 자막 설정하기 (0)	2023.05.10
[Mac] 맥에서 HWP 파일을 네이버 웨일에서 미리보기 (0)	2023.04.28

WRITTEN BY

: bca (brainchaos)
언저리 - 블로그 = f UN + b LOG #BigData, #GrapDB, #Ani, #Game, #Movie, #Camping, 보드, 술먹고 떠들기, 멍때리기, 화장실에서 책읽기, 키스, 귀차니즘, 운동싫어, 버럭질 최고, 주경야독, May The Force be With You

티스토리툴바