Hive 설명

TiP™Log 2023. 5. 12. 12:20

 

 

pache Hive는 Apache Hadoop 프로젝트의 일부로 개발된 데이터 웨어하우징 솔루션입니다.

Hive는 대규모의 데이터를 처리하고 분석하기 위한 분산 데이터 저장 및 쿼리 기능을 제공합니다.

Hive는 사용자가 익숙한 SQL 스타일의 쿼리 언어를 사용하여 데이터를 쿼리하고 처리할 수 있게 해줍니다.

Hive는 데이터를 Hadoop의 HDFS(Hadoop Distributed File System)에 저장하고, Hadoop 클러스터의 맵리듀스 기능을 사용하여 데이터를 처리합니다.

Hive는 기본적으로 데이터 웨어하우스 작업에 특화되어 있으며, 대용량의 정형 및 반정형 데이터를 처리하는 데 적합합니다.

Hive는 테이블과 파티션으로 구성된 데이터 모델을 사용합니다. 테이블은 데이터를 구조화하고 저장하는 단위이며, 테이블은 열(column)과 데이터 유형(data type)을 가지고 있습니다.

파티션은 테이블을 분할하여 데이터를 더 작은 조각으로 나누는 방법입니다. 이렇게 함으로써 쿼리 성능을 향상시킬 수 있습니다.

 

Hive는 사용자가 SQL과 유사한 HiveQL 쿼리 언어를 사용하여 데이터를 조회하고 분석할 수 있습니다.

HiveQL은 사용자가 테이블과 파티션을 생성하고 수정하며, 데이터를 삽입하고 조회하는 등의 작업을 수행할 수 있게 해줍니다.

HiveQL은 내부적으로 맵리듀스 작업으로 변환되어 Hadoop 클러스터에서 실행됩니다.

 

또한 Hive는 사용자가 사용자 정의 함수(User-Defined Functions, UDF)를 작성하여 HiveQL 쿼리를 확장할 수 있는 기능을 제공합니다.

이를 통해 사용자는 자신의 비즈니스 로직에 맞게 커스텀 함수를 구현하여 쿼리 결과를 더욱 유연하게 가공할 수 있습니다.

요약하자면, Apache Hive는 대용량의 데이터를 저장하고 처리하기 위한 데이터 웨어하우징 솔루션으로, Hadoop 클러스터의 맵리듀스 기능을 이용하여 데이터를 쿼리하고 분석하는 기능을 제공합니다.

HiveQL 쿼리 언어를 사용하여 데이터를 조회하고 처리할 수 있으며, 사용자 정의 함수를 작성하여 기능을 확장할 수 있습니다.

728x90
반응형

WRITTEN BY
bca (brainchaos)
언저리 - 블로그 = f UN + b LOG #BigData, #GrapDB, #Ani, #Game, #Movie, #Camping, 보드, 술먹고 떠들기, 멍때리기, 화장실에서 책읽기, 키스, 귀차니즘, 운동싫어, 버럭질 최고, 주경야독, May The Force be With You

,