Hadoop Ecosystem(하둡 에코시스템)

Recent Posts

Recent Comments

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Today

Total

관리 메뉴

IT Log

Hadoop Ecosystem(하둡 에코시스템) 본문

Open Source/Apache

Hadoop Ecosystem(하둡 에코시스템)

newly0513 2019. 5. 23. 17:36

728x90

Hadoop Ecosystem이란?

ecosystem은 우리말로 생태계로, 검색해보면 '상호작용하는 유기체들과 또 그들과 서로 영향을 주고받는 주변의 무생물 환경을 묶어서 부르는 말'이라고 합니다. 그렇다면, Hadoop Ecosystem은 하둡 생태계로 'Hadoop에서 상호작용하는 프로젝트들 or 프로젝트들의 환경'이라고 보면 될 것 같습니다.

Hadoop Ecosystem Archetecture

기본적으로 Hadoop을 기반으로 구성되나, 수집 / 저장 / 데이터베이스 등등 같은 카테고리 안에 있는 프로젝트들이 있으며, 사용할 기능이나 목적 또는 상황에 따라 하나를 선택하거나 병행하여 구성될 수 있습니다. 각 프로젝트의 버전들이 계속 올라가고 있으나 '상호작용하는 생태계'이므로 항상 최신버전을 사용하는 것보다 각 프로젝트에서 안정화된 버전이나 상호작용되는 버전을 선택하여 구성해야 합니다.

거의 대부분 Apache에서 제공하는 프로젝트를 위주로 구성하게 되나, Apache에서 제공하는 프로젝트가 아니더라도 구성할 수 있습니다. 예를 들어, Presto, Redis, Scribe 등이 있습니다.

Apache Hadoop

Apache Hadoop은 간단한 프로그래밍 모델을 사용하여 컴퓨터 클러스터 전체에 대규모 데이터 세트를 분산 처리 할 수있는 프레임 워크 or 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크라고 한다. Hadoop을 설치하면 HDFS(Hadoop Distrubuted File System)는 말 그대로 분산파일시스템이고, Yarn은 분산 클러스터 리소스 관리, MapReduce는 분산데이터 배치처리를 하는 총 3가지 환경이 구성됩니다. 아래 작성될 프로젝트들은 모두 Apache에서 제공하는 것들 입니다.

Apache Hadoop 홈페이지 : hadoop.apache.org/

Apache Ambari

Apache Ambari는 Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig 및 Sqoop에 대한 지원을 포함하는 Apache Hadoop 클러스터를 프로비저닝, 관리 및 모니터링하기위한 웹 기반 도구입니다. Ambari는 또한 히트 맵과 같은 클러스터 상태를 볼 수있는 대시 보드 및 사용자 친화적 인 방식으로 성능 특성을 진단하는 기능과 함께 MapReduce, Pig 및 Hive 애플리케이션을 시각적으로 볼 수있는 기능을 제공합니다.

Apache Ambari 홈페이지 : hadoop.apache.org/

Apache Avro

데이터 직렬화 시스템

Apache Avro 홈페이지 : avro.apache.org/

Apache Cassandra

단일 장애 지점이없는 확장 가능한 다중 마스터 데이터베이스입니다.

Apache Cassandra 홈페이지 : cassandra.apache.org/

Apache Chukwa

대규모 분산 시스템을 관리하기위한 데이터 수집 시스템입니다.

Apache Chukwa 홈페이지 : chukwa.apache.org/

Apache Hbase

대규모 테이블을위한 구조화 된 데이터 스토리지를 지원하는 확장 가능한 분산 데이터베이스입니다.

Apache Hbase 홈페이지 : hbase.apache.org/

Apache Hive

데이터 요약 및 임시 쿼리를 제공하는 데이터웨어 하우스 인프라입니다.

Apache Hive 홈페이지 : hive.apache.org/

Apache Mahout

확장 가능한 기계 학습 및 데이터 마이닝 라이브러리.

Apache Mahout 홈페이지 : mahout.apache.org/

Apache Pig

병렬 계산을위한 높은 수준의 데이터 흐름 언어 및 실행 프레임 워크입니다.

Apache Pig 홈페이지 : pig.apache.org/

Apache Spark

Hadoop 데이터를위한 빠르고 일반적인 컴퓨팅 엔진입니다. Spark는 ETL, 기계 학습, 스트림 처리 및 그래프 계산을 포함한 광범위한 애플리케이션을 지원하는 간단하고 표현적인 프로그래밍 모델을 제공합니다.

Apache Spark 홈페이지 : spark.apache.org/

Apache Submarine

엔지니어와 데이터 과학자가 분산 클러스터에서 머신러닝 및 딥러닝 워크로드를 실행할 수있는 통합AI 플랫폼입니다.

Apache Submarine 홈페이지 : submarine.apache.org/

Apache Tez

Hadoop YARN을 기반으로 구축 된 일반화 된 데이터 흐름 프로그래밍 프레임 워크로, 임의의 DAG 작업을 실행하여 일괄 처리 및 대화 형 사용 사례 모두에서 데이터를 처리 할 수있는 강력하고 유연한 엔진을 제공합니다. Tez는 Hadoop 생태계의 Hive ™, Pig ™ 및 기타 프레임 워크와 기타 상용 소프트웨어 (예 : ETL 도구)에서 기본 실행 엔진으로 Hadoop ™ MapReduce를 대체하기 위해 채택되고 있습니다.

Apache Tez 홈페이지 : tez.apache.org/

Apache Zookeeper

분산 애플리케이션을위한 고성능 조정 서비스입니다.

Apache Zookeeper 홈페이지 : zookeeper.apache.org/

Apache Oozie

Apache Hadoop 작업을 관리하는 워크 플로 스케줄러 시스템입니다.

Apache Oozie 홈페이지 : oozie.apache.org/

Apache Kafka

고성능 데이터 파이프 라인, 스트리밍 분석, 데이터 통합 및 미션 크리티컬 애플리케이션을 위해 수천 개의 회사에서 사용하는 오픈 소스 분산 이벤트 스트리밍 플랫폼입니다.

Apache Kafka 홈페이지 : kafka.apache.org/

Apache Storm

분산 실시간 계산 시스템입니다.

Apache Storm 홈페이지 : storm.apache.org/

Apache Sqoop

Apache Hadoop 과 관계형 데이터베이스와 같은 구조화된 데이터 저장소 간에 대량 데이터를 효율적으로 전송하도록 설계된 도구입니다 .

Apache Sqoop 홈페이지 : sqoop.apache.org/

Apache Phoenix

두 가지 장점을 결합하여 지연 시간이 짧은 애플리케이션을 위해 Hadoop에서 OLTP 및 운영 분석을 지원합니다.

완전한 ACID 트랜잭션 기능과 함께 표준 SQL 및 JDBC API의 힘
HBase를 백업 저장소로 활용하여 NoSQL 세계의 후기 바인딩 된 스키마 읽기 기능의 유연성

Apache Phoenix는 Spark, Hive, Pig, Flume 및 Map Reduce와 같은 다른 Hadoop 제품과 완전히 통합됩니다.

Apache Phoenix 홈페이지 : phoenix.apache.org/

Apache Tajo

Apache Hadoop을위한 강력한 빅 데이터 관계형 및 분산 데이터웨어 하우스 시스템입니다.

Apache Tajo 홈페이지 : tajo.apache.org/

Apache impala

Apache Hadoop 용 오픈 소스 네이티브 분석 데이터베이스 입니다.

Apache impala 홈페이지 : impala.apache.org/

Apache Flume

많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기위한 안정적이고 사용 가능한 분산 서비스입니다.

Apache Flume 홈페이지 : flume.apache.org/

Apache Nifi

데이터를 처리하고 배포하기 위한 사용하기 쉽고 강력하며 안정적인 시스템입니다. 강력하고 확장 가능한 데이터 라우팅, 변환 및 시스템 조정 로직의 방향성 그래프를 지원합니다.

Apache Nifi 홈페이지 : nifi.apache.org/

Presto

기가 바이트에서 페타 바이트에 이르는 모든 크기의 데이터 소스에 대해 대화 형 분석 쿼리를 실행하기위한 오픈 소스 분산 SQL 쿼리 엔진입니다.

Presto 홈페이지 : prestodb.io/

Redis

데이터베이스, 캐시 및 메시지 브로커로 사용되는 오픈 소스 (BSD 라이선스), 인 메모리 데이터 구조 저장소입니다.

Redis 홈페이지 : redis.io/

Scribe

실제 스트리밍되는 로그 데이터를 집계하는 서버입니다.

Scribe 홈페이지 : github.com/facebookarchive/scribe

728x90

'Open Source > Apache' 카테고리의 다른 글

Hadoop 완전분산모드(5) (0)	2019.05.31
Hadoop 완전분산모드(4) (0)	2019.05.31
Hadoop 완전분산모드(3) (0)	2019.05.31
Hadoop 완전분산모드(2) (0)	2019.05.31
Hadoop 완전분산모드(1) (0)	2019.05.30

'Open Source/Apache' Related Articles

Comments

IT Log

Hadoop Ecosystem(하둡 에코시스템) 본문

Hadoop Ecosystem(하둡 에코시스템)

Hadoop Ecosystem이란?

Hadoop Ecosystem Archetecture

Apache Hadoop

Apache Ambari

Apache Avro

Apache Cassandra

Apache Chukwa

Apache Hbase

Apache Hive

Apache Mahout

Apache Pig

Apache Spark

Apache Submarine

Apache Tez

Apache Zookeeper

Apache Oozie

Apache Kafka

Apache Storm

Apache Sqoop

Apache Phoenix

Apache Tajo

Apache impala

Apache Flume

Apache Nifi

Presto

Redis

Scribe

'Open Source > Apache' 카테고리의 다른 글

티스토리툴바