IT Log

Hadoop Ecosystem(하둡 에코시스템) 본문

Open Source/Apache

Hadoop Ecosystem(하둡 에코시스템)

newly0513 2019. 5. 23. 17:36
728x90
반응형

Hadoop Ecosystem이란?

ecosystem은 우리말로 생태계로, 검색해보면 '상호작용하는 유기체들과 또 그들과 서로 영향을 주고받는 주변의 무생물 환경을 묶어서 부르는 말'이라고 합니다. 그렇다면, Hadoop Ecosystem은 하둡 생태계로 'Hadoop에서 상호작용하는 프로젝트들 or 프로젝트들의 환경'이라고 보면 될 것 같습니다.


Hadoop Ecosystem Archetecture

 기본적으로 Hadoop을 기반으로 구성되나, 수집 / 저장 / 데이터베이스 등등 같은 카테고리 안에 있는 프로젝트들이 있으며, 사용할 기능이나 목적 또는 상황에 따라 하나를 선택하거나 병행하여 구성될 수 있습니다. 각 프로젝트의 버전들이 계속 올라가고 있으나 '상호작용하는 생태계'이므로 항상 최신버전을 사용하는 것보다 각 프로젝트에서 안정화된 버전이나 상호작용되는 버전을 선택하여 구성해야 합니다.

 

 거의 대부분 Apache에서 제공하는 프로젝트를 위주로 구성하게 되나, Apache에서 제공하는 프로젝트가 아니더라도 구성할 수 있습니다. 예를 들어, Presto, Redis, Scribe 등이 있습니다.

 


Apache Hadoop

 Apache Hadoop은 간단한 프로그래밍 모델을 사용하여 컴퓨터 클러스터 전체에 대규모 데이터 세트를 분산 처리 할 수있는 프레임 워크 or 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크라고 한다. Hadoop을 설치하면 HDFS(Hadoop Distrubuted File System)는 말 그대로 분산파일시스템이고, Yarn은 분산 클러스터 리소스 관리, MapReduce는 분산데이터 배치처리를 하는 총 3가지 환경이 구성됩니다. 아래 작성될 프로젝트들은 모두 Apache에서 제공하는 것들 입니다.

 

Apache Hadoop 홈페이지 : hadoop.apache.org/

 

Apache Ambari

 Apache Ambari는 Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig 및 Sqoop에 대한 지원을 포함하는 Apache Hadoop 클러스터를 프로비저닝, 관리 및 모니터링하기위한 웹 기반 도구입니다. Ambari는 또한 히트 맵과 같은 클러스터 상태를 볼 수있는 대시 보드 및 사용자 친화적 인 방식으로 성능 특성을 진단하는 기능과 함께 MapReduce, Pig 및 Hive 애플리케이션을 시각적으로 볼 수있는 기능을 제공합니다.

 

Apache Ambari 홈페이지 : hadoop.apache.org/

 

Apache Avro

 데이터 직렬화 시스템

 

Apache Avro 홈페이지 : avro.apache.org/

 

Apache Cassandra

 단일 장애 지점이없는 확장 가능한 다중 마스터 데이터베이스입니다.

 

Apache Cassandra 홈페이지 : cassandra.apache.org/

 

Apache Chukwa

 대규모 분산 시스템을 관리하기위한 데이터 수집 시스템입니다.

 

Apache Chukwa 홈페이지 : chukwa.apache.org/

 

Apache Hbase

 대규모 테이블을위한 구조화 된 데이터 스토리지를 지원하는 확장 가능한 분산 데이터베이스입니다.

 

Apache Hbase 홈페이지 : hbase.apache.org/

 

Apache Hive

 데이터 요약 및 임시 쿼리를 제공하는 데이터웨어 하우스 인프라입니다.

 

Apache Hive 홈페이지 : hive.apache.org/

 

Apache Mahout

 확장 가능한 기계 학습 및 데이터 마이닝 라이브러리.

 

Apache Mahout 홈페이지 : mahout.apache.org/

 

Apache Pig

 병렬 계산을위한 높은 수준의 데이터 흐름 언어 및 실행 프레임 워크입니다.

 

Apache Pig 홈페이지 : pig.apache.org/

 

Apache Spark

 Hadoop 데이터를위한 빠르고 일반적인 컴퓨팅 엔진입니다. Spark는 ETL, 기계 학습, 스트림 처리 및 그래프 계산을 포함한 광범위한 애플리케이션을 지원하는 간단하고 표현적인 프로그래밍 모델을 제공합니다.

 

Apache Spark 홈페이지 : spark.apache.org/

 

Apache Submarine

 엔지니어와 데이터 과학자가 분산 클러스터에서 머신러닝 및 딥러닝 워크로드를 실행할 수있는 통합AI 플랫폼입니다.

 

Apache Submarine 홈페이지 : submarine.apache.org/

 

Apache Tez

 Hadoop YARN을 기반으로 구축 된 일반화 된 데이터 흐름 프로그래밍 프레임 워크로, 임의의 DAG 작업을 실행하여 일괄 처리 및 대화 형 사용 사례 모두에서 데이터를 처리 할 수있는 강력하고 유연한 엔진을 제공합니다. Tez는 Hadoop 생태계의 Hive ™, Pig ™ 및 기타 프레임 워크와 기타 상용 소프트웨어 (예 : ETL 도구)에서 기본 실행 엔진으로 Hadoop ™ MapReduce를 대체하기 위해 채택되고 있습니다.

 

Apache Tez 홈페이지 : tez.apache.org/

 

Apache Zookeeper

분산 애플리케이션을위한 고성능 조정 서비스입니다.

 

Apache Zookeeper 홈페이지 : zookeeper.apache.org/

 

 

Apache Oozie

 Apache Hadoop 작업을 관리하는 워크 플로 스케줄러 시스템입니다.

 

Apache Oozie 홈페이지 : oozie.apache.org/

 

Apache Kafka

 고성능 데이터 파이프 라인, 스트리밍 분석, 데이터 통합 ​​및 미션 크리티컬 애플리케이션을 위해 수천 개의 회사에서 사용하는 오픈 소스 분산 이벤트 스트리밍 플랫폼입니다.

 

Apache Kafka 홈페이지 : kafka.apache.org/

 

Apache Storm

 분산 실시간 계산 시스템입니다.

 

Apache Storm 홈페이지 : storm.apache.org/

 

Apache Sqoop

 Apache Hadoop 과 관계형 데이터베이스와 같은 구조화된 데이터 저장소 간에 대량 데이터를 효율적으로 전송하도록 설계된 도구입니다 .

 

Apache Sqoop 홈페이지 : sqoop.apache.org/

 

Apache Phoenix

 두 가지 장점을 결합하여 지연 시간이 짧은 애플리케이션을 위해 Hadoop에서 OLTP 및 운영 분석을 지원합니다.

  • 완전한 ACID 트랜잭션 기능과 함께 표준 SQL 및 JDBC API의 힘
  • HBase를 백업 저장소로 활용하여 NoSQL 세계의 후기 바인딩 된 스키마 읽기 기능의 유연성

Apache Phoenix는 Spark, Hive, Pig, Flume 및 Map Reduce와 같은 다른 Hadoop 제품과 완전히 통합됩니다.

 

Apache Phoenix 홈페이지 : phoenix.apache.org/

 

Apache Tajo

 Apache Hadoop을위한 강력한 빅 데이터 관계형 및 분산 데이터웨어 하우스 시스템입니다.

 

Apache Tajo 홈페이지 : tajo.apache.org/

 

 

Apache impala

 Apache Hadoop 용 오픈 소스 네이티브 분석 데이터베이스 입니다.

 

Apache impala 홈페이지 : impala.apache.org/

 

Apache Flume

 많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기위한 안정적이고 사용 가능한 분산 서비스입니다.

 

Apache Flume 홈페이지 : flume.apache.org/

 

Apache Nifi

 데이터를 처리하고 배포하기 위한 사용하기 쉽고 강력하며 안정적인 시스템입니다. 강력하고 확장 가능한 데이터 라우팅, 변환 및 시스템 조정 로직의 방향성 그래프를 지원합니다.

 

Apache Nifi 홈페이지 : nifi.apache.org/

 

 

Presto

 기가 바이트에서 페타 바이트에 이르는 모든 크기의 데이터 소스에 대해 대화 형 분석 쿼리를 실행하기위한 오픈 소스 분산 SQL 쿼리 엔진입니다.

 

Presto 홈페이지 : prestodb.io/

 

Redis

 데이터베이스, 캐시 및 메시지 브로커로 사용되는 오픈 소스 (BSD 라이선스), 인 메모리 데이터 구조 저장소입니다. 

 

Redis 홈페이지 : redis.io/

 

Scribe

 실제 스트리밍되는 로그 데이터를 집계하는 서버입니다.

 

Scribe 홈페이지 : github.com/facebookarchive/scribe

728x90
반응형

'Open Source > Apache' 카테고리의 다른 글

Hadoop 완전분산모드(5)  (0) 2019.05.31
Hadoop 완전분산모드(4)  (0) 2019.05.31
Hadoop 완전분산모드(3)  (0) 2019.05.31
Hadoop 완전분산모드(2)  (0) 2019.05.31
Hadoop 완전분산모드(1)  (0) 2019.05.30
Comments