
HDFS Federation 네임 노드는 파일 정보 메타 데이터를 메모리에서 관리한다. 파일이 많아지면 메모리 사용량이 늘어나게 되고, 메모리 관리 문제가 발생한다. 이를 해결하기 위해 하둡 v2부터 HDFS Federation을 지원한다. HDFS federation은 디렉토리(네임 스페이스) 단위로 네임 노드를 등록하여 사용한다. 예를 들어 user, hadoop, tmp 세 개의 디렉토리가 존재할 때, /user, /hadoop, /tmp 디렉토리 단위로 총 3개의 네임 노드를 실행하여 파일을 관리하게 하는 것이다. HDFS federation을 사용하면 파일, 디렉토리의 정보를 가지는 네임스페이스와 블록의 정보를 가지는 블록 풀을 각 네임 노드가 독립적으로 관리한다. 네임스페이스와 블록 풀을 네임..

빅데이터 수집 개요 빅데이터의 수집은 내부 데이터로부터의 수집과 외부 데데이터로부터의 수집으로 나뉘어진다. 내부 데이터 정형 데이터. 따라서 RDBMS에서 주로 사용했던 데이터. 외부 데이터 비정형 데이터 반 정형 데이터 CSV 데이터의 구조처럼 delimeter 구조의 plain text 구조의 데이터. e.g) 뉴스/날씨, 기관 지표 완전 비정형 데이터 텍스트 그 자체로 데이터가 넘어옴. 구조가 없음. e.g) SNS, 포털/플로그 빅데이터의 수집 절차는 다음과 같다. 수집 대상 선정 수집 도메인 도출 수집 데이터셋 도출 수집 리스트 작성 수집 대상 부서 파악 수집 계획 수립 (중요!) 데이터 제공여부 협의 데이터 유형/속성 확인 수집 환경 및 표준 파악 수집 주기/용량 파악 수집 연동/포맷 파악 수..

HDFS HDFS(Hadoop Distributed File System)는 범용 하드웨어에서 동작하고, 장애 복구성을 가지는 분산 파일 시스템을 목표로 한다. HDFS는 실시간 처리보다는 배치처리를 위해 설계되었다. 따라서 빠른 데이터 응답시간이 필요한 작업에는 적합하지 않다. 또한 네임노드가 단일 실패 지점(SPOF)이 되기 때문에 네임노드 관리가 중요하다. 특징 블록 단위 저장 데이터를 블록 단위로 나누어서 저장한다. 블록 사이즈보다 작은 파일은 기존 파일의 사이즈로 저장하고, 블록 사이즈보다 큰 크기의 데이터파일은 블록 단위로 나누어 저장한다. 예를 들어 블록의 단위가 128MB일 때, 200MB의 데이터를 저장하기 위해서는 128MB 데이터 블록 하나와 72MB 데이터 블록 하나로 나누어서 저장..

하둡이란? 야후의 더그 커팅이 '넛치'라는 검색엔진을 개발하는 과정에서 대용량의 비정형 데이터를 기존의 RDB 기술로는 처리가 힘들다는 것을 깨닫고, 새로운 기술을 찾는 중 구글에서 발표한 GFS(Google File System)와 MapReduce 관련 논문을 참고하여 개발한 프레임워크. 이후 아파치 재단의 오픈 소스로 공개되었다. 특징 하둡은 하나의 성능 좋은 컴퓨터를 이용하여 처리하는 대신(Scale-up) 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고(Scale-out), 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 분산처리를 위한 오픈소스 프레임 워크 하둡의 구성 요소 하둡은 다음의 주요 모듈로 구성된다. Hadoop Common 하둡의 다른 ..
- Total
- Today
- Yesterday
- 이코테
- DP
- heapq
- mahout
- GROK
- Algorithm
- Espher
- 빅데이터를지탱하는기술
- oozie
- 빅데이터
- 백준
- DFS
- 프로그래머스
- Python
- HDFS
- 네트워크
- Hadoop
- elasticsaerch
- 파이썬
- logstash
- OS
- cka
- sqoop
- BOJ
- CSAPP
- Elasticsearch
- kafka
- CS
- Flutter
- kubernetes
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |