대규모 분산 처리의 프레임워크 다수의 컴퓨터에 데이터 처리를 분산하기 위해서는 실행을 관리하기 위한 프레임워크가 필요하다. 구조화 데이터와 비구조화 데이터 구조화 데이터 스키마가 명확하게 정의된 데이터 SQL로 집계 비구조화 데이터 자연 언어로 작성된 텍스트 데이터와 이미지, 동영상 등의 미디어 데이터를 포함한 스키마가 없는 데이터 SQL로 제대로 집계할 수 없음 분산 스토리지 등에 저장하고 분산 시스템에서 처리 스키마리스 데이터 - 기본 서식은 있으나 스키마가 정의 안됨 CSV, JSON, XML 등의 데이터는 서식은 정해져 있지만 컬럼 수나 데이터 형은 명확하지 않아 스키마리스 데이터라고 불린다. 데이터를 다운로드 할 때마다 스키마를 정하는 것은 시간과 비용이 소요되기 때문에 JSON은 JSON 그대..
데이터 집계 -> 데이터 마트 -> 시각화 시스템 구성은 데이터 마트의 크기에 따라 결정된다. 데이터 마트의 크기가 작을수록 시각화는 간단 원래 데이터에 포함된 정보를 읽어버리게 됨. 시각화의 프로세스에서 할 수 있는것이 적어짐 데이터 마트 클수록 데이터 마트가 거대해져 좋은 시각화를 하기 힘듦. 데이터의 양을 수백만 건 정도까지 줄일 수 있다면 모든 데이터를 시각화 도구에 넣을 수 있기 때문에 특별한 시스템이 필요 없다. 이게 되지 않는다면 지연이 적은 데이터베이스를 사용하여 데이터 마트를 만들 수 있어야 한다. 열 지향 스토리지에 의한 고속화 메모리에 다 올라가지 않을 정도의 대용량 데이터를 신속하게 집계하려면 미리 데이터를 집계에 적합한 형태로 변환하는 것이 필요하다. 데이터베이스의 지연을 줄이기 ..
- Total
- Today
- Yesterday
- Elasticsearch
- DP
- 빅데이터를지탱하는기술
- OS
- 네트워크
- 빅데이터
- sqoop
- kafka
- 백준
- HDFS
- cka
- BOJ
- elasticsaerch
- 프로그래머스
- CSAPP
- logstash
- heapq
- Algorithm
- Flutter
- 이코테
- mahout
- Espher
- kubernetes
- Python
- GROK
- 파이썬
- Hadoop
- CS
- DFS
- oozie
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |