대규모 분산 처리의 프레임워크 다수의 컴퓨터에 데이터 처리를 분산하기 위해서는 실행을 관리하기 위한 프레임워크가 필요하다. 구조화 데이터와 비구조화 데이터 구조화 데이터 스키마가 명확하게 정의된 데이터 SQL로 집계 비구조화 데이터 자연 언어로 작성된 텍스트 데이터와 이미지, 동영상 등의 미디어 데이터를 포함한 스키마가 없는 데이터 SQL로 제대로 집계할 수 없음 분산 스토리지 등에 저장하고 분산 시스템에서 처리 스키마리스 데이터 - 기본 서식은 있으나 스키마가 정의 안됨 CSV, JSON, XML 등의 데이터는 서식은 정해져 있지만 컬럼 수나 데이터 형은 명확하지 않아 스키마리스 데이터라고 불린다. 데이터를 다운로드 할 때마다 스키마를 정하는 것은 시간과 비용이 소요되기 때문에 JSON은 JSON 그대..
데이터 집계 -> 데이터 마트 -> 시각화 시스템 구성은 데이터 마트의 크기에 따라 결정된다. 데이터 마트의 크기가 작을수록 시각화는 간단 원래 데이터에 포함된 정보를 읽어버리게 됨. 시각화의 프로세스에서 할 수 있는것이 적어짐 데이터 마트 클수록 데이터 마트가 거대해져 좋은 시각화를 하기 힘듦. 데이터의 양을 수백만 건 정도까지 줄일 수 있다면 모든 데이터를 시각화 도구에 넣을 수 있기 때문에 특별한 시스템이 필요 없다. 이게 되지 않는다면 지연이 적은 데이터베이스를 사용하여 데이터 마트를 만들 수 있어야 한다. 열 지향 스토리지에 의한 고속화 메모리에 다 올라가지 않을 정도의 대용량 데이터를 신속하게 집계하려면 미리 데이터를 집계에 적합한 형태로 변환하는 것이 필요하다. 데이터베이스의 지연을 줄이기 ..
1-1. 빅데이터의 정착 빅데이터라는 단어가 퍼질 때까지의 역사를 간단하게 되돌아본다. 분산 시스템에 의한 데이터 처리의 고속화 빅데이터의 취급이 어려운 이유는 크게 두 가지이다. 데이터의 분석 방법을 모른다. 데이터 처리에 수고와 시간이 걸린다. 빅데이터 기술의 요구 - Hadoop과 NoSQL의 대두 빅데이터 기술로 가장 먼저 예로 들 수 있는 것이 Hadoop과 NoSQL이다. 전통적인 관계형 데이터 베이스로는 취급할 수 없을만큼 대량의 데이터가 점차 쌓이게 되었다. 이를 처리하기 위해 기존과 다른 구조가 필요했다. Hadoop과 NoSQL은 각각 다른 요구를 충족하기 위해 태어났다. Hadoop - 다수의 컴퓨터에서 대량의 데이터 처리 하둡은 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템..
- Total
- Today
- Yesterday
- CSAPP
- 빅데이터
- Espher
- Python
- DFS
- cka
- DP
- Elasticsearch
- 이코테
- HDFS
- 프로그래머스
- mahout
- Hadoop
- logstash
- 파이썬
- 백준
- CS
- kafka
- 빅데이터를지탱하는기술
- oozie
- elasticsaerch
- 네트워크
- BOJ
- sqoop
- kubernetes
- Flutter
- Algorithm
- heapq
- OS
- GROK
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |