[빅데이터 수집] Flume, Kafka를 활용한 적재
빅데이터 수집 개요 빅데이터의 수집은 내부 데이터로부터의 수집과 외부 데데이터로부터의 수집으로 나뉘어진다. 내부 데이터 정형 데이터. 따라서 RDBMS에서 주로 사용했던 데이터. 외부 데이터 비정형 데이터 반 정형 데이터 CSV 데이터의 구조처럼 delimeter 구조의 plain text 구조의 데이터. e.g) 뉴스/날씨, 기관 지표 완전 비정형 데이터 텍스트 그 자체로 데이터가 넘어옴. 구조가 없음. e.g) SNS, 포털/플로그 빅데이터의 수집 절차는 다음과 같다. 수집 대상 선정 수집 도메인 도출 수집 데이터셋 도출 수집 리스트 작성 수집 대상 부서 파악 수집 계획 수립 (중요!) 데이터 제공여부 협의 데이터 유형/속성 확인 수집 환경 및 표준 파악 수집 주기/용량 파악 수집 연동/포맷 파악 수..
Data Engineering/Big Data
2022. 10. 25. 17:23
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- OS
- Espher
- sqoop
- heapq
- HDFS
- 빅데이터
- CS
- DFS
- DP
- 이코테
- Flutter
- oozie
- Algorithm
- 빅데이터를지탱하는기술
- Elasticsearch
- GROK
- CSAPP
- cka
- Hadoop
- 네트워크
- mahout
- 프로그래머스
- logstash
- Python
- kafka
- kubernetes
- 백준
- elasticsaerch
- 파이썬
- BOJ
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함