Kafka Apache 프로젝트이며 open source stream 처리 플랫폼이기 때문에 Logstash 혹은 Beats와 동일한 목적을 수행하며 AWS Kinesis와도 여러 공통점이 있다. 높은 처리량과 짧은 지연시간을 갖고 있는 Pub/Sub 매커니즘이며, 수많은 서버의 로그와 같이 여러 입력 데이터 소스를 입력으로 받을 수 있고, 안정적으로 Target에 Publish 할 수 있다. 또한 처리중인 stream을 저장할 수 있는 기능을 가진 프레임 워크이다. 따라서 Logstash와 많은 공통점이 있지만 이미 데이터가 Kafka를 통해 유입되고 있는 환경에서 데이터를 Elasticsearch와 같은 다른 Target으로 가져와야 하는 경우 혹은 Logstash를 활용하여 Kafka에서 출력되는 ..
빅데이터 수집 개요 빅데이터의 수집은 내부 데이터로부터의 수집과 외부 데데이터로부터의 수집으로 나뉘어진다. 내부 데이터 정형 데이터. 따라서 RDBMS에서 주로 사용했던 데이터. 외부 데이터 비정형 데이터 반 정형 데이터 CSV 데이터의 구조처럼 delimeter 구조의 plain text 구조의 데이터. e.g) 뉴스/날씨, 기관 지표 완전 비정형 데이터 텍스트 그 자체로 데이터가 넘어옴. 구조가 없음. e.g) SNS, 포털/플로그 빅데이터의 수집 절차는 다음과 같다. 수집 대상 선정 수집 도메인 도출 수집 데이터셋 도출 수집 리스트 작성 수집 대상 부서 파악 수집 계획 수립 (중요!) 데이터 제공여부 협의 데이터 유형/속성 확인 수집 환경 및 표준 파악 수집 주기/용량 파악 수집 연동/포맷 파악 수..
- Total
- Today
- Yesterday
- kafka
- Espher
- Algorithm
- 프로그래머스
- CS
- Python
- 빅데이터
- DFS
- heapq
- logstash
- HDFS
- elasticsaerch
- mahout
- Elasticsearch
- 파이썬
- 빅데이터를지탱하는기술
- sqoop
- Flutter
- CSAPP
- cka
- 백준
- 네트워크
- Hadoop
- oozie
- kubernetes
- 이코테
- BOJ
- DP
- OS
- GROK
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |