'kafka' 태그의 글 목록

Elasticsearch와 Kafka

Kafka Apache 프로젝트이며 open source stream 처리 플랫폼이기 때문에 Logstash 혹은 Beats와 동일한 목적을 수행하며 AWS Kinesis와도 여러 공통점이 있다. 높은 처리량과 짧은 지연시간을 갖고 있는 Pub/Sub 매커니즘이며, 수많은 서버의 로그와 같이 여러 입력 데이터 소스를 입력으로 받을 수 있고, 안정적으로 Target에 Publish 할 수 있다. 또한 처리중인 stream을 저장할 수 있는 기능을 가진 프레임 워크이다. 따라서 Logstash와 많은 공통점이 있지만 이미 데이터가 Kafka를 통해 유입되고 있는 환경에서 데이터를 Elasticsearch와 같은 다른 Target으로 가져와야 하는 경우 혹은 Logstash를 활용하여 Kafka에서 출력되는 ..

Data Engineering/Elasticsearch 2022. 11. 24. 12:55

[빅데이터 수집] Flume, Kafka를 활용한 적재

빅데이터 수집 개요 빅데이터의 수집은 내부 데이터로부터의 수집과 외부 데데이터로부터의 수집으로 나뉘어진다. 내부 데이터 정형 데이터. 따라서 RDBMS에서 주로 사용했던 데이터. 외부 데이터 비정형 데이터 반 정형 데이터 CSV 데이터의 구조처럼 delimeter 구조의 plain text 구조의 데이터. e.g) 뉴스/날씨, 기관 지표 완전 비정형 데이터 텍스트 그 자체로 데이터가 넘어옴. 구조가 없음. e.g) SNS, 포털/플로그 빅데이터의 수집 절차는 다음과 같다. 수집 대상 선정 수집 도메인 도출 수집 데이터셋 도출 수집 리스트 작성 수집 대상 부서 파악 수집 계획 수립 (중요!) 데이터 제공여부 협의 데이터 유형/속성 확인 수집 환경 및 표준 파악 수집 주기/용량 파악 수집 연동/포맷 파악 수..

Data Engineering/Big Data 2022. 10. 25. 17:23

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

haejun IT

티스토리툴바