공공 빅데이터 청년 인턴십

빅데이터 엔지니어링(1)

연디연디 2021. 8. 24. 16:54
728x90

1.     빅데이터 엔지니어링 개요

1.1  빅데이터 엔지니어링이란?

-       데이터 분석 및 활용에 필요한 원천 데이터를 파악하고 수집, 정제하여 데이터가 올바르게 활용될 수 있도록 파이프라인 구축/관리 역할을 가진 사람

-      과거 ()데이터 엔지니어는 DW/BI 구축을 위해 파이프라인을 유지/관리 역할을 가진 직군을 의미했으나 최근에는 빅데이터 영역까지 포함하는 것으로 의미 변화

1.2 빅데이터 엔지니어의 역할

-      주 역할은 데이터 수집 및 정제

-      분석가가 모델을 생성하고 Self 시각화 등에 활용할 수 있도록 데이터 흐름을 구성해줌

 

1.3  빅데이터 엔지니어의 필요 역량

◆  기술

-      SQL : 데이터 누락이나 중복없이 원하는 데이터를 원하는 형태로 출력할 수 있는 기술 -> 빅데이터 분석에 정형/반정형이 여전히 많이 사용되고 있음, SQL 능력은 필수적

-      하둡 아키텍처 : HDFS, Kudu, Impala, Yarn, Spark, Zookeeper 등의 하둡 솔루션

-      프로그래밍 언어 : 파이썬 작성 및 이해, 깊은 수준의 프로그래밍 능력은 아니더라도 최소한 기본 구문 (For, if, while)을 통해 원하는 코드를 작성할 수 있을 정도는 필요

◆  지식

-      업무 도메인 지식 : 빅데이터 분석에 필요한 데이터의 도메인 지식

-      OS(리눅스) 지식 : 간단한 수준의 커맨드 조작 및 OS 기능의 이해(ssh, sftp, ntp, socket ), Cron Job 설정, OS 로깅 설정 등

-      네트워크 지식 : 데이터 수집시 장애요소(방화벽, ssh 터널링) 해결 시 필수 지식

◆  태도

-      꼼꼼한 태도 : 데이터 정합성 검증 및 부정합 데이터 발견시 원인을 추적할 수 있어야 함

-      새로운 지식을 받아들이는 태도 : 새로운 하둡 기술, 새로운 CSP(Cloud Service Provider)의 기술 수용

 

 

2.     빅데이터 아키텍쳐

2.1  빅데이터 아키텍쳐 개요

-      DW 개념 : 데이터를 주제별 다양한 각도로 분석하기 위해 기간계 시스템의 데이터를 ETL(Extraction Transformation Loading)하여 저장해 놓은 데이터베이스

-      DataLake 개념 : 데이터 분석을 위해 원천 시스템에 존재하는 정형/비정형 데이터를 가공되지 않은 형태로 보관해 놓은 단일 저장소

 

2.2  데이터 수집

-      정형 : 고정된 스키마 구조가 있고 스키마 구조에 따라 데이터가 저장된 형태, 일반적인 RDB 데이터, Excel 데이터

-> 수집방법 : ETL(Extract, Transformation, Load)

-      반정형 : 스키마가 존재하지만 구조에 일관성이 없어서 데이터를 읽고 파싱해야 구조를 파악할 수 있는 데이터, CSV, JSON, XML -> 수집방법 : REST API, ETL

-      비정형 : 스키마가 없는 데이터, 정형/반정형 데이터 외 대부분의 데이터

-> 수집방법 : 크롤링, SFTP, FTP

 

 

2.3  데이터 정제

 

 

-      데이터 프로파일링 : 테이블 및 컬럼 분석에 대한 통계정보를 확보하고 이를 통해 잘못된 값이나 모호한 의미를 가진 데이터를 발견하는 활동

-      데이터 프로파일링 기법 : 누락 값 분석(Null), 허용범위 분석, 허용값 목록 분석, 문자열 패턴 분석, 날짜 유형 분석, 구조 분석

-      데이터 표준화 : 시스템에 산재된 단어와 이를 결합한 시스템 용어를 통일화하고 코드값, 도메인을 일치시켜 데이터 품질을 높이기 위한 활동

-      데이터 표준화의 필요성 : 데이터 표준화를 지키지 않은 시스템이 존재함, 데이터 표준화 체계가 있다면 체계에 맞추어 데이터 변환 필요, 여러 시스템간 데이터 결합 위해 데이터 불일치 해소 필요

-      데이터 클렌징 : 데이터에서 결측치, 이상값 등을 제거하고 표준화하여 데이터를 일관성있게 만드는 작업

-      데이터 클렌징의 종류 : 제거하기(완전 제거법), 대체하기(합리적 채우기, 평균 대체법, 다중 대체법->권장)

728x90