공공 빅데이터 청년 인턴십 19

빅데이터 엔지니어링(2)

3. 하둡 아키텍쳐 3.1 하둡 아키텍쳐 개념 - 하둡 1.0 : HDFS 및 Map Reduce를 근간으로 분산 병렬처리가 가능한 오픈소스 프레임워크 3.2 HDFS - HDFS(Hadoop File System) : 다수의 서버를 이용하여 클러스터를 구성하고 파일을 분산 저장하여 가용성을 높인 파일 시스템 3.3 Map Reduce - Map Reduce : HDFS 저장소를 기반으로 Key별로 로직을 처리하는 Map 작업과 결과를 취합하는 Reduce 작업으로 구성되어 병렬 연산 가능한 하둡 처리기술 - Map Reduce의 구성 : Job Tracker, Task Tracker - Map Reduce의 특징 : HDFS에 저장된 데이터를 소스로 병렬 연산 수행, 개발자는 Map 함수와 Reduce..

빅데이터 엔지니어링(1)

1. 빅데이터 엔지니어링 개요 1.1 빅데이터 엔지니어링이란? - 데이터 분석 및 활용에 필요한 원천 데이터를 파악하고 수집, 정제하여 데이터가 올바르게 활용될 수 있도록 파이프라인 구축/관리 역할을 가진 사람 - 과거 (빅)데이터 엔지니어는 DW/BI 구축을 위해 파이프라인을 유지/관리 역할을 가진 직군을 의미했으나 최근에는 빅데이터 영역까지 포함하는 것으로 의미 변화 1.2 빅데이터 엔지니어의 역할 - 주 역할은 데이터 수집 및 정제 - 분석가가 모델을 생성하고 Self 시각화 등에 활용할 수 있도록 데이터 흐름을 구성해줌 1.3 빅데이터 엔지니어의 필요 역량 ◆ 기술 - SQL : 데이터 누락이나 중복없이 원하는 데이터를 원하는 형태로 출력할 수 있는 기술 -> 빅데이터 분석에 정형/반정형이 여전히..

판다스로 배우는 데이터 분석 입문

1. 데이터 사이언스 소개 & Python 기초 - 데이터 사이언스 관련 직군 ◆ Data Scientist : 데이터에 대한 가설을 설정하고, 데이터를 분석하고, 분석한 데이터로 파악한 특징을 시각화해서 다른 사람들과 공유 요구 능력 - 비즈니스에 대한 이해력(도메인 지식), 데이터 분석 능력, 데이터 시각화 능력 ◆ Data Engineer : Data Science 프로젝트 진행을 위한 데이터 수집 및 전처리, 학습된 모델의 안정적인 배포를 위한 인프라 등을 개발 요구 능력 - 데이터 크롤링 및 정제를 위한 프로그래밍 능력, 모델 배포 및 API 구축을 위한 인프라 구성을 위한 엔지니어링 능력, Database 및 SQL 할용능력 ◆ Machine Learning Engineer : Data Sci..

빅데이터가 별건가, 알고보면 쉬운 통계 상식

빅데이터 시대의 현재와 미래 ◆ 빅데이터 : 기존의 IT 기술로는 처리하기가 어려운 데이터 - 정보를 담고 있는 데이터에서 고객과 시장에 대한 통찰력(Insight)을 추출할 수 있는 능력 필요 - 기업은 데이터를 어떤 일이 왜 발생했는지를 분석하는 데 활용->기계학습(인공지능) 이용 ◆ 기계학습 : 명시적으로 프로그래밍을 하지 않고도 컴퓨터가 데이터 속에서 학습하는 능력 ex) 스팸 필터에 사용하는 단어 10,000개 이상, 특정 단어 약 만 줄 두 단어 조합 약 5천만 줄 -> 컴퓨터 알고리즘이 스스로 학습하여 스팸을 구분할 수 있는 능력을 가짐 - 데이터 분석 > 패턴 분석 > 학습 > 문제해결 - 빅데이터 시대에 이르러 인공지능과 빅데이터는 찰떡 궁합으로 높은 성과를 냄 - 데이터에 바탕을 둔(D..

728x90