<1강> 빅데이터 시대의 현재와 미래
◆ 빅데이터 : 기존의 IT 기술로는 처리하기가 어려운 데이터
- 정보를 담고 있는 데이터에서 고객과 시장에 대한 통찰력(Insight)을 추출할 수 있는 능력 필요
- 기업은 데이터를 어떤 일이 왜 발생했는지를 분석하는 데 활용->기계학습(인공지능) 이용
◆ 기계학습 : 명시적으로 프로그래밍을 하지 않고도 컴퓨터가 데이터 속에서 학습하는 능력
ex) 스팸 필터에 사용하는 단어 10,000개 이상, 특정 단어 약 만 줄 두 단어 조합 약 5천만 줄 -> 컴퓨터 알고리즘이 스스로 학습하여 스팸을 구분할 수 있는 능력을 가짐
- 데이터 분석 > 패턴 분석 > 학습 > 문제해결
- 빅데이터 시대에 이르러 인공지능과 빅데이터는 찰떡 궁합으로 높은 성과를 냄
- 데이터에 바탕을 둔(Data-driven) 사실에 근거한(Fact-based) 의사결정
- 빅데이터 시대에서 기업에서 경쟁우위를 달성하기 위한 수단은 데이터 분석을 통해 인사이트를 추출하여 현명한 의사결정을 하는 방법
- 빅데이터 시대의 5대 핵심기술 : 소셜, 모바일, 사물인터넷, 클라우드, 인공지능
- 글로벌 기업은 데이터 분석적 경영으로 경쟁력을 갖추고 분석지향적 조직문화를 구축하고 있음
<2강> 분석, 빅데이터 시대 필수 역량
- 문제인식의 6단계
◆ 문제인식 : 문제를 인식하고 그것을 해결하려는 것에서 시작하는 단계
◆ 관련 연구 조사 : 문제와 직접적, 간접적으로 관련된 지식을 잡지, 책, 보고서, 논문 등을 통해 문제와 관련된 주요 변수들을 파악하는 단계
◆ 모형화(변수선정) : 문제와 관련된 내용을 정리해 관련 변수를 뽑아내는 단계
◆ 자료수집(변수측정) : 모형화를 통해 주요 변수로 재구성되고 측정이라는 과정을 거쳐 자료를 수집하는 단계
◆ 자료분석 : 나열된 숫자에서 변수 사이의 규칙적인 패턴, 즉 변수 간 관련성을 파악하는 단계
◆ 결과제시 : 다양한 차트나 그래프를 활용하여 결과를 제시하는 단계
<3강> 평균의 함정
- 심프슨의 역설 ; 동일하지 않는 가중치를 적용함에 따라 부분에 대한 분석결과와 전체에 대한 분석결과가 일치하지 않는 현상
- 평균의 종류
◆ 산술평균 : 모든 자료의 값을 다 더해서 전체 수로 나눈 것
◆ 대푯값 : 평균이 전체 숫자의 중심을 나타내는 것
◆ 중앙값 : 숫자들을 크기의 순서로 배열했을 때 정 가운데에 위치하는 값
◆ 최빈수 : 가장 흔하게 나타나는 수
- 어떤 평균을 써야 하나?
◆ 평균을 선택 시 데이터의 특성에 알맞은 것을 선택해야 함
◆ 명명척도로 측정한 경우에는 최빈수만을, 서열척도인 경우에는 중앙값만을 사용하고, 그 외의 경우에는 세 가지 평균 모두를 사용할 수 있음
- 흩어져 있는 정도
◆ 흩어진 정도를 나타내는 가장 간단한 측정치는 범위(Range)로서 최소값과 최대값과의 차이임
◆ 최솟값과 최댓값의 차이가 클수록 많이 흩어져 있다고 할 수 있음
◆ 흩어진 정도의 측정치로 널리 쓰이는 것이 표준편차임
<4강> 퍼센트를 조심하라
- 적은 자료를 토대로 계산한 퍼센트는 오도의 위험이 있음
- 퍼센트
◆ ‘무엇에 대한’ 퍼센트라고 표현할 때, 그 ‘무엇’이 언제나 기준이 되며, 이 기준은 퍼센트를 계산할 때 분모가 됨
◆ 퍼센트는 2개 이상의 숫자의 상대적 크기를 명확하게 하기 위해 사용됨
- 퍼센트의 마술
◆ 퍼센트를 대할 때는 무엇에 대한 퍼센트인지, 기준이 제대로 적용되어 있는지를 항상 따져보아야 함
◆ 어떻게 기준을 잡느냐에 따라 눈속임이 가능하기 때문에 주의해야 함
- 퍼센트 비교
◆ 퍼센트 비교 시 퍼센트를 계산한 기준의 크기가 비슷한가를 알아봐야 함
- 퍼센트 포인트
◆ 두 퍼센트의 기준이 같아 보통의 숫자와 같이 비교가 가능할 때, 퍼센트의 차이(혹은 변화)를 퍼센트 포인트라고 함
<5강> 시각화의 오용과 남용
- 시각화의 중요성
◆ 숫자가 나타내는 정보를 시각화하여 쉽게 이해할 수 있도록 전달해야 함
◆ 빅데이터 시대, 다양한 시각화 솔루션과 툴의 사용이 중시되고 있음
◆ 일반적으로 그래프를 많이 사용함
- 그래프의 함정
◆ 그래프를 그리는 사람이 강조하고자 하는 의도에 맞게 변화시킬 수 있으므로, 그래프의 눈금의 크기를 일관성 있게 유지해야 함
◆ 그림도표의 경우 그리는 과정에서 일어날 수 있는 과장이나 축소에 주의해야 함
◆ 그래프의 공정성을 평가하기 위해서는 그래프가 전체 그림을 보여주고 있는지, 눈금이 과장되어 있는지 생각해 봐야 함
<6강> 확률에도 종류가 있다!?
- 확률의 개념
◆ 확률이란 불확실한 것을 재는 것으로, 0에서 1까지의 값을 갖는데 그 값이 커질수록 일어날 가능성이 높아짐
- 선험적 확률
◆ 경험하지 않고도 이론적으로 미리 알 수 있는 확률과 실제로 일어나는 확률을 비교하는 것임
- 경험적 확률
◆ 오랜 기간에 걸쳐서 동일한 상황이나 조건하에서 어떤 사건이 일어나는 상대적인 비율로서 확률을 해석하는 것임
- 주관적 확률
◆ 한 개인이 어떤 사건이 일어날 것이라고 믿는 정도로, 주관적 확률의 객관성, 정확성이 의사결정의 성공여부를 좌우함
<7강> 확률을 이용한 판단 오류
- 확률의 함정
◆ 대부분의 사람들은 확률에 대한 이해가 매우 낮으므로, 정확한 의사결정을 위해서는 올바른 확률 계산이 필수임
- 도박사의 오류
◆ 시도(혹은 실험)를 반복하면 반복할수록 원래의 이론적인 확률에 접근한다는 평균의 법칙(Law of Large Numbers)로 인해 독립적인 사건들을 어떤 관계가 있는 종속적인 사건으로 보는 도박사의 오류가 발생함
- 유용성의 오류
◆ 사람들이 확률 판단을 하는데 있어서 일어나는 것으로 쉽게 기억나는 사건들이 일어날 확률이 높다고 평가하는 것
<8장> 여론조사 올바로 이해하기
- 표본조사와 대표성
◆ 표본조사 : 전체가 아닌 일부 표본을 조사하는 방법
◆ 대표성 : 모집단에서 무작위로 추출한 표본은 모집단의 대표성을 띄어야 함
- 표본의 무작위 추출
◆ 모집단에 속한 대상들이 표본에 뽑힐 확률이 모두 동일한 것
◆ 표본을 뽑을 때 표본을 뽑는 사람의 판단이나 편리함이 전혀 고려되지 않음
◆ 뽑기에 편리한, 주로 가까이에 있는 대상을 표본으로 추출한 편의표본
- 질문과 응답항목
◆ 질문에 미리 어떤 가치 판단을 깔아놓고 답을 원하는 방향으로 유도할 수 있으므로, 질 좋은 질문을 하는 것이 중요함
◆ 어떤 응답항목에 대한 응답비율을 높이려는 조사자의 의도가 개입되어서는 안 됨
- 조사결과의 해석
◆ 조사결과의 확대해석도 일반인들이 조사결과를 대할 때 경계해야 함
◆ 왜곡된 정보를 주고받지 않으려면 조사 결과에 대한 행간을 파악해야 함
◆ 표본이 적절한가에 관한 것도 생각해야 함
◆ 모집단의 정의, 표집방법, 응답률, 표본의 크기 등에 있어 표본의 대표성이 유지되는지 체크해야 함
<9장> 상관관계는 인과관계가 아니다
- 인과관계
◆ 원인은 결과보다 시간적으로 앞서야 함
◆ 원인과 결과는 관련이 있어야 함
◆ 결과는 원인이 되는 변수만으로 설명이 되어야 하고 다른 변수에 의한 설명은 제거되어야 함
- 상관관계
◆ 어떤 변수가 증가할 때 다른 변수가 함께 증가하는지 혹은 감소하는지를 관찰하여 파악해야 함
◆ 어떤 것들 간의 관계가 밀접하다는 것을 나타낼 뿐, 어느 것이 원인이고 어느 것이 결과인지에 대해서는 아무런 증거도 제공하지 않음
◆ 단순한 상관관계를 인과관계로 해석하는 오류를 주의해야 함
- 우연한 상관관계
◆ 우연히 상관관계를 나타내는 경우가 흔하다는 것으로, 통계학에서는 허위(spurious)관련성이라고 함
◆ A가 일어난 다음에 B가 일어났다고 해서 A가 B의 원인이라고 결론짓는 것을 전후인과의 오류(post hoc fallacy)라고 함
- 인과관계의 방향
◆ 상관관계가 있다고 할 때 흔히 생각하는 것과 반대방향으로 인과관계가 적용될 수 있음
◆ 성급하게 단순화하는 오류를 그대로 받아들이지 않도록 주의해야 함
<10장> 비교, 어떻게 해야 할까?
- 비교의 함정
◆ 비교 : 둘 이상의 사물을 견주어 서로 간의 유사점, 차이점, 일반 법칙 따위를 고찰하는 것
◆ 비교 대상을 계량화하기 어려운 경우에 남의 것이 더 커보임
- 올바로 비교하는 법
◆ 정확한 비교가 되려면, 비교되는 특성에 대한 정의가 동일해야 하며 비교되는 특성 이외의 것들에 대해서는 서로 비슷해야 함
<11장> 어림수의 허와 실
- 어림수의 마력
◆ 숫자는 과학적이라는 이미지와 설득력 있는 힘을 갖기 때문에 어림수를 사용하여 이야기하는 경우가 많음
◆ 여러 가지 한계 때문에 정확한 숫자의 계산이 어려워 어림수를 사용함
- 어림수의 대응
◆ 상식적으로 생각함
◆ 어림수의 근거에 대해 질문함
◆ 모든 숫자를 우선 의심하는 태도를 가짐
◆ 숫자가 중요한 의미를 가지려면 해당 주제나 문제와 직접적으로 관련 있어야 함
◆ 숫자가 정확한지 아닌지 판단함
◆ 숫자에 대한 해석이 해결하려는 문제와 관련지어서 적절한지를 판단함
<12장> 창의성과 분석
'공공 빅데이터 청년 인턴십' 카테고리의 다른 글
빅데이터 엔지니어링(2) (0) | 2021.08.24 |
---|---|
빅데이터 엔지니어링(1) (0) | 2021.08.24 |
2021년 공공 빅데이터 청년 인턴 (0) | 2021.06.25 |