공공 빅데이터 청년 인턴십

빅데이터가 별건가, 알고보면 쉬운 통계 상식

연디연디 2021. 6. 25. 06:53
728x90

<1> 빅데이터 시대의 현재와 미래

빅데이터 : 기존의 IT 기술로는 처리하기가 어려운 데이터

- 정보를 담고 있는 데이터에서 고객과 시장에 대한 통찰력(Insight)을 추출할 수 있는 능력 필요

- 기업은 데이터를 어떤 일이 왜 발생했는지를 분석하는 데 활용->기계학습(인공지능) 이용

 기계학습 : 명시적으로 프로그래밍을 하지 않고도 컴퓨터가 데이터 속에서 학습하는 능력

ex) 스팸 필터에 사용하는 단어 10,000개 이상, 특정 단어 약 만 줄 두 단어 조합 약 5천만 줄 -> 컴퓨터 알고리즘이 스스로 학습하여 스팸을 구분할 수 있는 능력을 가짐

- 데이터 분석 > 패턴 분석 > 학습 > 문제해결

- 빅데이터 시대에 이르러 인공지능과 빅데이터는 찰떡 궁합으로 높은 성과를 냄

- 데이터에 바탕을 둔(Data-driven) 사실에 근거한(Fact-based) 의사결정

- 빅데이터 시대에서 기업에서 경쟁우위를 달성하기 위한 수단은 데이터 분석을 통해 인사이트를 추출하여 현명한 의사결정을 하는 방법

- 빅데이터 시대의 5대 핵심기술 : 소셜, 모바일, 사물인터넷, 클라우드, 인공지능

- 글로벌 기업은 데이터 분석적 경영으로 경쟁력을 갖추고 분석지향적 조직문화를 구축하고 있음

 

<2> 분석, 빅데이터 시대 필수 역량

- 문제인식의 6단계

문제인식 : 문제를 인식하고 그것을 해결하려는 것에서 시작하는 단계

관련 연구 조사 : 문제와 직접적, 간접적으로 관련된 지식을 잡지, , 보고서, 논문 등을 통해 문제와 관련된 주요 변수들을 파악하는 단계

모형화(변수선정) : 문제와 관련된 내용을 정리해 관련 변수를 뽑아내는 단계

자료수집(변수측정) : 모형화를 통해 주요 변수로 재구성되고 측정이라는 과정을 거쳐 자료를 수집하는 단계

자료분석 : 나열된 숫자에서 변수 사이의 규칙적인 패턴, 즉 변수 간 관련성을 파악하는 단계

결과제시 : 다양한 차트나 그래프를 활용하여 결과를 제시하는 단계

 

<3> 평균의 함정

- 심프슨의 역설 ; 동일하지 않는 가중치를 적용함에 따라 부분에 대한 분석결과와 전체에 대한 분석결과가 일치하지 않는 현상

- 평균의 종류

산술평균 : 모든 자료의 값을 다 더해서 전체 수로 나눈 것

대푯값 : 평균이 전체 숫자의 중심을 나타내는 것

중앙값 : 숫자들을 크기의 순서로 배열했을 때 정 가운데에 위치하는 값

최빈수 : 가장 흔하게 나타나는 수

- 어떤 평균을 써야 하나?

평균을 선택 시 데이터의 특성에 알맞은 것을 선택해야 함

명명척도로 측정한 경우에는 최빈수만을, 서열척도인 경우에는 중앙값만을 사용하고, 그 외의 경우에는 세 가지 평균 모두를 사용할 수 있음

- 흩어져 있는 정도

흩어진 정도를 나타내는 가장 간단한 측정치는 범위(Range)로서 최소값과 최대값과의 차이임

최솟값과 최댓값의 차이가 클수록 많이 흩어져 있다고 할 수 있음

흩어진 정도의 측정치로 널리 쓰이는 것이 표준편차임

 

<4> 퍼센트를 조심하라

- 적은 자료를 토대로 계산한 퍼센트는 오도의 위험이 있음

- 퍼센트

무엇에 대한퍼센트라고 표현할 때, 무엇이 언제나 기준이 되며, 이 기준은 퍼센트를 계산할 때 분모가 됨

퍼센트는 2개 이상의 숫자의 상대적 크기를 명확하게 하기 위해 사용됨

- 퍼센트의 마술

퍼센트를 대할 때는 무엇에 대한 퍼센트인지, 기준이 제대로 적용되어 있는지를 항상 따져보아야 함

어떻게 기준을 잡느냐에 따라 눈속임이 가능하기 때문에 주의해야 함

- 퍼센트 비교

퍼센트 비교 시 퍼센트를 계산한 기준의 크기가 비슷한가를 알아봐야 함

- 퍼센트 포인트

두 퍼센트의 기준이 같아 보통의 숫자와 같이 비교가 가능할 때, 퍼센트의 차이(혹은 변화)를 퍼센트 포인트라고 함

 

<5> 시각화의 오용과 남용

- 시각화의 중요성

숫자가 나타내는 정보를 시각화하여 쉽게 이해할 수 있도록 전달해야 함

빅데이터 시대, 다양한 시각화 솔루션과 툴의 사용이 중시되고 있음

일반적으로 그래프를 많이 사용함

- 그래프의 함정

그래프를 그리는 사람이 강조하고자 하는 의도에 맞게 변화시킬 수 있으므로, 그래프의 눈금의 크기를 일관성 있게 유지해야 함

그림도표의 경우 그리는 과정에서 일어날 수 있는 과장이나 축소에 주의해야 함

그래프의 공정성을 평가하기 위해서는 그래프가 전체 그림을 보여주고 있는지, 눈금이 과장되어 있는지 생각해 봐야 함

 

<6> 확률에도 종류가 있다!?

- 확률의 개념

확률이란 불확실한 것을 재는 것으로, 0에서 1까지의 값을 갖는데 그 값이 커질수록 일어날 가능성이 높아짐

- 선험적 확률

경험하지 않고도 이론적으로 미리 알 수 있는 확률과 실제로 일어나는 확률을 비교하는 것임

- 경험적 확률

오랜 기간에 걸쳐서 동일한 상황이나 조건하에서 어떤 사건이 일어나는 상대적인 비율로서 확률을 해석하는 것임

- 주관적 확률

한 개인이 어떤 사건이 일어날 것이라고 믿는 정도로, 주관적 확률의 객관성, 정확성이 의사결정의 성공여부를 좌우함

 

<7> 확률을 이용한 판단 오류

- 확률의 함정

대부분의 사람들은 확률에 대한 이해가 매우 낮으므로, 정확한 의사결정을 위해서는 올바른 확률 계산이 필수임

- 도박사의 오류

시도(혹은 실험)를 반복하면 반복할수록 원래의 이론적인 확률에 접근한다는 평균의 법칙(Law of Large Numbers)로 인해 독립적인 사건들을 어떤 관계가 있는 종속적인 사건으로 보는 도박사의 오류가 발생함

- 유용성의 오류

사람들이 확률 판단을 하는데 있어서 일어나는 것으로 쉽게 기억나는 사건들이 일어날 확률이 높다고 평가하는 것

 

<8> 여론조사 올바로 이해하기

- 표본조사와 대표성

표본조사 : 전체가 아닌 일부 표본을 조사하는 방법

대표성 : 모집단에서 무작위로 추출한 표본은 모집단의 대표성을 띄어야 함

- 표본의 무작위 추출

모집단에 속한 대상들이 표본에 뽑힐 확률이 모두 동일한 것

표본을 뽑을 때 표본을 뽑는 사람의 판단이나 편리함이 전혀 고려되지 않음

뽑기에 편리한, 주로 가까이에 있는 대상을 표본으로 추출한 편의표본

- 질문과 응답항목

질문에 미리 어떤 가치 판단을 깔아놓고 답을 원하는 방향으로 유도할 수 있으므로, 질 좋은 질문을 하는 것이 중요함

어떤 응답항목에 대한 응답비율을 높이려는 조사자의 의도가 개입되어서는 안 됨

- 조사결과의 해석

조사결과의 확대해석도 일반인들이 조사결과를 대할 때 경계해야 함

왜곡된 정보를 주고받지 않으려면 조사 결과에 대한 행간을 파악해야 함

표본이 적절한가에 관한 것도 생각해야 함

모집단의 정의, 표집방법, 응답률, 표본의 크기 등에 있어 표본의 대표성이 유지되는지 체크해야 함

 

<9> 상관관계는 인과관계가 아니다

- 인과관계

원인은 결과보다 시간적으로 앞서야 함

원인과 결과는 관련이 있어야 함

결과는 원인이 되는 변수만으로 설명이 되어야 하고 다른 변수에 의한 설명은 제거되어야 함

- 상관관계

어떤 변수가 증가할 때 다른 변수가 함께 증가하는지 혹은 감소하는지를 관찰하여 파악해야 함

어떤 것들 간의 관계가 밀접하다는 것을 나타낼 뿐, 어느 것이 원인이고 어느 것이 결과인지에 대해서는 아무런 증거도 제공하지 않음

단순한 상관관계를 인과관계로 해석하는 오류를 주의해야 함

- 우연한 상관관계

우연히 상관관계를 나타내는 경우가 흔하다는 것으로, 통계학에서는 허위(spurious)관련성이라고 함

A가 일어난 다음에 B가 일어났다고 해서 AB의 원인이라고 결론짓는 것을 전후인과의 오류(post hoc fallacy)라고 함

- 인과관계의 방향

상관관계가 있다고 할 때 흔히 생각하는 것과 반대방향으로 인과관계가 적용될 수 있음

성급하게 단순화하는 오류를 그대로 받아들이지 않도록 주의해야 함

 

<10> 비교, 어떻게 해야 할까?

- 비교의 함정

비교 : 둘 이상의 사물을 견주어 서로 간의 유사점, 차이점, 일반 법칙 따위를 고찰하는 것

비교 대상을 계량화하기 어려운 경우에 남의 것이 더 커보임

- 올바로 비교하는 법

정확한 비교가 되려면, 비교되는 특성에 대한 정의가 동일해야 하며 비교되는 특성 이외의 것들에 대해서는 서로 비슷해야 함

 

<11> 어림수의 허와 실

- 어림수의 마력

숫자는 과학적이라는 이미지와 설득력 있는 힘을 갖기 때문에 어림수를 사용하여 이야기하는 경우가 많음

여러 가지 한계 때문에 정확한 숫자의 계산이 어려워 어림수를 사용함

- 어림수의 대응

상식적으로 생각함

어림수의 근거에 대해 질문함

모든 숫자를 우선 의심하는 태도를 가짐

숫자가 중요한 의미를 가지려면 해당 주제나 문제와 직접적으로 관련 있어야 함

숫자가 정확한지 아닌지 판단함

숫자에 대한 해석이 해결하려는 문제와 관련지어서 적절한지를 판단함

 

<12> 창의성과 분석

728x90