1. 데이터 리터러시의 정의
- 데이터를 읽는 능력( = 해석하는 능력)
- 데이터를 이해하는 능력
- 데이터를 비판적으로 분석하는 능력
→ 이 세 가지로 종합적인 결론을 내릴 수 있다.
- 위 세 가지를 결과에 대한 의사소통 시 활용할 수 있다.
- 리터러시란?
- 데이터 수집과 원천을 이해하는 것이다.
- 주어진 데이터에 대한 다양한 활용법을 이해하는 것이다.
- 데이터를 통한 핵심 지표를 이해하는 것이다.
- 이해들을 통해 자기 자신에게 올바른 질문을 던질 수 있게 하는 것이다.
2. 데이터 분석에 대한 착각
- 데이터 분석에 대해 시작할 때 분석 스킬이 부족한 것 같아 SQL, Python, Tableau를 배운다.
- 배운 툴을 이용해 데이터 분석을 하지만 결과가 나오지 않아 스스로가 부족하다고 여기거나 다른 공부를 더 한다.
- 데이터 분석에 대한 3가지 착각
- 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각한다.
- 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각한다.
- 분석에 실패하면 방법론 또는 스킬이 부족하다고 생각한다.
- 그러나 분석이 아닌 리터러시 때문에 문제가 발생하는 경우가 많다.
3. 데이터 해석 오류 사례
- 심슨의 역설
- 심슨의 패러독스란 '부분'에서 성립한 대소관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우를 말한다.
- 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아니다.
- 데이터를 기반으로 했다고 해서 맹목적으로 받아들여서는 안 된다. - 시각화를 활용한 왜곡
- 자료의 표현 방법에 따라 해석의 오류 여지가 존재한다. - 샘플링 편향
- 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생한다. - 상관관계와 인과관계
- 상관관계
- 두 변수가 얼마나 상호의존적인지 파악하는 것이다.
- 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가 / 감소하되 추이를 따른다. - 인과관계
- 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미한다.
- 원인과 결과가 명확하다.
- 상관관계
- - 상관관계 만으로 의사 결정을 하면 안된다.
4. 데이터 리터러시 활용 예제
- 예제를 통해 알 수 있던 것
- 시각화 자료를 통해 데이터를 읽을 수 있다.
- 시각화 자료를 볼 때 왜 그런 그래프를 그렸는지, 무엇을 말하고 싶은지를 계속 떠올리는 것이 중요하다.
- 데이터 작업 전 알고 싶은 것을 생각해 보는 목적 사고적 방식이 중요하다.
5. 데이터 리터러시가 필요한 이유
- 보통 문제가 생기면 '생각' 단계에서 많이 일어난다. 그렇기 때문에 '생각'에 비중을 두고 많이 고민해야 한다.
- 데이터 분석이 목적이 되지 않도록 '왜?'를 항상 생각해야 한다.
- 데이터 리터러시는 방향을 읽고 분석을 위한 분석이 되지 않게 도와주는 soft skill이다.