데일리 미션/Article

Article : 데이터 분석의 트랜드 변화

pipiiiiii 2024. 1. 26. 16:32

https://brunch.co.kr/@data-station/8

 

1-2. 데이터 분석의 트랜드 변화 

통계분석에서 빅데이터에 이르기까지 | 2) 통계분석에서 빅데이터에 이르기까지 데이터를 이해하는데 있어 가장 쉽게 접근할 수 있는 방법 중 하나는, 데이터 분석과정이 어떻게 변화했는지

brunch.co.kr

 

 

 

 

<아티클 내용 요약>

- 데이터를 이해하는데 있어 가장 쉽게 접근할 수 있는 방법 중 하나는, 데이터 분석 과정이 어떻게 변화했는지 보는 것이다. 

- 데이터는 여러 객관적 수치화된 값을 의미한다. 

- 데이터를 분석한다는 것인, 여러 개의 관찰에 의해 얻어진 객관적 사실 값들을 분석한다는 의미이다. 

- 초기에는 '통계'라는 학문을 동원해 데이터를 분석했다. 

- 통계는 모든 현상에 대한 값이 있는 모집단으로부터, 측정 및 저장 가능한 데이터를 추출하여 표본으로 만들고, 표본의 통계량을 조사하여 다시 모집단을 추정하는 형태로 분석이 이뤄진다. 

- 기존 전통적 통계는 '가설검정'이라는 절차를 통해 데이터 분석의 객관성을 입증하는 모습으로 분석이 진행된다. 

- IT 기술의 발전으로 대량의 데이터를 수집 및 저장, 처리할 수 있게 되면서 '데이터 마이닝'이라는 영역이 등장하게 되었다. 

- 데이터 마이닝은 데이터로부터 데이터 간의 관계를 규명해 수식과 규칙을 찾아내는 방식이다. 

- 데이터 마이닝에서는 수집된 데이터를 전체 데이터로 가정하여, 데이터 분석을 진행한다. 

- 데이터 마이닝은 데이터를 예측하거나 분류할 때, 전체 데이터의 일부를 가져와 학습 데이터로 구성한 뒤 학습 데이터에서 규칙을 찾아낸다. 그리고 해당 규칙이 맞는지 확인하기 위해 나머지 일부 데이터를 추출한 검증 데이터로 검증하는 절차를 밟는다. 

- 데이터로 규칙을 찾는 최적화 과정과 찾아낸 규칙이 새로운 데이터에 얼마나 잘 적용되는지 일반화 과정을 거쳐 새로운 상황에 대한 예측 및 분류 등을 진행 할 수 있게 됐다. 이를 '기계학습'이라고 한다. 

- IT 기술이 더욱 발전하면서 다른 새로운 관점에서 데이터를 분석하기 시작했다. 전문가들은 '빅데이터'라고 부른다. 

- '빅데이터'는 두가지 관점으로 접근할 수 있다. 하나는 데이터의 양이고, 둘은 데이터의 구조이다. 

- 데이터의 양은 IT 기술에서도 데이터를 저장하는 하드웨어 기술이 발전하면서, 데이터를 담고 수집할 수 있는 용량의 한계가 기하급수적으로 늘어나기 시작했다. 기술의 발달로 인해 기존과 비교할 수 없는 초 대량의 데이터를 다루는 컴퓨터 구조와 처리 알고리즘들이 등장하였고 이를 바탕으로 새로운 형태의 인사이트를 찾는 형태로 데이터 분석을 진행한다. 

- 데이터의 구조는 비정형 데이터들이 수집 가능해지면서, 해당 데이터를 처리하는 알고리즘이 필요하게 된다. 기존 정형데이터에서는 각 데이터의 의미가 명확했으나 비정형 데이터는 하나의 데이터 값에 함축적인 의미를 담고 있는 경우가 거의 없다. 

- 비정형 데이터들은 각각의 값이 의미가 없는 저차원의 데이터로 이루어져 있어 성능 향상의 한계가 있고, 컴퓨터가 이해하는 숫자 형태로 변화되어야 하다 보니 처리해야 하는 데이터의 양도 매우 커졌다. 이에 데이터 엔지니어와 사이언티스트들은 기존과 다른 '신경망 알고리즘'을 사용하게 됐다. 

- 신경망 알고리즘은 사람의 신경세포처럼 작동하여 신경망 알고리즘이라는 이름이 붙었다. 

- 신경망 알고리즘은 저차원으로 이뤄진 비정형 데이터들이 쉽게 처리될 수 있도록 구성되어 있고, 데이터 분석 및 처리 속도를 매우 빠르게 해 줘 기존과 다른 구조와 사이즈의 데이터를 처리할 수 있다. 

 

 

 

 

 

 

<알게 된 개념>

- 이번 내용은 좀 어려워서 여러번 반복해 읽었다. 

읽으면서 데이터를 분석하기 위해 수많은 노력이 있고, 전부터 이런 일을 하는 사람은 있었다는 것을 느낄 수 있었다. 

과거 통계를 시작하게 된 것도 데이터를 분석해 기준을 만들고 파악하기 위해서였고, 그 후 IT가 생기면서 좀 더 편하게 통계를 하게 된 것으로 발전했고 지금은 정형화되지 않은 것조차 분석하려고 하는 시대라는 생각이 든다. 

 

다만 지금은 자료가 너무 방대하니 좀 더 전문적으로 분석만 하는 사람을 찾게되고 그러면서 생긴 직업이 데이터 분석가가 아닐까?라는 궁금증이 생기기도 한다.