공부일기/데이터 분석 종합반

데이터 분석 종합반 1주차 개발일지

pipiiiiii 2023. 11. 13. 20:48

데이터 분석 맛보기

· 캐글에서 유명한 예제인 '타이타닉 생존율 구하기'로 데이터 분석 기초 살펴보기

  ▶ 캐글 : 데이터 사이언티스트들에게 유명한 커뮤니티 플랫폼

 

· 데이터 분석을 위한 스프레드 시트를 가져오면 제일 먼저 결측치 제거를 진행해 데이터 전처리를 한다.

 → 결측치 제거 : 데이터 전처리를 할 때 분석에 방해가 되는 부분을 미리 제거하는 것

 → 데이터 전처리 : 본격적인 데이터 분석 전 준비 단계

 

· 데이터 분석의 기분 준비 3단계

 1. 데이터 표를 가져온다. (데이터 가져오기)

 2. 데이터 표를 확인하고 어떤 부분을 볼 것인지, 고려 사항은 없는지 고민한다. (데이터 살펴보기)

 3. 잘 분석할 수 있도록 입맛에 맞게 원하는 형태로 데이터를 만든다. (데이터 다듬기)

 

· 데이터 분석 기초를 위해 '타이타닉 생존율 구하기' 스프레드 시트를 열고 부가 기능을 다운 및 설치한다.

 → 데이터 분석을 위해 사용하는 부가 기능의 종류는 다양하지만 이번 강의 시간에는 XLMiner Analysis ToolPak를 사용한다. 

 

· 설치한 ToolPak을 실행하고 사용하고자 하는 기능을 확인해 본다.

 →  XLMiner Analysis ToolPak에는 다양한 기능이 있지만 이번 강의 시간에는 어떤 결과가 어떤 인지로부터 영향을 받고 있는지, A라는 요인이 B라는 결과에 영향을 주는지 상관관계를 분석할 수 있는 correlation을 사용한다. 

 

· correlation 작성 3단계

 1. Input Range에 분석할 시점부터 끝점까지를 작성한다. 

ex) A1:C6 → A열 1행부터 C열 6행까지라는 뜻이다.

 2. Labels in First Row를 체크한다. 

 → 분석표 첫번째 행에 라벨링을 해달라는 뜻이다. 

 3. Output Range에 분석 결과를 나타내고자 하는 열을 작성한다. 

ex) D:F → D열부터 F열까지에 결과를 보여달라는 뜻이다. 

 

· correlation으로 만든 결과를 범위 지정으로 선택한 후 스프레드 시트 상단에 있는 '삽입' 선택 후 '차트'를 선택하면 그래프로 시각화할 수 있다. 

  

· 만든 차트를 더블 클릭하면 오른쪽에 '설정'이 나온다. '설정'에서 '계열' 부분을 통해 남기고 싶은 데이터만 선택해서 남길 수 있다. 

 

· 차트에 나와있는 그래프의 상세 데이터를 보고싶다면 '설정' 오른쪽에 있는 '맞춤설정'에서  '계열'에 들어가 '데이터 포인트 서식 지정'에 있는 '데이터 라벨'을 체크하면 상세하게 볼 수 있다. 

 

· 스프레드 시트에 있는 자료를 통해 데이터를 정리하고 시각화하여 확인하니 '타이타닉 생존율 구하기' 결과가 성별인 것을 알 수 있었다.  

 

· 상관관계 분석 시 제일 중요한 것은 음수, 양수 상관없이 값이 큰지 작은 지를 알아보는 것이다. 왜냐하면 값이 클 수록 상관관계가 크기 때문이다.

 → 양수란 숫자가 기준점과 같은 방향으로 증가할수록 혹은 클수록 상관관계가 큰 것이다.

 → 음수란 숫자가 기준점과 반대 방향으로 증가할 수록 혹은 내려갈수록 상관관계가 큰 것이다. 

 

· 데이터 분석의 구조

 - 문제 정의 및 가설 설정하기.

 - 데이터 분석 기본 세팅하기.

 - 데이터 분석하기.

 - 분석 결과 시각화하기.

 - 최종 결론 내리기. 

 

데이터 분석에 사용되는 파이썬 설명

· 파이썬이란 데이터 분석에 사용되는 컴퓨터 언어 번역기이다. 

 

· 파이썬을 사용할 때 파이썬 라이브러리를 사용하면 더 간편하게 파이썬을 사용할 수 있다.

 → 파이썬 라이브러리란 데이터 분석 시, 특정한 동작을 할 수 있게 하는 코드 모음집이라고 할 수 있다. 

 → 관련있는 기능의 묶음 = 모듈, 모듈들의 묶음 = 패키지, 패키지들의 묶음 = 라이브러리라고 한다.

  

· 파이썬 라이브러리도 다양하게 있지만 가장 많이 사용되는 라이브러리는 두 가지가 있다. 

 1. pandas

 - 엑셀보다 범용성이 큰 엑셀같은 것이다. 

 - 엑셀말고도 여러 종류의 데이터 파일을 읽을 수 있다.

 - 필요한 데이터를 자르고, 붙일 수 있다.

 - 결함이 있는 데이터를 도려낼 수 있다. (결측치 제거)

 - 원하는 데이터를 뽑기 위한 필터링 작업이 가능하다. 

 2. matplotlib

 - 파이썬으로 작성된 시각화 틀이다.  

 

· 1주 차 숙제

 - 피마 인디언 당뇨병 데이터 세트를 이용해 당뇨병 발생에 가장 많이 영향을 미치는 요소를 찾아보기

 → 내 코딩값과 결괏값

 

→ 정답 쿼리문과 결괏값

 

· 1주 차 소감

1주차 강의를 듣는 동안 또 시작됐다. '이게 뭐람' 병. 

SQL 1주 차는 들을 수 있겠다는 생각이 있었는데, 오히려 이해한다고 자만하지 말자는 생각이 들 정도였는데 데이터 분석이 시작되니까 1주 차부터 얄짤없었다. 순식간에 모든 의욕이 상실했을 정도지만 아직 1주 차고 앞으로 구만리라 남았는데 벌써 지치면 안 된다는 생각에 꾸역꾸역 강의를 듣고 숙제를 했다. 

숙제도 잘 했는지 모르겠지만 한 것에 의의를 두고 강의를 마무리했다. 

아... 남은 4주치 강의는 어쩌나 싶다.