데일리 미션/Article

Article : 데이터 아키텍처? 쉽게 배워봅시다

pipiiiiii 2024. 1. 5. 10:28

https://yozm.wishket.com/magazine/detail/2396/

 

데이터 아키텍처? 쉽게 배워봅시다 | 요즘IT

오늘은 데이터 아키텍처에 대한 이야기를 나누려고 합니다. 처음 접하면 낯설고 복잡할 수 있지만, 함께 차근차근 알아보면 더 이해하기 쉬울 거에요. 데이터 아키텍처(Data Architecture)는 조직이

yozm.wishket.com

 

 

<아티클 내용 요약>

0. 데이터 아키텍처란?

- 직역하면 '건축학' 

- 시스템 및 소프트웨어 산업에서는 '시스템이 어떻게 구성되며 동작하는지 원리를 나타내는 원칙'

- 조직이 데이터를 수집, 저장, 처리 및 관리하는 방법을 설계하고 구현하는 일련의 과정 또는 체계

 

 

1. 데이터 원천 : 데이터의 시작점 

  • OLTP 데이터베이스 : 온라인 쇼핑을 할 때나 은행 업무를 볼 때 생성되는 트랜잭션 데이터. 구매 내역, 입출금 내역 등이 포함됨. 
  • 기업 애플리케이션 : 모든 회사에서는 ERP나 CRM 같은 시스템을 통해 데이터를 관리. 고객 정보, 재고, 매출 등의 데이터가 여기에 포함됨
  • 서드파트 : 외부에서 제공되는 데이터. 시장 조사나 경쟁사 분석 데이터가 포함됨. 
  • 웹/로그 데이터 : 인터넷을 사용하면서 남기는 발자취.
  • loT데이터 : 스마트폰은 물론, 스마트 TV, 냉장고, 에어컨 등 loT 기기들이 생성하는 데이터.

- 데이터는 여러 원천에서 온다. 

- 여러 원천의 데이터를 가져와, 쓸만한 부분을 추출하고, 형태를 가공하여 사용한다. 

 

 

2. ETL : 데이터의 변신

- 데이터는 생성되는 그 자체로는 종종 원하는 형태나 구조가 아니다. 이 상태를 우리는 원시 데이터, Row Data라고 부른다. 

- 데이터를 용도어 맞게 변형시켜야 한다. 이렇게 데이터를 추출, 변환, 로드하는 과정을 ETL(추출, 변환, 적재)라고 한다. 

  • 추출(Extraction) : 원천에서 데이터를 가져오는 첫 단계. 이때 중요한 것은 필요한 데이터만 정확하게, 빠짐없이 가져오는 것. 
  • 변환(Transformation) : 데이터를 필요한 형식으로 변환 및 불필요한 데이터 제거. 또한 여러 원천에서 가져온 데이터를 합치거나, 데이터의 품질을 향상시키는 등의 작업을 함. 
  • 로드(Load) : 최종적으로 데이터 웨어하우스나 데이터 레이크 같은 저장 공간에 넣음. 

 

 

3. 웨어하우스와 레이크 : 데이터의 보관소

- 데이터를 안전하고 효율적으로 저장하는 곳

  • 데이터 웨어하우스 
    - 구조화된 데이터, 즉 테이블 형태의 데이터를 저장하는 곳.
    - 긴 시간 동안 안정적으로 큰 규모의 데이터를 저장하고, 필요할 때 빠르게 조회할 수 있도록 설계되어 있다. 
  • 데이터 레이크
    - 최근 많은 관심을 받고 있는 데이터 저장소
    - 정형뿐만 아니라 반정형, 비정형 데이터도 저장할 수 있음. 
    - 로그 파일이나 소셜 미디어 데이터, 이미지 등 다양한 형태의 데이터를 포함.

 

 

4. 데이터 마트 : 용도에 따라 관리 

- 기업에서는 데이터 웨어하우스의 데이터 전체를 항상 사용하는 것이 아니라, 목적에 맞는 일부 데이터만 필요한 경우가 많다. 이럴 때 사용되는 것이 데이터 마트다. 

  • 데이터 마트의 정의
    - 데이터 웨어하우스의 특정 주제나 부서에 특화된 부분집합을 의미.
  • 데이터 마트의 장점
    1. 효율적인 데이터 관리와 접근성
      - 작은 규모로 인해 데이터 관리가 용이.
      - 특정 부서나 팀이 필요로 하는 데이터에 빠르고 쉽게 접근 가능. 이로 인해 데이터 관리와 유지 보수의 복잡성 감소. 
    2. 증가된 성능 
      - 데이터 웨어하우스에 비해 규모가 작기 때문에, 쿼리 처리 속도가 빠름. 
    3. 사용자 맞춤형 데이터 제공
      - 특정 업무나 부서의 요구에 맞춰진 데이터를 제공.
      - 해당 부서의 사용자가 더 관련성 높은 데이터에 집중할 수 있게 해 주며, 더 정확하고 효율적인 의사결정을 가능하게 함.
    4. 보안과 데이터 보호
      - 데이터 마트는 특정 데이터 세트에 대한 접근을 제한할 수 있음.
      - 보안과 데이터 보호를 강화할 수 있음.
      - 민감한 데이터를 다루는 조직에 특히 중요한 장점.

 

 

5. 다양한 분야에서의 데이터 활용

- 데이터는 그 자체로 중요하지만, 그것을 어떻게 활용하느냐에 따라 진정한 가치가 발휘된다. 

  • 기업 내부의 핵심 부서별 활용
    • BI / Analytics : 비즈니스 인텔리전스를 통해 기업 전량 설정 및 분석. 
    • 마케팅 : 고객 행동 및 선호도 분석, 타겟팅 및 캠페인 전략 수립.
    • 재무 : 재무 상태 분석, 예산 설정 및 투자 전략.
    • 인사 : 직원의 성과 및 만족도 분석, 인사 전략 및 평가 기준 설정.
  • 개발 및 테스트 환경에서의 활용
    • 테스트 / 개발 : 제품 성능 테스트, 버그 추적 및 최적화.
    • 실시간 분석 : 실시간 사용자 반응 및 시스템 성능 모니터링.
    • 제품 관리 : 사용자 경험 분석, 제품 기능 개선 및 roadmap 설정.
  • 데이터 전문가들의 고도화된 활용
    • 데이터 과학 : 복잡한 데이터 분석, 머신러닝 모델링.
    • 데이터 수익화 : 데이터를 기반으로 한 새로운 비즈니스 모델 탐색.
    • 보안 : 보안 위협 및 침입 감지, 데이터 보호 전략 수립. 
  • 일반적인 운영 및 보고 활용
    • 운영 보고서 : 일일 / 주간 / 월간 업무 보고 및 성과 관리.
    • 외부 사용자 : 외부 파트너, 고객, 협력사 대상 데이터 제공.
    • 고객 지원 : 고객 문의 및 문제 해결을 위한 데이터 분석. 
  • 특별한 활용 분야
    • 건강 관리 : 환자의 건강 데이터를 분석하여 개인별 치료 전략 설정, 예방조치 및 병원 운영 효율화. 
    • 공공 부문 : 시민들의 의견과 데이터를 통한 정책 결정, 도시 계획 및 공공 서비스 개선.
    • 교육 : 학생들의 학습 패턴 분석, 교육 커리큘럼 및 교육 방법의 최적화.
    • 물류 및 운성 : 운송 수단의 효율적인 관리, 경로 최적화 및 물류비용 절감. 
    • 에너지 : 에너지 소비 패턴 분석, 지속 가능한 에너지 솔루션 연구 및 구현. 
    • 부동산 : 시장 트렌드 분석, 투자 가치 평가 및 부동산 가격 예측.
    • 미디어 및 엔터테인먼트 : 사용자의 콘텐츠 선호도 분석, 맞춤형 광고 전략 및 콘텐츠 추천 

 

 

<알게 된 개념>

- 그동안 어렴풋이 알고 있던 데이터의 원천과 가공에 대해 쉽게 알 수 있었다.

웨어하우스와 레이크, 마트에 대해 확실히 알 수 있었고 어디서 어떤 데이터들이 오는지도 알 수 있었다. 

 

아무래도 공부를 하다 보면 데이터의 원천에 대한 이야기가 안 들릴 수 없기 때문에 어느 정도 알게 되기도 하고, 스스로 지레짐작으로 알게 되는 부분도 있었다. 그럼에도 이게 맞나? 싶은 부분이 있었는데 Article을 보면서 내가 알고 있던 것이 완전히 틀린 것은 아니지만 명확하지 않았다는 것을 알 수 있었고 덕분에 명확하게 이해했다. 

 

어디에서 데이터가 오고 가공되는지 알았으니 다른 사람과 이야기를 할 때도 더 확실하게 이해하면서 대화할 수 있을 것 같다.