공부/빅데이터분석기사

[빅데이터분석기사] 분석 방안 수립, 빅데이터 분석 방법론

Blackshoot 2021. 8. 30. 16:50
반응형

1. 빅데이터 분석 방법론 개요

분석 방법론은 응용 서비스 개발을 위한 3계층으로 구성되었다.

단계
(Phase)
데이터 분석을 수행하기 위한 절차이다.
기준선(Baseline)을 설정하고 버전관리를 통해 통제되어야 한다.
태스크
(Task)
각 단계별로 수행되어야 하는 세부 업무이다.
각 태스크가 완료되면 그에 대한 성과를 얻을 수 있다.
스텝
(Step)
단기간 내에 수행 가능한 워크패키지(Work Package)이다.
입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다.
  • 각 단계별로 세부 태스크와 스텝이 정의되어 있다.

빅데이터 분석을 위한 단계

2. 빅데이터 분석 방법론의 개발 절차

<분석 기획(Planning)>

  • 비즈니스 이해 및 범위 설정

- 향후 프로젝트 진행을 위한 방향을 설정하고, 프로젝트 목적에 부합한 범위를 설정한다.

- 프로젝트의 범위를 명확하게 파악하기 윟 구조화된 명세서를 작성한다.

  • 프로젝트  정의 및 계획 수립

- 모형의 운영 이미지를 설계하고 모형 평가 기준을 설정한다.

- 프로젝트의 목표 및 KPI, 목표 수준 등을 구체화하여 상세 프로젝트를 정의하고  수행 계획을 세운다.

- 프로젝트 산출물을 중심으로 WBS(Work Breakdown Structure)를 작성한다.

  • 프로젝트 위험계획 수립

- 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별하여 사전 대응방안을 수립한다.

- 예상되는 위험에 대한 대응은 회피, 전이, 완화, 수용으로 구분하여 위험 관리 계획서를 작성한다.

<데이터 준비(Preparing)>

  • 필요 데이터 정의

- 정형, 비정형, 반정형 등 모든 내외부 데이터를 대상으로 데이터의 속성, 오너, 관련 시스템 담당자 등을 포함한 데이터 정의서를 작성한다.

- 내부 데이터 획득 시 부서 간 업무협조와 개인정보보호 및 정보보안과 관련된 문제점을 사전에 파악한다.

-  외부 데이터 획득 시 시스템 간 다양한 인터페이스 및 법적 이슈를 고려한다.

  • 데이터 스토어 설계

- 정형, 비정형, 반정형 데이터를 모두 저장할 수 있도록 설계한다.

- 데이터의 효율적인 저장과 활용을 위해 데이터 스토어의 논리적, 물리적 설계를 구분하여 수행한다.

  • 데이터 수집 및 정합성 점검

- 크롤링, 시스템 간 실시간 처리, 배치 처리, 데이터베이스 간 연동, API를 이용한 개발, ETL 도구 활용, 스크립트 작성 등 다양한 방법이 있다.

- 데이터 거버넌스에 근거하여 메타 데이터 및 데이터 사전 등이 작성되어 적용되고 있는지 주기적으로 확인한다.

- 데이터 품질개선이 필요한 부분에 대하여 보완 작업을 진행한다.

<데이터 분석(Analyzing)>

  • 분석용 데이터 준비

- 분석에 필요한 데이터의 범위를 확인하여 데이터베이스나 구조화된 형태로 구성한다.

- 필요한 경우 적절한 가공을 통하여 입력 데이터로 사용될 수 있도록 한다. 또한 분석용 작업 공간과 전사 차원의 데이터 스토어로 분리할 수 있다.

  • 텍스트 분석

- 데이터 스토어에서 필요한 텍스트 데이터를 추출하여 다양한 기법으로 분석하고 모형을 구축한다.

- 텍스트 분석 결과는 모델링 태스크와 연동하여 프로젝트 목적에 부합하는 최종 모형을 구축한다.

- 구축된 모형은 텍스트 시각화 도구로 모형의 의미 전달을 명확화한다.

  • 탐색적 분석

- 분석용 데이터셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고 모델링에 필요한 데이터를 편성한다.

- 다양한 관점으로 평균, 분산 등 기초 통계량을 산출하여 데이터의 분포와 변수간의 관계 등 데이터 자체의 특성과 통계적 특성을 파악한다.

- 시각화를 탐색적 데이터 분석을 위한 도구로 활용하여 데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성을 파악한다.

  • 모델링

- 기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모형을 만들어 가동 중인 운영 시스템에 적용할 수 있다.

- 필요한 경우 비정형 데이터 분석결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행할 수 있다.

- 개발된 모형을 활용하기 위해 상세한 알고리즘 설명서 작성과 모니터링 방안이 필요하다.

  • 모델 평가 및 검증

- 프로젝트 정의서의 평가 기준에 따라 모형의 완성도를 평가한다.

- 품질관리 차원에서 모형 평가 프로세스를 진행한다.

- 모형 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 검증을 위한 별도의 데이터를 활용하여 모형의 객관성과 실무 적용성을 검증한다.

- 요구되는 성능 목표에 미달하는 경우 모형 튜닝 작업을 수행한다.

<시스템 구현(Developing)>

  • 설계 및 구현

- 시스템 및 데이터 아키텍처와 사용자 인터페이스 설계를 진행한다.

- 시스템 설계서를 바탕으로 BI 패키지를 활용하거나 프로그래밍을 통하여 모형을 구현한다.

  • 시스템 테스트 및 운영

- 시스템 및 데이터 품질관리 차원에서 진행함으로써 적용된 시스템 객관성과 완전성을 확보한다.

- 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시한다.

<평가 및 전개(Deploying)>

  • 모델 발전계획 수립

- 모형의 생명주기를 설정하고 주기적인 평가를 실시하여 모형을 유지지보수하거나 재구축하기 위한 방안을 마련한다.

- 발전계획을 상세하게 수립하여 모형의 계속성을 확보해야 한다.

  • 프로젝트 평가 및 보고

- 프로젝트 성과를 정량적 성과, 정성적 성과로 나눠 성과 평가서를 작성한다.

- 프로젝트 진행과정에서 산출되 지식이나 프로세스 등 산출물을 자산화한다.

반응형