1. 빅데이터 분석 방법론 개요
분석 방법론은 응용 서비스 개발을 위한 3계층으로 구성되었다.
단계 (Phase) |
데이터 분석을 수행하기 위한 절차이다. 기준선(Baseline)을 설정하고 버전관리를 통해 통제되어야 한다. |
태스크 (Task) |
각 단계별로 수행되어야 하는 세부 업무이다. 각 태스크가 완료되면 그에 대한 성과를 얻을 수 있다. |
스텝 (Step) |
단기간 내에 수행 가능한 워크패키지(Work Package)이다. 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다. |
- 각 단계별로 세부 태스크와 스텝이 정의되어 있다.
2. 빅데이터 분석 방법론의 개발 절차
<분석 기획(Planning)>
- 비즈니스 이해 및 범위 설정
- 향후 프로젝트 진행을 위한 방향을 설정하고, 프로젝트 목적에 부합한 범위를 설정한다.
- 프로젝트의 범위를 명확하게 파악하기 윟 구조화된 명세서를 작성한다.
- 프로젝트 정의 및 계획 수립
- 모형의 운영 이미지를 설계하고 모형 평가 기준을 설정한다.
- 프로젝트의 목표 및 KPI, 목표 수준 등을 구체화하여 상세 프로젝트를 정의하고 수행 계획을 세운다.
- 프로젝트 산출물을 중심으로 WBS(Work Breakdown Structure)를 작성한다.
- 프로젝트 위험계획 수립
- 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별하여 사전 대응방안을 수립한다.
- 예상되는 위험에 대한 대응은 회피, 전이, 완화, 수용으로 구분하여 위험 관리 계획서를 작성한다.
<데이터 준비(Preparing)>
- 필요 데이터 정의
- 정형, 비정형, 반정형 등 모든 내외부 데이터를 대상으로 데이터의 속성, 오너, 관련 시스템 담당자 등을 포함한 데이터 정의서를 작성한다.
- 내부 데이터 획득 시 부서 간 업무협조와 개인정보보호 및 정보보안과 관련된 문제점을 사전에 파악한다.
- 외부 데이터 획득 시 시스템 간 다양한 인터페이스 및 법적 이슈를 고려한다.
- 데이터 스토어 설계
- 정형, 비정형, 반정형 데이터를 모두 저장할 수 있도록 설계한다.
- 데이터의 효율적인 저장과 활용을 위해 데이터 스토어의 논리적, 물리적 설계를 구분하여 수행한다.
- 데이터 수집 및 정합성 점검
- 크롤링, 시스템 간 실시간 처리, 배치 처리, 데이터베이스 간 연동, API를 이용한 개발, ETL 도구 활용, 스크립트 작성 등 다양한 방법이 있다.
- 데이터 거버넌스에 근거하여 메타 데이터 및 데이터 사전 등이 작성되어 적용되고 있는지 주기적으로 확인한다.
- 데이터 품질개선이 필요한 부분에 대하여 보완 작업을 진행한다.
<데이터 분석(Analyzing)>
- 분석용 데이터 준비
- 분석에 필요한 데이터의 범위를 확인하여 데이터베이스나 구조화된 형태로 구성한다.
- 필요한 경우 적절한 가공을 통하여 입력 데이터로 사용될 수 있도록 한다. 또한 분석용 작업 공간과 전사 차원의 데이터 스토어로 분리할 수 있다.
- 텍스트 분석
- 데이터 스토어에서 필요한 텍스트 데이터를 추출하여 다양한 기법으로 분석하고 모형을 구축한다.
- 텍스트 분석 결과는 모델링 태스크와 연동하여 프로젝트 목적에 부합하는 최종 모형을 구축한다.
- 구축된 모형은 텍스트 시각화 도구로 모형의 의미 전달을 명확화한다.
- 탐색적 분석
- 분석용 데이터셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고 모델링에 필요한 데이터를 편성한다.
- 다양한 관점으로 평균, 분산 등 기초 통계량을 산출하여 데이터의 분포와 변수간의 관계 등 데이터 자체의 특성과 통계적 특성을 파악한다.
- 시각화를 탐색적 데이터 분석을 위한 도구로 활용하여 데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성을 파악한다.
- 모델링
- 기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모형을 만들어 가동 중인 운영 시스템에 적용할 수 있다.
- 필요한 경우 비정형 데이터 분석결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행할 수 있다.
- 개발된 모형을 활용하기 위해 상세한 알고리즘 설명서 작성과 모니터링 방안이 필요하다.
- 모델 평가 및 검증
- 프로젝트 정의서의 평가 기준에 따라 모형의 완성도를 평가한다.
- 품질관리 차원에서 모형 평가 프로세스를 진행한다.
- 모형 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 검증을 위한 별도의 데이터를 활용하여 모형의 객관성과 실무 적용성을 검증한다.
- 요구되는 성능 목표에 미달하는 경우 모형 튜닝 작업을 수행한다.
<시스템 구현(Developing)>
- 설계 및 구현
- 시스템 및 데이터 아키텍처와 사용자 인터페이스 설계를 진행한다.
- 시스템 설계서를 바탕으로 BI 패키지를 활용하거나 프로그래밍을 통하여 모형을 구현한다.
- 시스템 테스트 및 운영
- 시스템 및 데이터 품질관리 차원에서 진행함으로써 적용된 시스템 객관성과 완전성을 확보한다.
- 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시한다.
<평가 및 전개(Deploying)>
- 모델 발전계획 수립
- 모형의 생명주기를 설정하고 주기적인 평가를 실시하여 모형을 유지지보수하거나 재구축하기 위한 방안을 마련한다.
- 발전계획을 상세하게 수립하여 모형의 계속성을 확보해야 한다.
- 프로젝트 평가 및 보고
- 프로젝트 성과를 정량적 성과, 정성적 성과로 나눠 성과 평가서를 작성한다.
- 프로젝트 진행과정에서 산출되 지식이나 프로세스 등 산출물을 자산화한다.
'공부 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 분석 작업 계획, 데이터 확보 계획 (0) | 2021.08.31 |
---|---|
[빅데이터분석기사] 분석 작업 계획, 분석 작업 개요 (0) | 2021.08.31 |
[빅데이터분석기사] 분석 방안 수립, 데이터 분석 방안 (0) | 2021.08.30 |
[빅데이터분석기사] 분석 방안 수립, 분석 문제 정의 개요 (0) | 2021.08.30 |
[빅데이터분석기사] 분석 방안 수립, 분석 마스터 플랜과 로드맵 설정 (0) | 2021.08.13 |