공부/빅데이터분석기사

[빅데이터분석기사] 빅데이터 개요 및 활용, Big Data

Blackshoot 2021. 8. 12. 00:09
반응형

1. 빅데이터의 등장과 변화

<빅데이터의 등장배경>

  • 기업에서는 온,오프라인 고객 데이터가 많이 축적되면서 데이터에 숨어 있는 가치를 발굴해 새로운 성장동력으로 활용하고 있다.
  • 하계에서는 인간 게놈 프로젝트, 기후 관찰 등 거대 데이터를 다루는 학문 분야가 확산되면서 필요한 기술 아키텍처 및 분석 기법들이 발전하고 있다.

<빅데이터의 등장으로 인한 변화>

  • 데이터 처리 시점이 사전 처리에서 사후 처리로 이동하였다.

- 기존에 필요한 정보만 수집하는 시스템에서, 가능한 많은 데이터를 모으고 조합하여 정보를 얻는 방식으로 변화

  • 데이터 처리 범주가 표본조사에서 전수조사로 확대되었다.

- 기술 발전으로 인한 데이터 처리비용 감소로 표본조사가 아닌 전수조사를 통해 패턴이나 정보를 발견하는 방식으로 변화

  • 데이터의 가치 판단 기준이 질(quality)보다 양(quantity)으로 그 중요도가 달라졌다.

- 데이터 양의 증가각 전체적으로 좋은 결과를 산출하는 데 긍정적인 영향을 미친다는 추론을 바탕으로 변화

  • 데이터를 분석하는 방향이 이론적 인과관계 중심에서 단순한 상관관계로 변화되는 경향이 있다.

- 데이터 기반의 상관관계 분석으로 특정 현상의 발생 가능성을 포착하여 대응하는 방식으로 변화

2. 빅데이터의 특징

▶빅데이터의 특징

광의 협의 특징 내용
5V 3V 규모 데이터 양이 급격하게 증가(대용량화)
기존 데이터 관리 시스템의 성능적 한계 도달
유형 데이터의 종류와 근원 확대(다양화)
정형 데이터 외 반정형 및 비정형 데이터로 확장
속도 데이터 수집과 처리 속도의 변화(고속화)
대용량 데이터의 신속하고 즉각적인 분석 요구
+2V 품질 데이터의 신뢰성, 정확성, 타당성 보장이 필수
고품질 데이터에서 고수준 인사이트 도출 가능
가치 대용량의 데이터 안에 숨어진 가치 발굴이 중요
다른 데이터들과 연계 시 가치가 배로 증대

▶전통적 데이터와 빅데이터 비교

  전통적 데이터  빅데이터
규모 GB이하 TB이상
처리단위 시간 OR 일 단위 처리 실시간 처리
유형 정형 데이터 정형+반정형, 비정형 데이터
처리방식 중앙집중식 처리 분산 처리
시스템 Relational DBMS Hadoop, HDFS, Hbase, NoSQL 등

3. 빅데이터의 활용

▶빅데이터의 활용을 위한 3요소

구성요소 내용
자원
[빅데이터]
정형, 반정형, 비정형 데이터를 실시간으로 수집한다.
수집된 데이터를 전처리 과정을 통해 품질을 향상시킨다.
기술
[빅데이터플랫폼, AI]
분산 파일 시스템을 통해 대용량 데이터를 분산 처리한다.
데이터마이닝 등을 통해 데이터를 분석 및 시각화한다.
데이터를 스스로 학습, 처리할 수 있는 AI 기술을 활용한다.
인력
[알고리즈미스트, 데이터사이언티스트]
통계학, 수학, 컴퓨터공학, 경영학 분야 전문지식을 갖춘다.
도메인 자식을 습득하여 데이터 분석 및 결과를 해석한다.

▶빅데이터의 활용을 위한 기본 테크닉

테크닉 설명 예시
연관규칙학습 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법 도시락을 구매하는 사람이 음료수를 더 많이 구매하는가?
유형분석 문서를 분류하거나 조직을 그룹화할 때 사용 이것은 어떤 특성을 가진 집단에 속하는가?
유전 알고리즘 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법 시청률을 최고치로 하기 위해 어떤 프로그램을 어떤 시간에 방송해야 하는가?
기계학습 데이터로부터 학습한 알려진 특성을 활용하여 예측 시청 기록을 바탕으로 어떤 영화를 가장 보고 싶어하는가?
회귀분석 독립변수가 종속변수에 미치는 영향을 분석할 때 사용 경력과 학력이 연봉에 미치는 영향은?
감정분석 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석 새로운 할인 정책에 대한 고객의 평은 어떤가?
소셜네트워크분석 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용 고객들 간 관계망은 어떻게 구성되는가?

4. 빅데이터의 가치

▶빅데이터의 활용을 통해 얻는 가치

기관명 경제적 효과
Economist(2010) 데이터는 자본이나 노동력과 거의 동등한 레벨의 경제적 투입 자본으로 비즈니스의 새로운 원자재 역할을 한다.
MIT Sloan(2010) 데이터 분석을 잘 활용하는 조직일수록 차별적 경쟁력을 갖추고 높은 성과를 창출한다.
Gartner(2011) 데이터는 21세기의 원유이며 미래 경쟁 우위를 결정한다. 기업은 다가올 데이터 경제시대를 이해하고 정보고립을 경계해야 한다.
McKinsey(2011) 빅데이터는 혁신, 경쟁력, 생산성의 핵심요소이다.

<빅데이터의 기능과 효과>

  • 빅데이터는 이를 활용하는 기존 사업자에게 경쟁 우위를 제공한다.

- 새롭게 시장에 진입하려는 잠재적 경쟁자들에게는 진입장벽과도 같다.

- 고객 세분화와 맞춤형 개인화 서비스를 제공할 수 있다.

- 시뮬레이션을 통한 수요 포착과 변수 탐색으로 경쟁력을 강화하고, 비즈니스 모델이나 제품 or 서비스의 혁신을 가져온다.

  • 빅데이터는 알고리즘 기반으로 의사결정을 지원하거나 이를 대신한다.
  • 빅데이터는 투명성을 높여 R&D 및 관리 효율성을 재고한다.

<빅데이터의 가치 측정의 어려움>

  • 데이터 활용 방식: 데이터를 재사용하거나 재결합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어디서 활용할지 알 수 없기에 그 가치를 측정하기 어렵다.
  • 가치 창출 방식: 데이터는 어떠한 목적을 갖고서 어떻게 가공하는가에 따라 기존에 없던 가치를 창출할 수도 있어 사전에 그 가치를 측정하기 어렵다.
  • 분석 기술 발전: 데이터는 지금의 기술 상황에서는 가치가 없어 보일지라도 새로운 분석 기법이 등장할 경우 큰 가치를 찾아낼 수 있으므로 당장 그 가치를 측정하기 어렵다.
  • 데이터 수집 원가: 데이터는 달성하려는 목적에 따라 수집하거나 가공하는 비용이 상황에 따라 달라질 수 있어 그 가치를 측정하기 어렵다.

<빅데이터의 영향>

  • 기업에게 혁신과 경쟁력 강화, 생산성 향상의 근간이 된다.
  • 정부에게 환경 탐색과 상황 분석, 미래 대응 수단을 제공한다.
  • 개인에게 활용 목적에 따라 스마트화를 통해 영향을 준다.
반응형