본문 바로가기

IT 업계 소식

21세기 가장 섹시한 직업, 데이터 사이언티스트

출처: 4차 산업혁명 대응계획 I-KOREA 4.0 (관계부처 합동, 4차 산업혁명위원회, 2019.7)

 

4차 산업혁명, 사회와 산업 등 여러 분야에서 패러다임의 변화를 촉진하고 있습니다. 이러한 4차 산업혁명과 관련된 과학, 기술의 큰 주제로는 AI와 빅데이터, 클라우드와 IoT, 그리고 모바일, 이렇게 5가지가 있습니다.

주로 정보통신 기술에 대한 4차 산업혁명으로 이에 관련된 직업들이 각광을 받고 있습니다. 특히 인공지능과 빅데이터와 같은 정보 기술인 IT와 관련된 직업에 많은 관심이 쏠려있습니다. 세계 최대 규모의 직장 평가 사이트인 글래스도어에서 선정한 2022년 최고 직업 10가지 중 대부분이 IT 관련 직업입니다.

1위는 기업의 여러 목적을 위해 IT 인프라, 시스템을 관리하고 운영하는 엔터프라이즈 아키텍쳐, 2위는 클라이언트와 서버 사이드 코드를 학습하여 웹사이트 관련 모든 기술을 이해하고 있는 풀스택 개발자, 3위는 데이터 사이언티스트입니다. 3위까지 모두 IT 관련 직업인만큼 정보통신 기술에 매우 많은 관심이 쏠려있는 것을 알 수 있습니다.

하버드비즈니스리뷰에 하버드 경영대학원 토마스 데이븐포트 객원교수와 백악관에서 최초의 데이터 사이언티스트로 지명된 파틸 교수가 12년도에 개제한 글에서 '21세기 가장 섹시한 직업'이라는 표현을 한 바로 그 직업, 데이터 사이언티스트에 대하여 소개하겠습니다.

 

데이터 사이언티스트란

빅데이터란 점점 많은 정보들이 쌓이고 쌓여 방대해진 데이터들의 덩어리를 말합니다. 이러한 빅데이터는 일반적으로 사용하던 데이터 수집과 관리, 처리 등을 하던 소프트웨어의 수용 범위를 넘어섭니다. 따라서 빅데이터에서 필요한 정보를 뽑아내고 분석하기 위해서는 기존과 다른 방식의 기술이 필요합니다. 그런 기술을 통해 데이터를 처리하고 다양한 가치를 뽑아내며 시각화하여 전달하는 일을 하는 직업이 바로 데이터 사이언티스트입니다.

데이터 사이언티스트는 회사나 다양한 상황에서 발생하는 모든 데이터 중 요긴한 데이터를 뽑아 분석하고 관리하는 역할을 주로 맡습니다. 이렇게 적재된 데이터는 회사 내 필요한 사람들에게 데이터 분석 후 그 결과를 전달하여 의사결정을 도와줍니다. 또한, 머신 러닝과 딥러닝 알고리즘을 개발하여 분석, 예측 모델을 만들며 서비스를 개선하는 데 기여를 하는 등 회사마다 조금씩 다른 일을 하기도 합니다.

 

데이터 사이언티스트가 필요한 이유

 

데이터 사이언스는 다양한 분야에서 적용이 되고 있습니다. 먼저 운송 산업에 적용될 수 있습니다. 운전자의 행동 패턴과 차량 모니터링 등을 통해 안전한 환경을 만들 수 있으며 보다 나은 물류 경로를 만들 수 있습니다. 그뿐만 아니라 다양한 주행 데이터를 활용하여 자율주행 기술에도 적용해 기술의 완성도를 높이고 있습니다.

 

의료 업계에서도 데이터 사이언스를 사용하고 있습니다. MRI와 X-ray 등 의학 이미지를 분석하기 위해 사용이 됩니다. 또, 환자의 관점에서 데이터 분석을 통해 병이 발병하는 다양한 원인 등을 추적하기도 합니다. 제약사들도 데이터 사이언스를 활용합니다, 최근에는 인공지능을 통해 증세가 나타나기 2년 전 치매를 예측하는 알고리즘도 개발했습니다.

 

또한, 많은 금융기관에서도 빅데이터를 활용한 사례가 많습니다. 기업의 평판 및 고객의 니즈를 파악하여 개별 고객에게 맞는 상품을 권유하는 것과 신용도가 떨어질 가능성이 있는 고객들의 대출 여부를 파악한 사례가 있습니다.

 

제조업이나 에너지 분야 등 다른 분야에서도 데이터 사이언스를 활용한 사례가 많습니다. 이렇게 다양한 분야에서 데이터를 수집, 분석하며 결과를 도출하는 과정을 진행하여 비즈니스 문제점을 해결하고 비즈니스를 성장시킬 수 있기 때문입니다.

 

데이터 사이언티스트가 되기 위해

데이터 사이언티스트는 빅데이터에서 필요한 데이터를 뽑아 그들의 패턴을 찾아내야 합니다. 먼저 데이터를 뽑아내 분석하려면 프로그래밍 능력이 요구되며, 패턴을 찾는 과정과 찾은 패턴이 신뢰할 수 있는 정보인지 판단하기 위한 다양한 수학, 통계 지식이 필요합니다.

데이터를 분석하기 위해서는 기본적으로 파이썬과 R언어 등 프로그래밍 언어에 대하여 공부하는 것이 좋습니다. R언어란 통계학을 기반으로 하는 프로그래밍 언어입니다. 주로 데이터를 그래프 등으로 시각화하거나 통계 분석과 모델링을 하는 과정에서 사용합니다. R언어는 다른 언어에 비하여 데이터 시각화하는 방법이 매우 간단합니다. 또한, 수치로 결과를 나타내는 것보다 시각 자료를 통해 나타내는 것이 더욱 결과를 쉽게 받아들일 수 있습니다. 따라서 이러한 작업을 할 때 R언어가 사용됩니다.

 

파이썬은 초보자부터 전문가까지 거의 대부분의 사람들이 사용하는 프로그래밍 언어입니다. 다른 프로그래밍 언어에 비하여 문법이 쉬워 접근성이 낮습니다. 따라서 코딩에 입문하는 사람들이 먼저 배우는 언어 중 하나입니다. 데이터 사이언스에서 파이썬은 대체로 데이터를 수집하기 위해 주로 사용합니다. 웹 크롤링이라는 웹페이지의 데이터를 긁어서 가져오는 것을 의미합니다. 비전공자들도 사용하기 쉽도록 라이브러리가 매우 발달하였습니다.

데이터 관련 언어에는 SQL이라는 언어가 있습니다. 주로 데이터베이스 작업을 하기 위해 사용하는 언어입니다. 데이터베이스란 여러 데이터들을 보관하는 장소입니다. 이 데이터베이스에서 데이터를 추출하는 등 자료를 관리하기 위해 사용합니다.

 

통계 관련 역량이 필요한 이유는 빅데이터를 분석하는 방법과 발견한 패턴에서 통계적 기술과 개념이 들어가기 때문입니다. 빅데이터를 컴파일하는 데만 2분이 넘어간다는 말이 있듯이 이상한 값들이 수없이 많아서 직접 확인할 수 없습니다. 때문에 통계적 기술을 사용하면 더욱 빠르게 데이터를 처리할 수 있습니다. 이렇게 발견한 패턴이 통계적으로 신뢰할 수 있는 패턴인지 확인하기 위해서도 통계 공부를 해야 합니다.

 

마지막으로 분석 결과를 받는 사람들이 쉽게 설명을 이해할 수 있도록 커뮤니케이션 능력이 필요합니다. 데이터 사이언티스트는 다양한 방법을 통해 데이터 분석을 하고 그 결과를 통해 더 나은 결정을 하여 비즈니스 문제를 해결하기 위한 도움을 주는 직업입니다. 즉, 고객이 요청한 자료를 통해 결과를 도출하여 그 비즈니스에 적용되어 성과를 내도록 해야 합니다. 따라서 고객이 적절한 전략을 세울 수 있도록 결과를 제공해야 하는데 그 과정에서 관련된 사람들과 소통을 통해 결과를 도출해야 합니다. 또한, 결과를 고객이 이해하기 쉽도록 설명하기 위한 능력도 필요합니다.

과학기술정보통신부의 21년도 데이터산업 현황조사에 따르면 데이터 직무 중 데이터 사이언티스트의 부족률이 33.3%로 가장 높은 것으로 나타났습니다. 빅데이터는 유지하는 것만으로도 큰 비용이 들어갑니다. 하지만 이를 분석할 수 있는 인력이 부족하기 때문에 다양한 분야에 적용되어 비즈니스 문제를 해결하는 데이터 사이언스 분야는 아직도 계속 뜨는 직업 중 하나로 자리를 잡고 있습니다. 이러한 데이터 사이언티스트가 되려면 앞에서 나왔던 통계와 프로그래밍, 커뮤니케이션 등 다양한 역량이 요구됩니다. 많은 공부를 해야 하지만 그만큼 다양한 분야에서 필요로 하고 있으며 다른 사람들의 고민을 해결하면서 얻는 뿌듯함도 크다고 합니다.

 

이전까지 코딩이라고 하면, IT 관련 직업으로 프로그래머, 개발자만 떠올렸다면, IT 관련 직무에도 데이터 사이언티스트와 같은 다양한 직업이 있습니다. 아직 진로를 찾지 못하신 분들이라면 딱딱했던 데이터로 사람들이 필요했던 해결책을 내려주는 데이터 사이언티스트는 어떤가요?

 

 

 

SQL로 데이터 공부 시작하기