ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 사이언티스트 현실
    데이터 사이언스 2020. 2. 19. 04:53

    빅데이터 시대라고 한다. 데이터 저장 및 처리 기술이 급속도로 발전하며 이를 분석하는 데이터 사이언티스트라는 직업이 많은 취업준비생들의 희망이 되고 있다.

     

    하지만 정작 데이터 사이언티스트의 현실을 제대로 알고 있는 취업준비생들은 적은 것 같다취준생들은 데싸(데이터 사이언티스트)에 대한 수요가 많을 것이라고 막연히 기대하는 경우가 많으며, 그에 따라 데이터 직군으로의 커리어 고민을 충분하고 올바르게 하지 않은 채 어떤 공부/경험을 해야 하는지를 막막해하는 경우가 많다.

     

    이 글에서 나는 데이터 사이언티스트의 현실과 그들이 실무에서 부딛치는 어려움을 정리해보았다. 그리고 내가 어떤 방식으로 이를 해결했는지(혹은 해결하려고 노력했는지) 공유하겠다. 데싸를 꿈꾸는 취준생들에겐 조금 현실적인 내용일 수 있으나, 본인의 커리어를 발전시켜나가는데 큰 도움이 될 것이다.


    의사결정권을 가지고 싶지만 그렇지 못하는 데싸

    의사결정... 어디로 가야 할까

     

    데이터 사이언티스트는 데이터를 분석해 인사이트를 뽑아내고 기업의 의사결정에 도움을 주는 사람이다. 즉 “분석”을 통한 “의사결정 서포터”이다. 그러므로 데싸가 의사결정 과정에 관여하는 것이 상식적이고 이상적이다. 그렇지 않다면 그들의 분석 결과는 힘없는 주장에 불과할 것이다.

     

    그러나 현재 국내 대다수 기업은 의사결정권자가 기획자 및 임원으로 한정되어 있다. 그렇기 때문에 데싸들이 자신의 의견을 적극적으로 주장하고 설득할 기회가 없다. 기획자 및 임원들과의 긴밀한 협업을 통해 자신의 분석 결과를 꾸준히 표현해야 하는데, 현실적으로 그러기가 힘들다. 대부분의 기업에서 데이터 분석 결과는 영향력이 적다. 참고자료로 활용되면 다행일 정도로...

     

    분석을 통해 비즈니스를 움직일 거라고 꿈꾸던 나에게 이 사실은 큰 무력감을 주었다.

     

    때문에 나는 어떻게든 의사결정에 개입하고 영향을 주려고 노력했다. 이를 위해 내가 고군분투하며 얻은 팁은 아래와 같다.

     

    1. 끊임없이 실험하라!

    기존의 데이터만 가지고는 좋은 인사이트가 나오지 않을 가능성이 높다. 분석하더라도 결과물이 너무 당연해 임팩트가 떨어진다. 그렇다면 실험을 통해 기존과는 다른 양상의 데이터를 생성해내고, 그것을 분석하는 것이 좋다. 여기서 실험이라는 것은 A/B 테스트 뿐만 아니라 기획 단에서의 큼직큼직한 실험도 포함된다. 예를 들어 교육 사업을 한다고 하면 동기부여 방법론을 바꾸어서 수강생의 반응 변화를 살펴본다거나, 강의 방식을 바꾸어 만족도를 조사해보거나 하는 식이다. 이렇게 기존의 데이터만 수동적으로 분석하기보단, 다양한 실험을 통해 비교군을 만들어 분석하면 훨씬 좋은 인사이트를 추출할 수 있다.

     

    2. 가장 간지러운 부분을 긁어라!

    모든 비즈니스에는 강점과 약점이 존재한다. 강점을 분석하고 그에 대한 인사이트를 공유해봤자 임팩트가 떨어진다. 우리 회사가 취약한 요소를 집중적으로 공략해야 한다. 그렇다면 조그마한 인사이트라 하더라도 사람들이 관심 있게 볼 가능성이 높다.


    1% 향상했다고 아무도 칭찬해주지 않는다.

    모델링을 할 때 의사결정권자들의 현실적인 반응

     

    캐글(머신러닝 대회 플랫폼)에서는 모델의 정확도를 1%만 향상시켜도 대회 등수가 어마어마하게 바뀐다. 그렇기 때문에 캐글에 참가하는 많은 사람들은 이 1%를 올리기 위해 엄청난 노력을 한다. 모델을 여러 개 만들어서 앙상블과 같은 복잡한 방법을 사용하고, 파라미터 튜닝도 하드하게 한다. 그러나 실무에선 어떨까? 실제로 캐글에서 하는 것처럼 1%를 위해 많은 노력을 들일까? 나는 실무 머신러닝 프로젝트를 하면서 그렇지 않다는 사실을 알게 되었다.

     

    단도직입적으로 이야기하자면 복잡한 모델을 사용했을 때의 정확도 상승이 비즈니스적으로 유의미하지 않은 경우가 많다. 오히려 1%를 위해 모델 복잡도를 높였을 때 inference time(모델을 활용해 예측을 진행하는데 걸리는 시간)과 용량 증가로 인해 비즈니스 측면에서 손해인 경우를 종종 보았다. 정확도는 중요하다. 하지만 실무에서는 정확도를 높이면 모델 복잡도 증가라는 tradeoff가 발생한다는 사실을 데싸는 인지해야 한다.

     

    내가 진행했던 프로젝트 경험을 예로 들겠다. 해당 프로젝트에서 나는 어떤 대상을 예측하기 위해 기본적인 랜덤포레스트로 베이스라인 모델을 짰고 정확도가 83% 정도 나왔다. 이후에 난 모델 성능을 높이기 위해 xgboost, catboost, lightgbm 등등 다양하고 복잡한 모델을 만들어 파라미터 튜닝을 하고 앙상블을 진행했다. 그 결과 정확도가 87% 정도가 되었다. 해당 회사의 임원진 앞에서 위의 내용을 가지고 성과 발표를 하는데 한 분이 이렇게 이야기했다.

     

    “저렇게 복잡한 모델이 기본 모델보다 성능이 고작 4%밖에 향상이 안된다면 그냥 기본 모델을 활용하는 게 나을 거 같은데요?

     

    난 위의 말이 의사결정권자의 사고를 보여주는 명언이라고 생각한다. 이후에 난 모델의 성능만 고려하기보단 모델을 통해 회사가 얻을 비즈니스적 이득을 종합적으로 고려해 프로젝트의 방향성을 설정했다. 결국 해당 프로젝트에선 성능이 가장 좋은 모델을 사용하지 않았고, 대부분의 시간을 데이터 정제와 대시보드 제작에 집중했다.

     

    ※ 나는 여전히 캐글을 사랑하고 그곳에서 배운 많은 것들을 소중하게 생각한다. 다만 위의 글에서 나는 모델의 정확도가 비즈니스적인 가치을 완벽히 반영하진 못한다는 주장을 하는 것이다.


    이 외에 데이터 사이언티스트가 현업에서 마주하게 되는 현실적인 문제들은 상당히 많다. 그리고 이를 현명하게 해결해나가고 좋은 커리어를 만들어나가기 위해선 무엇보다 데이터 사이언티스트가 현업에서 어떤 업무를 하는지를 명확히 알아야 한다...

     

    만약 데이터 직군에 대한 솔직한 취업 상담을 원하는 분들은 아래 링크로 연락주길 바란다. 본인의 이력, 공부 방향/방법, 그리고 미래 커리어에 대한 솔직한 피드백과 컨설팅을 진행하겠다(양질의 상담을 위해 비용을 받고 진행하고 있으니 참고 부탁드립니다)

    open.kakao.com/o/s1h3f1qc

     

    데이터 직군 취업 상담

    데이터, 취업

    open.kakao.com

    댓글 33

    • annie 2020.02.19 16:13

      현실을 잘 반영한 너무 유익한 글인 것 같네요!!
      잘 읽고 갑니당~~

    • DS-DX 2020.02.19 21:28

      조금 더 시간이 흐르면 Data Scientist가 의사결정자의 자리에 오를 거에요 ㅎㅎ

      공돌이들이 대표이사를 하는 데도 한참 걸렸을 겁니다.

    • YJbillie 2020.02.19 22:36

      좋은 글 잘 읽고 갑니다. 너무나도 공감되는 내용이 많네요~

    • ㅁㄴㅇㄹ 2020.02.20 07:42

      아날리스트의 입장에서 개발자가 이렇게 보였군요! 좋은 글 잘 보고 갑니다. 추가로 읽으면 좋은 구절 덧글에 남기고 갈게요

      실무에서는 수많은 비정형적인 데이터가 데이터베이스에 저장되어있고 그걸 뽑아쓰는것 하나하나가 자원소모가 막심합니다. Null값 몇개정도만 처리하면 완성되는 정형 데이터로 이루어진 테이블 하나로만 가지고 머신러닝 돌려보신 분들은 조인 과정이 왜그렇게 두려운 일인지, 색인이 왜 필요한지, 전처리가 얼마나 빡세고 중요한 일인지 알 수가 없죠.
      그러한 Engineering 과정을 모르는 Data Scientist들에게 전처리는 '낭비되는 시간' 일 수밖에 없어오. Data Analyst들은 데이터 형식이 그들에게 생소하거나(Dataframe 아니면 손을 안 대시려고 하는..), 문서화가 충분히 되어 있지 않거나, 통계적으로 가공하기에 불편한 것에 대해 불만을 가지기 시작했고, Data Engineer들은 그 불만을 해소하기 위해 데이터 품질을 고민하기 시작했죠

      • 송근일 2020.02.20 11:17 신고

        공감되는 글귀네요!

        결론적으로 데이터 사이언티스트도 개발에 대한 이해도가 필요하다고 생각합니다(저 역시도...). 실무에서 개발자들은 디비 구조를 어떻게 짤지, 쿼리문을 어떻게 효율화할지 고민하며 머리를 싸매니까요ㅠㅠ

        저도 이런 사실을 잘 모르다가 개발 프로젝트에 관여하면서 알게 되었어요 ㅎㅎ 그래서 요즘엔 개발 공부의 필요성을 느끼고 있네요

    • Jaime 2020.02.20 08:14

      잘 읽었습니다. 경험 공유해주셔서 감사합니다.

    • ㄱㄱ 2020.02.20 10:04

      좋은글 감사합니다. 매우 공감되는 글이네요

    • 박동진 2020.02.20 12:23

      좋은내용 감사드립니다. 덕분에 더 똑똑해진 느낌입니다.

    • 게으른인사이터 2020.02.20 12:34 신고

      잘읽고 갑니다~!

    • 니나니노 2020.02.21 13:45

      저는 현장에 있다가 다시 학교에서 데이터 관련 공부를 하는데 사고 과정?이 완전히 반대였네요.
      의사 결정이 아니더라도 일반적으로는 tradeoff나 가성비를 상당히 고려하는데, 엄청난 노력으로 1% 올리고 논문을 낸다는 것이 처음에 굉장히 비효율적으로 보였거든요.
      덕분에 배경과 맥락에 따른 이해와 통합 가능성 관점에서 긍정적인 생각을 하게 되었습니다. 감사합니다~

      • 송근일 2020.02.21 23:18 신고

        비즈니스에선 어떤 프로젝트든 하나의 목적(정확도)만 보고 진행하는 것은 큰 위험이 있다고 생각합니다. 니나니노의 말씀처럼 배경과 맥락이 더 중요한 경우도 많은 것 같구용

    • sd 2020.02.21 17:32

      좋은 의견 감사합니다! 현장에서 일하고 있는데 "기술이 아니라 돈으로 이야기해야 한다." << 정말 공감합니다!!

    • ㄴㄴㅇ 2020.03.03 00:18

      정말 감사한 글이네요. 막연했던 분야가 생생하게 전달되었어요

    • 유인환 2020.03.31 02:03

      와.. 정말 대박이네요

    • 보헤미앎 2020.04.09 13:07 신고

      잘 읽었습니다! 실무에서 데이터 사이언티스트의 역할을 짚어 주셔서 직무를 이해하는데 많이 도움이 되었습니다.

    • 알 수 없는 사용자 2020.04.20 11:27

      너무 남의 일 같지가 않아서 처음부터 끝까지 정독했습니다. 정말 세뇌의 힘이라도 빌려야 하는게 현실이죠 ㅠㅠ "분석 결과를 내더라도 그것이 어떤 비즈니스 가치를 지니는지 증명해야 한다"... 일단 AI팔이부터 해야하는게 회사 현실입니다.

      동병상련으로서 응원합니다. 같이 생존하고 헤쳐나가요!!

    • 품질인 2020.07.20 17:49

      1. 우리 회사에 적합한 인재를 분류 할 방법은 없는건가
      2. 소비자가 제품을 구매 시 가장 우선적으로 고려하는 변수는 무엇인가
      3. 내부적으로 Spec out이라도, 소비자가 구매할만한 합당한 가격은 ?
      4. 제품 개발 시, 고장유형에 대해 회귀를 통한 양산 시 주요 관리 항목을 도출 할 수 있는가 ?
      5. 공정의 다변량 인자들이 많은데 합/불을 자동으로 분류 할 수 있는가 ?
      6. 협력업체 선정 시, 만족할 만한 협력업체는 어떤 조건을 가지고 있는가 ?

      향후 데싸가 할 수 있는 영역은 무궁무진 합니다. 다만 데싸가 단순히 분석에 국한되는 것이 아니라
      경영 및 유관부서의 시스템적인 이해 역시 갖추어야 되겠지요.
      그리고 항상 KPI를 Cost화 해서 시각적으로 결과를 보여줘야 경영진과 대화가 가능합니다.

      현재 기업 현실은 대기업 제외하고, 데이터 수집조차 안되는 곳이 허다하고, 기본적인 통계지식이 없고 경험에 의존하기에 현실화가 안된다고 생각합니다.

    • 앤디 2021.01.05 09:19

      너무 맞는말이라서 글남깁니다. 현직 데이타 싸이언티스트인데 정말 데이타 싸이언티스트가 value를 증명하는데 엄청난 시간이 걸리긴드라구요.. 이러한 현실때문에 저도 ML engineer나 software engineer쪽으로 좀 체인지를 하려고 따로 컴퓨터 싸이언스를 공부하고 있습니다. 사실 제가 보기에는 트랜드로는 data scientist가 없어지고 product manager, data analyst 랑 ML engineer 둘이서 해결할꺼 같은 느낌이 들어요.. 살짝 개발자도 아닌데 그렇다고 statistician 도아닌.. 그런느낌을 많이 받긴해요. 실제적으론 BI tool로 dashboard를 만든다던지 심플한 그래프로 어필하는게.. 훨씬더 도움이 되는경우가 많고... random forest니 xgboost는 쓸일이 거의 없는게 현실입니다.. ㅎㅎ.. 근데 그게 비지니스에 딱히 도움이 안되는데 나의 가치를 증명하라고 하는게 비지니스 owner들의 입장이고.. 좀 복잡한 심정에 있는 직업군이지요 ㅎㅎ.. 북미에살고 있는 사람인데 공감이 너무 됩니다. data scientist 하실분들이면 차라리 software engineering을 더공부하셔서 좀더 technical 한 포지션을 노려보시는게 더 현실적인거 같습니다.

      • DS 2021.09.02 15:51

        안녕하세요.
        데이터 사이언티스트가 데이터 엔지니어와 데이터 애널리스트가 포함된 개념 아니였나요? 잘 몰라서 여쭙니다.

    • 점박이토르 2021.03.24 17:12

      좋은글 잘 보고 갑니다 :)

    • US 2021.06.22 03:48

      한국은 역시.. 미국 개발자입장에서 너무 다른 부분을 공감하고 갑니다.

Written by 송근일