데이터 분석의 명암

최근에 들어서 데이터의 수집과 통계 자료를 통해서 현상을 파악하고

새로운 트렌트를 찾으려는 시도가 많아졌다.

많은 업체에서는 데이터를 기반으로 UX를 분석하기 위해 A/B 테스트를 도입하기도 하고

이를 회사의 장점으로 채용 공고에 소개하는 경우도 많이 있다.

그간 얼마나 주먹구구식의 의사결정이 있었는지는 모르겠지만,

부정확한 데이터라도 의사결정에 사용하는 것이 더 객관적인 것처럼 보일 수는 있겠다.

 

데이터를 분석할 때, 흔히 하는 실수는 2가지 정도로 보여진다.

첫째, 데이터를 분석하는 것에 의도가 너무 많이 실리는 경우.

흔히 답정너라고 얘기하지만, 결과를 정해놓고 데이터를 맞춰넣는 경우가 있다.

그리고 두 번째, 데이터를 분석할 때 의도가 전혀 없는 경우.

모순되지만 의도가 전혀 없는 경우도 정확한 데이터가 나오기가 어렵다.

의도라기 보다는, 몇 가지 가정일 것이다.

나는 중립적으로 생각하고, Fact로만 얘기하겠어라고 하는 게 오히려 큰 함정인 것이다.

왜냐하면 데이터는 자동으로 분류되는 것이 아니라, 사람이 의도하여 분류하게 되는데…

최소한의 검증 요소가 없기 때문에 데이터가 잘 추출된 것인지 아닌지 알기 어렵다.

 

첫 번째 사례는 흔히 접할 수 있는 케이스이기 때문에, 두 번째 사례를 찾아보았다.

데이터 분석으로 개발 직군 스킬 트렌드 엿보기

위의 자료는 공고별 스킬셋 통계 자료1 이다.

python이 1위인 것은 납득하기는 어렵지만, 설명할 수는 있을 것 같다.

큰 기업에서는 주로 java를 많이 쓰고 있지만, 스타트업에서는 국내는 python, 해외는 ruby를 많이 쓰는 경향2을 보인다.

큰 기업에서는 주로 Self-리크루팅을 진행하는 경우도 많아서,

위 자료를 제시한 업체처럼 외부 리크루팅 업체에서는 python이 많을 수도 있겠다.

그런데 java가 없다.

spring framework으로 퉁치기에는, django, reactjs 등도 언어랑 프레임워크(혹은 라이브러리)가 중복으로 있다.

위 자료는 지원자별 스킬셋 통계 자료3 이다.

javascript가 1위이다.

github language trend4 를 보아도 javascript가 1위이기 때문에 이상하지 않을 수 있다.

그런데 mysql은 3위이다.

이 정도라면 backend 개발자보다는 frontend 개발자나 DBA를 해야한다는 결론이 나온다.

내가 지원할 때 스킬셋을 쓸 때에도 javascript와 mysql이 들어간다.

즉, 해당 스킬을 전문적으로 하는 것이 아니지만 backend 개발자들은 javascript, mysql을 기본은 다룰 줄 알아야 한다.

마지막으로 공고 대비 유저 수에 대한 비율 그래프5 이다.

빨간 점으로도 찍어두었지만,

oracle은 기업에서 별로 뽑지 않는데 지원자가 많으니 사양스킬이고

ios는 공고는 많은데 지원자가 별로 없으니 유망할 수 있다고 보여진다.

그런데 ios와 swift를 나눌 수 있을까? 반대로 여전히 java는 왜 없지…?

이전 차트와 마찬가지로 javascript와 mysql은 공고는 적지만, 유저 스킬셋에는 많이 기재되어 있다.

보통 java할 줄 아는 서버개발자 구해요라는 말은,

어플리케이션 로직은 java로 하고, persistant는 mysql로 구성하고, view는 javascript로 해주세요라는 말과 같다.

반대로 지원자들은 저는 이것저것 다 조금씩 해요라는 의미로 모든 스킬셋을 기재하게 된다.

 

해당 포스팅을 가지고 이런 글을 쓰게 된 것은 글쓴이나 해당 업체를 비판하기 위함은 절대 아니다.

재미로 한 번쯤 볼 수도 있는 내용이긴 한데, 보통 포스팅에 통계 자료(특히 차트)가 포함되면 공신력있어 보이게 된다.

혹시라도 개발을 시작하는 분들이나, 직종을 변경하려는 분들이 해당 통계를 보고 오해하지 않으셨으면 좋겠다.

그리고 해당 데이터를 분석하시는 분은, language별, framework별 기준으로 별도로 추출하는 것이 어떨까 생각된다.

혹은 직종별 스킬셋으로 분리해도 좋을 것 같다.

위에 적은 것처럼 mysql은 전문적으로 하는 DBA가 아니더라도 기재하는 경우가 많기 때문에

DBA 직군이라면 mysql, oracle 등으로 통계를 내고, 서버개발자의 경우에는 secondary skill 로 표시해도 좋지 않을까?

 

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다