رأي
자동차고장 진단시 데이터 유효성이 왜 중요한가
이해를 돕기위하여 비교해서 살펴본다. 누군가 나에게 '소주 좋아 하십니까? 소주를 즐겨 마십니까?' 라고 물어본다면 난 '아니오, 소주 마시지 않습니다' 라고 답 을 할것이다. 자, 그럼 이 데이터를 기준으로 나는 '술 마시지 않는다' 라고 결론 내릴수 있을까? 만약 질문을 '술 마시나요? 어떤 술 좋아하나요?' 라고 질문 한다면 분석결과가 어떨까? 데이터는 누가 어떻게 수집하고 분석하느냐에 따라서 완전히 달라진다. 따라서 항상 데이터 유효성 부터 검증하고 크리닝후에 분석을 해야 오진을 줄 일수 있다.

데이터 유효성은 모든 데이터분석 단계에서 가장 중요한 부분이다. 알게 모르게 데이터 수집 방법론에 따라서 외곡되거나 제대로 진실을 알 수 없는 데이터가 생성될 수 있다. 그리고 이러한 데이터를 기반으로 분석을 하는경우가 있을수 있다.
데이터분석시 오류가능성 시나리오
하나는 진실을 알 수 없는 데이터 를 가지고 분석하는 경우이다. 꼭 사람 과 같다. 사람은 모른다. 세월이 지나야 진가를 알 수 있는 이치이다. 데이터 역시 마찬가지이다. 스코프등으로 수집된 데이터는 표면만 알 수 있는경우가 많고 진찌 엔진내부 깊숙히 알 수없은 데이터인 경우가 있다. 데이터 유효성이 중요한 이유이다
또 다른 경우는 데이터 수집방법론에서 차이가 있거나 데이터 해석을 잘 못 하는경우이다. 어느경우이든 오진가능성이 있다. 데이터 분석의 기본은 유효한 데이터 확보 및 크리닝 부터 시작된다.
(1)تسجيل الدخول للتعليق