♧ Data Insights

[Insights] 데이터 분석을 할 때 통계만큼 중요한 것.

Grit_0913 2024. 7. 24. 04:40

[Insights] 데이터 분석을 할 때 통계만큼 중요한 것.

 

데이터 분석에 있어 통계 만큼 혹은 그보다 더 중요할 수 있는 것은 1) 데이터에 내포된 정보(context)2) 도메인 지식(domain knowledge) 이다. 그러나 취준생 입장에서는 clean data를 자주 다루게 되고, 소통을 할 도메인 전문가 또한 없기 때문에 다분히 수학적 기준(통계)에 매몰되어 버리는 문제가 발생한다. 이와 관련하여 'Quora'에서 좋은 글을 보았기 때문에 몇 가지 내용을 요약 해둔다.

 

 

Should I first deal with the outliers and then perform the data transformation (imputing, scaling, etc.) or the other way around

Answer (1 of 3): My perspective is that dealing with the outliers first is advised, as a primary decision is required concerning whether or not the outliers ‘belong’ in the dataset or are actually anomalous and in need of excision during primary data f

www.quora.com

 


 

요약

  • 데이터 분석에서 이상치(outliers)를 판단할 때에는 데이터의 1) context 와 2) domain knowledge 가 중요하다.
  • Context와 domain knowledge를 기준으로 하여 이상치를 '평범하지는 않지만 포함 되어야 할 이상치'와 '실제로 비정상적이기에 제외해야할 이상치'로 분류한다. 
    • 해당 과정에서는 EDA와 관련된 '통계적 방법론(e.g. Tukey’s EDA process)'과 '도메인과 관련된 자료(e.g. reviewing prior research in the domain, interviewing and consulting with experts)'를 활용한다.

부연 설명

 

본문에서는 사이버 보안 데이터의 예를 든다. 사이버 보안에서는 '네트워크 트레픽 데이터'를 자주 접하게 된다. 이때 네트워크 트레픽이 높다은 경우 해당 데이터는 이상치가 된다. 그러나 이렇게 분류된 이상치는 실제로 두 가지 정보를 내포할 수 있다.

 

  하나는 '정상적인 사용자'로 네트워크 트레픽이 높을 수밖에 없는 직업을 갖는 정상적인 업무자들로 인한 데이터일 수 있다. 다른 하나는 '불법 사용자'로 해킹 혹은 불법 컨텐츠 다운 등을 위해 자주 접속을 시도하는 네트워크 트레픽일 가능성이 존재한다. 이 두 그룹은 동일하게 이상치로 구분되지만 다른 처리를 해 주어야 한다. 예를 들면 다음과 같다.

  • '정상적인 사용자'와 '불법 사용자'로 그룹을 나누어 labeling을 한다.
  • 이상치를 그냥 제거한다 (좋지 못함).
  • 불법 사용자를 우선 보안팀에 보고한 뒤, 데이터에 포함하여 통계 분석과 ML 등의 작업을 수행한다.

 

위의 예시는 사이버 보안 뿐만아니라 여러 도메인에 적용되는 일반적인 사안이다. 핵심적인 내용은 데이터 분석가가 위와같이 이상치에 대해 고심하지 않는다면 1) 제외 되었어야 하는 데이터가 포함되어 Type 1 error가, 혹은 2) 포함 되었어야 하는 데이터가 제외되어 Type 2 error가 발생할 수 있다.

 

요약하자면 단순 수학적 기준(통계적 방법론)만으로 이상치를 처리한다면 데이터에 존재하는 근본적인 문제를 해결하지 못하거나 정보가 손실될 수 있다는 문제가 존재한다. 따라서 항상 데이터의 context와 domain knowledge를 고려한 이상치 처리가 필요하다. (본문에서는 Data Generating process, DGA를 언급한다).