반응형

** AI 관련 업이 아니다 보니 2달여만에 글을 올리게 되네요..

원본 링크

Deep Learning Model Implementation: Embeddings for Categorical Variables

미국 집가격과 이사 패턴을 탐색하기 위한 임베딩 사용하기


많은 복잡한 예측 문제에 대해서 CNNs, NLP같은 DL(Deep Learning) 방법론과 완전연결 네트워크(fully-connected network)가 가장 높은 수준의 성능을 제공한다. 이는 보통 예측 결과에서 설명하기 위한 특징의 역할을 이해하는 것에 대한 비용으로 이어진다. 통계적 방법을 기초하는 ML 방법론이 변수 선택(variable selection), 상대적 중요도(relative importance) 그리고 경우에 따라 예측기(predictor)의 역할을 이해하기 위한 모델 계수(coefficient)를 포함한 다양한 기술을 제공하는 반면, DL 측면에서 유사한 통찰력을 달성하기 위한 잠재성은 덜 탐구되었다. 그리고 관계된 복잡성 때문에 이는 참(true)로 남을 것이다. 그러나, 유명한 블랙박스에서 무엇이 발생하는지에 관해 몇가지 단서를 얻기 위한 방법이 있다. 예를 들면, 이미지의 CNN 분석에서 클래스 활성화 맵은 그림의 어떤 영역이 가장 활성화 되거나 이것의 분류에서 가장 영향이 있는지를 식별하기 위한 방법이다.


Embedding

시간 연속(time-series) 또는 다른 구조화된 데이테어 대해서 임베딩(embedding)은 표준 원핫 인코딩 또는 종속 변수에 대한 영향 패턴에 대한 통찰로 이어질 수 있는 범주적 특성에 대한 'dummy' 변수 표현에 대한 대안을 제공한다. 임베딩 행렬은 모델 적합도(model fit)와 함께 추정되고 그것들의 차원은 보통 변수의 카디넬리티(cardinality)보다 약간 작은 것을 선택한다. 즉, 요일을 나타내는 임베딩 행렬은 4차원 임베딩 벡터에 의해 표현되는 각 날짜를 허용하는 7 X 4 차원을 가질 수 있다. 이는 패턴과 유사성 또는 날짜간 차아가 4차원을 따라 캡쳐되도록 한다.

카디널리티(Cardinality) : 사전적 의미로 집합원의 갯수이다.

카디널리티가 낮은 대표적인 속성은 성별, 부서, 지역등으로 성별의 경우 남성, 여성의 두가지 값만 들어갈 수 있기 때문애 낮다고 볼 수 있다.

카디널리티가 높은 대표적인 속성은 주민번호, 사원번호등으로 주민번호의 경우, 대한민국 전체 인구가 서로 다른 주민 번호를 갖기 때문에 높다고 할 수 있다.


An Example : Real Estate Time Series

DL 모델로부터 임베딩을 추정할 수 있는지 그리고 결과 패턴이 해석 가능한지를 알고 싶다고 하자. 미국 BEA(Bureau of Economic Analysis)가 최근 카운티의 GDP 데이터를 발표했을 때, 이 지리적 세분석의 수준에서 찾을 수 있는 데이터의 다른 타입에 흥미가 생겼다. (저자는) 부동산에 관한 모든것을 좋아하고 MLS 정보에 정근할 수 있는 에이전트가 아니었지만 운좋게 Zillow Research가 있었다. 비록 Zillow가 사이트에서 제공하는 정보가 시간이 지남에 따라 변경될 수 있지만, 그들은 2010년 1월 1일에서 2018년 1월1일까지 거의 1260개의 미국 카운티에 대한 조정된 판매 가격에 대한 데이터 접근을 제공했다. 카운티에 대한 다른 사용가능한 부동산 데이터는 판매수(sale counts), 가격인하 비율(percent price reduction), ZHIV(Zillow Home Value Index), Zillow 사용일수 (days on Zillow), 월간 목록과 이전 압류에 대한 판매 비율을 포함한다. 이런 특징 모두는 월간 빈도로 사용가능했다. GDP(20152018, BEA), 인구 패턴, 실업과 빈곤, 가정 수입, 카운티 비즈니스 패넡과 미국 인구조사 지역 과 구분(20102018, US Census Bureau)를 포함해 카운터에 대한 다른 데이터를 수집했다. 이들 데이터는 인년에 한번 기록되었다. 또한 FRED(Federal Reserve Economic Data, 2010-2018)로 부터 월간 주요 금리 또한 수집했다.

(필자의) 목표는 fastai 라이브러리를 사용하여 카운티의 매년 월별로 조정된 판매가격을 예측하는 것이었다. 2개의 완전 연결 레이어를 가진 DL 모델을 훈련했다. 여기서 점주적 변수는 임베딩을 사용하여 표현되었다. 최종 모델은 다음해에 대해 조정된 판매 가격 예측에서 8%의 루트 평균 제공 퍼센트 오류를 달성했다. 관련된 코드는 여기에서 확인할 수 있다. 추출된 후, 임베팅 행렬은 주성분(PCs, Principal components)를 계산하기 위해 원본 데이터와 다시 합쳐진다. 지리적 변수에 대한 처음 두개의 PCs의 그래프는 가장 많이 세분화 된것부터 가장 적게 세분화 된것(주, 부서, 지역)까지 아래와 같다.


State


image by author

상태 임베딩에 대한 PC1을 따르는 레이아웃은 약간의 무리(clustering, 예 : CT와 RI, NY와 NJ)와 우리가 기대하는 평균에서 벗어난 값들(outliers, 예 : CA, HI)을 나타내지만 그렇지 않으면 상당히 복잡하게 나타난다. 미국 인구 조사국와 지역(여기)을 사용하여 높은 수준으로 구릅지어보자.


US Census Divisions


image by author

이번것은 흥미롭다. PC1을 따라서 South Atlantic Division을 제외하고 꽤 쌓여진다. PC2를 따라서 적어도 지리적 용어로 생각하면, 처음에 약간 어울리지 않는 그룹처럼 보인다. South Atlantic과 함께 East North/South Central은 Mountain 부분으로 그룹을 이루고 New Englang/Mid Atlantic 부분은 그들의 반대편 해안, 태평양으로 나타난다. 이러한 영역이 공통적으로 갖을 수 있는 것은 무엇일까?

수요와 공급 그리고 가격에 미치는 영향의 관점에서 생각하면서 미국내 이사 패턴을 살펴보자. 인구조사국 또한 이러한 형태의 정보가 있지만, (저자가 찾은) 흥미로운 소스는 North American Moving Services이다. 여기에서 지난 10년동안 상호작용한 이사 지도를 볼 수 있다. 미국 선거 전달에 대부분 떠나거나 드러오는 것으로써 주를 구분하기 위해 빨강과 파랑보다 다른 색상을 선택하기를 약간 바랬지만, 이 지도는 매혹적인 지도이다. 이 site에서 바를 움직이면 2011년도에서 2019년도까지 각 년도에 대한 데인터를 볼 수 있다. 그리고 마우스 포인터를 각주에 올리면 재산세 비율(property tax percentage)과 함께 전출(Outbound) vs. 전입(Inbound) 통계를 볼 수 있다.

흥미롭게, US Census Divisions East South Central, South Atlantic와 Mountain은 좀더 전입 이주가 많고 New England (at least CT), Mid Atlantic와 Pacific Divisions은 좀더 전출 이주를 경험하는 것으로 위 임베딩에서 설명된 패텅과 동일함을 알 수 있다. 예외 패턴은 비록 다른 전입 부분으로 그룹지어졌지만, 더 많은 전출 이주를 보여주는 ast North Central Division이다.

여전히 고려하기 위한 가장 세분화된 미국 인구조사 그룹핑이 있다. : 지역


US Census Regions


image by author

4개의 미국 인구조사 지역은 위 그림과 같이 인구조사 부분을 축소한다. 우리가 조사한 이주 패턴의 범위에서 PC1은 이주 패턴과 주택가격에 미치는 효과의 범위에서 지역을 정렬한다. 미국의 남부지역(south)은 확실하게 지난 10년간 크게 주택가격이 증가하는 것을 보였다. 정말 흥미로는 것은 PC2이다. 기본적으로 다른 3지역이 이 축에서 함께 축소되는 반면, 서부(west)는 나머지로부터 스스로 양극화한다. 남부(south), 북동부(northeast)와 중서부(mideast) 지역은 지난 10년 동안 전입과 전출 이주 패턴에 관해 꽤 내부적으로 일관된다. 서부(west) 인구조사 지역은 다른 이주 역학으로 태평양(Pacific)과 산악(Mountain) 부분을 합친다.


In Conclusion

약간의 추가 작업으로 범주 변수(categorical variable)에 대한 임베딩은 DL 모델 피팅으로부터 추출될 수 있고 예측변수(predictor variable)가 결과를 예측하기 위한 능력에 영향을 미치는 방법에 대한 일부 통찰을 제공할 것이다. 임베딩은 또한 ML 전략과 같은 다른 모델링의 형태에 대한 공변량(covariate)으로써 추출되고 사용될 수 있다. 그리고 기존 더미 또는 원한 인코딩 파라미터화에 대한 감소된 카디털리티를 제공할 수 있다.

반응형

+ Recent posts