캐글에서 Location Matching이라는 재미있어보이는 컴피티션을 하나 발견해서 어떤 컴피티션인지 소개하면서 EDA 노트북 하나를 번역해볼까 한다.
Foursquare - Location Matching
근처 식당을 찾거나 미지의 지역에서 심부름을 해야할 때, 그와 관련 있고 정확한 정보를 기대하게 됩니다. 전세계적으로 양질의 데이터를 유지하는 것은 어려운 과제이며, 탐색을 넘어서는 의미를 지닙니다. 기업은 시장 확대를 위해 새로운 지역을 결정하고, 경쟁 지형을 분석하고, 위치 데이터로 안내하는 관련 광고를 보여줍니다. 이러한 용도와 다른 많은 용도의 경우 신뢰할 수 있는 데이터가 중요합니다.
상업적 관심 지점(POI)에 대한 대규모 데이터 셋은 실제 정보로 가득 차 있을 수 있습니다. 최고 수준의 정확도를 유지하려면 데이터를 여러 소스로부터 알맞는 업데이트를 해야하고, 일치시키고 중복을 제거해야 합니다. 원시 데이터에 노이즈, 구조화되지 않은 정보, 불완전하거나 부정확한 속성이 포함될 수 있기 때문에 중복제거는 많은 과제를 가져옵니다. 머신러닝 알고리즘과 엄격한 인간 검증 방법의 조합은 데이터 셋의 중복 제거하기에 최적입니다.
... 생략
이번 대회에서는 POI를 함께 매칭합니다. 노이즈, 중복, 외부 또는 잘못된 정보를 포함하도록 크게 변경된 150만 개 이상의 장소 항목의 데이터 셋을 사용하면 동일한 관심 지점(POI)을 나타내는 장소 항목을 예측하는 알고리즘을 생성할 수 있습니다. 각 플레이스 항목에는 이름, 주소 및 좌표와 같은 속성이 포함됩니다. 제출에 성공하면 가장 정확하게 일치 항목을 식별할 수 있습니다.
POI를 효율적이고 성공적으로 일치시킴으로써, 당신은 새로운 상점이나 사업체가 사람들에게 가장 큰 혜택을 줄 수 있는 곳을 쉽게 식별할 수 있을 것입니다.
예전에 대학 때 들은 어떤 강연 중에 Uber는 고객들이 쌓은 데이터를 이용하여 어느 지역에 지하철역을 만들면 좋을지, 어떤 곳이 집값이 오르고 떨어질지 등을 예측하는 것이 가능할 것이란 이야기를 들었다. 아무것도 모르던 나에게는 충격이었다. 일종의 택시 회사(택시는 아니지만)가 데이터를 모아 그런것 까지 할 수 있다니..!
이 컴피티션을 보면서 예전에 들은 Uber 이야기가 생각났고, 그런 것들을 하기 전에 이 컴피티션의 목표인 POI 매칭 작업이 필요할 것 같았다. 그래서 데이터를 보면 좋을 것 같았고 EDA 노트북 하나 읽어보기로 했다. 슥 읽고 말면 아까우니 번역 및 설명 추가도 같이 해보기로 했다. 아래의 링크에 있는 노트북을 번역할 것이다.
https://www.kaggle.com/code/robikscube/foursquare-location-matching-eda-twitch-stream
번역본을 캐글 노트북으로 보고싶다면 아래의 링크를 참고!
https://www.kaggle.com/code/parkjh688/foursquare-location-matching-eda-twitch-stream
따라가보면서도 데이터가 이상하다고 생각되는 부분들이 있었는데 다른 사람들의 노트북도 더 봐야겠다.