본문 바로가기
도서 리뷰

[도서 리뷰] 혼자 공부하는 R 데이터분석

by 이든Eden 2022. 2. 20.

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

 

R은 대학교 다닐 때 1학기 통계수업의 과제로 사용했던 것이 전부였다. 데이터 분석보다 DL을 많이 하다보니 접할 일도 별로 없었다.

나는 리뷰어다 2022의 첫 도서로 받게되어 정말 오랜만에 R을 써보았다. 사실 거의 기본 지식 0에서 읽은거랑 다름 없었지만ㅋㅋㅋ

 

프로그래밍 언어 혹은 툴에 대한 서적을 접했을 때 뭔가 훌훌 읽으면 다 아는 것 같다. 근데 막상 쓰려면 "엥 그거 어떻게 하는거였지.." 하고 다시 찾아봐야하는데 이 책의 장점은 이런 부분을 최소화 시킬 수 있게 도와준다는 것이었다.

 

작은 챕터가 끝나면 마무리라는 페이지에 짧은 정리와 확인문제가 있다. 나도 책을 읽으면서 문제푸는게 재밌어서 꽤 많이 풀었는데 이거 한 번 풀고나면 기억이 오래간다. 사실 모든 함수명을 기억할 필요는 없다. 그렇기 때문에 대충 비슷하게라도 이 커맨드 혹은 함수가 뭘 의미하는지 파라미터가 뭐였는지 정도 기억하면 되는데 그 아이디어랑 비슷하게 빈칸 채우기, 객관식, 올바른 것 연결하기로 주로 구성되어있다.

 

확인문제

 

그리고 내가 생각한 또 다른 장점은 문제해결이라고 해서 실제로 R을 쓰면서 생기는 문제를 해결하는 방법에 대한 팁이 있다는 것이다. 초보 시절에는 어떻게 해야할지 잘 모르기 때문에 책을 그대로 따라쳐보는 경우가 많다. 그대로 똑같이 했는데 문제가 생기면 굉장히 당황스러울 것이다. 그럴 때 이런 해결팁이 있다면 입문자들에겐 큰 도움이 될 것이다.

 

 

문제해결

 

내가 항상 중요하게 생각하는 것이 있다. mnist, Iris, 타이타닉과 같이 수 많은 입문서들과 블로그에서 사용하는 데이터 말고 내가 쓰고 싶은 데이터에 어떻게 적용하는지 가르쳐주는 글이 큰 도움이 될 것이라고 생각한다(물론 기본적인 예시도 필요하다고 생각한다! 하지만 그 다음 과정인 내것에 적용해보는 과정이 있어야 더 발전할 수 있을 것이다). 

 

그런데 혼자 공부하는 R 데이터분석에는 챕터 07이 공공데이터포털의 데이터를 이용해 프로젝트를 만들어 보는 것이다. 코시국에 맞게 코로나19 선별진료소 위치 지도에 나타내보기, 서울시 지역별 미세먼지 농도 차이 비교하기 등의 프로젝트가 있다. 원하는 프로젝트가 있다면 이 프로젝트 예시들을 기반으로 더 많은 시각화를 해보고 다른 데이터를 적용해보는게 큰 도움이 될 것 같다.