엑셀(EXCEL)은 매우 훌륭한 비즈니스 도구입니다. 가시적이고 마우스로 탐색이 손쉬우며 함수를 적용하면 바로 결과를 볼 수 있습니다.
그리고 훌륭한 차트 기능을 제공하며, 자료 요약 기능 특히 피벗테이블(Pivot table) 기능을 제공합니다.
하지만 엑셀은 태생적인 한계를 지니고 있는데요.. 바로 자료의 개수에 한계가 있다는 점입니다.
100만 개를 넘는 행을 한 시트에 담을 수 없고, 따라서 피벗테이블도 적용할 수 없습니다.
(정확히는 2^20 언저리의 개수를 다룰 수 있습니다. 100만이라고 표현하겠습니다. )
하지만 R에서는 엑셀이 할 수 없는 100만 개의 자료를 하나의 데이터 테이블로 저장할 수 있고, 열을 추가하고, VLOOKUP기능을 통해서 값을 찾아줄 수 있습니다.
특히 회사에서 많이 쓰는 EXCEL의 VLOOKUP과 피벗테이블을 R에서 구현하는 방법을 알려드리도록 하겠습니다.(연재 예정)
하지만 우선 R에서 대용량 데이터를 불러오는 방법을 설명하는 게 우선입니다.
R은 오픈소스로 R을 설치하였다고 R에 모든 기능을 사용할 수 있는 것이 아닙니다. 추가 기능을 사용하기 위해서는 패키지(PACKAGE)를 설치하고 라이브러리(library)로 불러와야 합니다.
우선 data.table , dplyr, reshape2 세 개의 패키지를 불러오는 방법을 설명드립니다.
- R스튜디오를 실행한다.
- 코드 편집 소스를 하나 연다.(. R파일)
- install.packages("패키지명") 또는 install.packages(c("페키지1","페키지2",...)) 입력 후 실행한다.
- library("패키지명") 또는 library(c("페키지1","페키지2",...))을 입력 후 실행한다.
R스튜디오 코드 창에서 해당 줄의 코드를 실행하려면 Ctrl+Enter를 누르면 됩니다. ^^
에러 창 없이 설치가 되었다면 이제 우리는 엑셀에서는 못 다루는 100만개 넘는 자료를 다룰 준비가 되었습니다.
다음 편에서는 fread함수로 대용량 자료를 빠르게 불러오는 방법을 다루겠습니다.
'직장에서 가끔 사용하는 R 기능' 카테고리의 다른 글
파이썬으로 갈아탑니다. (0) | 2021.07.22 |
---|---|
엑셀파일(xlsx)을 CSV형식으로 변환하기 전 주의사항 (0) | 2020.11.04 |
[excel, R] 100만행이 넘는 자료도 피벗테이블을 그릴 수 있다. (0) | 2020.10.18 |
R과 R스튜디오 설치하기(Installing R) (0) | 2020.09.29 |