직장에서 가끔 사용하는 R 기능

100만행 넘는 데이터 R에서 손쉽게 다루기(Excel은 못해요)#0

하트 뿅뿅 2020. 9. 30. 18:39
반응형

엑셀(EXCEL)은 매우 훌륭한 비즈니스 도구입니다. 가시적이고 마우스로 탐색이 손쉬우며 함수를 적용하면 바로 결과를 볼 수 있습니다.

 

 그리고 훌륭한 차트 기능을 제공하며, 자료 요약 기능 특히 피벗테이블(Pivot table) 기능을 제공합니다.

하지만 엑셀은 태생적인 한계를 지니고 있는데요.. 바로 자료의 개수에 한계가 있다는 점입니다.

100만 개를 넘는 행을 한 시트에 담을 수 없고, 따라서 피벗테이블도 적용할 수 없습니다.

(정확히는 2^20 언저리의 개수를 다룰 수 있습니다. 100만이라고 표현하겠습니다. )

 

 하지만 R에서는 엑셀이 할 수 없는 100만 개의 자료를 하나의 데이터 테이블로 저장할 수 있고, 열을 추가하고, VLOOKUP기능을 통해서 값을 찾아줄 수 있습니다.

 

 특히 회사에서 많이 쓰는 EXCEL의 VLOOKUP과 피벗테이블을 R에서 구현하는 방법을 알려드리도록 하겠습니다.(연재 예정) 

 

하지만 우선 R에서 대용량 데이터를 불러오는 방법을 설명하는 게 우선입니다.


R은 오픈소스로 R을 설치하였다고 R에 모든 기능을 사용할 수 있는 것이 아닙니다. 추가 기능을 사용하기 위해서는 패키지(PACKAGE)를 설치하고 라이브러리(library)로 불러와야 합니다.

 

 

우선 data.table , dplyr, reshape2 세 개의 패키지를 불러오는 방법을 설명드립니다.

 

  1. R스튜디오를 실행한다.
  2. 코드 편집 소스를 하나 연다.(. R파일)
  3. install.packages("패키지명")  또는 install.packages(c("페키지1","페키지2",...)) 입력 후 실행한다.
  4. library("패키지명") 또는 library(c("페키지1","페키지2",...))을 입력 후 실행한다.

R스튜디오 코드 창에서 해당 줄의 코드를 실행하려면 Ctrl+Enter를 누르면 됩니다. ^^

 

에러 창 없이 설치가 되었다면 이제 우리는 엑셀에서는 못 다루는 100만개 넘는 자료를 다룰 준비가 되었습니다.

 

다음 편에서는 fread함수로 대용량 자료를 빠르게 불러오는 방법을 다루겠습니다.

 

반응형