r 빅데이터 분석 예제

“제공된 데이터 및 중량 벡터에 대해 y가 x로 달라지는 선형 모델에 가장 적합한 계수, 피팅 값 및 잔차는 찾습니다. 개체 fm1에 저장한 다음 결과를 요약합니다.” 이 세션의 초반에는 R이 2차원 개체도 지원합니다. 다음 코드에는 R에서 가장 많이 사용되는 두 가지 데이터 구조의 예가 있습니다: 행렬 및 data.frame. 이전 코드에서 어떤 일이 일어났는지 분석해 보겠습니다. 우리는 숫자와 문자로 벡터를 만들 수 있습니다 볼 수 있습니다. R에게 어떤 유형의 데이터 형식을 미리 알려줄 필요가 없었습니다. 마지막으로 숫자와 문자가 모두 있는 벡터를 만들 수 있었습니다. vector mixed_vec은 숫자를 문자로 강요했으며, 따옴표 안에 값이 인쇄되는 방식을 시각화하여 이를 확인할 수 있습니다. 고성능 프로그래밍 언어의 통합도 또 다른 대안입니다. 프로그램의 작은 부분은 병목 현상과 성능 비용이 많이 드는 절차를 피하기 위해 R에서 다른 언어로 이동됩니다.

목표는 R의 보다 우아한 방식으로 데이터를 처리하는 방법과 다른 한편으로는 다른 언어의 높은 성능의 균형을 맞추는 것입니다. 또는 메모리에 데이터를 저장하지 않는 패키지를 사용할 수 있습니다. 대신 개체가 하드 디스크에 저장되고 청크방향으로 분석됩니다. 알고리즘이 원칙적으로 청크의 병렬 분석을 허용하는 경우 청크는 자연스럽게 병렬화로 이어집니다. 이 전략의 단점은 하드 디스크 특정 데이터 형식을 처리하도록 명시적으로 설계된 알고리즘(및 일반적으로 R 함수)만 수행할 수 있다는 것입니다. 오라클에서 제공하는 또 다른 R-인터프리터가 있습니다. Oracle R은 인텔의 수학 라이브러리를 사용하므로 R의 코어를 변경하지 않고도 더 높은 성능을 구현합니다. 오라클은 무료로 사용할 수 있는 인터프리터 외에도 오라클의 “고급 분석” 데이터베이스 옵션의 구성 요소인 Oracle R Enterprise를 제공합니다. 데이터베이스 서버에서 R 코드를 실행할 수 있으며 데이터베이스 내 높은 계산에 최적화된 풍부한 함수 집합을 사용할 수 있습니다.

데이터 관리 작업 및 기존 통계 작업 외에도 SVM, 신경망, 의사 결정 트리 등과 같은 광범위한 데이터 마이닝 알고리즘을 포함하는 최적화된 함수 를 다룹니다. functionNamehelp(functionName)예제(functionName)args(functionName)help.search(“검색어”)?? (“내 검색어”) 그림 11. R 마크다운의 예는 대화형으로 만들어졌습니다. 기본 코드는 헤더 블록, 몇 줄의 Markdown 및 12줄의 R입니다.