빅데이터

[BigData] 데이터 구조 R(기초)

zs1397 2022. 10. 19. 10:45

1. 데이터 저장 및 처리

  a. 변수: 데이터 저장 공간

   ( x = 1, z = x + y , z <- x+y ...)

  b. 데이터형: 숫자형(int:정수, num:실수, cplx:복소수)

                      문자형(chr: 작은따옴, 큰 따옴 묶어 표기)

                      범주형(factor: 레벨에 따라 분류)

                      논리형 (TRUE, FALSE)

                      특수상수(NULL, NA. NaN)

  c. 연산자: 산술, 비교, 논리연산자

  d. 데이터 구조:

     - 벡터: 단일값들의 모임( 여러 단일 값 하나의 변수 명으로 저장 가능)

        ≫ 생성법: 벡터 생성 연산자 ':' + vector함수 + c(combine)함수:일반벡터 + seq(sequence)함수:순열벡터 +         Rep(repeat)함수:반복벡터  (ex. vector(length=5),  c(1:5), c(1,2,c(3:6)), x = c(1,2,3))

       ≫ 연산: 요소값 출력 ex. x=c(2,4,6,7,8)  x[c(1,2,3] -> 2,4,6 + head, tail함수: 앞 뒤 데이터 6개 추출을 기본

 

     - 배열: 열과 행을 가지는 데이터 집합, 벡터의 요소들이 다시 벡터로 구성된 형태

       ≫ 배열 생성함수: array(data, dimension, dimnames) -> N차원 배열,  matrix(data, nrow, ncol, byrow, dimnames) -> 2차원 배열

       ≫ 연산: apply 함수(배열 행 또는 열별 함수적용), dim 함수(배열 크기)  

     - 데이터프레임:  서로 다른 데이터 형이 표 형태로 정리된 구조(각 속성 크기가 같음)

        ≫ 생성함수: data.frame()

        ≫ 유용함수: attach(적용) - detach(해제): 데이터프레임 속성명을 변수명으로 변경

                             awith: 데이터 프레임에 다양한 함수 적용 ex. with(cars, mean(speed))

                             subset: 데이터 프레임에서 일부 데이터만 추출 ex subset(cars, speed > 20)

                             na.omit: 데이터 프레임의 결측값(NA) 제거

                             merge: 여러 데이터 프레임 결합(동일 key값 기준)

     - 리스트: 데이터 프레임과 유사한 표 형태의 구조(각 속성 크기 달라도 가능

        ≫ 생성함수: list()

        ≫ 요소접근: $, [[]] ex. list[[1]]

        ≫ 유용함수:  lappy - sapply 함수: 리스트 요소에 다양한 함수 적용

'빅데이터' 카테고리의 다른 글

[BigData] 데이터 가공과 시각화  (0) 2022.10.19
[BigData]파일 읽고 쓰기와 데이터 정제  (0) 2022.10.19