최대 1 분 소요

Feature Engineering

  • Feature Engineering 이란?

    도메인 지식을 활용하고 창의성을 발휘하여, 기존 데이터셋에 존재하는 Feature들을 재조합하여 Target에 맞는 새로운 Feature를 만드는 과정

  • 예시

    키와 몸무게와 나이와 성별을 알 경우에 이를 바탕으로 BMI지수라는 새로운 Feature를 만들어 내는 것

  • 데이터프레임(Data Frame)이란

    • 대중적인 표형식 데이터에 대한 통계 및 시각화에 활용하는 자료구조
    • 동일한 길이를 갖는 벡터 집합
    • read.csv(), read.table()로 함수를 만들어 냄
  • 유용기법

    • String Replace

    • 숫자 사용시 표현은 숫자로 되어있지만, string datatype일 때 Integer datatype으로 변경 필요

      • s.replace(‘,’,’ ‘)

      • def toInt(string):
            return int(string.replace(',',''))
        
  • Pandas datatype 형태

    (사진2)
  • Na,Null,NaN(Not a Number),0, Undefinded차이

    • NaN(Not a Number) : 숫자로 변환되지 않는 문자열과의 나누기 연산 등 잘못된 수식으로 인하여 발생한 값, 프로그래밍 상 Float처리됨, boolean 형변환 결과는 false

      Na : NaN과 동일한 의미를 함(실제로 Na는 Python에는 없음,R에서만 주로 사용함)

    • Null : 비어있음을 의미하는 값(아직 정해지지 않는 값), boolean으로 형변환이 일어나는 경우 flase가 됨

    • 0 : 숫자 0 데이터를 기입

    • Undefinded : 비어있는 상태, boolean으로 형변환이 일어나는 경우 false가 됨

    • None : 비존재, 비어있는 값

(사진2)

댓글남기기