본문 바로가기

반응형

Programming

(148)
파이썬 판다스 기본 함수 기술 통계 정보 정렬 데이터 프레임의 정렬은 인덱스를 정렬하는 함수와 값을 정렬하는 함수가 있다. sort_index()는 인덱스의 데이터를 정렬 sort_values()는 값을 정렬 정렬 기준: axis 0: 인덱스 1: 칼럼 정렬 방향: ascending True: 오름차순 False: 내림차순 값 정렬: sort_values() 결측치 확인 : isnull(), notnull() 결측치는 isnull() 함수를 이용 결측치가 아닌 값을 확인할 때는 notnull()을 이용 결측치 채우기: fillna() 결측치를 다른 값으로 치환할 때는 fillna()를 이용. fillna()는 복제본을 반환하기 때문에 원본 데이터에 값을 바로 수정하고 싶다면 inplace 옵션을 이용 결측치를 채울 때 지정한 값..
파이썬 판다스 데이터프레임 카테고리형 데이터 데이터를 astype('categrory')로 형변환하거나, pd.cut(), pd.qcut() 함수를 이용하여 데이터를 카테고리화 할 수 있다. 카테고리형 데이터 생성: astype 문자열 데이터를 카테고리형으로 변환하면 메모리 사용량을 많이 줄일 수 있다. 카테고리형 데이터 생성: cut 카테고리형을 정수형으로 바꾸기 : map, factorize 데이터를 전처리하고 머신러닝 분석을 하기 위해서는 카테고리형이 정수형으로 바뀌어야 한다. 이때 map 이나 factorize를 이용하면 카테고리형 데이터를 정수형으로 변경할 수 있다. 근데 사실 여기서 데이터타입이 int64에서 32로 변경이 되기는 했는데, 이렇게 나온 게 맞는 것인지 모르겠다. 애초부터 카테고리에서 정수형으로 변경할 때, int62로 바..
파이썬 Pandas 라이브러리 데이터 타입 변경 데이터 타입을 변경할 때는 astype() 를 사용한다. 문자열을 숫자형으로 변경하는 경우처럼 형변경을 할 수 없는 경우에는 오류가 발생한다. 이럴 때는 map()이나 apply() 함수를 이용해서 형변경을 처리한다. 원본은 바뀌지 않고, 복사본이 반환된다.
파이썬 인자(Argument) 개념 잡기 파이썬에서 모든 타입은 객체이다. 변수에 객체를 할당하면 특정 메모리 주소 공간을 할당받게 된다. 그리고 그 변수를 다시 다른 변수에 대입하게 되면 같은 주소를 바라본다. 다시 a 에 새로운 값을 할당하고, id값을 확인해보면, 새로운 변수가 입력되면서, a의 주소가 변경된다. 이렇게 단순히 원시값으로 되어 있는 int, float, immutable한 객체인 튜플, 스트링 등은 이렇게 값의 변화에 따라 메모리 주소가 재할당된다. 하지만, mutable 한 객체는 내부 값에 변화를 주면 같은 곳을 바라보고 있던 변수의 주소가 바뀌지 않은 채 함께 변경된다. 이 문제가 함수의 인자 전달에서도 동일하게 적용된다.
pandas dataframe 이해 데이터프레임 개념 데이터프레임은 관계형 데이터베이스의 테이블. 데이터프레임은 칼럼 단위의 시리즈 모음과 인덱스로 구성 데이터프레임 생성 1. 딕셔너리 전달 pd.DataFrame에 딕셔너리를 전달하면 데이터 프레임이 생성된다. 딕셔너리의 키가 칼럼 정보가 되고, 숫자 인덱스가 자동으로 생성된다. 2. 특정 칼럼만 생성 columns를 이용해 특정 칼럼의 데이터만 생성할 수도 있다. 딕셔너리에 없는 칼럼 정보가 전달되면 NA 값으로 데이터를 생성한다. 3. 인덱스 지정으로 생성 데이터프레임 조회 1. 칼럼 기준 2. 인덱스 기준 인덱스 기준 데이터 조회는 loc, iloc 함수를 이용하여 접근. loc는 인덱스명을 이용하고, iloc는 인덱스 번호를 이용. loc로 인덱스 정보를 가져오는 것을 명확하게 보..
파이썬 pandas Series functions 이해하기 통계 정보: describe() NA값을 제외하고 시리즈의 전체적인 통계정보는 describe() 함수로 확인 시리즈는 통계 정보 계산을 위한 여러 함수를 제공합니다. 주요 함수는 다음과 같습니다. 함수를 사용할 때는 결측치 확인: isnull, 결측치 채움: fillna() 값 대치: map - 딕셔너리 전달 시리즈의 값과 일치하는 딕셔너리의 키로 값이 대치 값 대치: map - 람다 함수 람다 함수를 전달하여 데이터를 전달 값 변환: apply - 함수 호출 값 변환: apply - 람다 함수 호출 값 변환: apply - 함수 파라미터 전달 함수에 파라미터를 전달할 때는 튜플을 사용
파이썬 람다 lambda (익명함수) 함수 사용법 람다함수 정의 파이썬에서는 람다함수라는 것을 이용해 이름없는 함수를 만들 수 있다. 람다함수 장점 람다함수의 장점은 코드의 간결함, 메모리의 절약. def 키워드를 통한 함수 생성은 리터럴 표기법에 따른 함수 생성 방법이고, 클래스를 통해 생성된 객체 인스턴스로, 함수객체를 변수에 담은 시점에서 함수객체는 메모리에 올라가서 변수를 통해 자신이 호출되기를 기다리게 된다. 만약 한 번만 사용될 함수라면 불필요한 메모리가 낭비되는 것이다. 그렇다고 이러한 메모리 낭비를 방지하기 위해 del 키워드로 변수와 참조를 끊는 것은 또 다른 개발자 시간의 낭비다. 그래서 한 번만 쓰리고 버리기 위해서 람다함수를 사용한다. >>> g = lambda x: x**2 >>> print(g(8)) 64 >>> >>> f = ..
불리언(Boolean)과 논리연산, 파이썬 이해하기 컴퓨터가 무언가가 올바른지 틀린지를 판단하고 표현하려면 ‘참’과 ‘거짓’을 의미하는 데이터가 필요하다. 파이썬에서는 True로 참을 나타내고, False로 거짓을 나타낸다. 불리언 True와 False의 데이터 유형은 불리언(boolean, 줄여서 bool)이라고 부른다. 영국의 논리학자 조지 불(George Boole, 1815-1864)의 이름을 따 만든 용어다. 논리연산 and 연산 and 연산은 ‘그리고’라는 뜻이다. 좌변과 우변의 값이 모두 참이어야만 참이고, 둘 중 하나라도 거짓이면 거짓으로 평가된다. or 연산 or 연산은 좌변과 우변의 값 중 하나라도 참이면 참이고, 둘 다 거짓일 때만 거짓으로 평가된다. 진리표 좌변 우변 and or 연산결과 True True True True True ..

반응형