본문 바로가기

반응형

Programming/Python

(33)
pandas dataframe 이해 데이터프레임 개념 데이터프레임은 관계형 데이터베이스의 테이블. 데이터프레임은 칼럼 단위의 시리즈 모음과 인덱스로 구성 데이터프레임 생성 1. 딕셔너리 전달 pd.DataFrame에 딕셔너리를 전달하면 데이터 프레임이 생성된다. 딕셔너리의 키가 칼럼 정보가 되고, 숫자 인덱스가 자동으로 생성된다. 2. 특정 칼럼만 생성 columns를 이용해 특정 칼럼의 데이터만 생성할 수도 있다. 딕셔너리에 없는 칼럼 정보가 전달되면 NA 값으로 데이터를 생성한다. 3. 인덱스 지정으로 생성 데이터프레임 조회 1. 칼럼 기준 2. 인덱스 기준 인덱스 기준 데이터 조회는 loc, iloc 함수를 이용하여 접근. loc는 인덱스명을 이용하고, iloc는 인덱스 번호를 이용. loc로 인덱스 정보를 가져오는 것을 명확하게 보..
파이썬 pandas Series functions 이해하기 통계 정보: describe() NA값을 제외하고 시리즈의 전체적인 통계정보는 describe() 함수로 확인 시리즈는 통계 정보 계산을 위한 여러 함수를 제공합니다. 주요 함수는 다음과 같습니다. 함수를 사용할 때는 결측치 확인: isnull, 결측치 채움: fillna() 값 대치: map - 딕셔너리 전달 시리즈의 값과 일치하는 딕셔너리의 키로 값이 대치 값 대치: map - 람다 함수 람다 함수를 전달하여 데이터를 전달 값 변환: apply - 함수 호출 값 변환: apply - 람다 함수 호출 값 변환: apply - 함수 파라미터 전달 함수에 파라미터를 전달할 때는 튜플을 사용
파이썬 람다 lambda (익명함수) 함수 사용법 람다함수 정의 파이썬에서는 람다함수라는 것을 이용해 이름없는 함수를 만들 수 있다. 람다함수 장점 람다함수의 장점은 코드의 간결함, 메모리의 절약. def 키워드를 통한 함수 생성은 리터럴 표기법에 따른 함수 생성 방법이고, 클래스를 통해 생성된 객체 인스턴스로, 함수객체를 변수에 담은 시점에서 함수객체는 메모리에 올라가서 변수를 통해 자신이 호출되기를 기다리게 된다. 만약 한 번만 사용될 함수라면 불필요한 메모리가 낭비되는 것이다. 그렇다고 이러한 메모리 낭비를 방지하기 위해 del 키워드로 변수와 참조를 끊는 것은 또 다른 개발자 시간의 낭비다. 그래서 한 번만 쓰리고 버리기 위해서 람다함수를 사용한다. >>> g = lambda x: x**2 >>> print(g(8)) 64 >>> >>> f = ..
불리언(Boolean)과 논리연산, 파이썬 이해하기 컴퓨터가 무언가가 올바른지 틀린지를 판단하고 표현하려면 ‘참’과 ‘거짓’을 의미하는 데이터가 필요하다. 파이썬에서는 True로 참을 나타내고, False로 거짓을 나타낸다. 불리언 True와 False의 데이터 유형은 불리언(boolean, 줄여서 bool)이라고 부른다. 영국의 논리학자 조지 불(George Boole, 1815-1864)의 이름을 따 만든 용어다. 논리연산 and 연산 and 연산은 ‘그리고’라는 뜻이다. 좌변과 우변의 값이 모두 참이어야만 참이고, 둘 중 하나라도 거짓이면 거짓으로 평가된다. or 연산 or 연산은 좌변과 우변의 값 중 하나라도 참이면 참이고, 둘 다 거짓일 때만 거짓으로 평가된다. 진리표 좌변 우변 and or 연산결과 True True True True True ..
파이썬 Pandas Series 시리즈 공부 데이터 분석을 하게 되면, 계속 마주치게 되는 녀석이 Pandas다. 이 포스팅에는 pandas에 대해서 지속적으로 공부하게 되는 내용들을 하나씩 추가할 예정이다. 의식의 흐름, 공부의 흐름대로 정리하는거라 두서가 없이 정리할 예정. Pandas란? pandas는 데이터프레임이라는 표 형식의 자료구조와 시리즈라는 배열 형식의 자료구조를 제공한다. 이 두 가지 자료구조를 잘 이해하고 조작할 수 있어야 데이터 분석에 활용할 수 있다. 시리즈 값(values)과 인덱스로 구성되어 있다. 데이터프레임 시리즈의 모음으로 칼럼과 인덱스, 값으로 구성되어 있다. 출처 : https://wikidocs.net/75004 01-Pandas `Pandas`는 데이터 분석을 위한 추상적인 자료구조와 데이터 분석 도구를 제공..
문자열 포매팅 문자열 포매팅 문자열에서 또 하나 알아야 할 것으로는 문자열 포매팅(Formatting)이 있다. 이것을 공부하기 전에 다음과 같은 문자열을 출력하는 프로그램을 작성했다고 가정해 보자. "현재 온도는 18도입니다." 시간이 지나서 20도가 되면 다음 문장을 출력한다. "현재 온도는 20도입니다" 위 두 문자열은 모두 같은데 20이라는 숫자와 18이라는 숫자만 다르다. 이렇게 문자열 안의 특정한 값을 바꿔야 할 경우가 있을 때 이것을 가능하게 해주는 것이 바로 문자열 포매팅 기법이다. 쉽게 말해 문자열 포매팅이란 문자열 안에 어떤 값을 삽입하는 방법이다. 다음 예를 직접 실행해 보면서 그 사용법을 알아보자. 문자열 포매팅 따라 하기 1. 숫자 바로 대입 >>> "I eat %d apples." % 3 'I..
파이썬 반환문 return 사용법 파이썬과 데이터 과학을 공부(?)해보니 기초가 없는 상태에서 하나하나 튜토리얼을 보면서 해나간다고 하는 것이 현실적이지 못했다. 이해하기가 너무 어렵다. 시간이 걸리더라도, 기본을 다지는 것이 중요하다고 생각되었는데, 그 기본이 무엇일까. 파이썬의 기능을 알고, 통계를 알고, 다양한 분야 지식을 쌓는 것일 것이다. 기능 하나 하나씩 늘려나가려고 한다. def 함수이름(매개변수, x 같은 것): return 반환값 def 는 함수를 정의내리는 기능을 한다. return에서 매개변수에 따른 반환값을 얻을 수 있다. >>> def add(a, b): ... return a + b ... 이렇게 add(a, b)라는 함수를 만들었다고 하자. >>> x = add(50, 23) >>> x 73 x의 값을 출력하면..
JSON 파일이란? (JavaScript Object Notation) JSON is a data exchange format that you will encounter on a regular basis. In a nutshell, JSON provides a way to arbitrarily store maps, lists, primitives such as numbers and strings, and combinations thereof. In other words, you can theoretically model just about anything with JSON should you desire to do so. JSON (JavaScript Object Notation) JavaScript Object Notation라는 의미의 축약어로 데이터를 저장하거나 전송할..

반응형