본문 바로가기

반응형

Programming

(148)
파이썬 Pandas Series 시리즈 공부 데이터 분석을 하게 되면, 계속 마주치게 되는 녀석이 Pandas다. 이 포스팅에는 pandas에 대해서 지속적으로 공부하게 되는 내용들을 하나씩 추가할 예정이다. 의식의 흐름, 공부의 흐름대로 정리하는거라 두서가 없이 정리할 예정. Pandas란? pandas는 데이터프레임이라는 표 형식의 자료구조와 시리즈라는 배열 형식의 자료구조를 제공한다. 이 두 가지 자료구조를 잘 이해하고 조작할 수 있어야 데이터 분석에 활용할 수 있다. 시리즈 값(values)과 인덱스로 구성되어 있다. 데이터프레임 시리즈의 모음으로 칼럼과 인덱스, 값으로 구성되어 있다. 출처 : https://wikidocs.net/75004 01-Pandas `Pandas`는 데이터 분석을 위한 추상적인 자료구조와 데이터 분석 도구를 제공..
문자열 포매팅 문자열 포매팅 문자열에서 또 하나 알아야 할 것으로는 문자열 포매팅(Formatting)이 있다. 이것을 공부하기 전에 다음과 같은 문자열을 출력하는 프로그램을 작성했다고 가정해 보자. "현재 온도는 18도입니다." 시간이 지나서 20도가 되면 다음 문장을 출력한다. "현재 온도는 20도입니다" 위 두 문자열은 모두 같은데 20이라는 숫자와 18이라는 숫자만 다르다. 이렇게 문자열 안의 특정한 값을 바꿔야 할 경우가 있을 때 이것을 가능하게 해주는 것이 바로 문자열 포매팅 기법이다. 쉽게 말해 문자열 포매팅이란 문자열 안에 어떤 값을 삽입하는 방법이다. 다음 예를 직접 실행해 보면서 그 사용법을 알아보자. 문자열 포매팅 따라 하기 1. 숫자 바로 대입 >>> "I eat %d apples." % 3 'I..
파이썬 반환문 return 사용법 파이썬과 데이터 과학을 공부(?)해보니 기초가 없는 상태에서 하나하나 튜토리얼을 보면서 해나간다고 하는 것이 현실적이지 못했다. 이해하기가 너무 어렵다. 시간이 걸리더라도, 기본을 다지는 것이 중요하다고 생각되었는데, 그 기본이 무엇일까. 파이썬의 기능을 알고, 통계를 알고, 다양한 분야 지식을 쌓는 것일 것이다. 기능 하나 하나씩 늘려나가려고 한다. def 함수이름(매개변수, x 같은 것): return 반환값 def 는 함수를 정의내리는 기능을 한다. return에서 매개변수에 따른 반환값을 얻을 수 있다. >>> def add(a, b): ... return a + b ... 이렇게 add(a, b)라는 함수를 만들었다고 하자. >>> x = add(50, 23) >>> x 73 x의 값을 출력하면..
JSON 파일이란? (JavaScript Object Notation) JSON is a data exchange format that you will encounter on a regular basis. In a nutshell, JSON provides a way to arbitrarily store maps, lists, primitives such as numbers and strings, and combinations thereof. In other words, you can theoretically model just about anything with JSON should you desire to do so. JSON (JavaScript Object Notation) JavaScript Object Notation라는 의미의 축약어로 데이터를 저장하거나 전송할..
파이썬 pandas loc 개념과 예제, 사용법, 데이터 인덱싱과 슬라이싱 방법 loc 개념 정리 인덱싱은 데이터 프레임에서 적용될 수 있다. 판다스에서는 특정 행(row)나 열 loc : location의 약자로 데이터프레임의 행 또는 칼럼의 label이나 boolean array로 인덱싱하는 방법. - 칼럼명을 직접 적거나 특정 조건식을 써주어 사람이 읽을 수 있게 데이터에 접근하는 방법 loc 사용방법 df.loc[행 인덱싱 값, 열 인덱싱 값] 예시 하나의 데이터프레임을 불러온 뒤, df로 선언한 상태다. loc[0]에 하나의 값만 입력하면, 그에 해당하는 하나의 행만 뽑아온다. 위 경우에는 "df라는 전체 데이터 프레임에서 인덱스 이름이 0인 행만 출력해서 가져와"라는 의미이다. 이번에는 네모 박스 안에 있는 특정 값만 추출해보자. df.loc[0, 경도] 이렇게 추출할 수..
reset_index(drop=True) 예제 reset_index는 데이터프레임에서 기존 인덱스를 대체하기 위해 사용된다. df = pd.DataFrame([('bird', 389.0), ... ('bird', 24.0), ... ('mammal', 80.5), ... ('mammal', np.nan)], ... index=['falcon', 'parrot', 'lion', 'monkey'], ... columns=('class', 'max_speed')) >>> df class max_speed falcon bird 389.0 parrot bird 24.0 lion mammal 80.5 monkey mammal NaN 인덱스를 다시 정할 때, 기존의 인덱스가 하나의 칼럼으로 들어가게 되고, 새로운 인덱스가 사용되게 된다. >>> df.reset_..
파이썬으로 csv 파일 불러오기 pandas 이 글은 이전 글에서 이어지는 내용이다. Kaggle 에서 dataset 다운로드 받기 opendatasets library 준비물 : 케글에 가서 회원가입을 하고, 왼쪽 카테고리의 Data 를 누르면 Datasets 페이지로 이동한다. 거기에서 자신이 원하는 dataset을 고르자. 1. 케글 API 접속을 위한 케글 설치 !pip install kaggle (!) mrlazydev.tistory.com 이전 글에서 kaggle에서 dataset을 다운로드 받기까지 해봤다. 이제 다운로드 받은 csv 파일을 열어볼 차례다. 1. pandas library 설치하기 !pip install pandas 주피터 노트북 사용자라면 default로 설치되어 있다. 판다스는 오픈소스 데이터 분석, 조작툴이다. 2..
Kaggle 에서 dataset 다운로드 받기 opendatasets library 준비물 : 케글에 가서 회원가입을 하고, 왼쪽 카테고리의 Data 를 누르면 Datasets 페이지로 이동한다. 거기에서 자신이 원하는 dataset을 고르자. 1. 케글 API 접속을 위한 케글 설치 !pip install kaggle (!) 느낌표는 따로 터미널을 사용하지 않고도 주피터 노트북에서 터미널 기능을 바로 사용할 수 있는 기능이다. 2. API Token 만들기 케글 어카운트에 접속해서 프로필 페이지에 가면, 어카운트 탭에 "Create New API token" 이라는 버튼이 있다. 이걸 누르면 kaggle.json 파일이 다운로드되는데, !mkdir .kaggel 이렇게 (.kaggle) 디렉토리를 생성한 후, kaggle.json을 “C:\Users\\.kaggle\” 디렉토리에 붙혀..

반응형