본문 바로가기

반응형

Programming/Python

(33)
파이썬 pandas loc 개념과 예제, 사용법, 데이터 인덱싱과 슬라이싱 방법 loc 개념 정리 인덱싱은 데이터 프레임에서 적용될 수 있다. 판다스에서는 특정 행(row)나 열 loc : location의 약자로 데이터프레임의 행 또는 칼럼의 label이나 boolean array로 인덱싱하는 방법. - 칼럼명을 직접 적거나 특정 조건식을 써주어 사람이 읽을 수 있게 데이터에 접근하는 방법 loc 사용방법 df.loc[행 인덱싱 값, 열 인덱싱 값] 예시 하나의 데이터프레임을 불러온 뒤, df로 선언한 상태다. loc[0]에 하나의 값만 입력하면, 그에 해당하는 하나의 행만 뽑아온다. 위 경우에는 "df라는 전체 데이터 프레임에서 인덱스 이름이 0인 행만 출력해서 가져와"라는 의미이다. 이번에는 네모 박스 안에 있는 특정 값만 추출해보자. df.loc[0, 경도] 이렇게 추출할 수..
reset_index(drop=True) 예제 reset_index는 데이터프레임에서 기존 인덱스를 대체하기 위해 사용된다. df = pd.DataFrame([('bird', 389.0), ... ('bird', 24.0), ... ('mammal', 80.5), ... ('mammal', np.nan)], ... index=['falcon', 'parrot', 'lion', 'monkey'], ... columns=('class', 'max_speed')) >>> df class max_speed falcon bird 389.0 parrot bird 24.0 lion mammal 80.5 monkey mammal NaN 인덱스를 다시 정할 때, 기존의 인덱스가 하나의 칼럼으로 들어가게 되고, 새로운 인덱스가 사용되게 된다. >>> df.reset_..
파이썬으로 csv 파일 불러오기 pandas 이 글은 이전 글에서 이어지는 내용이다. Kaggle 에서 dataset 다운로드 받기 opendatasets library 준비물 : 케글에 가서 회원가입을 하고, 왼쪽 카테고리의 Data 를 누르면 Datasets 페이지로 이동한다. 거기에서 자신이 원하는 dataset을 고르자. 1. 케글 API 접속을 위한 케글 설치 !pip install kaggle (!) mrlazydev.tistory.com 이전 글에서 kaggle에서 dataset을 다운로드 받기까지 해봤다. 이제 다운로드 받은 csv 파일을 열어볼 차례다. 1. pandas library 설치하기 !pip install pandas 주피터 노트북 사용자라면 default로 설치되어 있다. 판다스는 오픈소스 데이터 분석, 조작툴이다. 2..
Kaggle 에서 dataset 다운로드 받기 opendatasets library 준비물 : 케글에 가서 회원가입을 하고, 왼쪽 카테고리의 Data 를 누르면 Datasets 페이지로 이동한다. 거기에서 자신이 원하는 dataset을 고르자. 1. 케글 API 접속을 위한 케글 설치 !pip install kaggle (!) 느낌표는 따로 터미널을 사용하지 않고도 주피터 노트북에서 터미널 기능을 바로 사용할 수 있는 기능이다. 2. API Token 만들기 케글 어카운트에 접속해서 프로필 페이지에 가면, 어카운트 탭에 "Create New API token" 이라는 버튼이 있다. 이걸 누르면 kaggle.json 파일이 다운로드되는데, !mkdir .kaggel 이렇게 (.kaggle) 디렉토리를 생성한 후, kaggle.json을 “C:\Users\\.kaggle\” 디렉토리에 붙혀..
파이썬으로 트위터 스크랩하기 1. 파이썬으로 트위터 스크랩하기 한국에서는 뜸하기는 하지만, 트위터는 현재 전세계에서 가장 유명한 소셜네트워크 플랫폼이라고 할 수 있을 것이다. 그래서 데이터 과학자들은 트위터를 이용해서 다양한 분석을 진행하기도 한다. 비즈니스와 연구 어느 쪽에도 활용될 수가 있다. 트위터 상의 대화가 생체리듬을 나타낼 수 있다.(뉴욕타임즈 링크) 금융 전문가들은 트위터를 이용해서 주가를 예측한다. 트위터의 위치 정보를 활용하여 "번개"가 친 곳을 지도에 표시한다. 이러한 귀중한 정보를 그냥 흘려보내기는 참 아깝다. 이번에는 파이썬으로 트위터 스크랩하는 방법을 알아보도록 하자. 2. 트위터 API API란 애플리케이션 프로그래밍 인터페이스의 약자로, 프로그램들이 서로 상호작용을 하는 것을 도와주는 매개체라고 할 수 있..
파이썬 기본 개념 - 식별자 기본 개념 중에 대부분 당연히 이해가 되는 것들은 기록할 필요를 느끼지 못하는데, 식별자의 경우는 조금 암기를 해야 할 것 같아서 적어놓는다. 식별자에 공백 없는 경우 단어 사이 언더바( _ _ 붙인 경우 단어 첫번째 글자 대문자 itemlist item_list ItemList - Snake Case: 언더바( _ )를 중간 기호에 사용하는 방법 - Camel Case: 단어 첫 글자를 대문자로 만드는 방법 구분 내용 예 클래스 대문자로 시작, Camel Case 사용 GetData 함수 또는 변수 소문자로 시작, Snake Case 사용 뒤에 괄호 붙으면 함수를 의미 print() 뒤에 괄호 없으면 변수를 의미 pi
파이썬으로 웹스크랩하는 법 1단계 pip 패키지 install pip install beautifulsoup4 beautifulSoup 는 HTML과 XML 문서를 파이썬을 통해 쉽고 편리하게 읽도록 도와주는 라이브러리다. 태그와 속성을 통해서 요소에 접근하도록 한다. pip install requests 웹페이지의 HTML 코드를 BeautifulSoup에 제공하기 위해서 requests 모듈이 필요하다. pip install urllib urllib는 URL을 가져와 제어하는 모듈이다. 2단계 라이브러리 불러오기 다음은 인스톨한 패키지들을 다음 코드로 불러온다. from bs4 import BeautifulSoup import pandas as pd import urllib.request,sys,time import reque..
파이썬 pip 다운로드 파이썬 pip는 파이썬으로 작성된 패키지 라이브러리를 관리해주는 시스템이다. 우분투 리눅스를 사용하는 유저의 입장에서 보면 apt-get 정도라고 생각할 수 있다. pip는 파이썬 3.4 이후 버전에는 기본적으로 포함되어 있다고 한다. pip list 를 통해서 내 컴퓨터에 설치된 파이썬 패키지 목록을 볼 수 있다. Package Version ---------------------- -------------------- attrs 19.3.0 Automat 0.8.0 blinker 1.4 certifi 2019.11.28 chardet 3.0.4 Click 7.0 cloud-init 21.4 colorama 0.4.3 command-not-found 0.3 configobj 5.0.6 constantl..

반응형