본문 바로가기

반응형

분류 전체보기

(347)
팀 버너스 리의 월드 와이드 웹 웹 이야기를 조금 해보자. ‘웹의 아버지’로 불리는 팀 버너스 리가 쓴 월드 와이드 웹을 인상깊게 읽었다. 현재는 절판되서, 나도 정말 어렵게 구해서 읽었지만, 구하기도 어렵다. 팀 버너스 리가 누구인지 아는 사람도 별로 없는 이런 상황은 좀 서글픈 느낌도 드는데, 이고잉 님도 팀 버너스 리를 무척 존경하는 것으로 안다. 수업에도 리 이야기가 들어가는 걸로 아는데, 독자에게 팀 버너스 리에 관해 하고 싶은 이야기가 있다면. 흔히 IT 분야에서 롤모델을 떠올리면, 스티븐 잡스나 빌 게이츠를 떠올리기 쉽다. 그런데 이런 분들 말고도, 리눅스를 만든 리누스 토발즈나 웹을 만든 팀 버너스 리, 전기 문명의 아버지 마이클 페러데이(모터를 만들고, 발전기를 만든 사람) 등을 떠올려도 좋겠다고 생각한다. 팀 버너스-..
파이썬 pandas loc 개념과 예제, 사용법, 데이터 인덱싱과 슬라이싱 방법 loc 개념 정리 인덱싱은 데이터 프레임에서 적용될 수 있다. 판다스에서는 특정 행(row)나 열 loc : location의 약자로 데이터프레임의 행 또는 칼럼의 label이나 boolean array로 인덱싱하는 방법. - 칼럼명을 직접 적거나 특정 조건식을 써주어 사람이 읽을 수 있게 데이터에 접근하는 방법 loc 사용방법 df.loc[행 인덱싱 값, 열 인덱싱 값] 예시 하나의 데이터프레임을 불러온 뒤, df로 선언한 상태다. loc[0]에 하나의 값만 입력하면, 그에 해당하는 하나의 행만 뽑아온다. 위 경우에는 "df라는 전체 데이터 프레임에서 인덱스 이름이 0인 행만 출력해서 가져와"라는 의미이다. 이번에는 네모 박스 안에 있는 특정 값만 추출해보자. df.loc[0, 경도] 이렇게 추출할 수..
reset_index(drop=True) 예제 reset_index는 데이터프레임에서 기존 인덱스를 대체하기 위해 사용된다. df = pd.DataFrame([('bird', 389.0), ... ('bird', 24.0), ... ('mammal', 80.5), ... ('mammal', np.nan)], ... index=['falcon', 'parrot', 'lion', 'monkey'], ... columns=('class', 'max_speed')) >>> df class max_speed falcon bird 389.0 parrot bird 24.0 lion mammal 80.5 monkey mammal NaN 인덱스를 다시 정할 때, 기존의 인덱스가 하나의 칼럼으로 들어가게 되고, 새로운 인덱스가 사용되게 된다. >>> df.reset_..
결측치(Missing Value)란? 결측치란 말 그대로 데이터에 값이 없는 것을 뜻한다. 줄여서 NA라고도 하고, Null 이라는 표현도 쓴다. 이러한 결측치는 데이터 분석하는데 있어 매우 방해가 된다. 결측치를 다 제거하면 막대한 데이터 손실을 부를 수 있다. 결측치를 잘못 대체하면 데이터에서 편향이 생길 수 있다. 결측치 처리에 분석가의 견해가 가장 많이 반영되고 분석결과가 매우 틀어질 수 있다. 그래서 결측치를 자세하게 처리하기 위해서 많은 시간을 투자해야 한다. 자신의 주관적인 생각이 아닌, 데이터에 기반한 결측치 처리가 진행되어야 분석을 정확하게 할 수 있다.
회귀분석(regression analysis)이란? 회귀분석의 정의 회귀분석은 변수들 사이의 관계를 모델링하는 기업이다. 여러 분야에서 가장 광범위하게 사용되는 통계기법 중 하나이다. 회귀분석의 목적은 종속변수에 영향을 주는 독립변수들을 찾고, 독립변수들과 종속변수들 간의 관계를 나타낸다. 종속변수와 독립변수에 대해서 알지 못하면 이 글을 참고하자. 회귀모델 - 선형회귀분석 회귀분석이라고 하면 보통은 선형회귀분석을 말한다. 회귀분석은 데이터를 모으고, 모델을 적합하게 하고 통계량을 이용해서 모델을 평가하는 전체 과정을 말한다. 만들어진 모델은 종속변수를 "예측"하는데 사용된다.
독립변수와 종속변수란 무엇인가? 두 변수는 통계분석을 하거나 또는 실험을 계획할 때 반드시 알고 있어야 하는 변수이다. 독립변수란? 연구자가 의도적으로 변화시키는 변수 영어로는 Independent variable이라고 한다. 독립 변수라는 말처럼, 다른 변수에 영향을 받지 않는다는 뜻이다. 오히려 종속변수에 영향을 주는 변수이다. 종속변수란? 영어로는 Dependent variable.. 종속적인 또는 의존적인 변수다. 독립변수에 영향을 받아서 변화하는 변수를 말한다. 독립변수는 연구자가 마음대로 조정할 수 있는 변수인데, 우리가 알고 싶은 것은 종속변수이다. 독립변수의 값에 따라서 종속변수가 어떻게 변하는 지를 보고 싶은 것이다. 그래서 독립변수를 원인변수, 예측변수라고도 부른다. 그래서 종속변수를 결과변수, 반응변수라고도 부른다...
데이터 랭글링 (Data Wrangling)이란? 데이터 랭글링 정의 데이터 정제(cleansing)는 원천데이터를 시각화하거나 모델의 인풋으로 넣기 위한 사전 준비 과정을 말한다. 데이터 정제는 정형화된 데이터를 준비하는 사전단계를 지칭하는 것으로 과거에 많이 사용된 개념이다. 하지만, 비정형 데이터와 정형 데이터가 함께 공존하고 새로운 유형의 데이터가 넘쳐나면서 데이터 랭글링 혹은 데이터 먼징 같은 용어가 사용된다. 50~80%의 데이터 과학의 과정이란 수집과 정제 과정에서 소모된다. 데이터 전문가들은 데이터 잡부가 먼저 되어야 한다고 말한다. 데이터 랭글링(Data Wrangling)의 6단계 1. Discovering : 데이터에 대한 깊은 이해를 하는 단계 2. Structuring : 필요없는 행/컬럼 삭제 및 분석 가능한 형태로 구조화하는 ..
에러 분석(Error Analysis - post - Modeling) 1. Start with larger errors : 모델을 통해 나온 모든 값을 확인하지 못하므로, 에러값이 큰 feature부터 확인하는 법 2. Segment by Classes : 평균 에러값을 기준으로 Segment를 나누어서 비교하면서 분석. 3. Unsupervised clustering : 패턴을 발견하는 어려움이 있을 경우, 비지도 학습인 클러스터릴 알고리즘을 사용하여서 분류되지 않는 값들을 확인하는 방법. 에러의 원인을 찾는 방법으로 사용해야 함. 4. Ask colleagues or domain experts : 데이터를 통해 발견할 수 없으면, 분야 전문가의 도움을 통해 에러의 원인을 찾아낼 수 있음.

반응형