분류 전체보기 (347) 썸네일형 리스트형 Feature Engineering(특성 공학)이란? 특성 공학의 정의 머신러닝 모델을 위한 데이터 테이블의 컬럼을 생성하거나 선택하는 작업을 의미. 모델 성능에 영향을 많이 미치기 때문에 머신러닝 응용에 있어서 굉장히 중요한 단계 전문성과 시간이 많이 드는 작업. 특징 선택 (Feature Selection) Decision Tree의 경우는 트리의 상단에 있을 수록 중요도가 높음 회귀모델의 경우 forward selection과 backward elimination 같은 알고리즘을 통해 특징을 선택. 차원 감소 차원감소는 feature extraction : 다시 말해 특징 추출이라는 말로도 불림. 차원 축소는 단순히 데이터의 압축이나 잡음을 제거하는 것만은 아니다. 관측 데이터를 잘 설명할 수 있는 latent space(잠재공간)찾는데 의의가 있다... 전처리(processing) vs 탐색적 데이터 분석(EDA) 데이터에서 가장 오래 걸리는 작업은 데이터를 수집하고 전처리하는 과정이라고 한다. 데이터 사이언스의 프로세스 현실에서 데이터를 수집하고 전처리 과정을 거치면 클린 데이터셋이 나오는데, 이것을 가지고 바로 머신러닝이나 딥러닝을 돌리는 것이 아니라, EDA(탐색적 데이터 분석)라는 과정을 거치게 된다. EDA란 나온 데이터셋이 문제가 없는지, 알고리즘을 돌리면 되는 지를 확인하는 과정이라고 할 수 있다. 전처리와 EDA 과정은 이렇게 실제 분석하기 전에 하는 작업이라는 점에서 연관성이 있다. 원칙적으로는 개념이 다르지만, 작업이 함께 이뤄진다. 실패와 비용를 줄이기 위해 시각화한 데이터를 탐색하는 과정 1. 변수간의 관계 2. 데이터 통계 3. 변수의 질 이 세 가지를 포함하는 과정. 데이터 전처리 과정과의.. 데이터란 무엇인가? 데이터와 정보의 개념 차이 데이터란 무엇인가? 데이터라는 말을 들으면 뭔가 알 것 같다. 하지만 데이터라는 것이 진짜 무슨 뜻일까? 가상 공간에 존재하는 어떤 정보를 말하는 것일까? The term data means groups of information that represent the qualitative attributes of a variable or set of variables. 쉽게 말해, 데이터는 사실을 나타내는 수치라고 할 수 있다. 데이터는 수, 영상, 단어 등의 형태로 단위로, 연구나 조사 등의 바탕이 되는 재료를 말하는 것으로써 의미를 갖지 않은 원석의 상태를 이야기한다. 데이터 vs 정보 정보와 데이터를 혼용해서 사용하는 경우가 많은데 사실은 완전히 다른 개념이다. 데이터 자체는 그저 사실을 나타내는 수치.. 이 시대의 새로운 석유, 데이터. 데이터 리터러시(data literacy)를 기르자. 데이터 마이닝이라는 말을 쓴다. 채굴. 비트코인 채굴이라는 것에서 쓰이는 것처럼, 이제는 보이지 않는 가상의 자산에 대해서도 가치가 계속해서 매겨지고 있는 듯하다. 그 근본에 있는 이 데이터라는 녀석. 과거에는 석유를 차지한 나라가 부강한 나라가 됐지만, 이제는 데이터를 채굴하고 그것을 활용할 수 있는 기술력을 가진 나라가 제일 강한 나라가 되어가고 있다. 데이터 시대에는 데이터를 읽고 활용할 수 있는 데이터 리터러시가 반드시 필요하다. 석유 사이클. 채굴 -> 정제 -> 사용 데이터 사이클 (수집)채굴 -> 정제 -> 사용. 강아지의 마음 참 많은 것들을 다시금 돌아보게 하고, 느끼게 하는 영상이다. 파이썬으로 csv 파일 불러오기 pandas 이 글은 이전 글에서 이어지는 내용이다. Kaggle 에서 dataset 다운로드 받기 opendatasets library 준비물 : 케글에 가서 회원가입을 하고, 왼쪽 카테고리의 Data 를 누르면 Datasets 페이지로 이동한다. 거기에서 자신이 원하는 dataset을 고르자. 1. 케글 API 접속을 위한 케글 설치 !pip install kaggle (!) mrlazydev.tistory.com 이전 글에서 kaggle에서 dataset을 다운로드 받기까지 해봤다. 이제 다운로드 받은 csv 파일을 열어볼 차례다. 1. pandas library 설치하기 !pip install pandas 주피터 노트북 사용자라면 default로 설치되어 있다. 판다스는 오픈소스 데이터 분석, 조작툴이다. 2.. 작은 성취(?) - 목표가 있는 공부는 결국 성공한다. Kaggle 에서 dataset 다운로드 받기 opendatasets library 준비물 : 케글에 가서 회원가입을 하고, 왼쪽 카테고리의 Data 를 누르면 Datasets 페이지로 이동한다. 거기에서 자신이 원하는 dataset을 고르자. 1. 케글 API 접속을 위한 케글 설치 !pip install kaggle (!) mrlazydev.tistory.com 이 글 하나를 보면 진짜 실력자의 입장에서는 아무것도 아닌 기능을 그냥 실행했을 뿐이지만, 판단스까지 활용하기까지 진짜 갖은 고생을 다하면서 기능을 성공시킨거다. 판다스를 활용해 데이터를 불러오고, data를 열어볼 수 있었을 때, 엄청난 쾌재를 불렀다. 튜토리얼들이 많이 있지만, 그것들을 믹싱해서 자신이 원하는 기능을 활용할 수 있을 때까지.. Kaggle 에서 dataset 다운로드 받기 opendatasets library 준비물 : 케글에 가서 회원가입을 하고, 왼쪽 카테고리의 Data 를 누르면 Datasets 페이지로 이동한다. 거기에서 자신이 원하는 dataset을 고르자. 1. 케글 API 접속을 위한 케글 설치 !pip install kaggle (!) 느낌표는 따로 터미널을 사용하지 않고도 주피터 노트북에서 터미널 기능을 바로 사용할 수 있는 기능이다. 2. API Token 만들기 케글 어카운트에 접속해서 프로필 페이지에 가면, 어카운트 탭에 "Create New API token" 이라는 버튼이 있다. 이걸 누르면 kaggle.json 파일이 다운로드되는데, !mkdir .kaggel 이렇게 (.kaggle) 디렉토리를 생성한 후, kaggle.json을 “C:\Users\\.kaggle\” 디렉토리에 붙혀.. 이전 1 ··· 38 39 40 41 42 43 44 다음