1. 파이썬으로 트위터 스크랩하기
한국에서는 뜸하기는 하지만, 트위터는 현재 전세계에서 가장 유명한 소셜네트워크 플랫폼이라고 할 수 있을 것이다. 그래서 데이터 과학자들은 트위터를 이용해서 다양한 분석을 진행하기도 한다. 비즈니스와 연구 어느 쪽에도 활용될 수가 있다.
- 트위터 상의 대화가 생체리듬을 나타낼 수 있다.(뉴욕타임즈 링크)
- 금융 전문가들은 트위터를 이용해서 주가를 예측한다.
- 트위터의 위치 정보를 활용하여 "번개"가 친 곳을 지도에 표시한다.
이러한 귀중한 정보를 그냥 흘려보내기는 참 아깝다. 이번에는 파이썬으로 트위터 스크랩하는 방법을 알아보도록 하자.
2. 트위터 API
API란 애플리케이션 프로그래밍 인터페이스의 약자로, 프로그램들이 서로 상호작용을 하는 것을 도와주는 매개체라고 할 수 있다. 트위터 API는 말그대로 트위터에서 제공하는 API 서비스다.
3. 유니코드 스트링
문자 "u"로 시작하는 트위터 스트링 데이터는 unicode string 이다.
u"I am a string!"
유니코드는 수학 기호를 포함하는 전세계의 언어의 통합 기준이다. 유니코드로 되어 있는 데이터는 기본적으로 스트링의 형태로 대부분 표현이 가능하다. 유니코드를 출력하는데 에러가 생기면, 아래의 코드로 해결할 수 있다.
unicode_string = u"aaaà çççñññ"
encoded_string = unicode_string.encode('utf-8')
print encoded_string
4. oauth2 라이브러리
트위터의 트윗에 접근하기 위해서는 먼저 oauth2 라이브러리를 설치해야 한다.
자신의 파이썬 환경에서 커맨드를 키고, 아래 코드를 입력한다.
pip install oauth2:
5. 트위터 데이터 가져오기
트위터 피드에 접근하기 위해서 해야하는 순서다.
- 1. 트위터 계정을 만든다.
- 2. https://dev.twitter.com/apps 여기에서 로그인한다.
- 3. Create New App 을 클릭한다.
- 4. 양식을 작성하고, 사이트가 없으면 아무거나 적는다.
영문으로 내가 API를 사용하고자 하는 목적이 무엇이고 어떤 식으로 분석할 것인지를 작성하도록 되어 있다. 양식을 보내고 나면, 약 48시간 뒤에 접근이 가능하다.
- 5. 다음 페이지에서 Keys and Access Tokens tab을 클릭한다.
- 6. Create My Access Token을 클릭한다.
- 7. twitterstream.py 라는 형태로 파일을 받게 된다.
API key, Access token에 해당하는 것이다. twitterstream.py를 열어서 api key에 대응되게 변수를 설정한다.
아래와 같은 코드를 볼 수 있을 것이다.
api_key = "<Enter api key>"
api_secret = "<Enter api secret>"
access_token_key = "<Enter your access token key here>"
access_token_secret = "<Enter your access token secret here>"
- 8. 자신의 API 인증서를 작성한 다음, twitterstream.py를 저장한다.
- 9. 커맨드에 python twitterstream.py > tweets.txt 를 입력한다.
주의할 것은 이 커맨드를 입력할 때, twitterstream.py 파일이 있는 디렉토리 상에서 명령어를 입력하는 것이다.
이와 같이 완료되면, tweets.txt 파일 안에 raw tweet data 가 저장되게 된다.
'Programming > Python' 카테고리의 다른 글
파이썬으로 csv 파일 불러오기 pandas (0) | 2021.12.30 |
---|---|
Kaggle 에서 dataset 다운로드 받기 opendatasets library (0) | 2021.12.30 |
파이썬 기본 개념 - 식별자 (0) | 2021.12.28 |
파이썬으로 웹스크랩하는 법 (0) | 2021.12.27 |
파이썬 pip 다운로드 (0) | 2021.12.27 |