본문 바로가기

Programming/Python

파이썬으로 트위터 스크랩하기

반응형

1. 파이썬으로 트위터 스크랩하기

한국에서는 뜸하기는 하지만, 트위터는 현재 전세계에서 가장 유명한 소셜네트워크 플랫폼이라고 할 수 있을 것이다. 그래서 데이터 과학자들은 트위터를 이용해서 다양한 분석을 진행하기도 한다. 비즈니스와 연구 어느 쪽에도 활용될 수가 있다.

 

이러한 귀중한 정보를 그냥 흘려보내기는 참 아깝다. 이번에는 파이썬으로 트위터 스크랩하는 방법을 알아보도록 하자.

 

 

2. 트위터 API

API란 애플리케이션 프로그래밍 인터페이스의 약자로, 프로그램들이 서로 상호작용을 하는 것을 도와주는 매개체라고 할 수 있다.  트위터 API는 말그대로 트위터에서 제공하는 API 서비스다.

 

 

3. 유니코드 스트링

문자 "u"로 시작하는 트위터 스트링 데이터는 unicode string 이다.

 

u"I am a string!"

유니코드는 수학 기호를 포함하는 전세계의 언어의 통합 기준이다. 유니코드로 되어 있는 데이터는 기본적으로 스트링의 형태로 대부분 표현이 가능하다. 유니코드를 출력하는데 에러가 생기면, 아래의 코드로 해결할 수 있다.

 

unicode_string = u"aaaà çççñññ"
encoded_string = unicode_string.encode('utf-8')
print encoded_string

 

4. oauth2 라이브러리

트위터의 트윗에 접근하기 위해서는 먼저 oauth2 라이브러리를 설치해야 한다. 

 

 자신의 파이썬 환경에서 커맨드를 키고, 아래 코드를 입력한다.

 

pip install oauth2:

 

 

5. 트위터 데이터 가져오기

트위터 피드에 접근하기 위해서 해야하는 순서다.

 

  • 1. 트위터 계정을 만든다.
  • 2. https://dev.twitter.com/apps 여기에서 로그인한다.
  • 3. Create New App 을 클릭한다.
  • 4. 양식을 작성하고, 사이트가 없으면 아무거나 적는다.

영문으로 내가 API를 사용하고자 하는 목적이 무엇이고 어떤 식으로 분석할 것인지를 작성하도록 되어 있다. 양식을 보내고 나면, 약 48시간 뒤에 접근이 가능하다.

 

  • 5. 다음 페이지에서 Keys and Access Tokens tab을 클릭한다.
  • 6. Create My Access Token을 클릭한다.
  • 7. twitterstream.py 라는 형태로 파일을 받게 된다.

API key, Access token에 해당하는 것이다. twitterstream.py를 열어서 api key에 대응되게 변수를 설정한다. 

아래와 같은 코드를 볼 수 있을 것이다.

api_key = "<Enter api key>"
api_secret = "<Enter api secret>"
access_token_key = "<Enter your access token key here>"
access_token_secret = "<Enter your access token secret here>"
  • 8. 자신의 API 인증서를 작성한 다음, twitterstream.py를 저장한다.
  • 9. 커맨드에 python twitterstream.py > tweets.txt 를 입력한다.

주의할 것은 이 커맨드를 입력할 때, twitterstream.py 파일이 있는 디렉토리 상에서 명령어를 입력하는 것이다.

 

이와 같이 완료되면, tweets.txt 파일 안에 raw tweet data 가 저장되게 된다.

 

 

반응형