본문 바로가기

MrLazyDev/Earthian

데이터 엔지니어 로드맵

반응형

과거 학창 시절에는 공부라는 것이 중학교, 고등하교, 대학교를 나오면 끝나는 것이라고 막연하게 생각을 했었다. 하지만 업무를 하고 자신이 배우고 싶은 것에는 끝이 없듯이, 정말로 배움에는 끝이라는 것이 없다. 다만 방향과 목표가 있을 뿐이다.

 

그래서 어떤 것을 배우려고 하든, 나아가려고 하든지 먼저 자신이 가고자 하는 곳이 어디인지를 정확하게(혹은 어렴풋이라도) 알고나서 그 여행을 떠나는 것이 깊은 배움을 하기 위한 초석이 될 것이다.

 

2021년 12월 21일 데이터 엔지니어가 되어야겠다는 마음을 먹은 뒤로, 내가 하고 싶은 일을 하기 위해서 따라야할 로드맵을 어떻게 그려야 할까를 계속 고민했다.

 

데이터라는 분야에서도 일은 상당히 다양하게 나뉜다. 여기에서 내가 알아본 각자의 역할을 모두 다 설명할 수는 없지만, 내가 하고 싶은 것은 개발과 분석의 업무가 어느 정도 반반으로 잘 섞인 것 같은 데이터 엔지니어라는 분야다. 결국 컴퓨터와 개발이라는 도구를 사용해야만 나의 의식을 확장시키고 내가 원하는 결과를 얻어낼 수 있는 것이기 때문이다.

 

아직도 제대로된 로드맵을 그리기 위해서 계속해서 배워나가야 할 것들이 많이 있지만, 우선 지금까지라도 정리해본 로드맵을 그리고 그에 대응해서 한 발 한 발 성장해보려고 한다.

 


1. 파이썬 기본 문법을 배운다. (6개월)

마음 같아서는 바로 하고 싶은 프로젝트들을 만들고 싶지만, 애초에 내가 정확하게 하고 싶은 프로젝트들을 구체적으로 그리지도 못할 뿐더러, 데이터로써 무엇이 가능한 지도 알 수가 없다. 파이썬부터 배워야 하겠다는 것은 그림을 그리기 시작할 때 소묘를 연습하는 학생들에 비유할 수 있을 것 같다.

 

하지만 배운 것들을 토대로 다양한 기능들을 실제로 실용적인 방향으로 실습을 해나가면서 배워보려고 한다. 예컨데, 웹에서 원하는 정보를 자동으로 스크랩하기 같은 것이다.

 

 

 

2. Kaggle 필사 및 프로젝트

아직 활용해보지는 못했지만, 데이터 분야에 종사하는 사람들에게는 필수적인 사이트 하나를 알게 되었는데, 케글이라는 녀석이다. 여기에서 보면 여러가지의 Data set 들을 구할 수 있을 뿐만 아니라, 그것을 활용해 만든 다양한 프로젝트들을 구경할 수 있다.

 

그림을 배우든, 글을 배우든, 어떤 것을 배우든 가장 빠르게 무언가를 익히는 방법은 그것을 따라해보는 것이다. 코딩 필사를 해보려고 한다. 대신 필사를 할 때, 각각의 키워드의 의미가 무엇인지 그것이 동작하는 원리가 무엇인지를 이해하면서 하면 많은 것들을 배울 수 있을 것이다. 그리고 그냥 필사의 개념보다는 내가 원하는 데이터를 얻기 위해 벤치마킹을 하는 개념으로 접근을 하려고 한다.

 

또 자신이 원하는 필드에 대한 data set과 프로젝트를 위주로 공부하려고 한다. 현재는 의료와 건강에 대한 분야, 금융에 대한 분야를 위주로 해보려고 한다. 다만, 금융과 건강이라는 분야가 많이 다른 분야이기 때문에, 그 부분을 고려해보자.

 

  • 2-1. Stackoverflow

모르는 부분에 맞닥들리면 최대한 자세하게 레딧과 stackoverflow 등에 질문한다. 정리하고 질문하면서 많이 배우게 된다.

      

 

 

3. 수학과 알고리즘

어떤 분야를 공부하느냐에 따라 다르기는 하지만, 기본적으로 통계학과 알고리즘, 약간의 미적분, 선형대수학 등에 이해가 있으면 코드를 짤 때 훨씬 도움을 많이 받는다고 한다. 이것은 무료 코스로 진행되는 K-MoocCoursera 등에서 양질의 교육을 받을 수가 있다.

 

통계학과 미적분에 대한 기초 공부는 유튜브나 Khan Academy 에서 공부할 수 있다.

 

결국 나중에 가서는 기술력으로 승부하는 개발보다는 이론에 대한 탄탄한 이해가 있어야 복잡하고 깊은 데이터 분석이 가능하다고 하니, 이러한 이론 지식을 쌓는 것 역시 중요할 것이다.

 

화학과 생물학과 같은 것들도 요즘에는 컴퓨터 과학과 융합되어 함께 코딩을 통해 배울 수가 있다. 자신이 관심이 있는 분야에 대한 코딩을 심도 있게 배우는 것이 배움을 효과적으로 하는 길이다.

 


Q. 공부하는데 얼마나 걸릴까?

 

공부는 끝이 없다. 자신이 원하는 프로젝트를 온전히 완성할 수 있을 때까지다. 딥러닝을 끝까지 배우겠다거나, 머신러닝을 끝까지 배우고 싶다거나, 수학을 잘하고 싶다거나 이런 학문적인 막연한 목표보다는, 실제로 자신이 하고 싶은 프로젝트를 기준으로 배워야 하는 것들을 하나 둘 쌓아가는 것이다.

 

반응형