Data Scientist Làm Gì

Data Scientist Làm Gì

Vào năm 2018, Harvard Business Review đã bầu chọn nghề Data Scientist – Nhà khoa học dữ liệu công việc “hot” nhất thế kỷ 21 để nhấn mạnh sự thành công và sức ảnh hưởng của Dữ liệu đến thị trường thế giới. Tuy nhiên, lĩnh vực này chưa hoàn toàn lớn mạnh như kỳ vọng, cũng như còn nhiều hiểu lầm – hiểu sai về công việc data scientist là gì. Nó xuất hiện với nhiều người như một thứ “kỹ thuật mờ”, có thể có khả năng triển khai sản phẩm hoặc dịch vụ của họ.

Khác biệt về kỹ năng giữa Data Analyst và Data Scientist

Về bản chất, cả 2 công việc này đều yêu cầu những hiểu biết cơ bản, những kỹ năng mềm về toán học, thuật toán, kỹ năng giao tiếp & kiến thức về kỹ thuật phần mềm.

Điểm khác biệt về kỹ năng giữa 2 ngành này như bảng dưới đây:

Bậc thầy về SQL và sử dụng biểu thức chính quy để chia nhỏ dữ liệu

Kiến thức lập trình chuyên sâu ( R / Python)

Kho dữ liệu và Kiến thức lập trình

Kỹ năng viết kịch bản & thống kê

Báo cáo và trực quan hóa dữ liệu

Khai thác dữ liệu, Machine Learning & Deep learning

KHÁI NIỆM VỀ DATA ANALYST VÀ DATA SCIENTIST

Cùng điểm qua sự khác nhau về khái niệm của 2 ngành nghề này nhé!

Data Analyst - Chuyên viên phân tích dữ liệu - Đúng với cái tên, họ là những người đóng vai trò quan trọng trong bất kì nhóm phân tích nào với nhiệm vụ phân tích dữ liệu, từ đó xác định xu hướng phát triển, giúp tổ chức đưa ra quyết định tốt hơn.

Data Scientist - Nhà khoa học dữ liệu là những người phân tích, sắp xếp và "kể chuyện" thay dữ liệu bất kể dữ liệu có cấu trúc hay không. Họ sẽ giữ vai trò xử lý, mô hình hóa, phân tích các dữ liệu rồi diễn giải kết quả để tạo ra hoạt động phù hợp cho doanh nghiệp.

Phân biệt Data Scientist vs Data Engineer vs Data Analyst

“Tháp workflow” của bộ phận Data Science

Tuỳ thuộc vào quy mô và mô hình doanh nghiệp, mỗi vị trí tại mỗi tổ chức sẽ có vai trò và trách nhiệm khác nhau. Tuy nhiên, mô hình tổng quan nhất về sự khác nhau của bộ ba Data như sau:

Các nhà khoa học dữ liệu phải có một nền tảng toán học và thống kê. Họ cũng hiểu và thành thạo việc tạo ra các mô hình máy học và trí tuệ nhân tạo. Việc tìm kiếm Data Scientist của doanh nghiệp cũng như tìm kiếm một Full-stacker và đòi hỏi nhiều thời gian.

Có thể gọi họ là loại kiến ​​trúc sư dữ liệu. Kỹ sư dữ liệu thường có kỹ thuật máy tính hoặc nền tảng khoa học và kỹ năng tạo hệ thống.

Do đó, chúng ta có thể thấy rằng phạm vi công việc của các nhà phân tích dữ liệu nhằm phân tích và mô tả các chiến lược trong quá khứ hoặc trước đó dựa trên dữ liệu quá khứ hoặc hiện tại, trong khi các nhà khoa học dữ liệu tập trung vào việc dự đoán và tính toán trước để tạo ra các chiến lược trong tương lai.

MỨC LƯƠNG CỦA DATA ANALYST & DATA SCIENTIST CÓ SỰ CHÊNH LỆCH LỚN?

Theo Glassdoor, thu nhập trung bình hàng năm của Data Analyst và Data Scientist lần lượt là 84.000 đô và 162,000 đô (TẠI MỸ). Ở Việt Nam, mức lương trung bình của hai ngành dao động 12.000 đô - 36.000 đô.

Nhìn chung lương Data Scientist cao hơn Data Analyst. Vì vị trí Data Scientist yêu cầu nhiều kỹ năng phức tạp hơn nên mức lương cho vị trí này khác biệt nhiều so với Data Analyst. Hầu hết các Data Scientist có bằng cấp cao, và nhiều người thực sự đã phát triển sự nghiệp từ Data Analyst. Vì thế không ít Data Analyst đang học các khóa về lập trình, toán học, ….để hoàn thiện các kỹ năng và tiến lên vị trí Data Scientist. Mức lương trung bình của Data Analyst phụ thuộc vào lĩnh vực của nghề như là tài chính, nghiên cứu thị trường...

DATA ANALYST & DATA SCIENTIST - NGHỀ NÀO DÀNH CHO BẠN?

Dù Data Analyst và Data Scientist có con đường sự nghiệp khá giống nhau, nhưng bên cạnh đó, mỗi ngành nghề này cũng có những điểm khác biệt riêng.

Bạn cần hiểu rõ: Data Scientist thiên về kỹ thuật hơn, đòi hỏi tư duy toán học. Còn Data Analyst thực hiện phương pháp thống kê và phân tích. Từ góc độ nghề nghiệp, vai trò của Data Analyst có vị trí thấp hơn. Những ứng viên có kiến thức nền tảng vững chắc về thống kê và lập trình có thể đảm nhận công việc phân tích dữ liệu trong các công ty.

Hy vọng bài viết này phần nào đã giải đáp những thông tin cơ bản về Data Analyst và Data Scientist. Chúc các bạn có thể xác định và lựa chọn đúng con đường sự nghiệp mà mình mong muốn!

Tìm kiếm các nguồn học tập dành cho Data Scientist

Tham khảo các khoá học Data Science miễn phí trực tuyến tại đây

Các đầu git không thể bỏ qua nếu như đang dấn thân vào DS:

Hy vọng với thông tin từ bài blog sẽ cung cấp được kiến thức hữu ích về Data Scientist là gì cũng như các lộ trình cơ bản để trở thành lập trình Data Scientist tương lại. TopDev Blog cũng sẽ tiếp tục series về Data Science trong thời gian sắp đến. Đừng bỏ lỡ nhé!

Xem thêm việc làm Data Scientist trên TopDev

Như đã biết, nhờ có Data, các ông trùm như: Facebook, Amazon, Netfix... dễ dàng tối ưu và cá nhân hóa sản phẩm của họ cho từng khách hàng. Trong thời đại số 4.0 hiện nay, các ngành nghề liên quan đến Data ngày càng trở nên HOT và thu hút sự quan tâm của rất nhiều người, đặc biệt là giới trẻ. Data Analyst & Data Scientist là hai trong những ngành đóng vai trò ngày càng quan trọng trong các công ty Công nghệ. Đây cũng chính là NGUYÊN DO khiến nhiều bạn trẻ có ý định "dấn thân", phát triển sự nghiệp hướng đến 1 trong 2 vị trí này.

Tuy nhiên, liệu bạn có đủ kiến thức để phân biệt sự khác nhau giữa Data Analyst & Data Scientist hay không? Bài viết này sẽ giúp bạn "nhìn thấu" sự khác nhau giữa hai ngành nghề này!

Ngành Data Analyst & Data Scientist khác nhau ra sao?

Công việc của một Data Scientist

Mục tiêu của bộ phận Data Science là làm sao để các bộ phận các tại Doanh nghiệp có thể đưa ra các quyết định dựa trên dữ liệu tốt hơn. Vì thế Data Science có vai trò hỗ trợ (tương tự như CNTT) cho phép tổ chức hoạt động tốt hơn và tăng giá trị nhanh hơn thông qua việc ra quyết định tốt hơn.

Luồng công việc của bộ phận Data Science sẽ gồm các Cột mốc quan trọng (đám mây), các giai đoạn (đường kẻ đứt nét) và các bước (box màu xám). Quy trình bắt đầu từ một vấn đề cụ thể (Cột mốc 1) – doanh nghiệp sẽ ưu tiên đưa vấn đề này đến nhóm khoa học dữ liệu và họ sẽ bắt đầu vào quy trình quản lý dự án.

Chu trình Data Science có 3 giai đoạn:

Khi kết thúc quy trình, phần triển khai này sẽ là lúc một Business Value (cột mốc) mới cho doanh nghiệp được tạo ra.

Lộ trình trở thành Data Scientist trong năm 2022

Tin vui cho tất cả những người đang bước vào ngành Data Science: Đường learning curve của ngành này không còn quá dốc nữa – đường vào nghề ở thời điểm hiện tại đơn giản hơn ngày xưa rất nhiều. Từ bất kì background nào bạn cũng có thể vào lĩnh vực này, đương nhiên phải kiên trì học nhiều – hiểu nhiều – cày nhiều, nhưng có thể đi chậm và chắc từ những cái căn bản.

Python mãi xứng đáng có một vị trí cao ổn định trong bộ toolkit của một Data Scientist. Nhiều chuyên gia chọn ngôn ngữ này vì hệ sinh thái được thiết kế đặc biệt cho khoa học dữ liệu. Python có cộng đồng phân tích dữ liệu lớn nhất, sẽ dễ dàng tìm thấy các ví dụ về phân tích trong Kaggle, tìm các ví dụ mã trong Stackoverflow (trang web hỏi đáp với hầu hết người mới bắt đầu và thường nâng cao câu hỏi là tốt) và cơ hội việc làm vì nó là ngôn ngữ phổ biến nhất trên thị trường.

Việc “nói cùng ngôn ngữ với database” là điều cần thiết cho các nhà khoa học dữ liệu. Bạn sẽ cần phải thành thạo SQL (xem thêm SQL là gì?) để có thể lấy thông tin từ cơ sở dữ liệu bằng cách sử dụng các hướng dẫn truy vấn mà không cần phải nối mã tùy chỉnh.

Với nhiều tính năng đặc biệt, R là ngôn ngữ được “làm thủ công” dành riêng cho data science và là khởi đầu cần thiết cho các Data Scientist năm 2020. Mọi thông tin và vấn đề số liệu sẽ được xử lý bằng R.

Mặc dù kiến thức về công cụ này là không bắt buộc, nhưng Hadoop làm tăng giá trị và khả năng chuyên môn của một nhà khoa học dữ liệu, đặc biệt nếu họ có kinh nghiệm với Hive hoặc Pig. Các công cụ đám mây như Amazon S3 cũng có thể giúp ích rất nhiều.

Không có cách nào để trốn được Machine Learning (xem thêm Machine Learning là gì?) đâu, bạn chắc chắn phải hiểu hết những điều cơ bản của ML. Điều này cung cấp cho bạn một kiến thức khổng lồ để hiểu cách các mô hình khác nhau hoạt động bên trong và thậm chí nghĩ về mô hình tốt hơn cho từng vấn đề.

Có nhiều kỹ thuật phổ biến cho hầu hết mọi mô hình và bạn nên học các kỹ thuật này trước và chỉ sau đó tập trung vào tìm hiểu sự khác biệt toán học và chi tiết triển khai của chúng.

Phần tốt nhất, quan trọng nhất và không may là khó nhất để cuối cùng – Thống kê. Chính kỹ năng này sẽ phân biệt là Data scientist và Machine Learning Engineer. Không có đường tắt ở đây. Bạn nên bắt đầu với thống kê mô tả, biết cách thực hiện phân tích dữ liệu khám phá tốt (EDA) hoặc tối thiểu là các khái niệm cơ bản về xác suất và suy luận, hiểu rõ các khái niệm về sai lệch lựa chọn, Nghịch lý Simpson, liên kết các biến (cụ thể là phương pháp phân tách phương sai ), những điều cơ bản của suy luận thống kê (và thử nghiệm A / B nổi tiếng như suy luận được biết đến trên thị trường), và một ý tưởng cho thiết kế thử nghiệm.

SO SÁNH DATA ANALYST .VS. DATA SCIENTIST

Data Analyst làm việc dựa trên các dữ liệu hiện có và các thuật toán đã được xây dựng sẵn. Các Data Analyst có thể dành nhiều thời gian hơn cho việc phân tích thông thường, cung cấp các báo cáo thường xuyên để giải quyết các vấn đề kinh doanh hữu hình.

​Data Scientist quan tâm hơn đến những gì sẽ hoặc có thể xảy ra bằng hướng đi theo những cách mới (mô hình, thuật toán) để thu thập và phân tích dữ liệu, sau đó đưa ra dự đoán về tương lai.

Data Analyst giải quyết các câu hỏi do doanh nghiệp đưa ra về một vấn đề hiện hữu.

​Data Scientist sẽ tạo ra các câu hỏi mà trong đó giải pháp của họ có khả năng mang lại lợi ích cho doanh nghiệp.

Data Analyst sử dụng các kỹ thuật phân tích và trình bày phát hiện qua báo cáo.

​Data Scientist xử lý các khuôn khổ dữ liệu nhằm mục đích tự động hóa các nhiệm vụ để giải quyết các vấn đề phức tạp.

Data Analyst & Data Scientist có 3 sự khác nhau cơ bản

Về vai trò công việc, cả 2 vị trí Data Analyst & Data Scientist đều làm việc với Data với các tiến trình quan trọng như: xử lý dữ liệu thô, thống kê, phân tích... Bên cạnh đó, chúng vẫn có điểm khác biệt như sau:

- Các Data Analyst sàng lọc thông tin qua dữ liệu và tìm cách xác định xu hướng. Họ có thể tập trung thể hiện dữ liệu thông qua các báo cáo và trực quan hóa (biểu đồ, đồ thị). Các Data Analyst chịu trách nhiệm phân tích thống kê, giải thích dữ liệu, đảm bảo việc thu thập và bảo trì dữ liệu. Từ đó, tối ưu hóa hiệu quả, chất lượng thống kê.

- Về Data Scientist, họ cũng có thể đảm nhận những phần việc đó, nhưng tập trung hơn trong việc tích hợp dữ liệu, thực hiện phân tích đặc biệt, chịu trách nhiệm phát triển các mô hình hoạt động và tham gia vào việc lập kế hoạch chiến lược cho phân tích dữ liệu.

Có thể nói, Data Analyst thiên về mô tả, phân tích các dữ liệu hiện tại. Trong khi Data Scientist có thể dự báo các xu hướng và hành vi trong tương lai. Cả 2 vị trí đều phối hợp chặt chẽ với nhóm lập trình cho công tác quản lý dữ liệu.

( Trong một vài trường hợp, vị trí Data Analyst và Data Scientist có thể cùng một người đảm nhận đặc biệt khi quy mô công ty còn nhỏ và lượng dữ liệu còn ít. )