Data Scientist, ML Engineer, AI Engineer — Ai Làm Gì?
Năm 2023, đội ngũ AI của Uber gặp một vấn đề mà không framework nào giải quyết được.
Họ có data scientist xây model dự đoán thời gian chờ xe cực kỳ chính xác — trên notebook. Họ có ML engineer tối ưu model đó chạy nhanh hơn 40% — trên môi trường test. Nhưng khi tính năng lên production, nó crash liên tục. Không ai trong hai nhóm biết cách xử lý rate limiting, failover, hay monitoring ở quy mô hàng triệu request mỗi phút.
Một bản memo nội bộ bị rò rỉ mô tả vấn đề thẳng thắn: “Chúng ta có data scientist đang viết production API, ML engineer đang làm phân tích dữ liệu, và không ai tập trung vào việc làm cho AI feature thực sự đáng tin cậy cho người dùng.”
Uber buộc phải tái cấu trúc đội AI thành ba track riêng biệt. Kết quả đo được ngay lập tức.
Nhưng sự nhầm lẫn này không chỉ xảy ra ở Uber.
Data Scientist — Người Tạo Công Thức
Hãy tưởng tượng một nhà hàng.
Data scientist là đầu bếp nghiên cứu — người thử nghiệm hàng trăm công thức, phân tích nguyên liệu, và tìm ra món ăn hoàn hảo. Họ sống trong dữ liệu. Công việc chính: phân tích, xây model, tìm insight từ data. Công cụ hàng ngày: Jupyter notebook, pandas, scikit-learn, SQL.
Bạn hỏi họ ”model nào tốt nhất cho bài toán này?” — họ có câu trả lời.
Bạn hỏi họ ”làm sao deploy model này chịu được 10,000 request/giây?” — họ nhìn bạn ngơ ngác.
ML Engineer — Người Tối Ưu Bếp
ML engineer là người thiết kế và tối ưu gian bếp. Họ lấy công thức từ data scientist và biến nó thành quy trình sản xuất hiệu quả. Công việc chính: train model ở quy mô lớn, tối ưu inference, xây training pipeline. Công cụ hàng ngày: PyTorch, TensorFlow, GPU cluster, MLflow.
Bạn hỏi họ ”làm sao train model này nhanh hơn 10 lần?” — họ có câu trả lời.
Bạn hỏi họ ”làm sao tích hợp model này vào ứng dụng mobile với latency dưới 200ms và fallback khi API lỗi?” — họ chuyển sang chủ đề khác.
AI Engineer — Người Xây Nhà Hàng
AI engineer là người xây cả nhà hàng — từ bếp đến phòng ăn đến hệ thống đặt bàn. Họ lấy model (dù tự train hay dùng API có sẵn), bọc nó trong hệ thống production đáng tin cậy, và đảm bảo khách hàng có trải nghiệm tuyệt vời từ đầu đến cuối.
Công việc chính: tích hợp LLM API, xây RAG pipeline, thiết kế prompt system, monitoring và evaluation, tối ưu chi phí và tốc độ. Công cụ hàng ngày: Python, LangChain/LlamaIndex, vector database, CI/CD, cloud infrastructure.
Bạn hỏi họ ”làm sao biến con model này thành sản phẩm mà 1 triệu người dùng mỗi ngày?” — đó chính xác là việc họ làm.
Điểm mấu chốt: Ba vai trò này không thay thế nhau — chúng bổ sung cho nhau. Nhưng trong kỷ nguyên foundation model, khi phần lớn ứng dụng AI không cần train model từ đầu mà cần tích hợp model có sẵn vào sản phẩm, nhu cầu AI Engineer đang tăng nhanh hơn hai vai trò còn lại.
Không phải vì data scientist hay ML engineer kém quan trọng hơn.
Mà vì thế giới đang cần nhiều nhà hàng hơn — và đang thiếu trầm trọng người biết xây chúng.