Trang Chủ Tin Tức Bài Viết

AI Hiểu Sai Tiếng Việt: Lỗi & Cách Sửa 2026 | Mahaton

Loc Tan Huynh
Vì sao AI quốc tế yếu tiếng Việt? Phân tích 5 lỗi dấu thanh, từ lóng, ngữ cảnh, tên riêng, viết tắt và cách Mahaton sửa tận gốc cho SME Việt.
June 7, 2026

Mahaton Project là đơn vị chuyên cung cấp giải pháp Digital Marketing toàn diện cho doanh nghiệp tại Việt Nam, trực thuộc hệ thống Công ty TNHH Minh Phát với hơn 30 năm kinh nghiệm trong ngành sản xuất và thương mại.

Chúng tôi giúp khách hàng:

Tăng trưởng lợi nhuận và mở rộng tệp khách hàng

Cắt giảm đến 60% chi phí nhân sự vận hành

Tiết kiệm thời gian quản lý gấp 5 lần

Cung cấp cho ban lãnh đạo bảng điều khiển trực quan để đo lường hiệu quả thời gian thực

Tất cả thông qua ba trụ cột dịch vụ:

Thiết kế website chuyên nghiệp, chuẩn SEO

Quảng cáo Google/YouTube hiệu suất cao

Ứng dụng trí tuệ nhân tạo (AI) trong vận hành kinh doanh

Với kinh nghiệm phục vụ hơn 10 đối tác trong các lĩnh vực đa dạng — từ hãng hàng không quốc tế (American Airlines), chuỗi F&B (Panda Express, China Queen), bán lẻ (Co.op Mart), truyền thông (HTV1), viễn thông (Viettel), đến các doanh nghiệp sản xuất Việt Nam (TAKI Elevator, Minh Phát EPS, Tấn Đại Bao Bì, Nam Phát Tôn) — chúng tôi hiểu rõ nhu cầu thị trường và cam kết mang đến giải pháp tạo tăng trưởng thực sự cho từng khách hàng.

Một khách hàng nhắn cho chatbot của doanh nghiệp: "shop oi con hang ko z, lay 2 cai nha". Bốn giây sau, bot trả lời lạc đề về chính sách bảo hành. Khách thoát, đơn hàng bay mất. Đây không phải tình huống hiếm. Trong dữ liệu vận hành từ hơn 290 dự án Mahaton đã triển khai, có tới 30-40% hội thoại tiếng Việt thực tế chứa ít nhất một yếu tố khiến mô hình AI quốc tế chưa tinh chỉnh hiểu sai: thiếu dấu, viết tắt, từ địa phương, hoặc ngữ cảnh hội thoại bị đứt mạch. Mỗi lần hiểu sai là một lần mất niềm tin và mất tiền. Bài viết này mổ xẻ vì sao điều đó xảy ra ở tầng kỹ thuật, và cách Mahaton sửa tận gốc thay vì chắp vá.

Mục lục

Điểm chính

  • Mô hình AI quốc tế học chủ yếu từ ngữ liệu tiếng Anh; tiếng Việt thường chiếm dưới 1% dữ liệu huấn luyện, khiến cách tách từ và hiểu dấu thanh kém chính xác.
  • Năm lỗi gây thiệt hại nặng nhất: viết không dấu, từ lóng vùng miền, ngữ cảnh hội thoại đứt mạch, tên riêng, và viết tắt.
  • Mỗi lỗi có một nguyên nhân kỹ thuật cụ thể ở tầng tách token, mất cân bằng dữ liệu, hoặc giới hạn cửa sổ ngữ cảnh, chứ không phải "AI ngu".
  • Mahaton sửa bằng bốn lớp: tinh chỉnh theo ngữ liệu Việt, từ điển ngành riêng, chuẩn hóa input đầu vào, và cơ chế chuyển người khi AI không chắc chắn.
  • Cách tiếp cận này giúp doanh nghiệp giữ tỷ lệ hiểu đúng ổn định ngay cả với tin nhắn "đời thường" của khách Việt.

Vì sao mô hình AI quốc tế yếu tiếng Việt

Trước khi nói về từng lỗi, doanh nghiệp cần hiểu gốc rễ. Mô hình ngôn ngữ không "đọc hiểu" như con người. Nó học xác suất: với một chuỗi từ đầu vào, từ nào có khả năng xuất hiện tiếp theo cao nhất. Toàn bộ năng lực đó đến từ dữ liệu huấn luyện. Và đây là vấn đề: trong các kho ngữ liệu khổng lồ dùng để huấn luyện các mô hình quốc tế, tiếng Anh chiếm áp đảo, còn tiếng Việt thường chỉ chiếm một phần rất nhỏ, nhiều trường hợp dưới 1%.

Hệ quả kỹ thuật đầu tiên nằm ở khâu tách token (tokenization). Mô hình không xử lý cả từ mà cắt văn bản thành các mảnh nhỏ gọi là token. Bộ tách token được tối ưu cho tiếng Anh sẽ cắt một từ tiếng Việt có dấu thành nhiều mảnh vụn. Ví dụ một từ tiếng Anh thông dụng được biểu diễn bằng một token, nhưng từ "nghiêng" tiếng Việt có thể bị xé thành ba đến bốn token vì các ký tự dấu được mã hóa riêng. Khi một từ bị băm nhỏ, mô hình khó "nhìn" ra nó là một đơn vị nghĩa hoàn chỉnh, nên dễ hiểu lệch.

Hệ quả thứ hai là mất cân bằng ngữ liệu. Vì ít được học tiếng Việt đời thường, mô hình quen với văn viết trang trọng (sách, báo, Wikipedia) hơn là ngôn ngữ chat của khách hàng thật. Tin nhắn thật của người Việt đầy rẫy viết tắt, không dấu, xen tiếng lóng và biểu cảm vùng miền, thứ gần như vắng bóng trong dữ liệu huấn luyện gốc.

AI không hiểu sai tiếng Việt vì nó "kém thông minh". Nó hiểu sai vì chưa từng được học đủ tiếng Việt thật, theo cách người Việt thật sự nhắn tin.

Đây chính là điểm Mahaton can thiệp. Một mô hình nền tảng mạnh là cần thiết, nhưng chưa đủ. Phần quyết định nằm ở các lớp xử lý mà chúng tôi xây thêm phía trên, được mô tả ở từng phần dưới đây.

Lỗi dấu thanh và viết không dấu

Triệu chứng: Khách nhắn "ban con ko" thay vì "bán còn không", hoặc "cho minh hoi gia" thay vì "cho mình hỏi giá". Bot trả lời lệch nghĩa, hoặc tệ hơn, hiểu nhầm "ma" thành "mà / má / mã / mạ" và chọn sai. Tiếng Việt có hệ thống sáu thanh; bỏ dấu đi, một chuỗi ký tự có thể tương ứng với hàng chục nghĩa khác nhau.

Nguyên nhân gốc: Đây là bài toán khử nhập nhằng (disambiguation). Khi mất dấu, một token như "la" có thể là "là, lá, lả, lã, lạ, lả lướt"... Mô hình phải dựa hoàn toàn vào ngữ cảnh xung quanh để đoán. Nếu được huấn luyện ít trên văn bản tiếng Việt không dấu, năng lực đoán này yếu hẳn. Đa số khách hàng Việt nhắn nhanh trên điện thoại lại có thói quen bỏ dấu, nên đây là lỗi xuất hiện thường xuyên nhất trong thực tế.

Cách Mahaton sửa: Chúng tôi đặt một lớp chuẩn hóa input (input normalization) trước khi tin nhắn đến mô hình. Lớp này tự động phục hồi dấu cho văn bản không dấu bằng một mô hình phục hồi dấu thanh được huấn luyện riêng trên ngữ liệu tiếng Việt, kết hợp từ điển ngành của doanh nghiệp để ưu tiên đúng nghĩa trong bối cảnh kinh doanh cụ thể. Ví dụ trong ngành thang máy của TAKI Elevator, chuỗi "thang may" luôn được hiểu là "thang máy" chứ không phải "thang mây". Tin nhắn sau khi phục hồi dấu mới được đưa vào Mahaton AI Engine để xử lý, nâng độ chính xác lên rõ rệt so với đưa thẳng văn bản thô.

Lỗi từ địa phương và tiếng lóng

Triệu chứng: Khách miền Tây nhắn "nhiêu một ký z mậy", khách miền Bắc dùng "giời ơi đắt thế", khách trẻ dùng "chốt đơn", "flex", "u là trời", "cọc", "ship cod". Bot trả lời cứng nhắc, không bắt được ý, hoặc hiểu "cọc" thành cái cọc gỗ thay vì khoản đặt cọc.

Nguyên nhân gốc: Tiếng lóng và phương ngữ thay đổi liên tục và mang tính bản địa cao. Chúng gần như không tồn tại trong ngữ liệu huấn luyện chuẩn mực, và biến đổi nhanh hơn tốc độ một mô hình nền tảng được cập nhật. Mô hình quốc tế còn không phân biệt được sắc thái vùng miền: "mô, tê, răng, rứa" của miền Trung là vùng mù hoàn toàn nếu không được dạy thêm.

Cách Mahaton sửa: Chúng tôi xây từ điển ngành và từ điển ngữ vực (domain & slang lexicon) riêng cho từng khách hàng. Đây không phải danh sách tĩnh mà là một lớp tra cứu được cập nhật định kỳ từ chính log hội thoại thực tế của doanh nghiệp. Khi phát hiện một từ lóng hoặc biến thể vùng miền lặp lại nhiều lần mà AI xử lý kém, đội ngũ Mahaton bổ sung ánh xạ nghĩa và ví dụ vào lớp tinh chỉnh. Với những ngành có thuật ngữ đặc thù như EPS của Minh Phát EPS, từ điển này còn ghi nhận cách khách hàng quen gọi sản phẩm theo tiếng địa phương, đảm bảo bot hiểu đúng dù khách dùng từ nào.

Một chatbot tốt cho người Việt phải hiểu được câu "nhiêu một ký z mậy" cũng trôi chảy như câu "cho tôi hỏi đơn giá một kilogram".

Lỗi ngữ cảnh hội thoại nhiều lượt

Triệu chứng: Khách hỏi "cái áo đỏ size L còn không", bot trả lời "còn". Khách nhắn tiếp "vậy lấy 2 cái". Bot hỏi lại "anh/chị muốn mua sản phẩm nào ạ?". Toàn bộ mạch hội thoại bị đứt. Khách bực vì phải lặp lại, cảm giác đang nói chuyện với cái máy không nhớ gì.

Nguyên nhân gốc: Hai vấn đề cộng hưởng. Thứ nhất, tiếng Việt rất hay lược chủ ngữ và tỉnh lược ("lấy 2 cái" không nói rõ "cái" là cái gì, dựa hoàn toàn vào lượt trước). Thứ hai, nếu hệ thống không quản lý bộ nhớ hội thoại (context/state management) tốt, mỗi tin nhắn được xử lý gần như độc lập, mô hình mất tham chiếu đến những gì đã trao đổi. Mô hình có giới hạn cửa sổ ngữ cảnh, và nếu lịch sử hội thoại không được đưa vào đúng cách, nó đơn giản là "quên".

Cách Mahaton sửa: Chúng tôi thiết kế lớp quản lý trạng thái hội thoại lưu lại thực thể quan trọng (sản phẩm đang nói, số lượng, size, màu, giai đoạn đơn hàng) dưới dạng có cấu trúc, rồi đưa lại vào ngữ cảnh ở mỗi lượt. Khi khách nói "lấy 2 cái", hệ thống biết "cái" tham chiếu đến "áo đỏ size L" từ lượt trước. Kết hợp với kỹ thuật RAG để truy xuất thông tin sản phẩm và chính sách chính xác từ kho dữ liệu doanh nghiệp, bot duy trì được mạch hội thoại tự nhiên qua nhiều lượt thay vì đối xử với mỗi tin nhắn như lần đầu gặp khách.

Lỗi tên riêng và viết tắt

Triệu chứng: Khách tên "Hưng" bị bot gọi nhầm hoặc hiểu "hưng" như tính từ. Tên công ty, tên sản phẩm, địa danh viết không dấu bị diễn giải lung tung. Viết tắt đặc Việt Nam như "ko, dc, k, j, ny, ace, sđt, ck, cod, tphcm, q.1" làm bot bối rối: "k" là "không" hay "nghìn" (như "20k")? "ck" là "chuyển khoản" hay "chồng" tùy ngữ cảnh.

Nguyên nhân gốc: Tên riêng tiếng Việt trùng âm với từ thông thường rất nhiều (Hương, Thắm, Cường, Trang, Bình...). Mô hình không có cơ chế nhận diện thực thể (named entity recognition) tốt cho tiếng Việt sẽ không tách được đâu là tên người, đâu là từ vựng. Viết tắt thì hoàn toàn phụ thuộc quy ước cộng đồng, không có trong từ vựng chuẩn, và một viết tắt có thể mang nhiều nghĩa tùy ngành.

Cách Mahaton sửa: Lớp chuẩn hóa input của chúng tôi bao gồm một bảng giải nghĩa viết tắt theo ngữ cảnh ngành, mở rộng "sđt" thành "số điện thoại", "ck" thành "chuyển khoản" trong bối cảnh thanh toán, "20k" thành "20 nghìn đồng". Song song, chúng tôi cấu hình nhận diện thực thể để đánh dấu tên người, tên công ty, địa chỉ trước khi mô hình xử lý, tránh việc tên riêng bị hiểu thành từ vựng. Nhờ đó bot xưng hô đúng tên khách và trích xuất đúng thông tin đơn hàng, một chi tiết nhỏ nhưng tạo cảm giác chuyên nghiệp rõ rệt.

Checklist kiểm tra chatbot tiếng Việt

Trước khi tin tưởng giao việc cho một chatbot, quý doanh nghiệp hãy tự kiểm tra bằng các bước sau. Đây chính là quy trình rút gọn từ bộ kiểm thử Mahaton áp dụng cho mọi dự án.

  1. Test không dấu: Gửi 10 câu hỏi thật của khách nhưng bỏ hết dấu. Bot có hiểu đúng tối thiểu 9/10 không?
  2. Test vùng miền: Gửi các câu dùng từ địa phương ba miền (mô, tê, răng, rứa; nhiêu, mậy; giời ơi). Bot có bắt được ý không?
  3. Test tiếng lóng và thuật ngữ ngành: Dùng các từ khách hay dùng (cọc, ship cod, chốt đơn) và thuật ngữ riêng của ngành bạn.
  4. Test mạch hội thoại: Hỏi nhiều lượt nối tiếp, dùng câu lược chủ ngữ ("lấy 2 cái", "cái kia bao nhiêu"). Bot có nhớ ngữ cảnh không?
  5. Test viết tắt: Nhắn "cho e xin sđt ck với, lay 2 cai gia 50k". Bot có giải mã đúng không?
  6. Test tên riêng: Cho bot xưng hô bằng tên trùng âm với từ thường (Hương, Bình, Trang). Bot có gọi đúng tên không?
  7. Test fallback: Hỏi một câu cố tình mơ hồ. Bot có thừa nhận chưa rõ và chuyển người thay vì đoán bừa không?

Nếu chatbot hiện tại của doanh nghiệp trượt từ hai mục trở lên, đó là dấu hiệu nó đang dùng mô hình thô chưa được tinh chỉnh cho tiếng Việt, và đang âm thầm làm mất khách mỗi ngày.

Mahaton xử lý vấn đề này như thế nào

Mahaton không bán cho doanh nghiệp một mô hình AI "đóng hộp" rồi để mặc. Chúng tôi xây dựng giải pháp tiếng Việt theo bốn lớp xếp chồng, mỗi lớp giải quyết trực tiếp các lỗi đã phân tích ở trên:

  1. Tinh chỉnh theo ngữ liệu Việt: Mahaton AI Engine được tinh chỉnh trên ngữ liệu tiếng Việt thực tế, bao gồm cả ngôn ngữ chat đời thường, để mô hình quen với cách khách Việt nhắn tin thật sự chứ không chỉ văn viết trang trọng.
  2. Từ điển ngành riêng: Mỗi khách hàng có một từ điển thuật ngữ, tên sản phẩm, tiếng lóng và viết tắt được xây riêng và cập nhật từ log hội thoại thật.
  3. Chuẩn hóa input đầu vào: Lớp tự động phục hồi dấu, giải mã viết tắt, nhận diện tên riêng trước khi mô hình xử lý, loại bỏ nhiễu ngay từ cửa.
  4. Cơ chế fallback sang người: Khi độ tin cậy của AI xuống dưới ngưỡng an toàn, hệ thống chủ động chuyển hội thoại cho nhân viên thật thay vì đoán bừa và làm hỏng quan hệ với khách.

Với hơn 290 dự án đã triển khai cho doanh nghiệp Việt, từ thang máy, vật liệu công nghiệp đến dịch vụ, chúng tôi đã chuẩn hóa quy trình này thành một phương pháp lặp lại được: chẩn đoán lỗi trên dữ liệu thật của doanh nghiệp, vá đúng lớp gây lỗi, đo lại tỷ lệ hiểu đúng. Đó là cách biến một chatbot "hiểu lõm bõm" thành một trợ lý thực sự đáng tin.

Nếu quý doanh nghiệp đang dùng chatbot hoặc automation mà khách phàn nàn "nói chuyện như máy, không hiểu ý", hãy để Mahaton kiểm tra và chẩn đoán miễn phí. Chúng tôi sẽ chỉ rõ chatbot của anh chị đang sai ở lớp nào và cần sửa gì. Liên hệ Mahaton để được tư vấn giải pháp AI tiếng Việt đúng chuẩn cho ngành của doanh nghiệp.

Lộc Tấn Huynh — Founder Mahaton Project, agency AI và digital marketing với hơn 290 dự án đã triển khai cho doanh nghiệp Việt. Lộc trực tiếp dẫn dắt các dự án tinh chỉnh AI tiếng Việt cho chatbot, automation chăm sóc khách hàng và bán hàng, với triết lý đặt kết quả kinh doanh thực tế lên trên công nghệ hào nhoáng.