Machine learning đang đưa chúng ta đến gần hơn với thiết bị dịch thuật phổ thông kiểu Babel-fish.
Meta đã phát hành một mô hình AI mới có thể dịch lời nói từ 101 ngôn ngữ khác nhau. Đây là bước tiến tới phiên dịch đồng thời theo thời gian thực, trong đó các từ được dịch ngay khi chúng phát ra từ miệng ai đó. Như trước đó vào năm 2023 Meta cũng đã giới thiệu cho người dùng về mô hình ngôn ngữ của mình nhưng đến này thì nó đã được nâng lên một tầm cao mới.
Thông thường, các mô hình dịch cho giọng nói sử dụng phương pháp tiếp cận nhiều bước. Đầu tiên, chúng dịch giọng nói thành văn bản. Sau đó, chúng dịch văn bản đó thành văn bản ở ngôn ngữ khác. Cuối cùng, văn bản đã dịch đó được chuyển thành lời nói bằng ngôn ngữ mới. Phương pháp này có thể không hiệu quả và ở mỗi bước, lỗi và bản dịch sai có thể xuất hiện. Nhưng với mô hình mới AI Meta mới, được gọi là SeamlessM4T, cho phép dịch trực tiếp từ lời nói ở ngôn ngữ này sang lời nói ở ngôn ngữ khác. Mô hình này được mô tả trong một bài báo được công bố trên tạp chí Nature.
Seamless có thể dịch văn bản với độ chính xác cao hơn 23% so với các mô hình hiện tại. Và mặc dù một mô hình khác, AudioPaLM của Google, về mặt kỹ thuật có thể dịch nhiều ngôn ngữ hơn - 113 ngôn ngữ, so với 101 ngôn ngữ của Seamless, nhưng nó chỉ có thể dịch chúng sang tiếng Anh. SeamlessM4T có thể dịch sang 36 ngôn ngữ khác nhau.
Chìa khóa ở đây là một quy trình được gọi là khai thác dữ liệu song song, tìm ra những trường hợp âm thanh trong video hoặc âm thanh khớp với phụ đề bằng ngôn ngữ khác từ dữ liệu web đã thu thập. Mô hình đã học cách liên kết những âm thanh đó trong một ngôn ngữ với các đoạn văn bản tương ứng trong ngôn ngữ khác. Điều này mở ra một kho tàng thú vị hoàn toàn mới về bản dịch cho mô hình của Meta.
“Meta đã làm rất tốt khi hỗ trợ nhiều tính năng khác nhau, như chuyển văn bản thành giọng nói, chuyển giọng nói thành văn bản, thậm chí là nhận dạng giọng nói tự động,” Chetan Jaiswal, giáo sư khoa học máy tính tại Đại học Quinnipiac, người không tham gia vào nghiên cứu, cho biết. “Chỉ riêng số lượng ngôn ngữ mà họ hỗ trợ đã là một thành tựu to lớn rồi.”
Các nhà nghiên cứu trên Nature cho rằng các biên dịch viên vẫn đóng vai trò quan trọng trong quá trình biên dịch vì họ có thể xử lý nhiều bối cảnh văn hóa khác nhau và đảm bảo truyền tải cùng một ý nghĩa từ ngôn ngữ này sang ngôn ngữ khác. Lynne Bowker, Giáo sư nghiên cứu về Biên dịch, Công nghệ và Xã hội tại Đại học Laval ở Quebec, người không làm việc tại Seamless, cho biết bước này rất quan trọng. Bà nói: “Ngôn ngữ là sự phản ánh của các nền văn hóa và mỗi nền văn hóa có cách riêng để nhận thức mọi thứ”.
Bà cho biết, khi nói đến các ứng dụng như y học hoặc luật pháp, bản dịch máy cần phải được con người kiểm tra kỹ lưỡng. Nếu không, có thể dẫn đến hiểu lầm. Ví dụ, khi Google Dịch được sử dụng để dịch thông tin y tế công cộng về vắc-xin covid-19 từ Sở Y tế Virginia vào tháng 1 năm 2021 nó dịch “không bắt buộc” trong tiếng Anh thành “không cần thiết” trong tiếng Tây Ban Nha, làm thay đổi toàn bộ ý nghĩa của thông điệp.
Các mô hình AI có nhiều ví dụ để đào tạo hơn ở một số ngôn ngữ so với các ngôn ngữ khác. Điều này có nghĩa là các mô hình chuyển giọng nói thành giọng nói hiện tại có thể dịch một ngôn ngữ như tiếng Hy Lạp sang tiếng Anh, trong khi có nhiều ví dụ, nhưng không thể dịch từ tiếng Swahili sang tiếng Hy Lạp. Nhóm nghiên cứu đứng sau Seamless muốn giải quyết vấn đề này bằng cách đào tạo trước mô hình bằng hàng triệu giờ thu âm giọng nói bằng nhiều ngôn ngữ khác nhau. Quá trình đào tạo trước này cho phép hệ thống nhận ra các mẫu chung trong ngôn ngữ, giúp xử lý dễ dàng hơn các ngôn ngữ ít được sử dụng vì hệ thống đã có một số cơ sở về cách phát âm của ngôn ngữ nói.
Hệ thống này là một mã nguồn mở, các nhà nghiên cứu hy vọng điều này sẽ khuyến khích những người khác phát triển dựa trên các khả năng hiện tại của nó. Nhưng một số người vẫn hoài nghi về tính hữu ích của nó khi so sánh với các giải pháp thay thế hiện có. Jaiswal cho biết: "Mô hình dịch thuật của Google không phải là mã nguồn mở như Seamless, nhưng nó phản hồi nhanh hơn và hiệu quả hơn nhiều, và không tốn bất kỳ chi phí nào đối với một học giả".
Điều thú vị nhất về hệ thống của Meta là nó chỉ ra khả năng phiên dịch tức thời giữa các ngôn ngữ trong tương lai không xa, giống như loài cá Babel trong tiểu thuyết ăn khách The Hitchhiker's Guide to the Galaxy của Douglas Adams. SeamlessM4T nhanh hơn các mô hình hiện có nhưng vẫn chưa tức thời. Tuy nhiên, Meta tuyên bố có phiên bản Seamless mới hơn, nhanh như trình thông dịch của con người.
Kenny Zhu cho biết: “Mặc dù việc dịch chậm như thế này là ổn và hữu ích, nhưng tôi nghĩ dịch đồng thời sẽ hữu ích hơn nữa”, giám đốc Phòng thí nghiệm Ngôn ngữ học tính toán Arlington tại Đại học Texas ở Arlington, người không liên quan đến nghiên cứu mới này cho hay.