Microsoft thầm lặng công bố phần mềm AI mới, nhại giọng con người chỉ với 3 giây thu âm

[ad_1]

Có lẽ đây là thế hệ cuối cùng mà con người được cấu thành hoàn toàn từ vật chất hữu cơ.

Các nhà khoa học công tác tại Microsoft vừa công bố một báo cáo liên quan tới một hệ thống tạo ra giọng nói từ văn bản. Có tên gọi VALL-E, hệ thống mới của Microsoft không khiến nhiều người bất ngờ, khi những ví dụ kiểu “chị Google” đã quá nổi tiếng với người dùng Internet.

Nhưng khi đọc báo cáo, chúng ta mới có thể thấy những chi tiết gây bất ngờ hay thậm chí là rùng mình. Các nhà khoa học khẳng định VALL-E “có thể được sử dụng để tổng hợp giọng nói cá nhân với chất lượng cao, chỉ với dữ liệu đầu vào là một đoạn thu âm dài 3 giây của một người nói không rõ mặt”.

Hay nói một cách khác, hệ thống của Microsoft chỉ cần nghe chúng ta nói 3 giây là đã có thể tổng hợp được một giọng nói giống với nguyên bản. Theo báo cáo, cơ sở dữ liệu được sử dụng trong huấn luyện VALL-E do Meta (công ty mẹ của Facebook) tổng hợp nên, bao gồm 60.000 giờ thoại được thực hiện bởi 7.000 người.

Nguồn: VALL-E

Phóng viên công nghệ làm việc tự do, Chris Matyszczyk, đã nghe thử một số đoạn ghi âm, và đưa ra cảm nhận của mình trên trang tin ZDNet. Ông nghe một giọng nam phát biểu trong 3 giây, nghe đoạn âm thanh dài 8 giây do VALL-E sản sinh ra, rồi nhận định: “Khó có thể nhận ra đâu là con người phát biểu, đâu là AI phát ra âm thanh”.

Mặc dù cách dùng từ của VALL-E vẫn chưa thực sự giống người, ông vẫn nhận định rằng bản thân ông cảm thấy “đáng sợ”.

Phần mềm tạo giọng nói ảo VALL-E có tiềm năng nhưng mang nhiều nguy cơ.
Nguồn: Sur Noticias

Đa số chúng ta đã quen với những cuộc gọi tự động, nơi một giọng nói được ghi âm sẵn hoặc một giọng nói tự động vang lên tại đầu dây bên kia. Với một hệ thống như VALL-E, giọng nói máy nay có thể đạt tới mức độ trau chuốt chưa từng có.

Và thật khó nhận xét tương lai có thể ra sao khi kẻ gian có thể lợi dụng một cuộc điện thoại để ghi âm giọng của bạn, rồi giả danh chính bạn đi lừa người khác. Càng đáng lo ngại khi các nhà nghiên cứu khẳng định họ có thể tái tạo cả “cảm xúc và môi trường âm thanh” chỉ với đoạn ghi âm dài 3 giây.

Các nhà nghiên cứu – những cha đẻ của hệ thống VALL-E – cũng không có cách giải quyết sáng tạo nào, cho rằng cách thức tốt nhất hiện nay là xây dựng một hệ thống phát hiện giọng nói tạo ra bởi máy. Chúng ta cũng khó có thể thắc mắc tại sao họ lại làm thế, bởi lẽ trong ngành công nghệ, đa số sẽ trả lời “cứ làm được là làm thôi”.

Kim
Nguồn CafeBiz

[ad_2]

  • Admin

    Related Posts

    Bảo vệ: Chân dung khách hàng AQtech

    Không có trích dẫn vì bài này được bảo vệ.

    Read more

    Những Điều Cần Lưu Ý Khi Tổ Chức Sự Kiện Lớn: Bí Quyết Thành Công Không Thể Bỏ Qua

    Tổ chức một sự kiện lớn không chỉ đơn thuần là việc chuẩn bị một không gian và mời khách tham dự; đó còn là một hành trình đầy thách…

    Read more

    You Missed

    Biến Động Nhân Sự Cấp Cao Tại Doanh Nghiệp Lớn: Dấu Hiệu Trước Thềm Đại Hội Cổ Đông

    • By Admin
    • Tháng 5 10, 2026
    • 2 views
    Biến Động Nhân Sự Cấp Cao Tại Doanh Nghiệp Lớn: Dấu Hiệu Trước Thềm Đại Hội Cổ Đông

    Kỷ Nguyên AI: Niềm Tin, Bảo Mật Và Trải Nghiệm Khách Hàng Đến Năm 2026

    • By Admin
    • Tháng 5 10, 2026
    • 1 views
    Kỷ Nguyên AI: Niềm Tin, Bảo Mật Và Trải Nghiệm Khách Hàng Đến Năm 2026

    Top Ngân Hàng Việt Nam: Dẫn Đầu Vốn Điều Lệ và Tổng Tài Sản Quý I/2025

    • By Admin
    • Tháng 5 10, 2026
    • 5 views

    Giải Ngân Vốn Đầu Tư Công 2026: Cơ Hội Vàng Thúc Đẩy Kinh Tế Việt Nam

    • By Admin
    • Tháng 5 10, 2026
    • 5 views

    Ninh Bình chi 2 tỷ đồng di dời khẩn cấp chung cư cũ ‘chờ sập’, đảm bảo an toàn cư dân

    • By Admin
    • Tháng 5 10, 2026
    • 4 views
    Ninh Bình chi 2 tỷ đồng di dời khẩn cấp chung cư cũ ‘chờ sập’, đảm bảo an toàn cư dân

    Rohto-Mentholatum VN: Củng Cố Hợp Tác, Định Hình Tương Lai Dược Mỹ Phẩm

    • By Admin
    • Tháng 5 10, 2026
    • 5 views
    Rohto-Mentholatum VN: Củng Cố Hợp Tác, Định Hình Tương Lai Dược Mỹ Phẩm