BM: Kỹ thuật tạo ra giọng nói Thông Minh Giả Tạo

Bản dịch sang tiếng Việt của bài "Kỹ Thuật Tạo Ra Giọng Nói Thông Minh Giả Tạo Có Thể Tạo Ra Giống Như Giọng Nói Của Bất Kỳ Người Nào" (This Artificially Intelligent Speech Generator Can Fake Anyone’s Voice)

"Giọng nói của con người, với tất cả sự tinh tế và sắc thái của nó, được chứng minh là một điều đặc biệt khó khăn cho các máy tính để cạnh tranh. Sử dụng thuật toán mới mạnh mẽ, một công ty “AI startup” có trụ sở tại Montreal đã phát triển trình tạo giọng nói có thể bắt chước giọng nói của bất kỳ người nào và thậm chí thêm bày tỏ cảm xúc khi cần thiết. Hệ thống này không hoàn hảo, nhưng nó báo trước một tương lai khi tiếng nói, như ảnh, có thể dễ dàng bị giả mạo.

Khi Siri (Iphone), Alexa (Amazon), hoặc GPS (Google) nói chuyện với chúng ta, thật khá rõ ràng là chúng ta đang nói chuyện với cái máy. Đó là bởi vì hầu như mọi hệ thống chuyển văn bản thành giọng nói trên thị trường dựa vào tập hợp từ, cụm từ và lời nói được ghi lại trước (được ghi lại từ diễn viên lồng tiếng), sau đó được ghép lại với nhau theo kiểu Frankenstein để tạo ra các từ và câu hoàn chỉnh . Kết quả là một âm thanh rõ ràng, liền lạc, một cách máy móc và đôi khi rất buồn cười. Cách tiếp cận này để tổng hợp giọng nói cũng có nghĩa là chúng tôi đang mắc kẹt lắng nghe cùng một giọng nói đơn điệu, được ghi lại nhiều lần.

Trong nỗ lực "nhái y hệt giọng nói của một số người" bằng giọng nói tự động thoát ra từ ứng dụng của chúng tôi, công ty “AI startup Lyrebird” đã phát triển một thuật toán giả giọng có thể bắt chước giọng nói của bất kỳ ai và đọc bất kỳ văn bản nào có cảm xúc hoặc ngữ điệu được xác định trước. Thật đáng kinh ngạc, nó có thể làm được điều này sau khi phân tích chỉ vài chục giây âm thanh được ghi trước. Trong một nỗ lực để quảng bá công cụ mới của mình, Lyrebird đã sản xuất một số mẫu âm thanh sử dụng tiếng nói của Barack Obama, Donald Trump và Hillary Clinton. ("Xin nghe thử qua bài tiếng Anh để hiểu thêm khả năng giả giọng nói của máy!)

https://soundcloud.com/user-535691776/dialog

Các bản trình diễn của Lyrebird cũng giới thiệu danh mục giọng nói hầu như không giới hạn và khả năng của hệ thống để khớp với cùng một câu với các ngữ điệu khác nhau.

Điều này được thực hiện bằng cách sử dụng các mạng Nơron nhân tạo, hoạt động theo cách tương tự như các mạng thần kinh sinh học trong não người. Về cơ bản, thuật toán học cách nhận dạng các mẫu trong bài phát biểu của một người cụ thể và sau đó tái tạo các mẫu đó trong bài phát biểu được mô phỏng.

"Chúng tôi đào tạo các mô hình của chúng tôi trên một bộ dữ liệu khổng lồ với hàng ngàn người nói," Jose Sotelo, một thành viên trong nhóm tại công ty “AI startup Lyrebird” và một chuyên gia tổng hợp giọng nói, nói với Gizmodo. “Sau đó, đối với một diễn giả mới, chúng tôi nén thông tin của họ bằng một khóa nhỏ có chứa DNA giọng nói của họ. Chúng tôi sử dụng chìa khóa này để nói những câu mới. ”

Kết quả cuối cùng là hoàn hảo - các mẫu vẫn còn trưng bày các đồ tạo tác kỹ thuật số, các vấn đề rõ ràng và sự kỳ quặc khác - nhưng có rất ít nghi ngờ ai đang bị bắt chước bởi trình tạo lời nói. Những thay đổi về ngữ điệu cũng có thể nhận thấy được. Không giống như các hệ thống khác, giải pháp của Lyrebird yêu cầu ít dữ liệu hơn cho mỗi loa để tạo ra một giọng nói mới và nó hoạt động theo thời gian thực. Công ty có kế hoạch cung cấp công cụ cho các công ty cần giải pháp tổng hợp giọng nói.

"Chúng tôi hiện đang gây quỹ và phát triển đội ngũ kỹ thuật của chúng tôi", Sotelo nói. “Chúng tôi đang nỗ lực cải thiện chất lượng âm thanh để làm cho nó ít bị rô bốt hơn và chúng tôi hy vọng sẽ sớm bắt đầu thử nghiệm beta”.

Không cần phải nói, hình thức tổng hợp giọng nói này giới thiệu một loạt các vấn đề đạo đức và mối quan tâm về an ninh. Cuối cùng, một phiên bản tinh tế của hệ thống này có thể tái tạo giọng nói của một người với độ chính xác đáng kinh ngạc, khiến người nghe không thể phân biệt được bản gốc từ mô phỏng. Ngày đang đến khi phát âm thanh, giống như một hình ảnh được xử lý trong Photoshop, có thể được điều khiển mà không cần biết của chúng tôi. Các cá nhân vô đạo đức có thể giả mạo một bài phát biểu của một chính trị gia nổi tiếng, thêm một lớp khác vào môi trường sau chân lý mới nổi. Tin tặc có thể sử dụng tổng hợp giọng nói cho kỹ thuật xã hội, lừa ngay cả những chuyên gia bảo mật cẩn thận nhất. Khả năng là gần như vô tận.

Những tác động bất lợi có thể không bị mất trên Lyrebird, điều này cho rằng thời đại mà chúng ta có thể tin tưởng vào các bản ghi âm đang sắp kết thúc.

"Chúng tôi coi trọng các ứng dụng độc hại tiềm tàng của công nghệ của chúng tôi", Sotelo nói với Gizmodo. “Chúng tôi muốn công nghệ này được sử dụng cho mục đích tốt: trao lại giọng nói cho những người bị mất bệnh, có thể ghi lại chính mình ở các giai đoạn khác nhau trong cuộc sống của bạn và nghe giọng nói của bạn sau này, v.v. Vì công nghệ này có thể được phát triển bởi các nhóm khác có mục đích độc hại, chúng tôi tin rằng điều đúng đắn cần làm là làm cho nó công khai và nổi tiếng, vì vậy chúng tôi ngừng dựa vào bản ghi âm [làm bằng chứng]. ”

Không nghi ngờ gì nữa, chúng tôi sẽ phải sớm bắt đầu ghi âm các bản ghi âm thứ hai, nhưng các giải pháp cũng có thể được phát triển để xác định tính xác thực của bản ghi âm. Con người có thể bị lừa bởi những hệ thống như vậy, nhưng máy tính sẽ không - ít nhất, không phải trong một thời gian. Khi phân tích dạng sóng, hoặc tần số của bài phát biểu của con người, bản ghi âm có độ phân giải cao có thể mang lại một lượng lớn dữ liệu cho máy tính để phân tích. Nó sẽ là một thời gian dài trước khi một chương trình tổng hợp giọng nói có thể tái tạo từng khía cạnh của bài phát biểu đặc biệt của một người, như chi tiết tốt hơn về âm sắc giọng hát (tức là chất lượng lời nói), và tiếng động miệng như hơi thở, âm thanh lưỡi và môi smacking, đến mức mà ngay cả một máy không thể phát hiện sự khác biệt. Ngoài ra còn có các khía cạnh khác của bản ghi để xem xét. Ví dụ, sự vắng mặt của tiếng ồn nền, sự hiện diện của một không gian âm thanh giả, hoặc âm thanh môi trường xung quanh nhân tạo được giới thiệu nên dễ dàng phát hiện bởi một máy được thiết kế cho nhiệm vụ.

Cuối cùng, tuy nhiên, một chương trình tổng hợp giọng nói có thể giả mạo tất cả những điều này, tại thời điểm đó, khả năng của chúng tôi để phân biệt sự thật từ chế tạo sẽ được đưa vào thử nghiệm.

George Dvorsky - BM