AI có thể đặt một nhà hàng hoặc một cuộc hẹn tóc, nhưng đừng mong đợi một cuộc trò chuyện đầy đủ Chắc chắn trợ lý AI của bạn có thể đặt một cuộc hẹn cho bạn, nhưng còn cuộc trò chuyện ý nghĩa nào? Shutterstock / Bas Nastassia

Google gần đây Tiết lộ AI nói chuyện mới nhất của nó, được gọi là Duplex. Âm thanh song công giống như người thật, hoàn chỉnh với các đoạn tạm dừng, âm thanh umms và và ah ah.

Gã khổng lồ công nghệ cho biết họ có thể nói chuyện với mọi người trên điện thoại để đặt lịch hẹn và kiểm tra giờ mở cửa kinh doanh.

Lập kế hoạch kép một cuộc hẹn salon tóc. Google445 KB (Tải về)

Trong các cuộc trò chuyện được ghi lại được phát tại Google tiết lộ, nó đã trò chuyện liền mạch với con người ở đầu nhận, người dường như hoàn toàn không biết rằng họ không nói chuyện với người khác.

Song gọi một nhà hàng. Google399 KB (Tải về)

Những cuộc gọi này để lại khán giả định hướng công nghệ tại Google cho thấy thở hổn hển và cổ vũ. Trong một ví dụ, AI thậm chí đã hiểu khi người mà nó đang nói chuyện bị xáo trộn, và có thể tiếp tục theo dõi cuộc trò chuyện và trả lời thích hợp khi được thông báo rằng không cần phải đặt chỗ.


đồ họa đăng ký nội tâm


Sự gia tăng của các trợ lý AI

Nếu bạn đã sử dụng bất kỳ trợ lý giọng nói hiện có nào, chẳng hạn như Google Home, Apple Siri hoặc Amazon Echo, sự linh hoạt này có thể làm bạn ngạc nhiên. Những trợ lý này là nổi tiếng là khó khăn để sử dụng cho bất kỳ mục đích nào khác ngoài các yêu cầu tiêu chuẩn như gọi điện thoại cho một số liên lạc, phát một bài hát, thực hiện tìm kiếm trên web đơn giản hoặc đặt lời nhắc.

Khi chúng tôi nói chuyện với các trợ lý thế hệ hiện tại này, chúng tôi luôn ý thức được rằng chúng tôi đang nói chuyện với AI và chúng tôi thường điều chỉnh những gì chúng tôi nói phù hợp, theo cách mà chúng tôi hy vọng tối đa hóa cơ hội để nó hoạt động.

Nhưng những người nói chuyện với Duplex không có ý kiến ​​gì. Họ do dự, quay lại, bỏ qua các từ và thậm chí thay đổi sự thật giữa chừng bằng một câu. Song không bỏ lỡ một nhịp. Nó thực sự có vẻ hiểu những gì đang xảy ra.


Tìm hiểu thêm: Loa thông minh có thể là điểm bùng phát cho tự động hóa gia đình


Vì vậy, có tương lai đến sớm hơn bất cứ ai mong đợi? Có phải thế giới sắp đầy những trợ lý AI trực tuyến (và trên điện thoại) trò chuyện vui vẻ và làm mọi thứ cho chúng ta? Hoặc tệ hơn, chúng ta sẽ đột nhiên bị bao vây bởi những AI thông minh với những suy nghĩ và ý tưởng riêng có thể bao gồm hoặc không bao gồm con người chúng ta?

Câu trả lời là một trò chơi xác định không có tên lửa. Để hiểu lý do tại sao, nó giúp nhìn nhanh dưới mui xe về những gì điều khiển một AI như cái này.

Song công: cách thức hoạt động

Đây là những gì Hệ thống AI song công giống như.

Âm thanh đến được xử lý thông qua hệ thống ASR. Điều này tạo ra văn bản được phân tích với dữ liệu ngữ cảnh và các đầu vào khác để tạo ra văn bản phản hồi được đọc to thông qua hệ thống chuyển văn bản thành giọng nói (TTS). Google

Hệ thống lấy đầu vào của LỚN (hiển thị bên trái) là giọng nói của người mà nó đang nói chuyện trên điện thoại. Giọng nói đi qua nhận dạng giọng nói tự động (ASR) và được chuyển đổi thành văn bản (từ viết). ASR tự nó là một hệ thống AI tiên tiến, nhưng thuộc loại đã được sử dụng phổ biến trong các trợ lý giọng nói hiện có.

Sau đó, văn bản được quét để xác định loại câu (như lời chào, câu nói, câu hỏi hoặc chỉ dẫn) và trích xuất bất kỳ thông tin quan trọng nào. Thông tin chính sau đó trở thành một phần của Bối cảnh, là đầu vào bổ sung giúp hệ thống luôn cập nhật với những gì đã được nói cho đến nay trong cuộc trò chuyện.

Văn bản từ ASR và Bối cảnh sau đó được gửi đến trung tâm của duplex, được gọi là Mạng thần kinh nhân tạo (ANN).

Trong sơ đồ trên, ANN được hiển thị bằng các vòng tròn và các đường nối chúng. ANN được mô hình lỏng lẻo trên bộ não của chúng ta, nơi có hàng tỷ tế bào thần kinh kết nối với nhau thành những mạng lưới khổng lồ.

Không hẳn là một bộ não, chưa

ANN đơn giản hơn nhiều so với bộ não của chúng ta. Điều duy nhất mà điều này cố gắng làm là khớp các từ đầu vào với một phản hồi thích hợp. ANN học hỏi bằng cách hiển thị bảng điểm của hàng ngàn cuộc hội thoại của những người đặt chỗ cho nhà hàng.

Với đủ ví dụ, nó học được những loại câu đầu vào mong đợi từ người mà nó đang nói đến, và loại câu trả lời nào sẽ được cung cấp cho mỗi câu.

Phản hồi văn bản mà ANN tạo ra sau đó được gửi đến bộ tổng hợp chuyển văn bản thành giọng nói (TTS), chuyển đổi nó thành các từ được nói sau đó được phát cho người trên điện thoại.

Một lần nữa, bộ tổng hợp TTS này là một AI tiên tiến - trong trường hợp này nó tiên tiến hơn so với điện thoại trên điện thoại của bạn, vì âm thanh gần như không thể phân biệt được với bất kỳ giọng nói bình thường nào.

Thats tất cả để có nó. Mặc dù là hiện đại, nhưng trái tim của hệ thống thực sự chỉ là một quá trình khớp văn bản. Nhưng bạn có thể hỏi - nếu nó đơn giản như vậy, tại sao chúng ta không thể làm điều đó trước đây?

Đáp ứng đã học

Thực tế là ngôn ngữ của con người, và hầu hết những thứ khác trong thế giới thực, quá khác biệt và mất trật tự để được xử lý tốt bởi các máy tính thông thường, nhưng loại vấn đề này là hoàn hảo cho AI.

Lưu ý rằng đầu ra do AI tạo ra phụ thuộc hoàn toàn vào các cuộc hội thoại mà nó được hiển thị trong khi nó đang học.

Điều này có nghĩa là các AI khác nhau cần được đào tạo để đặt các loại khác nhau - vì vậy, ví dụ, một AI có thể đặt nhà hàng và một AI khác có thể đặt lịch hẹn làm tóc.

Điều này là cần thiết bởi vì các loại câu hỏi và câu trả lời có thể thay đổi rất nhiều cho các loại đặt phòng khác nhau. Đây cũng là cách mà Duplex có thể tốt hơn rất nhiều so với các trợ lý giọng nói chung, cần xử lý nhiều loại yêu cầu.

Vì vậy, bây giờ rõ ràng là chúng ta sẽ không có cuộc trò chuyện ngẫu nhiên với các trợ lý AI của chúng tôi bất cứ lúc nào sớm. Trên thực tế, tất cả các AI hiện tại của chúng tôi thực sự không có gì khác hơn so với các công cụ đối sánh mẫu (trong trường hợp này là các mẫu văn bản phù hợp). Họ không hiểu những gì họ nghe, hoặc những gì họ nhìn hoặc những gì họ nói.

Phù hợp với mô hình là một điều mà bộ não của chúng ta làm, nhưng họ cũng làm được nhiều hơn thế. Chìa khóa để tạo ra AI mạnh mẽ hơn có thể là mở khóa thêm nhiều bí mật của bộ não. Chúng ta có muốn không? Đó cũng là câu hỏi khác.Conversation

Giới thiệu về Tác giả

Peter Stratton, Nghiên cứu sinh sau tiến sĩ, Đại học Queensland

Bài viết này được tái bản từ Conversation theo giấy phép Creative Commons. Đọc ban đầu bài viết.