Video Deepfake là gì và phát hiện ra chúng nháy mắt

Một hình thức thông tin sai lệch mới đã sẵn sàng để lan truyền qua các cộng đồng trực tuyến khi các chiến dịch bầu cử giữa kỳ 2018 nóng lên. Được gọi là sâu Deepfakes, sau khi tài khoản trực tuyến giả phổ biến kỹ thuật - có thể đã chọn tên của nó vì quy trình sử dụng một phương pháp kỹ thuật có tên là học sâu sâu - những video giả mạo này trông rất thực tế.

Cho đến nay, mọi người đã sử dụng video deepfake trong nội dung khiêu dâmchâm biếm để làm cho nó xuất hiện rằng những người nổi tiếng đang làm những điều họ sẽ không bình thường.

Nhưng nó gần như chắc chắn deepfakes sẽ xuất hiện trong mùa chiến dịch, có ý định miêu tả các ứng cử viên nói những điều hoặc đi nơi mà ứng cử viên thực sự sẽ không.

Đó là Barack Obama - hay là nó?

{youtube}cQ54GDm1eL0{/youtube}

Bởi vì các kỹ thuật này rất mới, mọi người gặp khó khăn khi nói sự khác biệt giữa video thực và video deepfake. Công việc của tôi, với đồng nghiệp của tôi Ming-Ching Chang và bằng tiến sĩ của chúng tôi sinh viên Yuezun Li, đã tìm ra cách để đáng tin cậy nói video thực từ video deepfake. Đó không phải là một giải pháp lâu dài, bởi vì công nghệ sẽ cải thiện. Nhưng đó là một sự khởi đầu và hy vọng rằng máy tính sẽ có thể giúp mọi người nói sự thật từ tiểu thuyết.


đồ họa đăng ký nội tâm


Dù sao thì 'deepfake' là gì?

Tạo một video deepfake rất giống như dịch giữa các ngôn ngữ. Dịch vụ như Google Translate sử dụng máy học - phân tích máy tính của hàng chục ngàn văn bản bằng nhiều ngôn ngữ - phát hiện các mẫu sử dụng từ mà họ sử dụng để tạo ra bản dịch.

Các thuật toán Deepfake hoạt động theo cùng một cách: Chúng sử dụng một loại hệ thống máy học gọi là mạng lưới thần kinh sâu để kiểm tra các chuyển động trên khuôn mặt của một người. Sau đó, họ tổng hợp hình ảnh khuôn mặt của người khác thực hiện các chuyển động tương tự. Làm như vậy một cách hiệu quả sẽ tạo ra một video về người mục tiêu dường như làm hoặc nói những điều mà người nguồn đã làm.

Làm thế nào video deepfake được thực hiện.

{youtube}8LhI-e2B8Lg{/youtube}

Trước khi chúng có thể hoạt động chính xác, các mạng lưới thần kinh sâu cần rất nhiều thông tin nguồn, chẳng hạn như hình ảnh của những người là nguồn hoặc mục tiêu của việc mạo danh. Càng nhiều hình ảnh được sử dụng để đào tạo một thuật toán deepfake, việc mạo danh kỹ thuật số sẽ càng thực tế hơn.

Phát hiện chớp mắt

Vẫn còn những sai sót trong loại thuật toán mới này. Một trong số chúng phải liên quan đến cách các khuôn mặt mô phỏng nhấp nháy - hoặc không. Người trưởng thành khỏe mạnh chớp mắt ở đâu đó giữa mỗi giây 2 và 10và một cái chớp mắt mất từ một phần mười đến bốn phần mười của một giây. Đó là những gì sẽ là bình thường để xem trong một video của một người nói chuyện. Nhưng đó không phải là những gì xảy ra trong nhiều video deepfake.

Một người thực sự chớp mắt trong khi nói chuyện.

{youtube}https://www.youtube.com/watch?v=-MMXXEA3UaM{/youtube}

Một khuôn mặt mô phỏng không chớp mắt theo cách của một người thực sự.

{youtube}EttSA9-YIuI{/youtube}

Khi thuật toán deepfake được đào tạo trên hình ảnh khuôn mặt của một người, nó phụ thuộc vào những bức ảnh có sẵn trên internet có thể được sử dụng làm dữ liệu đào tạo. Ngay cả đối với những người được chụp ảnh thường xuyên, rất ít hình ảnh có sẵn trực tuyến cho thấy mắt họ nhắm lại. Không chỉ là những bức ảnh hiếm như vậy - bởi vì đôi mắt của mọi người thường mở - nhưng các nhiếp ảnh gia thường không công bố những hình ảnh mà mắt của các đối tượng chính bị nhắm lại.

Không có hình ảnh đào tạo về người nhấp nháy, thuật toán deepfake ít có khả năng tạo ra khuôn mặt nhấp nháy bình thường. Khi chúng tôi tính toán tỷ lệ chớp mắt chung và so sánh với phạm vi tự nhiên, chúng tôi thấy rằng các nhân vật trong video quay phim chớp mắt ít thường xuyên hơn so với người thật. Nghiên cứu của chúng tôi sử dụng máy học để kiểm tra mở và đóng trong video.

Điều này cho chúng tôi một nguồn cảm hứng để phát hiện các video deepfake. Sau đó, chúng tôi phát triển một phương pháp để phát hiện khi người trong video nhấp nháy. Để cụ thể hơn, nó quét từng khung hình của video đang đề cập, phát hiện các khuôn mặt trong đó và sau đó định vị mắt tự động. Sau đó, nó sử dụng một mạng lưới thần kinh sâu khác để xác định xem mắt phát hiện là mở hay đóng, sử dụng ngoại hình, đặc điểm hình học và chuyển động của mắt.

Chúng tôi biết rằng công việc của chúng tôi đang tận dụng một lỗ hổng trong loại dữ liệu có sẵn để đào tạo các thuật toán deepfake. Để tránh con mồi rơi vào một lỗ hổng tương tự, chúng tôi đã đào tạo hệ thống của chúng tôi trên một thư viện lớn hình ảnh của cả hai mắt mở và nhắm. Phương pháp này dường như hoạt động tốt và kết quả là chúng tôi đã đạt được tỷ lệ phát hiện phần trăm 95.

Tất nhiên, đây không phải là từ cuối cùng để phát hiện các hố sâu. Công nghệ là cải thiện nhanh chóngvà sự cạnh tranh giữa việc tạo và phát hiện video giả giống với trò chơi cờ vua. Cụ thể, nhấp nháy có thể được thêm vào video deepfake bằng cách bao gồm hình ảnh khuôn mặt với mắt nhắm hoặc sử dụng chuỗi video để đào tạo. Những người muốn gây nhầm lẫn cho công chúng sẽ trở nên tốt hơn trong việc tạo video giả - và chúng tôi và những người khác trong cộng đồng công nghệ sẽ cần tiếp tục tìm cách phát hiện ra chúng.Conversation

Giới thiệu về Tác giả

Siwei Lyu, Phó Giáo sư Khoa học Máy tính; Giám đốc, Phòng máy tính và Phòng thí nghiệm học máy, Đại học Albany, Đại học bang New York

Bài viết này ban đầu được xuất bản vào Conversation. Đọc ban đầu bài viết.

Sách liên quan

at Thị trường InnerSelf và Amazon