Mô hình nhắm mục tiêu Facebook của Cambridge Analytica thực sự hoạt động như thế nàoLàm thế nào chính xác bạn có thể được định hình trực tuyến? Andrew Krasnovitckii / Shutterstock.com

Các nhà nghiên cứu có công việc là trung tâm của Phân tích dữ liệu Facebook-Cambridge Analytica và quảng cáo chính trị náo động đã tiết lộ rằng phương pháp của ông hoạt động giống như phương pháp Netflix sử dụng để giới thiệu phim.

Trong một email gửi cho tôi, học giả của Đại học Cambridge, ông Alexanderr Kogan đã giải thích cách mô hình thống kê của ông xử lý dữ liệu Facebook cho Cambridge Analytica. Độ chính xác mà ông tuyên bố cho thấy nó hoạt động cũng như thiết lập các phương pháp nhắm mục tiêu cử tri dựa trên nhân khẩu học như chủng tộc, tuổi tác và giới tính.

Nếu được xác nhận, tài khoản của Kogan có nghĩa là mô hình kỹ thuật số Cambridge Analytica đã sử dụng là hầu như không phải quả cầu pha lê ảo một số ít đã tuyên bố. Tuy nhiên, những con số Kogan cung cấp cũng hiển thị cái gì là - và không - thực sự có thể by kết hợp dữ liệu cá nhân với máy học cho kết thúc chính trị.

Tuy nhiên, về một mối quan tâm chung của cộng đồng, các số của Kogan cho thấy thông tin về tính cách của người dùng hoặctâm lý họcChỉ là một phần khiêm tốn trong cách người mẫu nhắm đến công dân. Đó không phải là một mô hình tính cách nói đúng, mà là một mô hình đã làm sôi sục nhân khẩu học, ảnh hưởng xã hội, tính cách và mọi thứ khác thành một khối tương quan lớn. Phương pháp tiếp cận tất cả các mối tương quan và gọi là tính cách này dường như đã tạo ra một công cụ chiến dịch có giá trị, ngay cả khi sản phẩm được bán không hoàn toàn như được lập hóa đơn.


đồ họa đăng ký nội tâm


Lời hứa nhắm mục tiêu tính cách

Trước những tiết lộ mà các nhà tư vấn chiến dịch của Trump, Cambridge Analytica đã sử dụng dữ liệu từ 50 triệu người dùng Facebook Nhắm mục tiêu quảng cáo chính trị kỹ thuật số trong cuộc bầu cử tổng thống Mỹ của 2016, Facebook đã mất hàng tỷ đồng giá trị thị trường chứng khoán, chính phủ trên cả hai bờ Đại Tây Dươngmở cuộc điều travà còn non trẻ phong trào xã hội đang kêu gọi người dùng #DeteeteFacebook.

Nhưng một câu hỏi quan trọng vẫn chưa được trả lời: Cambridge Analytica có thực sự có thể nhắm mục tiêu hiệu quả các thông điệp chiến dịch tới công dân dựa trên đặc điểm tính cách của họ - hay thậm chí làQuỷ bên trong, Là một người tố cáo công ty tố cáo?

Nếu bất cứ ai cũng biết Cambridge Analytica đã làm gì với kho dữ liệu khổng lồ của Facebook, thì đó sẽ là Aleksandr Kogan và Joseph Chancellor. Đó là khởi nghiệp của họ nghiên cứu khoa học toàn cầu đã thu thập thông tin hồ sơ từ Người dùng 270,000 Facebook và hàng chục triệu bạn bè của họ sử dụng một ứng dụng kiểm tra tính cách có tên là this thisisyourdigitallife.

Một phần của nghiên cứu của riêng tôi tập trung vào sự hiểu biết học máy phương pháp, và cuốn sách sắp tới của tôi thảo luận về cách các công ty kỹ thuật số sử dụng các mô hình đề xuất để xây dựng khán giả. Tôi có linh cảm về cách làm việc của Kogan và Chancellor.

Vì vậy, tôi đã gửi email cho Kogan để hỏi. Kogan vẫn là một nhà nghiên cứu tại Đại học Cambridge; cộng tác viên của anh ấy Thủ tướng hiện đang làm việc tại Facebook. Trong một hiển thị đáng chú ý của phép lịch sự học tập, Kogan trả lời.

Phản ứng của anh ta đòi hỏi một số giải nén, và một số nền tảng.

Từ giải thưởng Netflix đến tâm lý học tinh ranh

Quay trở lại 2006, khi đó vẫn là một công ty DVD-mail, Netflix đã cung cấp một phần thưởng trị giá hàng triệu đô la cho bất cứ ai phát triển một cách tốt hơn để đưa ra dự đoán về thứ hạng phim của người dùng so với công ty đã có. Một đối thủ cạnh tranh hàng đầu bất ngờ là một nhà phát triển phần mềm độc lập sử dụng bút danh Simon Funk, phương pháp cơ bản cuối cùng đã được đưa vào tất cả các mục của các đội hàng đầu. Funk đã điều chỉnh một kỹ thuật gọi làphân rã giá trị số ít, Xếp hạng xếp hạng phim của người dùng thành một hàng loạt các yếu tố hoặc thành phần - về cơ bản là một tập hợp các danh mục suy luận, được xếp hạng theo mức độ quan trọng. Như Funk giải thích trong một bài đăng trên blog,

Chẳng hạn, vì vậy, một thể loại có thể đại diện cho phim hành động, với những phim có nhiều pha hành động ở phía trên, và phim chậm ở phía dưới, và tương ứng người dùng thích phim hành động ở trên và những người thích phim chậm ở dưới cùng

Các yếu tố là các phạm trù nhân tạo, không phải lúc nào cũng giống như các loại mà con người sẽ nghĩ ra. Các yếu tố quan trọng nhất trong mô hình Netflix sớm của Funk được định nghĩa bởi những người dùng yêu thích các bộ phim như Thời gian Trân Châu Cảng và Người lập kế hoạch cho đám cưới trong khi cũng ghét những bộ phim như Chuyện bị mất trong Dịch thuật hay Ánh nắng vĩnh cửu của Tâm trí không tì vết. con người và các nhóm phim mà chính con người sẽ không bao giờ phát hiện ra.

Cách tiếp cận chung của Funk đã sử dụng các yếu tố quan trọng nhất của 50 hoặc 100 cho cả người dùng và phim để đưa ra dự đoán chính xác về cách mọi người dùng đánh giá mỗi bộ phim. Phương pháp này, thường được gọi là giảm kích thước hoặc nhân tố ma trận, không phải là mới. Các nhà nghiên cứu khoa học chính trị đã chỉ ra rằng kỹ thuật tương tự sử dụng dữ liệu bỏ phiếu điểm danh có thể dự đoán phiếu bầu của các thành viên Quốc hội với độ chính xác phần trăm 90. Trong tâm lý học thìLớn nămMô hình cũng đã được sử dụng để dự đoán hành vi bằng cách nhóm các câu hỏi tính cách với nhau có xu hướng được trả lời tương tự.

Tuy nhiên, mô hình của Funk là một bước tiến lớn: Nó cho phép kỹ thuật này hoạt động tốt với các tập dữ liệu khổng lồ, ngay cả những dữ liệu bị thiếu nhiều dữ liệu - như tập dữ liệu Netflix, nơi một người dùng thông thường chỉ đánh giá vài chục phim trong số hàng ngàn phim của công ty thư viện. Hơn một thập kỷ sau khi cuộc thi Giải thưởng Netflix kết thúc, Phương pháp dựa trên SVD, hoặc là mô hình liên quan cho dữ liệu ngầm, vẫn là công cụ được lựa chọn cho nhiều trang web để dự đoán những gì người dùng sẽ đọc, xem hoặc mua.

Những mô hình này có thể dự đoán những thứ khác, quá.

Facebook biết nếu bạn là người Cộng hòa

Trong 2013, các nhà nghiên cứu của Đại học Cambridge Michal Kosinski, David Stillwell và Thore Graepel đã xuất bản một bài viết về sức mạnh dự đoán của dữ liệu Facebook, sử dụng thông tin được thu thập thông qua một bài kiểm tra tính cách trực tuyến. Phân tích ban đầu của họ gần giống với phân tích được sử dụng trên Giải thưởng Netflix, sử dụng SVD để phân loại cả người dùng và những thứ mà họ thích Thích vào các yếu tố 100 hàng đầu.

Bài viết cho thấy một mô hình nhân tố được tạo ra chỉ bằng Facebook của người dùng 95 phần trăm chính xác khi phân biệt người trả lời đen và trắng, 93 phần trăm chính xác trong việc phân biệt nam giới với phụ nữ và 88 phần trăm chính xác trong việc phân biệt những người xác định là đồng tính nam với nam giới xác định là thẳng. Nó thậm chí có thể phân biệt chính xác đảng Cộng hòa với đảng Dân chủ 85 phần trăm thời gian. Nó cũng hữu ích, mặc dù không chính xác, cho dự đoán điểm số của người dùng trong bài kiểm tra tính cách của Big Big Five.

phản đối công khai trả lời; trong vòng vài tuần Facebook đã có làm cho người dùng thích riêng tư theo mặc định.

Kogan và Chancellor, cũng là nhà nghiên cứu của Đại học Cambridge vào thời điểm đó, đã bắt đầu sử dụng dữ liệu Facebook để nhắm mục tiêu bầu cử như là một phần của sự hợp tác với công ty mẹ SCL của Cambridge Analytica. Kogan đã mời Kosinski và Stillwell tham gia dự án của mình, nhưng nó đã không làm việc ra. Kosinski nghi ngờ Kogan và Thủ tướng có thể có thiết kế ngược mô hình Facebook thích lượt thích cho Cambridge Phân tích. Kogan phủ nhận điều này, nói rằng dự án của anh ấyxây dựng tất cả các mô hình của chúng tôi sử dụng dữ liệu của chúng tôi, được thu thập bằng phần mềm của chúng tôi.

Kogan và Chancellor đã làm gì?

Khi tôi theo dõi những diễn biến trong câu chuyện, rõ ràng Kogan và Chancellor đã thực sự thu thập được nhiều dữ liệu của riêng họ thông qua ứng dụng này. Họ chắc chắn có thể đã xây dựng một mô hình SVD dự đoán giống như mô hình nghiên cứu đã được công bố của Kosinski và Stillwell.

Vì vậy, tôi đã gửi email cho Kogan để hỏi liệu đó có phải là những gì anh ấy đã làm không. Hơi ngạc nhiên, anh viết lại.

Chúng tôi đã không sử dụng chính xác SVD, anh ấy đã viết, lưu ý rằng SVD có thể đấu tranh khi một số người dùng có nhiều lượt thích trên YouTube hơn những người khác. Thay vào đó, Kogan giải thích, Kỹ thuật này là thứ mà chúng tôi thực sự tự phát triển. Đó không phải là thứ thuộc về phạm vi công cộng. đồng xảy ra tiếp cận."

Tuy nhiên, thông điệp của anh tiếp tục xác nhận rằng cách tiếp cận của anh thực sự giống với SVD hoặc các phương pháp nhân tố ma trận khác, như trong cuộc thi Giải thưởng Netflix và mô hình Facebook Kosinki-Stillwell-Graepel. Giảm kích thước dữ liệu Facebook là cốt lõi của mô hình của mình.

Làm thế nào chính xác?

Kogan đề xuất mô hình chính xác được sử dụng không quan trọng lắm, mặc dù vậy - điều quan trọng là tính chính xác của các dự đoán của nó. Theo Kogan, mối tương quan giữa các điểm số được dự đoán và điểm thực tế là khoảng [30 phần trăm] cho tất cả các kích thước tính cách. 70 chính xác đến 80 phần trăm trong việc dự đoán điểm số của họ khi họ làm lại bài kiểm tra.

Tất nhiên, tuyên bố chính xác của Kogan không thể được xác minh độc lập. Và bất cứ ai ở giữa một vụ bê bối cao cấp như vậy có thể có động cơ để nhấn mạnh sự đóng góp của mình. Trong anh ấy xuất hiện trên CNN, Kogan giải thích với Anderson Cooper ngày càng hoài nghi rằng, trên thực tế, các mô hình thực sự không hoạt động tốt lắm.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan trả lời các câu hỏi trên CNN.

Trên thực tế, độ chính xác mà Kogan tuyên bố có vẻ hơi thấp, nhưng có lý. Kosinski, Stillwell và Graepel báo cáo kết quả tương đương hoặc tốt hơn một chút, như có một số nghiên cứu học thuật khác sử dụng dấu chân kỹ thuật số để dự đoán tính cách (mặc dù một số nghiên cứu trong số đó có nhiều dữ liệu hơn chỉ là Facebook thích thích). Thật đáng ngạc nhiên khi Kogan và Chancellor sẽ gặp rắc rối trong việc thiết kế mô hình độc quyền của riêng họ nếu các giải pháp ngoài luồng có vẻ chính xác như vậy.

Tuy nhiên, điều quan trọng là độ chính xác của mô hình về điểm số tính cách cho phép so sánh kết quả của Kogan với nghiên cứu khác. Các mô hình được công bố với độ chính xác tương đương trong dự đoán tính cách hoàn toàn chính xác hơn nhiều trong việc đoán nhân khẩu học và các biến chính trị.

Chẳng hạn, mô hình SVD Kosinski-Stillwell-Graepel tương tự chính xác phần trăm trong việc đoán liên kết đảng, ngay cả khi không sử dụng bất kỳ thông tin hồ sơ nào ngoài lượt thích. Mô hình của Kogan có độ chính xác tương tự hoặc tốt hơn. Việc thêm một lượng nhỏ thông tin về nhân khẩu học của bạn bè hoặc người dùng có thể sẽ tăng độ chính xác này lên trên phần trăm 85. Đoán về giới tính, chủng tộc, khuynh hướng tình dục và các đặc điểm khác có lẽ cũng chính xác hơn 90 phần trăm.

Quan trọng, những dự đoán này sẽ đặc biệt tốt cho những người dùng Facebook tích cực nhất - những người mà mô hình chủ yếu được sử dụng để nhắm mục tiêu. Người dùng có ít hoạt động để phân tích dường như không có trên Facebook nhiều.

Khi tâm lý học chủ yếu là nhân khẩu học

Biết cách mô hình được xây dựng giúp giải thích các tuyên bố rõ ràng mâu thuẫn của Cambridge Analytica về vai trò - hoặc là thiếu nó - hồ sơ cá nhân và tâm lý học chơi trong mô hình của nó. Tất cả đều phù hợp về mặt kỹ thuật với những gì Kogan mô tả.

Một mô hình như Kogan sẽ đưa ra ước tính cho mọi biến có sẵn trên bất kỳ nhóm người dùng nào. Điều đó có nghĩa là nó sẽ tự động ước tính điểm số Big Five cho mọi cử tri. Nhưng những điểm số cá tính này là đầu ra của mô hình, không phải đầu vào. Tất cả các mô hình biết là một số lượt thích trên Facebook và một số người dùng nhất định có xu hướng được nhóm lại với nhau.

Với mô hình này, Cambridge Analytica có thể nói rằng họ đang xác định những người có độ mở thấp để trải nghiệm và chứng loạn thần kinh cao. Nhưng cùng một mô hình, với cùng một dự đoán chính xác cho mọi người dùng, có thể tuyên bố chính xác là xác định những người đàn ông Cộng hòa ít học hơn.

Thông tin của Kogan cũng giúp làm rõ sự nhầm lẫn về việc liệu Cambridge Analytica thực sự đã xóa trove của nó dữ liệu Facebook, khi các mô hình được xây dựng từ dữ liệu dường như vẫn đang lưu hành, Và thậm chí đang được phát triển hơn nữa.

ConversationToàn bộ điểm của mô hình giảm kích thước là biểu diễn toán học dữ liệu ở dạng đơn giản hơn. Như thể Cambridge Analytica đã chụp một bức ảnh có độ phân giải rất cao, thay đổi kích thước của nó thành nhỏ hơn và sau đó xóa bản gốc. Bức ảnh vẫn tồn tại - và miễn là các mô hình của Cambridge Analytica tồn tại, dữ liệu cũng có hiệu quả.

Giới thiệu về Tác giả

Matthew Hindman, Phó Giáo sư Truyền thông và Công vụ, Đại học George Washington

Bài viết này ban đầu được xuất bản vào Conversation. Đọc ban đầu bài viết.

Sách liên quan

at Thị trường InnerSelf và Amazon