Làm thế nào bạn bè của bạn trên Twitter có thể cho bạn đi ẩn danh của bạn

Khi bạn duyệt internet, các nhà quảng cáo trực tuyến theo dõi gần như mọi trang web bạn truy cập, tích lũy một kho thông tin về thói quen và sở thích của bạn. Khi bạn truy cập một trang web tin tức, họ có thể thấy bạn là một fan hâm mộ của bóng rổ, opera và tiểu thuyết bí ẩn, và theo đó chọn quảng cáo phù hợp với sở thích của bạn.

Các nhà quảng cáo sử dụng thông tin này để tạo ra trải nghiệm cá nhân hóa cao, nhưng họ thường không biết chính xác bạn là ai. Họ chỉ quan sát dấu vết kỹ thuật số của bạn chứ không phải danh tính của bạn và do đó bạn có thể cảm thấy rằng bạn đã giữ được một mức độ ẩn danh.

Nhưng, trong một bài báo tôi đồng tác giả với Ansh Shukla, Sharad Goel và Arvind Narayanan, chúng tôi cho thấy rằng các hồ sơ duyệt web ẩn danh trên thực tế có thể thường được gắn liền với danh tính trong thế giới thực.

Để kiểm tra phương pháp của chúng tôi, chúng tôi đã xây dựng một trang web nơi mọi người có thể quyên góp lịch sử duyệt web của họ cho mục đích của nghiên cứu này. Sau đó, chúng tôi đã cố gắng xem liệu chúng tôi có thể liên kết lịch sử của họ trở lại hồ sơ Twitter của họ bằng cách chỉ sử dụng dữ liệu công khai. Bảy mươi hai phần trăm những người chúng tôi đã cố gắng từ chối được xác định chính xác là ứng cử viên hàng đầu trong kết quả tìm kiếm và phần trăm 81 nằm trong số những ứng cử viên hàng đầu của 15.

Quyền riêng tư2 2 8Ảnh chụp màn hình của trang web khử từ.

Theo hiểu biết của chúng tôi, đây là minh chứng quy mô lớn nhất cho đến nay, vì nó chọn đúng người dùng trong số hàng trăm triệu người dùng Twitter có thể. Ngoài ra, phương pháp của chúng tôi chỉ yêu cầu một người nhấp vào các liên kết xuất hiện trong nguồn cấp dữ liệu truyền thông xã hội của họ, chứ không phải họ đăng bất kỳ nội dung nào - vì vậy ngay cả những người cẩn thận về những gì họ chia sẻ trên internet vẫn dễ bị tấn công.


đồ họa đăng ký nội tâm


Cách thức thực hiện

Ở cấp độ cao, cách tiếp cận của chúng tôi dựa trên một quan sát đơn giản. Mỗi người có một mạng xã hội đặc biệt, bao gồm gia đình và bạn bè từ trường học, công việc và các giai đoạn khác nhau của cuộc đời họ. Do đó, tập hợp các liên kết trong nguồn cấp dữ liệu Facebook và Twitter của bạn rất đặc biệt. Nhấp vào các liên kết này để lại một dấu ấn rõ ràng trong lịch sử duyệt web của bạn.

Bằng cách xem tập hợp các trang web mà một cá nhân đã truy cập, chúng tôi có thể chọn ra các nguồn cấp dữ liệu truyền thông xã hội tương tự, đưa ra danh sách các ứng cử viên có khả năng tạo ra lịch sử duyệt web đó. Theo cách này, chúng tôi có thể gắn danh tính trong thế giới thực của một người với bộ liên kết gần như hoàn chỉnh mà họ đã truy cập, bao gồm các liên kết không bao giờ được đăng trên bất kỳ trang web truyền thông xã hội nào.

Thực hiện chiến lược này bao gồm hai thách thức chính. Đầu tiên là về mặt lý thuyết: Làm thế nào để bạn định lượng mức độ tương tự của một nguồn cấp dữ liệu truyền thông xã hội cụ thể với lịch sử duyệt web nhất định? Một cách đơn giản là đo tỷ lệ các liên kết trong lịch sử duyệt web cũng xuất hiện trong nguồn cấp dữ liệu. Điều này hoạt động hợp lý tốt trong thực tế, nhưng nó vượt quá mức tương tự cho các nguồn cấp dữ liệu lớn, vì những đơn giản chỉ chứa nhiều liên kết hơn. Thay vào đó chúng tôi có một cách tiếp cận khác. Chúng tôi đưa ra một mô hình xác suất, cách điệu của hành vi duyệt web và sau đó tính toán khả năng người dùng với nguồn cấp dữ liệu truyền thông xã hội đó đã tạo ra lịch sử duyệt web được quan sát. Sau đó, chúng tôi chọn nguồn cấp dữ liệu truyền thông xã hội rất có thể.

Thử thách thứ hai liên quan đến việc xác định các nguồn cấp dữ liệu tương tự nhất trong thời gian thực. Ở đây chúng tôi chuyển sang Twitter, vì các nguồn cấp dữ liệu Twitter (trái ngược với Facebook) phần lớn là công khai. Tuy nhiên, mặc dù các nguồn cấp dữ liệu là công khai, chúng tôi không thể đơn giản tạo một bản sao Twitter cục bộ để chúng tôi có thể chạy các truy vấn của mình. Thay vào đó, chúng tôi áp dụng một loạt các kỹ thuật để giảm đáng kể không gian tìm kiếm. Sau đó, chúng tôi kết hợp các kỹ thuật lưu trữ với thu thập dữ liệu mạng theo yêu cầu để xây dựng nguồn cấp dữ liệu của các ứng cử viên triển vọng nhất. Trên bộ ứng cử viên giảm này, chúng tôi áp dụng biện pháp tương tự của chúng tôi để tạo ra kết quả cuối cùng. Với một lịch sử duyệt web, chúng ta thường có thể thực hiện toàn bộ quá trình này trong dưới 60 giây.

Phương pháp của chúng tôi chính xác hơn cho những người duyệt Twitter tích cực hơn. 90% người tham gia đã nhấp vào 100 hoặc nhiều liên kết hơn trên Twitter có thể được khớp với danh tính của họ.

Nhiều công ty có các tài nguyên theo dõi để thực hiện một cuộc tấn công như thế này, thậm chí không có sự đồng ý của người tham gia. Chúng tôi đã cố gắng từ chối từng người tham gia thử nghiệm của mình bằng cách chỉ sử dụng các phần trong lịch sử duyệt web của họ cho các công ty theo dõi cụ thể (vì các công ty có trình theo dõi trên các trang đó). Chúng tôi thấy rằng một số công ty có các nguồn lực để xác định chính xác những người tham gia.

quyền riêng tư 2 8Các nghiên cứu từ đồng nghĩa khác

Một số nghiên cứu khác đã sử dụng dấu chân có sẵn công khai để khử từ dữ liệu nhạy cảm.

Có lẽ nghiên cứu nổi tiếng nhất dọc theo những dòng này được thực hiện bởi Latanya Sweeney tại Đại học Harvard ở 2002. Cô phát hiện ra rằng Phần trăm 87 của người Mỹ được nhận dạng duy nhất dựa trên sự kết hợp mã ZIP, giới tính và ngày sinh của họ. Ba thuộc tính này có sẵn trong cả dữ liệu đăng ký cử tri công khai (mà cô đã mua với US $ 20) và dữ liệu y tế ẩn danh (được phân phối rộng rãi, vì mọi người nghĩ rằng dữ liệu là ẩn danh). Bằng cách kết nối các nguồn dữ liệu này, cô đã tìm thấy hồ sơ y tế của thống đốc bang Massachusetts.

Trong 2006, Netflix đã tổ chức một cuộc thi để cải thiện chất lượng của các khuyến nghị phim của nó. Họ đã phát hành một bộ dữ liệu ẩn danh về xếp hạng phim của mọi người và cung cấp $ 1 triệu cho nhóm có thể cải thiện thuật toán đề xuất của họ bằng 10 phần trăm. Nhà khoa học máy tính Arvind NarayaanVitaly Shmatikov nhận thấy rằng những bộ phim mọi người xem rất đặc biệt và hầu hết mọi người trong bộ dữ liệu đều có thể nhận dạng duy nhất dựa trên một tập hợp nhỏ các bộ phim của họ. Nói cách khác, dựa trên các lựa chọn phim Netflix và đánh giá IMDB, các nhà nghiên cứu có thể xác định những người dùng Netflix thực sự là ai.

Với sự phát triển của phương tiện truyền thông xã hội, ngày càng có nhiều người chia sẻ thông tin có vẻ vô hại, nhưng thực sự tiết lộ rất nhiều thông tin cá nhân. Một nghiên cứu dẫn đầu bởi Michal Kosinski tại Đại học Cambridge đã sử dụng lượt thích trên Facebook để dự đoán mọi người khuynh hướng tình dục, quan điểm chính trị và đặc điểm tính cách.

Một đội khác, dẫn đầu bởi Gilbert Wonderracek tại Đại học Công nghệ Vienna, đã chế tạo ra một cỗ máy khử tên của người dùng, từ đó tìm ra những nhóm người nào tham gia vào mạng xã hội Xing, và sử dụng nó để tìm ra họ là ai - vì các nhóm bạn là một phần thường đủ để nhận dạng duy nhất bạn.

Bạn có thể làm gì

Hầu hết các cuộc tấn công này là khó khăn để bảo vệ chống lại, trừ khi bạn ngừng sử dụng internet hoặc tham gia vào cuộc sống công cộng.

Ngay cả khi bạn ngừng sử dụng internet, các công ty vẫn có thể thu thập dữ liệu về bạn. Nếu một vài người bạn của bạn tải danh bạ điện thoại của họ lên Facebook và số của bạn nằm trong tất cả các danh sách liên lạc của họ, thì Facebook có thể đưa ra dự đoán về bạn, ngay cả khi bạn không sử dụng dịch vụ của họ.

Cách tốt nhất để bảo vệ chống lại các thuật toán khử từ như của chúng tôi là giới hạn nhóm người có quyền truy cập vào dữ liệu duyệt web ẩn danh của bạn. Tiện ích mở rộng trình duyệt như Ghostery chặn trình theo dõi của bên thứ ba. Điều đó có nghĩa là, mặc dù công ty có trang web bạn đang truy cập sẽ biết rằng bạn đang truy cập họ, các công ty quảng cáo hiển thị quảng cáo trên trang của họ sẽ không thể thu thập dữ liệu duyệt web của bạn và tổng hợp nó trên nhiều trang web.

Nếu bạn là quản trị trang web, bạn có thể giúp bảo vệ người dùng của mình bằng cách cho phép họ duyệt trang web của bạn bằng cách sử dụng HTTPS. Duyệt web bằng HTTP cho phép kẻ tấn công có được lịch sử duyệt web của bạn bằng cách đánh hơi lưu lượng truy cập mạng, cho phép chúng thực hiện cuộc tấn công này. Nhiều trang web đã chuyển sang HTTPS; .

Tuy nhiên, có rất ít bạn có thể làm để bảo vệ bản thân trước các cuộc tấn công từ chối nói chung, và có lẽ cách hành động tốt nhất là điều chỉnh kỳ vọng của một người. Không có gì là riêng tư trong thời đại kỹ thuật số này.

Giới thiệu về Tác giả

Jessica Su, tiến sĩ Sinh viên tại Stanford, Đại học Stanford

Bài viết này ban đầu được xuất bản vào Conversation. Đọc ban đầu bài viết.

Sách liên quan

at Thị trường InnerSelf và Amazon