Làm thế nào bạn bè của bạn trên Twitter có thể tiết lộ danh tính của bạn

: By Jessica Su, Đại học Stanford

Cảm ơn đã ghé thăm Nội địa.com, ở đâu có 20,000 + những bài báo thay đổi cuộc sống quảng bá "Thái độ mới và những khả năng mới". Tất cả các bài viết được dịch sang Hơn 30 ngôn ngữ. Theo dõi đến Tạp chí Nội tâm, xuất bản hàng tuần và Cảm hứng hàng ngày của Marie T Russell. Tạp chí InsideSelf đã được xuất bản từ năm 1985.

phá vỡ

Làm thế nào bạn bè của bạn trên Twitter có thể cho bạn đi ẩn danh của bạn

Khi bạn duyệt internet, các nhà quảng cáo trực tuyến theo dõi gần như mọi trang web bạn truy cập, tích lũy một kho thông tin về thói quen và sở thích của bạn. Khi bạn truy cập một trang web tin tức, họ có thể thấy bạn là một fan hâm mộ của bóng rổ, opera và tiểu thuyết bí ẩn, và theo đó chọn quảng cáo phù hợp với sở thích của bạn.

Các nhà quảng cáo sử dụng thông tin này để tạo ra trải nghiệm cá nhân hóa cao, nhưng họ thường không biết chính xác bạn là ai. Họ chỉ quan sát dấu vết kỹ thuật số của bạn chứ không phải danh tính của bạn và do đó bạn có thể cảm thấy rằng bạn đã giữ được một mức độ ẩn danh.

Nhưng, trong một bài báo tôi đồng tác giả với Ansh Shukla, Sharad Goel và Arvind Narayanan, chúng tôi cho thấy rằng các hồ sơ duyệt web ẩn danh trên thực tế có thể thường được gắn liền với danh tính trong thế giới thực.

Để kiểm tra phương pháp của chúng tôi, chúng tôi đã xây dựng một trang web nơi mọi người có thể quyên góp lịch sử duyệt web của họ cho mục đích của nghiên cứu này. Sau đó, chúng tôi đã cố gắng xem liệu chúng tôi có thể liên kết lịch sử của họ trở lại hồ sơ Twitter của họ bằng cách chỉ sử dụng dữ liệu công khai. Bảy mươi hai phần trăm những người chúng tôi đã cố gắng từ chối được xác định chính xác là ứng cử viên hàng đầu trong kết quả tìm kiếm và phần trăm 81 nằm trong số những ứng cử viên hàng đầu của 15.

Quyền riêng tư2 2 8 Ảnh chụp màn hình của trang web khử từ.

Theo hiểu biết của chúng tôi, đây là minh chứng quy mô lớn nhất cho đến nay, vì nó chọn đúng người dùng trong số hàng trăm triệu người dùng Twitter có thể. Ngoài ra, phương pháp của chúng tôi chỉ yêu cầu một người nhấp vào các liên kết xuất hiện trong nguồn cấp dữ liệu truyền thông xã hội của họ, chứ không phải họ đăng bất kỳ nội dung nào - vì vậy ngay cả những người cẩn thận về những gì họ chia sẻ trên internet vẫn dễ bị tấn công.

Cách thức thực hiện

Ở cấp độ cao, cách tiếp cận của chúng tôi dựa trên một quan sát đơn giản. Mỗi người có một mạng xã hội đặc biệt, bao gồm gia đình và bạn bè từ trường học, công việc và các giai đoạn khác nhau của cuộc đời họ. Do đó, tập hợp các liên kết trong nguồn cấp dữ liệu Facebook và Twitter của bạn rất đặc biệt. Nhấp vào các liên kết này để lại một dấu ấn rõ ràng trong lịch sử duyệt web của bạn.

Bằng cách xem tập hợp các trang web mà một cá nhân đã truy cập, chúng tôi có thể chọn ra các nguồn cấp dữ liệu truyền thông xã hội tương tự, đưa ra danh sách các ứng cử viên có khả năng tạo ra lịch sử duyệt web đó. Theo cách này, chúng tôi có thể gắn danh tính trong thế giới thực của một người với bộ liên kết gần như hoàn chỉnh mà họ đã truy cập, bao gồm các liên kết không bao giờ được đăng trên bất kỳ trang web truyền thông xã hội nào.

Thực hiện chiến lược này bao gồm hai thách thức chính. Đầu tiên là về mặt lý thuyết: Làm thế nào để bạn định lượng mức độ tương tự của một nguồn cấp dữ liệu truyền thông xã hội cụ thể với lịch sử duyệt web nhất định? Một cách đơn giản là đo tỷ lệ các liên kết trong lịch sử duyệt web cũng xuất hiện trong nguồn cấp dữ liệu. Điều này hoạt động hợp lý tốt trong thực tế, nhưng nó vượt quá mức tương tự cho các nguồn cấp dữ liệu lớn, vì những đơn giản chỉ chứa nhiều liên kết hơn. Thay vào đó chúng tôi có một cách tiếp cận khác. Chúng tôi đưa ra một mô hình xác suất, cách điệu của hành vi duyệt web và sau đó tính toán khả năng người dùng với nguồn cấp dữ liệu truyền thông xã hội đó đã tạo ra lịch sử duyệt web được quan sát. Sau đó, chúng tôi chọn nguồn cấp dữ liệu truyền thông xã hội rất có thể.

Thử thách thứ hai liên quan đến việc xác định các nguồn cấp dữ liệu tương tự nhất trong thời gian thực. Ở đây chúng tôi chuyển sang Twitter, vì các nguồn cấp dữ liệu Twitter (trái ngược với Facebook) phần lớn là công khai. Tuy nhiên, mặc dù các nguồn cấp dữ liệu là công khai, chúng tôi không thể đơn giản tạo một bản sao Twitter cục bộ để chúng tôi có thể chạy các truy vấn của mình. Thay vào đó, chúng tôi áp dụng một loạt các kỹ thuật để giảm đáng kể không gian tìm kiếm. Sau đó, chúng tôi kết hợp các kỹ thuật lưu trữ với thu thập dữ liệu mạng theo yêu cầu để xây dựng nguồn cấp dữ liệu của các ứng cử viên triển vọng nhất. Trên bộ ứng cử viên giảm này, chúng tôi áp dụng biện pháp tương tự của chúng tôi để tạo ra kết quả cuối cùng. Với một lịch sử duyệt web, chúng ta thường có thể thực hiện toàn bộ quá trình này trong dưới 60 giây.

Phương pháp của chúng tôi chính xác hơn cho những người duyệt Twitter tích cực hơn. 90% người tham gia đã nhấp vào 100 hoặc nhiều liên kết hơn trên Twitter có thể được khớp với danh tính của họ.

Nhiều công ty có các tài nguyên theo dõi để thực hiện một cuộc tấn công như thế này, thậm chí không có sự đồng ý của người tham gia. Chúng tôi đã cố gắng từ chối từng người tham gia thử nghiệm của mình bằng cách chỉ sử dụng các phần trong lịch sử duyệt web của họ cho các công ty theo dõi cụ thể (vì các công ty có trình theo dõi trên các trang đó). Chúng tôi thấy rằng một số công ty có các nguồn lực để xác định chính xác những người tham gia.

Các nghiên cứu từ đồng nghĩa khác

Một số nghiên cứu khác đã sử dụng dấu chân có sẵn công khai để khử từ dữ liệu nhạy cảm.

Có lẽ nghiên cứu nổi tiếng nhất dọc theo những dòng này được thực hiện bởi Latanya Sweeney tại Đại học Harvard ở 2002. Cô phát hiện ra rằng Phần trăm 87 của người Mỹ được nhận dạng duy nhất dựa trên sự kết hợp mã ZIP, giới tính và ngày sinh của họ. Ba thuộc tính này có sẵn trong cả dữ liệu đăng ký cử tri công khai (mà cô đã mua với US $ 20) và dữ liệu y tế ẩn danh (được phân phối rộng rãi, vì mọi người nghĩ rằng dữ liệu là ẩn danh). Bằng cách kết nối các nguồn dữ liệu này, cô đã tìm thấy hồ sơ y tế của thống đốc bang Massachusetts.

Trong 2006, Netflix đã tổ chức một cuộc thi để cải thiện chất lượng của các khuyến nghị phim của nó. Họ đã phát hành một bộ dữ liệu ẩn danh về xếp hạng phim của mọi người và cung cấp $ 1 triệu cho nhóm có thể cải thiện thuật toán đề xuất của họ bằng 10 phần trăm. Nhà khoa học máy tính Arvind Narayaan và Vitaly Shmatikov nhận thấy rằng những bộ phim mọi người xem rất đặc biệt và hầu hết mọi người trong bộ dữ liệu đều có thể nhận dạng duy nhất dựa trên một tập hợp nhỏ các bộ phim của họ. Nói cách khác, dựa trên các lựa chọn phim Netflix và đánh giá IMDB, các nhà nghiên cứu có thể xác định những người dùng Netflix thực sự là ai.

Với sự phát triển của phương tiện truyền thông xã hội, ngày càng có nhiều người chia sẻ thông tin có vẻ vô hại, nhưng thực sự tiết lộ rất nhiều thông tin cá nhân. Một nghiên cứu dẫn đầu bởi Michal Kosinski tại Đại học Cambridge đã sử dụng lượt thích trên Facebook để dự đoán mọi người khuynh hướng tình dục, quan điểm chính trị và đặc điểm tính cách.

Một đội khác, dẫn đầu bởi Gilbert Wonderracek tại Đại học Công nghệ Vienna, đã chế tạo ra một cỗ máy khử tên của người dùng, từ đó tìm ra những nhóm người nào tham gia vào mạng xã hội Xing, và sử dụng nó để tìm ra họ là ai - vì các nhóm bạn là một phần thường đủ để nhận dạng duy nhất bạn.

Bạn có thể làm gì

Hầu hết các cuộc tấn công này là khó khăn để bảo vệ chống lại, trừ khi bạn ngừng sử dụng internet hoặc tham gia vào cuộc sống công cộng.

Ngay cả khi bạn ngừng sử dụng internet, các công ty vẫn có thể thu thập dữ liệu về bạn. Nếu một vài người bạn của bạn tải danh bạ điện thoại của họ lên Facebook và số của bạn nằm trong tất cả các danh sách liên lạc của họ, thì Facebook có thể đưa ra dự đoán về bạn, ngay cả khi bạn không sử dụng dịch vụ của họ.

Cách tốt nhất để bảo vệ chống lại các thuật toán khử từ như của chúng tôi là giới hạn nhóm người có quyền truy cập vào dữ liệu duyệt web ẩn danh của bạn. Tiện ích mở rộng trình duyệt như Ghostery chặn trình theo dõi của bên thứ ba. Điều đó có nghĩa là, mặc dù công ty có trang web bạn đang truy cập sẽ biết rằng bạn đang truy cập họ, các công ty quảng cáo hiển thị quảng cáo trên trang của họ sẽ không thể thu thập dữ liệu duyệt web của bạn và tổng hợp nó trên nhiều trang web.

Nếu bạn là quản trị trang web, bạn có thể giúp bảo vệ người dùng của mình bằng cách cho phép họ duyệt trang web của bạn bằng cách sử dụng HTTPS. Duyệt web bằng HTTP cho phép kẻ tấn công có được lịch sử duyệt web của bạn bằng cách đánh hơi lưu lượng truy cập mạng, cho phép chúng thực hiện cuộc tấn công này. Nhiều trang web đã chuyển sang HTTPS; .

Tuy nhiên, có rất ít bạn có thể làm để bảo vệ bản thân trước các cuộc tấn công từ chối nói chung, và có lẽ cách hành động tốt nhất là điều chỉnh kỳ vọng của một người. Không có gì là riêng tư trong thời đại kỹ thuật số này.

Giới thiệu về Tác giả

Jessica Su, tiến sĩ Sinh viên tại Stanford, Đại học Stanford

Bài viết này ban đầu được xuất bản vào Conversation. Đọc ban đầu bài viết.

Sách liên quan

at Thị trường InnerSelf và Amazon

phá vỡ

Cảm ơn đã ghé thăm Nội địa.com, ở đâu có 20,000 + những bài báo thay đổi cuộc sống quảng bá "Thái độ mới và những khả năng mới". Tất cả các bài viết được dịch sang Hơn 30 ngôn ngữ. Theo dõi đến Tạp chí Nội tâm, xuất bản hàng tuần và Cảm hứng hàng ngày của Marie T Russell. Tạp chí InsideSelf đã được xuất bản từ năm 1985.

Ngôn ngữ có sẵn

theo dõi Nội bộ trên

Tác giả Nội tâm

một người đổ đầy chai nước uống từ vòi bên ngoài

Ngày Trái đất: Làm thế nào để thúc đẩy thay đổi hành vi

Preety Sharm và Ayeshah Haque, Đại học Toronto

Các nhà tổ chức Ngày Trái đất đang kêu gọi phổ biến giáo dục về khí hậu như một bước quan trọng trong cuộc chiến chống biến đổi khí hậu. Một báo cáo mới…

một thùng rác thương mại chứa đầy trái cây và rau quả vứt đi

4 chiến lược hiệu quả để giảm lãng phí thực phẩm

Amar Laila, Đại học Guelph, và cộng sự.

Hệ thống lương thực toàn cầu sản xuất đủ lương thực cho mọi người, tuy nhiên, vào năm 2023, 333 triệu người trên toàn thế giới bị mất an ninh lương thực và 783 triệu…

Hãy làm cho ngày trái đất về trái đất, không phải chúng ta

Làm thế nào để kỷ niệm “Sinh nhật” của Trái đất và nói về cô ấy chứ không phải chúng ta

Shahid Naeem, Đại học Columbia

Hôm nay là Ngày Trái đất, nhưng lại là một trong những ngày kỷ niệm khó hiểu và sai lầm nhất trong năm. Liên Hiệp Quốc gọi ngày này là ngày…

hai tay ôm một gò đất phủ đầy cỏ có dòng suối chảy qua và một cái cây trên đỉnh.

Cảm hứng hàng ngày của InnerSelf: Ngày 22 tháng 2024 năm XNUMX

ngày thánh ca

Cảm hứng hàng ngày là một tin nhắn ngắn để giúp thiết lập giai điệu cho ngày. Nó được liên kết với một bài viết dài hơn để có thêm thông tin chi tiết và…

bóng đèn có dây tóc bên trong hình trái tim

Tạp chí InnerSelf: ngày 22 tháng 2024 năm XNUMX

Nhân viên nội tâm

Năng lượng có trong mọi thứ và nó là mọi thứ. Năng lượng có trong nhà của chúng ta, không chỉ ở dạng điện mà còn ở dạng màu sắc,…

ĐỌC MOST

Sự trỗi dậy đáng ngạc nhiên của các doanh nhân đang tấn công Trung Quốc như cơn bão!

Lisa Xiong, Trường Kinh doanh EM Lyon

Trong khi người ta đổ nhiều giấy mực về tăng trưởng kinh tế của Trung Quốc trong những thập kỷ gần đây, sự đóng góp của phụ nữ Trung Quốc thường nhận được ít hơn…

Thành phố sinh thái với chi phí gì? Trận chiến trên đất bản địa

Michelle Mielly, Grenoble École de Management (GEM)

Khi khái niệm “du lịch sinh thái” được đưa ra vào cuối những năm 1970, nó nhằm mục đích mang lại trách nhiệm về mặt sinh thái, thúc đẩy bảo tồn,…

AI ảnh hưởng đến bầu cử như thế nào và bạn có thể làm gì

Nick Hajli, Đại học Loughborough

Thông tin sai lệch về bầu cử: cách thức hoạt động của các bot được hỗ trợ bởi AI và cách bạn có thể bảo vệ bản thân khỏi ảnh hưởng của chúng

một người phụ nữ nhắm mắt tựa trán vào nắm tay khép kín với hai bàn tay bị "xiềng xích" đính cườm

Bảo vệ bản thân khỏi sự kiệt sức về mặt cảm xúc với “Tuyên ngôn về quyền” của The Empath

Judith Mitchoff, MD

Một trong những trở ngại lớn nhất đối với sự đồng cảm là nỗi sợ bị tổn thương và sau đó bị choáng ngợp. Nó có vẻ quá đau đớn hoặc không an toàn để yêu thương…

Chủ xe cũ có tốt cho môi trường không?

Gaëtan Mangin, Đại học d'Artois

Chúng tôi khám phá quyền sở hữu và sử dụng những chiếc ô tô hơn 20 năm tuổi. Nó tiết lộ rằng, không hề thù địch với các mệnh lệnh của…

Kinh tế học truyền thống hiểu sai các giải pháp về biến đổi khí hậu như thế nào

Junaid B. Jahangir, Đại học MacEwan

Một nhà kinh tế giải thích: Kinh tế học trong sách giáo khoa có sai sót nghiêm trọng khi nói đến biến đổi khí hậu...

MUỘN NHẤT