Làm thế nào Twitter mang lại cho các nhà khoa học một cửa sổ về hạnh phúc và sức khỏe của con người

Kể từ khi ra mắt công khai 10 nhiều năm trước, Twitter đã được sử dụng như một nền tảng mạng xã hội giữa bạn bè, dịch vụ nhắn tin tức thời cho người dùng điện thoại thông minh và là công cụ quảng cáo cho các tập đoàn và chính trị gia.

Nhưng nó cũng là một nguồn dữ liệu vô giá cho các nhà nghiên cứu và nhà khoa học - như tôi - người muốn nghiên cứu cách con người cảm nhận và hoạt động trong các hệ thống xã hội phức tạp.

Bằng cách phân tích các tweet, chúng tôi có thể quan sát và thu thập dữ liệu về các tương tác xã hội của hàng triệu người, trong thế giới hoang dã, bên ngoài các thí nghiệm trong phòng thí nghiệm được kiểm soát.

Nó cho phép chúng tôi phát triển các công cụ để theo dõi cảm xúc tập thể của dân số lớn, tìm nơi hạnh phúc nhất nước Mỹ và nhiều hơn nữa.

Vậy, làm thế nào, chính xác, Twitter đã trở thành một nguồn tài nguyên độc đáo cho các nhà khoa học xã hội tính toán? Và những gì nó đã cho phép chúng ta khám phá?


đồ họa đăng ký nội tâm


Món quà lớn nhất của Twitter cho các nhà nghiên cứu

Vào tháng 7 15, 2006, Twittr (như đã biết trước đó) công khai phát động như một dịch vụ di động của voi giúp các nhóm bạn nảy ra những suy nghĩ ngẫu nhiên xung quanh bằng SMS. Sự khả năng gửi các văn bản nhóm nhân vật 140 miễn phí đã khiến nhiều người dùng đầu tiên (bao gồm cả tôi) sử dụng nền tảng này.

Với thời gian, số lượng người dùng phát nổ: từ 20 triệu trong 2009 đến 200 triệu trong 2012 và 310 triệu ngày hôm nay. Thay vì liên lạc trực tiếp với bạn bè, người dùng chỉ cần nói với những người theo dõi họ cảm thấy thế nào, phản hồi tin tức tích cực hay tiêu cực, hay nói đùa.

Đối với các nhà nghiên cứu, món quà lớn nhất của Twitter là cung cấp một lượng lớn dữ liệu mở. Twitter là một trong những mạng xã hội lớn đầu tiên cung cấp các mẫu dữ liệu thông qua một thứ gọi là Giao diện lập trình ứng dụng (API), cho phép các nhà nghiên cứu truy vấn Twitter về các loại tweet cụ thể (ví dụ: tweet có chứa một số từ nhất định), cũng như thông tin về người dùng .

Điều này dẫn đến một sự bùng nổ của các dự án nghiên cứu khai thác dữ liệu này. Hôm nay, một tìm kiếm Google Scholar cho Twitter Twitter, tạo ra sáu triệu lượt truy cập, so với năm triệu cho Facebook Facebook. Sự khác biệt đặc biệt đáng chú ý khi Facebook có khoảng gấp năm lần số người dùng như Twitter (và lớn hơn hai tuổi).

Chính sách dữ liệu hào phóng của Twitter chắc chắn đã dẫn đến một số công khai miễn phí tuyệt vời cho công ty, khi các nghiên cứu khoa học thú vị đã được các phương tiện truyền thông chính thống chọn.

Học tập hạnh phúc và sức khỏe

Với dữ liệu điều tra dân số truyền thống chậm và tốn kém để thu thập, các nguồn cấp dữ liệu mở như Twitter có khả năng cung cấp một cửa sổ thời gian thực để xem các thay đổi trong dân số lớn.

Đại học Vermont Phòng thí nghiệm tính toán được thành lập tại 2006 và nghiên cứu các vấn đề trên toán học ứng dụng, xã hội học và vật lý. Kể từ 2008, Story Lab đã thu thập hàng tỷ tweet thông qua nguồn cấp dữ liệu của Google, Gardenhose, một API truyền một mẫu ngẫu nhiên là 10 phần trăm của tất cả các tweet công khai trong thời gian thực.

Tôi đã dành ba năm tại Phòng thí nghiệm tính toán và may mắn trở thành một phần của nhiều nghiên cứu thú vị sử dụng dữ liệu này. Ví dụ: chúng tôi đã phát triển một máy đo độ cao đo lường hạnh phúc của Twittersphere trong thời gian thực. Bằng cách tập trung vào các tweet được định vị địa lý được gửi từ điện thoại thông minh, chúng tôi đã có thể bản đồ những nơi hạnh phúc nhất nước Mỹ Có lẽ không ngạc nhiên, chúng tôi đã tìm thấy Hawaii là tiểu bang hạnh phúc nhất và trồng nho Napa, thành phố hạnh phúc nhất cho 2013. 

Một bản đồ của 13 triệu tweet địa lý Hoa Kỳ từ 2013, được tô màu bởi hạnh phúc, với màu đỏ biểu thị hạnh phúc và màu xanh biểu thị nỗi buồn. PLOS ONE, Tác giả cung cấpMột bản đồ của 13 triệu tweet địa lý Hoa Kỳ từ 2013, được tô màu bởi hạnh phúc, với màu đỏ biểu thị hạnh phúc và màu xanh biểu thị nỗi buồn. PLoS ONE, Tác giả cung cấp.Những nghiên cứu này có ứng dụng sâu hơn: Tương quan việc sử dụng từ Twitter với nhân khẩu học giúp chúng tôi hiểu các mô hình kinh tế xã hội cơ bản ở các thành phố. Ví dụ: chúng tôi có thể liên kết việc sử dụng từ với các yếu tố sức khỏe như béo phì, vì vậy chúng tôi đã xây dựng một từ vựng để đo lường nội dung caloric của người dùng của các bài đăng trên phương tiện truyền thông xã hội. Các tweet từ một khu vực cụ thể có đề cập đến các loại thực phẩm có hàm lượng calo cao đã làm tăng hàm lượng calo của vùng của vùng đó, trong khi các tweet đề cập đến các hoạt động tập thể dục làm giảm số liệu của chúng tôi. Chúng tôi thấy rằng biện pháp đơn giản này tương quan với các số liệu sức khỏe và hạnh phúc khác. Nói cách khác, các tweet đã có thể cung cấp cho chúng tôi ảnh chụp nhanh, tại một thời điểm cụ thể, về sức khỏe tổng thể của một thành phố hoặc khu vực.

Sử dụng sự phong phú của dữ liệu Twitter, chúng tôi cũng có thể xem mô hình chuyển động hàng ngày của mọi người trong chi tiết chưa từng có. Hiểu được mô hình di động của con người, đến lượt nó, có khả năng biến đổi mô hình bệnh tật, mở ra lĩnh vực mới của dịch tễ học kỹ thuật số.

Đối với các nghiên cứu khác, chúng tôi đã xem xét liệu khách du lịch thể hiện niềm hạnh phúc lớn hơn trên Twitter so với những người ở nhà (câu trả lời: họ làm) và nếu những cá nhân hạnh phúc có xu hướng gắn bó với nhau trong một mạng xã hội (một lần nữa, họ làm). Thật, sự tích cực dường như được đưa vào ngôn ngữ, theo nghĩa là chúng ta có nhiều từ tích cực hơn từ tiêu cực. Đây không phải là trường hợp chỉ trên Twitter nhưng trên nhiều phương tiện truyền thông khác nhau (ví dụ: sách, phim và báo) và ngôn ngữ.

Những nghiên cứu này - và hàng ngàn người khác thích chúng từ khắp nơi trên thế giới - chỉ có thể nhờ Twitter.

Những năm tiếp theo 10

Vì vậy, những gì chúng ta có thể mong đợi để học hỏi từ Twitter trong những năm tiếp theo 10?

Một số công việc thú vị nhất hiện nay liên quan đến việc kết nối dữ liệu truyền thông xã hội với các mô hình toán học để dự đoán các hiện tượng ở cấp độ dân số như dịch bệnh. Các nhà nghiên cứu đã có một số thành công trong việc tăng cường các mô hình bệnh tật với dữ liệu Twitter để dự báo cúm, đáng chú ý là FluOutlook nền tảng được phát triển bởi Đại học Đông Bắc và Viện trao đổi khoa học.

Tuy nhiên, vẫn còn một số thách thức. Dữ liệu truyền thông xã hội bị ảnh hưởng bởi tỷ lệ nhiễu tín hiệu rất thấp. Nói cách khác, các tweet có liên quan đến một nghiên cứu cụ thể thường bị nhấn chìm bởi tiếng ồn không liên quan.

Do đó, chúng ta phải liên tục ý thức về những gì được mệnh danh làsự kiêu ngạo dữ liệu lớnKhi phát triển các phương pháp mới và không quá tự tin về kết quả của chúng tôi. Kết nối với điều này sẽ là mục đích để tạo ra các dự đoán về hộp kính có thể giải thích được từ các dữ liệu này (trái ngược với các dự đoán của hộp đen hộp đen, trong đó thuật toán bị ẩn hoặc không rõ ràng).

Dữ liệu truyền thông xã hội thường bị (chỉ trích) chỉ trích là nhỏ, mẫu không đại diện của dân số rộng hơn. Một trong những thách thức lớn đối với các nhà nghiên cứu là tìm ra cách tính toán dữ liệu sai lệch như vậy trong các mô hình thống kê. Trong khi Nhiều người đang sử dụng phương tiện truyền thông xã hội hàng năm, chúng ta phải tiếp tục cố gắng để hiểu những thành kiến ​​trong dữ liệu này. Ví dụ, dữ liệu vẫn có xu hướng đại diện cho các cá nhân trẻ hơn với chi phí của dân số già.

Chỉ sau khi phát triển các phương pháp hiệu chỉnh sai lệch tốt hơn, các nhà nghiên cứu mới có thể đưa ra dự đoán hoàn toàn tự tin từ các tweet.

Giới thiệu về Tác giả

Lewis Mitchell, Giảng viên toán học ứng dụng, Đại học Adelaide

Bài viết này ban đầu được xuất bản vào Conversation. Đọc ban đầu bài viết.

Sách liên quan

at Thị trường InnerSelf và Amazon