Làm thế nào các thuật toán có thể công bằng hơn con người

Amazon gần đây đã bắt đầu cung cấp giao hàng trong ngày trong các khu vực đô thị được lựa chọn. Điều này có thể tốt cho nhiều khách hàng, nhưng buổi giới thiệu cho thấy cách ra quyết định trên máy vi tính cũng có thể mang lại một sự phân biệt đối xử mạnh mẽ.

Rõ ràng, công ty đã bắt đầu dịch vụ của mình ở những khu vực có chi phí giao hàng thấp nhất, bằng cách xác định mã ZIP của những nơi đông dân cư cho nhiều khách hàng hiện tại của Amazon với mức thu nhập đủ cao để mua sản phẩm thường xuyên có sẵn để giao hàng trong ngày. Công ty đã cung cấp một trang web cho phép khách hàng nhập mã ZIP của họ để xem việc giao hàng trong cùng ngày có phục vụ họ hay không. Các nhà báo điều tra tại Bloomberg News đã sử dụng trang đó để tạo bản đồ khu vực dịch vụ của Amazon để giao hàng trong cùng ngày.

Phân tích của Bloomberg cho thấy nhiều khu vực đô thị nghèo đã bị loại khỏi khu vực dịch vụ, trong khi các khu vực lân cận giàu có hơn được đưa vào. Nhiều khu vực nghèo bị loại trừ này chủ yếu là dân cư thiểu số. Ví dụ, tất cả Boston được bảo hiểm ngoại trừ Roxbury; Bảo hiểm của Thành phố New York bao gồm gần như tất cả bốn quận nhưng đã loại trừ hoàn toàn khu vực Bronx; Bảo hiểm Chicago rời khỏi South Side nghèo nàn, trong khi mở rộng đáng kể đến các vùng ngoại ô phía bắc và phía tây giàu có.

Mặc dù tin rằng các quyết định dựa trên dữ liệu là không thiên vị, nghiên cứu và thảo luận học thuật đang bắt đầu chứng minh rằng không công bằng và phân biệt đối xử. trong tôi khóa học trực tuyến về đạo đức dữ liệu, học sinh học rằng thuật toán có thể phân biệt. Nhưng có thể có một chút lót bạc: Như nghiên cứu của Bloomberg cho thấy, việc đưa ra các quyết định dựa trên dữ liệu cũng có thể giúp phát hiện dễ dàng hơn khi có sự thiên vị.

Xu hướng có thể là vô ý

Sự không công bằng như thế trong chính sách giao hàng của Amazon có thể phát sinh vì nhiều lý do, bao gồm những thành kiến ​​ẩn - chẳng hạn như các giả định rằng dân số được phân phối đồng đều. Các nhà thiết kế thuật toán có thể không có ý định phân biệt đối xử và thậm chí có thể không nhận ra một vấn đề đã xuất hiện.


đồ họa đăng ký nội tâm


Amazon nói với Bloomberg rằng họ không có ý định phân biệt đối xử và có mọi lý do để tin vào tuyên bố đó. Đáp lại báo cáo của Bloomberg, thành phố quan chứccác chính trị gia khác kêu gọi Amazon khắc phục sự cố này. Công ty di chuyển nhanh để thêm ban đầu loại trừ mã ZIP đô thị nghèo đến khu vực dịch vụ của nó.

Một câu hỏi tương tự đã được hỏi về Uber, dường như cung cấp dịch vụ tốt hơn cho các khu vực có người sinh sống với tỷ lệ cao hơn. Có khả năng sẽ có nhiều ví dụ về ngành bán lẻ và dịch vụ về sự phân biệt thuật toán không chủ ý được phát hiện trong tương lai.

Hỏi quá nhiều thuật toán?

Chúng ta nên tạm dừng một chút để xem xét liệu chúng ta có đòi hỏi quá mức các quyết định thuật toán hay không. Các công ty vận hành các cửa hàng truyền thống luôn luôn đưa ra quyết định về địa điểm, có tính đến các tiêu chí không khác biệt so với Amazon. Các cửa hàng cố gắng có những địa điểm thuận tiện cho một nhóm lớn khách hàng tiềm năng có tiền để chi tiêu.

Do đó, rất ít cửa hàng chọn định vị ở các khu vực nội thành nghèo. Đặc biệt trong bối cảnh các cửa hàng tạp hóa, hiện tượng này đã được nghiên cứu rộng rãi, và thuật ngữ nàysa mạc thực phẩmĐây đã được sử dụng để mô tả các khu vực đô thị mà cư dân không có quyền truy cập thuận tiện vào thực phẩm tươi sống. Điều này vị trí thiên vị ít được nghiên cứu cho các cửa hàng bán lẻ nói chung.

Như một ví dụ điển hình, tôi đã xem xét các địa điểm 55 Michigan của Target, một chuỗi bán lẻ lớn toàn diện. Khi tôi sắp xếp mọi mã ZIP của Michigan dựa trên việc thu nhập trung bình của nó nằm ở nửa trên hay nửa dưới toàn tiểu bang, tôi thấy rằng chỉ có 16 của các cửa hàng Target (phần trăm 29) nằm trong nhóm ZIP từ nhóm thu nhập thấp hơn. Nhiều hơn gấp đôi, các cửa hàng 39, được đặt trong các mã ZIP từ một nửa giàu có hơn.

Xác định phân biệt đối xử

Hơn nữa, không có cửa hàng Target nào ở thành phố Detroit, mặc dù có một số khu vực ngoại ô (giàu có) hơn. Tuy nhiên, không có sự phản đối kịch liệt nào khi cho rằng Target phân biệt đối xử không công bằng với người nghèo trong các quyết định về địa điểm cửa hàng của mình. Có hai lý do chính khiến mối quan tâm về Amazon là hợp lý: cứng nhắc và thống trị.

Sự cứng nhắc phải được thực hiện với cả quá trình ra quyết định của nhà bán lẻ trực tuyến và với kết quả. Amazon quyết định mã ZIP nào trong khu vực dịch vụ của mình. Nếu một khách hàng sống ngay bên kia đường từ ranh giới do Amazon đặt ra, cô ấy ở ngoài khu vực dịch vụ và có thể làm rất ít về nó. Ngược lại, ai đó sống trong mã ZIP không có cửa hàng Target vẫn có thể mua sắm tại Target - mặc dù có thể mất nhiều thời gian hơn để đến đó.

Nó cũng quan trọng như thế nào một nhà bán lẻ chiếm ưu thế trong tâm trí người tiêu dùng. Trong khi Target chỉ là một trong nhiều chuỗi cửa hàng vật lý, Amazon rất thích chiếm lĩnh thị trường như một nhà bán lẻ web, và do đó thu hút sự chú ý nhiều hơn. Sự thống trị như vậy là một đặc điểm của ngày nay người chiến thắng doanh nghiệp web.

Mặc dù sự cứng nhắc và thống trị của họ có thể khiến chúng tôi lo ngại hơn về các doanh nghiệp trực tuyến, chúng tôi cũng có khả năng phát hiện sự phân biệt đối xử của họ tốt hơn so với chúng tôi đối với các cửa hàng chính thống. Đối với một chuỗi cửa hàng truyền thống, chúng ta cần đoán người tiêu dùng sẵn sàng đi bao xa. Chúng tôi cũng có thể cần phải hiểu thời gian: Năm dặm về phía lối ra đường cao tốc tiếp theo không phải là điều tương tự như năm dặm qua đường tắc nghẽn để phía bên kia của thị trấn. Hơn nữa, thời gian đi lại có thể thay đổi lớn tùy thuộc vào thời gian trong ngày. Sau khi xác định các khu vực có khả năng một cửa hàng phục vụ, họ có thể không ánh xạ gọn gàng vào các đơn vị địa lý mà chúng tôi có số liệu thống kê về chủng tộc hoặc thu nhập. Tóm lại, việc phân tích lộn xộn và đòi hỏi nhiều nỗ lực.

Ngược lại, các nhà báo tại Bloomberg sẽ chỉ mất vài giờ để phát triển bản đồ khu vực dịch vụ của Amazon và tương quan với thu nhập hoặc chủng tộc. Nếu Amazon đã thực hiện việc này trong nội bộ, họ có thể đã thực hiện phân tích tương tự chỉ trong vài phút - và có lẽ đã nhận thấy các vấn đề và khắc phục chúng trước khi dịch vụ cùng ngày bắt đầu.

Làm thế nào để con người so sánh?

Chúng ta hãy xem xét một ví dụ rất khác nhau để xem các điểm giống nhau được áp dụng rộng rãi như thế nào. Gần đây, ProPublica đã xuất bản một phân tích tuyệt vời về phân biệt chủng tộc bởi một thuật toán dự đoán khả năng phạm tội của tội phạm một lần nữa. Thuật toán xem xét hàng tá các yếu tố và tính toán ước tính xác suất. Phân tích của ProPublica đã tìm thấy sự thiên vị chủng tộc có hệ thống đáng kể, mặc dù chủng tộc không nằm trong số các yếu tố cụ thể được xem xét.

Nếu không có thuật toán, một thẩm phán con người sẽ đưa ra một ước tính tương tự, như là một phần của quyết định tuyên án hoặc tạm tha. Quyết định của con người có thể xem xét một tập hợp các yếu tố phong phú hơn, chẳng hạn như thái độ trong phòng xử án của tên tội phạm. Nhưng chúng tôi biết, từ nghiên cứu về tâm lý học, Đó việc ra quyết định của con người là đầy đủ với sự thiên vị, ngay cả khi chúng ta cố gắng hết sức để công bằng.

Nhưng bất kỳ lỗi nào xuất phát từ sự thiên vị trong các quyết định của thẩm phán con người có thể sẽ khác nhau giữa các thẩm phán và thậm chí đối với các quyết định khác nhau được đưa ra bởi cùng một thẩm phán. Trong tổng hợp, có thể có sự phân biệt chủng tộc do thiên vị tiềm thức, nhưng thiết lập điều này một cách thuyết phục là khó khăn. Một nghiên cứu của Bộ Tư pháp Hoa Kỳ đã tìm thấy bằng chứng mạnh mẽ về chênh lệch trong việc kết án trắng và đen, nhưng không thể xác định rõ liệu bản thân chủng tộc có phải là nhân tố trong những quyết định đó hay không.

Ngược lại, thuật toán chính xác mà ProPublica đã xem xét được sử dụng trong hàng ngàn trường hợp trên nhiều tiểu bang. Độ cứng của nó, và khối lượng lớn, giúp dễ dàng xác định xem nó có phân biệt đối xử hay không - và có thể đưa ra các cách để khắc phục vấn đề một cách hiệu quả.

Việc sử dụng công nghệ thông tin dường như làm cho các dòng sáng hơn, khác biệt rõ ràng hơn và dữ liệu về tất cả những thứ này dễ dàng hơn nhiều. Những gì có thể được chải dưới tấm thảm ngày hôm qua bây giờ kêu gọi sự chú ý. Khi chúng ta tìm thấy ngày càng nhiều sử dụng cho các thuật toán dựa trên dữ liệu, việc phân tích tính công bằng của chúng vẫn chưa phổ biến, đặc biệt là trước khi triển khai dịch vụ dựa trên dữ liệu mới. Làm cho nó như vậy sẽ đi một chặng đường dài để đo lường, và cải thiện, sự công bằng của các tính toán máy tính ngày càng quan trọng này.

Giới thiệu về Tác giảConversation

HV Jagadish, Bernard A Galler Collegiate Giáo sư Kỹ thuật Điện và Khoa học Máy tính, Đại học Michigan

Bài viết này ban đầu được xuất bản vào Conversation. Đọc ban đầu bài viết.

Sách liên quan

at Thị trường InnerSelf và Amazon