Tại sao Big Data ảnh hưởng đến người dùng?

BIG DATA LÀ GÌ?

8h30 sáng 9/11, Michal Kosinski thức giấc trong khách sạn Sunnehus ở Zurich, Thụy Sĩ. Nhà khoa học 34 tuổi đến để báo cáo trong hội thảo về hiểm nguy của Big Data và cái gọi là “cách mạng số”. Anh đi khắp thế giới để trình bày những báo cáo này, bởi anh là chuyên gia hàng đầu trong lĩnh vực psychometrics – ngành tâm lý học dựa trên phân tích dữ liệu. Bật TV xem, anh chợt hiểu: quả bom đã phát nổ. Donald Trump đã được bầu làm tổng thống Mỹ, bất chấp dự báo của các nhà xã hội học. Kosinski xem tin về thắng lợi của Trump hồi lâu, xem kết quả bầu cử các bang khác nhau. Trong anh xuất hiện nghi ngờ rằng những gì đang xảy ra có liên quan đến công trình khoa học của mình. Anh thở dài rồi tắt TV. Thành công của Trump trong cuộc bầu cử Tổng thống thứ 45 ở Mỹ là câu chuyện mới nhất của Big Data. Cũng ngày hôm đó, một công ty nhỏ chưa ai nghe tên ở thủ đô London của Anh đã gửi đi thông cáo báo chí: “Chúng tôi lấy làm kinh ngạc vì phương pháp truyền thông dựa trên dữ liệu có tính cách mạng của mình đã góp phần đáng kể vào chiến thắng của Donald Trump”. Thông cáo được ký bởi một người tên là Alexander Nix. Anh này 41 tuổi, người Anh và lãnh đạo Công ty Cambridge Analytica. Nix luôn mặc vét, đeo cặp kính thời trang, với mái tóc quăn sáng màu chải ra sau gáy.

Hình ảnh Kosinski trầm tư bên cửa sổ

Kosinski trầm tư, Nix bóng mượt và Trump ngoác cười – người thứ nhất đã làm cho cách mạng số khả thi, người thứ hai thực hiện nó, và nhờ nó mà người thứ ba đã giành thắng lợi.

Big Data có nghĩa là tất cả những gì ta làm, trên mạng hay offline, đều để lại dấu vết số. Mua bằng thẻ, tìm trên Google, dạo chơi với điện thoại trong túi, từng like trên mạng xã hội – tất cả đều được lưu lại. Một thời gian dài không ai hình dung có thể sử dụng các dữ liệu ấy làm gì, chắc chỉ trừ trường hợp kiểu trên Facebook bỗng hiện quảng cáo thuốc bởi vì trước đó ta vào Google gõ câu “hạ huyết áp”. Cũng không ai biết Big Data sẽ là gì đối với nhân loại – hiểm họa lớn hay thành tựu vĩ đại? Nhưng từ ngày 9/11, chúng ta đã biết câu trả lời. Đằng sau chiến dịch tranh cử của Trump trên mạng, và đằng sau chiến dịch ủng hộ Brexit là cùng một công ty chuyên nghiên cứu Big Data: Cambridge Analytica (CA) và Giám đốc Nix. Ai muốn hiểu bản chất của những cuộc bỏ phiếu đó (và bản chất của cả những sự kiện sắp xảy ra), cần bắt đầu từ sự kiện năm 2014 ở Đại học Cambridge, Vương quốc Anh. Hay cụ thể hơn là ở bộ môn Psychometrics của Kosinski

Psychometrics, đôi khi gọi là psychography, là một phương pháp đo nhân cách. Trong tâm lý học hiện đại, phổ biến nhất là phương pháp OCEAN (từ chữ cái đầu của 5 chiều đo). Vào những năm 1980, có hai nhà tâm lý học đã chứng minh là mỗi người có thể được đo bằng 5 chiều. Đó là Big Five: độ mở đối với trải nghiệm (Openness ), sự tận tâm (Conscientiousness), sự hướng ngoại (Extraversion), sự dễ chịu (Agreeableness) và sự nhạy cảm (Neuroticism).  Trên cơ sở những số đo ấy có thể hiểu chính xác bạn là ai, bạn có mong muốn và nỗi sợ hãi nào, và cuối cùng là bạn sẽ hành xử như thế nào. Trở ngại chính là việc thu thập dữ liệu: Để hiểu được một người, cần phải điền bảng hỏi khổng lồ. Nhưng rồi xuất hiện Internet, rồi Facebook, rồi Kosinski. Năm 2008, sinh viên Michal Kosinski từ Ba Lan bắt đầu cuộc sống mới ở trường Đại học Cambridge danh tiếng của nước Anh, Trung tâm Psychometrics, phòng thí nghiệm Cavendish – phòng thí nghiệm đầu tiên trên thế giới về môn này. Với cộng sự, anh đã sáng tạo và đưa app MyPersonality vào sử dụng trên Facebook. Người dùng được đề nghị điền một bảng hỏi lớn (kiểu: “khi bị stress, bạn có dễ mất kiểm soát? Bạn có xu hướng phê phán người khác?) để biết hồ sơ nhân cách của mình, còn các tác giả sẽ có được những dữ liệu cá nhân vô giá. Thay vì chỉ nhận được vài chục bộ dữ liệu của nhau, họ đã nhận được dữ liệu của hàng trăm, nghìn rồi triệu người dùng. Bằng cách đó, hai nghiên cứu sinh đã thu hoạch được vụ mùa dữ liệu lớn chưa từng có trong lịch sử nghiên cứu tâm lý.

Quá trình mà Kosinski và các cộng sự phát triển trong mấy năm tương đối đơn giản. Thứ nhất, người dùng nhận được một bảng hỏi online. Từ câu trả lời, các nhà khoa học tính ra những phẩm chất của họ. Tiếp theo, Kosinski và nhóm nghiên cứu các hành động của họ: Like và re-post trên Facebook, và giới tính, độ tuổi và nơi ở. Qua đó nhóm thu được các liên kết. Từ kỹ thuật phân tích đơn giản các dữ liệu trên mạng có thể cho ra những kết luận bất ngờ. Ví dụ, nếu một người đàn ông là fan của page mỹ phẩm MAC, khả năng lớn là đồng tính. Ngược lại, anh ta rất nam tính nếu là fan của ban nhạc hiphop Wu-Tang Clan ở New York. Fan của Lady Gaga khả năng lớn là người hướng ngoại, còn kẻ hay like các post mang tính triết lý thì hướng nội.

Nhóm Kosinski liên tục hoàn thiện mô hình của mình. Năm 2012, Kosinski chứng minh rằng chỉ cần phân tích 68 like trên Facebook là đủ xác định màu da của người dùng (xác suất 95%), khả năng đồng tính (88%) và thiên hướng ủng hộ đảng Dân chủ hay Cộng hòa Mỹ (85%). Quá trình còn tiến xa hơn: Mức độ thông minh, thiên kiến tôn giáo, mức độ nghiện rượu, thuốc lá hay ma túy.  Dữ liệu thậm chí cho phép xác định là cha mẹ đối tượng có ly dị trước khi người này trưởng thành hay không. Mô hình hiệu quả đến mức cho phép đoán được câu trả lời của đối tượng cho một số câu hỏi. Say sưa vì thành quả, Kosinski tiến tiếp: nhanh chóng, mô hình cho phép chỉ với việc phân tích 10 like đã hiểu nhân cách đối tượng tốt hơn đồng nghiệp của họ, sau 70 like – tốt hơn cả bạn thân, sau 150 – hơn cả bố mẹ, sau 300 – hơn cả bạn tình. Nếu nghiên cứu nhiều hành động hơn thì có thể biết về đối tượng hơn cả chính họ. Vào ngày Kosinski công bố bài báo về mô hình của mình, anh nhận được hai cuộc gọi: Khiếu nại và mời làm việc. Cả hai đều từ Facebook.

Người dùng có thể chọn cho post của mình là public (mở – ai cũng có thể xem được) hay private (kín) trên Facebook, trường hợp sau thì chỉ có một số người nhất định có thể xem. Nhưng đó không là trở ngại cho nhóm thu thập dữ liệu. Kosinski luôn yêu cầu người dùng Facebook đồng ý cho sử dụng dữ liệu cá nhân nếu họ muốn tham gia các bài test. Nhưng câu chuyện không chỉ dừng lại ở các like, Kosinski và nhóm có thể đánh giá đối tượng dựa trên Big Five thông qua hình ảnh đại diện và những ảnh họ đưa lên mạng xã hội. Hay có thể theo số lượng friend: Chỉ số tốt cho khả năng hướng ngoại! Nhưng ngay cả khi không ở trên mạng, chúng ta cũng lưu vết. Sensor chuyển động trong điện thoại cho thấy ta có vung tay khi dùng nó hay không, hay di chuyển xa cỡ nào (cái này liên quan đến mức độ ổn định của cảm xúc). Như Kosinski nhận xét, điện thoại là một bảng hỏi tâm lý học khổng lồ, mà chúng ta điền hàng ngày, vô tình hay hữu ý. Đặc biệt quan trọng, điều này có ích cho cả chiều ngược lại, không chỉ cho phép lập chân dung tâm lý của người dùng, mà còn cho phép tìm kiếm những người có chân dung cần thiết. Ví dụ, những ông bố lo lắng, những kẻ hướng nội giận dữ, hay những người ngả theo đảng Dân chủ nhưng còn lưỡng lự bỏ phiếu. Về bản chất, đó là hệ thống tìm kiếm con người.

Kosinski luôn coi Internet là món quà của Thượng đế. Luôn muốn “quay lại”, “chia sẻ”. Đấy là linh hồn của thế hệ mới, là khởi đầu của kỷ nguyên mới không biên giới vật lý. Nhưng điều gì sẽ xảy ra nếu có ai đó sử dụng hệ thống tìm kiếm này để chi phối con người? Anh bắt đầu đưa các lời cảnh báo vào tất cả các công trình do mình công bố. Cảnh báo rằng phương pháp của anh “có thể tạo ra nguy hiểm cho đời sống, tự do hay thậm chí tính mạng mọi người”. Nhưng dường như không ai hiểu hậu quả có thể là gì.

Cùng thời điểm, đầu năm 2014, một phó giáo sư trẻ có tên Alexander Kogan tìm đến Kosinski. Ông ấy đại diện cho một công ty quan tâm đến phương pháp của Kosinski. Đề án là sử dụng psychometrics để phân tích 10 triệu người dùng Mỹ trên Facebook. Khách hàng không tiết lộ mục đích, vì lý do bảo mật. Ban đầu Kosinski đồng ý, bởi dù sao việc đó cũng đem lại khoản tiền lớn cho viện của anh, nhưng rồi anh lại trì hoãn. Cuối cùng, anh cũng yêu cầu Kogan tiết lộ tên công ty: SCL – Strategic Communications Laboratories. Anh thử vào Google tìm hiểu – “chúng tôi là công ty toàn cầu chuyên về quản lý các chiến dịch tranh cử” – website của công ty ghi, và chào dịch vụ tiếp thị dựa trên tâm lý và logic. Những trò ảo thuật làm ảnh hưởng kết quả bầu cử. Kosinski lướt qua các trang của website, nghĩ mung lung về việc công ty này sẽ làm gì ở Mỹ.

Aleksandr Kogan harvested data using a personality app developed through his commercial enterprise Global Science Research. Photograph: University of California Berkely

Tuy nhiên, khi đó Kosinski chưa biết, đằng sau SCL là một hệ thống công ty phức tạp, liên quan đến thiên đường thuế: sau này được Hồ sơ Panama và Wikileaks tiết lộ. Một phần của hệ thống đó phải chịu trách nhiệm về khủng hoảng ở các nước đang phát triển, phần khác đã giúp NATO xây dựng phương pháp chi phối tâm lý người dân Afghanistan. Một trong những công ty con của SCL chính là Cambridge Analytica (CA), một công ty nhỏ nhưng nguy hiểm, đã tổ chức các chiến dịch trên Internet để ủng hộ Brexit và Trump.

Kosinski không biết về điều đó nhưng cũng cảm thấy có gì đó không ổn. Tìm hiểu thêm, anh biết rằng Kogan đã thành lập một công ty bí mật giao dịch với SCL. Từ tài liệu mà Das Magazine có, có thể suy ra rằng SCL nhận được các thông tin về phương pháp của Kosinski là từ tay Kogan. Đột nhiên, Kosinski nhận ra rằng Kogan có thể sao chép hoặc dựng lại hệ thống của anh, để rồi bán lại cho các chuyên gia chính trị học của SCL. Nhà khoa học trẻ ngay lập tức ngừng hợp tác với Kogan và thông báo với lãnh đạo viện. Mâu thuẫn xuất hiện trong viện, ảnh hưởng đến uy tín tổ chức. Kogan chuyển sang Singapore, lấy vợ và bắt đầu tự xưng là tiến sỹ Spectre (nhân vật truyện tranh). Kosinski sang Mỹ và bắt đầu làm ở Stanford.

Trong hơn một năm sau đó, mọi thứ yên bình; nhưng đến tháng 11/2015, lãnh tụ phái cấp tiến ủng hộ Brexit Nigel Farage tuyên bố là website của ông ấy bắt đầu làm việc với một công ty chuyên về Big Data, chính là CA. Năng lực cốt lõi của công ty này là tiếp thị chính trị (political marketing) kiểu mới, còn được gọi là microtargeting, trên nền tảng phương pháp OCEAN. Kosinski bắt đầu nhận được nhiều thư tín – dựa trên các từ Cambridge, OCEAN và Analytica, nhiều người nghĩ rằng anh có liên quan. Nhưng thật ra chỉ đến lúc đó anh mới biết đến sự tồn tại của công ty này. Lo sợ, anh tìm hiểu website của họ. Ác mộng đã thành hiện thực: phương pháp của anh đã được sử dụng vào cuộc chơi chính trị lớn.

Vào tháng 7, sau trưng cầu dân ý về Brexit với việc nước Anh rời EU, những lời nguyền rủa bắt đầu hướng về anh. “Hãy nhìn xem, ông đã làm gì!”. Mỗi lẫn như vậy, Kosinski lại phải tự bào chữa và chứng minh rằng mình không liên quan gì đến công ty kia.

Nix luôn mặc vét, đeo cặp kính thời trang, với mái tóc quăn sáng màu chải ra sau gáy

Vào ngày 19/9, chiến dịch tranh cử tổng thống Mỹ đang ở cao trào. Phòng họp khách sạn Grant Hyatt ở New York với tông màu xanh đậm tràn đầy tiếng guitar – ban nhạc Creedence Clearwater Revival đang chơi bài Bad Moon Rising. Đó là Concordia summit, một dạng diễn đàn kinh tế thế giới thu nhỏ. Những người quyền lực nhất trên thế giới đều có mặt. “Xin chào mừng Alexander Nix, giám đốc Cambridge Analytica”, khán phòng vang lên một giọng nữ dễ chịu. Trên sân khấu xuất hiện người đàn ông cao trong bộ vest sẫm màu. Im lặng bao trùm khán phòng. Nhiều người khi đó đã biết, đứng trước họ là chuyên gia số mới của Trump. “Sắp tới các bạn sẽ gọi tôi là Mr. Brexit”, Trump đã viết trên Twitter của mình một cách bí hiểm vài tuần trước. Quả thật, các nhà phân tích chính trị khi đó đã viết về sự tương đồng giữa chương trình của Trump và của những kẻ muốn tách Anh ra khỏi EU. Và chỉ số ít là biết mối liên quan giữa Trump và công ty CA vô danh kia.

Đón đọc bài tiếp : “Big Data đã ảnh hưởng đến bầu cử tổng thống Mỹ và Brexit như thế nào?