Đầu năm 2020, khi đại dịch COVID-19 bắt đầu âm thầm rò rỉ ra khỏi biên giới Trung Quốc, Tổ chức Y tế Thế giới (WHO) thực sự đã không làm tròn nhiệm vụ của họ.
Một mặt, WHO nói rằng Trung Quốc đang kiểm soát tốt dịch bệnh và chưa có bằng chứng virus SARS-CoV-2 có thể lây nhiễm từ người sang người. Mặt khác, họ chỉ trích các quốc gia đóng cửa đường bay và biên giới của họ với Trung Quốc.
Điều này đã tạo cơ hội cho dịch COVID-19 lây lan ra hàng trăm quốc gia khác trên thế giới. Và điều gì đến cũng phải đến, ngày 11/3/2020, WHO chính thức tuyên bố COVID-19 là một đại dịch toàn cầu. Nhưng mọi chuyện đã quá muộn, đã có 122.000 người nhiễm bệnh ở 121 quốc gia và vùng lãnh thổ trên thế giới.
Bấy giờ, các mô hình dự đoán cho đại dịch COVID-19 mới cấp tập được xây dựng. "Liệu đại dịch sẽ lây lan đến đâu? Nó sẽ nhiễm bệnh cho bao nhiêu người và có bao nhiêu người tử vong vì COVID-19?" là những câu hỏi mà các mô hình này cần phải trả lời để giúp chúng ta có cái nhìn trước về tương lai đồng thời chuẩn bị cơ sở hạ tầng y tế, hậu cần để đối phó với COVID-19.
Caption: Các mô hình dự đoán đã được đầu tư hàng triệu USD, nhưng vẫn cho ra kết quả sai trong những ngày đầu đại dịch COVID-19.
Hai tổ chức lớn là Đại học Hoàng gia London và Viện Đánh giá và Đo lường Sức khỏe Hoa Kỳ (IHME) đã nhận nhiệm vụ trở thành những "nhà tiên tri" cho nhân loại. Họ đã độc lập xây dựng hai hệ thống thống kê và dự báo dịch bệnh COVID-19 cho toàn thế giới.
Nhưng rồi kết quả mà hai mô hình cho ra lại xung đột nhau. Mô hình của IHME nói rằng Hoa Kỳ chỉ phải hứng chịu 60.000 ca tử vong do COVID-19 cho đến cuối tháng 8 năm ngoái. Trong khi Đại học Hoàng gia London dự báo con số có thể lên tới 2 triệu người.
Cả hai mô hình đều đã được xây dựng vận hành bởi những kỹ sư tin học và các chuyên gia dịch tễ hàng đầu thế giới với khoản đầu tư hàng triệu USD. Vậy mà cuối cùng kết quả dự đoán của họ đều sai.
Vào đầu tháng 8 năm 2020, Hoa Kỳ ghi nhận 160.000 ca tử vong do COVID-19.
Sự bất lực từ các mô hình dự đoán đại dịch của IHME và Đại học Hoàng gia London đã khiến Youyang Gu, một nhà khoa học dữ liệu trẻ người Mỹ quan tâm. Chàng trai 26 tuổi có bằng thạc sĩ về kỹ thuật điện và khoa học máy tính từ Học viện Công nghệ Massachusetts. Anh cũng có một bằng khác về toán học, nhưng không được đào tạo chính quy về dịch tễ cũng như y học.
Tuy nhiên, Youyang Gu nghĩ kinh nghiệm và vốn kiến thức của mình đủ để giúp anh tạo ra được một mô hình dự đoán còn tốt hơn cả IHME và Đại học Hoàng gia London. Thế là trung tuần tháng 4 năm ngoái, Youyang Gu đã về nhà bố mẹ mình ở Santa Clara, California và dành 7 ngày liên tục để tạo ra một mô hình dự đoán cho đại dịch.
Anh đẩy nó lên một trang web tự tạo khác và cho phép mọi người truy cập miễn phí để xem các thông tin cập nhật cũng như dự đoán về COVID-19. Chẳng bao lâu sau, mô hình của Youyang Gu bắt đầu cho ra kết quả chính xác hơn cả IHME và Đại học Hoàng gia London.
"Mô hình của anh ấy là mô hình duy nhất có thể dùng được ở thời điểm đó", Jeremy Howard, một chuyên gia dữ liệu và nhà khoa học nghiên cứu nổi tiếng tại Đại học San Francisco phải nhận định như vậy. "Các mô hình khác được chứng minh là vô dụng hết lần này đến lần khác".
Đáng tiếc, đa số các nhà khoa học, những bài báo, trích dẫn về đại dịch COVID-19 vẫn dẫn nguồn về dự báo của IHME và Đại học Hoàng gia London chỉ vì họ là những cơ quan có danh tiếng. Không mấy ai để ý đến trang web của một cậu thanh niên nhập cư người Hoa, người thực sự đã xem xét các dữ liệu và đối chiếu chúng một cách nghiêm túc hơn cả, Howard nói.
Bí quyết mà Youyang Gu sử dụng để xây dựng lên mô hình dự đoán của mình rất đơn giản. Trước tiên, anh ấy xem xét mối quan hệ giữa số lượng người xét nghiệm COVID-19, số ca nhập viện và một số yếu tố khác xung quanh.
Youyang Gu nhận thấy các dữ liệu này được chính phủ Mỹ và các tiểu bang công bố rất không nhất quán. Số liệu đáng tin cậy nhất hóa ra chỉ là lượng người tử vong mỗi ngày.
"Các mô hình khác sử dụng nhiều nguồn dữ liệu hơn, nhưng tôi quyết định chỉ tập trung dựa vào số ca tử vong trong quá khứ để dự đoán những cái chết trong tương lai", anh nói. "Bởi chỉ có một đầu vào duy nhất, nó sẽ giúp lọc hết toàn bộ dữ liệu nhiễu".
Sau khi đã có dữ liệu vào được tinh lọc, Youyang Gu đã sử dụng các thuật toán máy học để trau dồi số liệu của mình.
Tốt nghiệp từ MIT, chàng trai 26 tuổi đã từng dành một vài năm làm việc trong ngành tài chính chỉ để viết thuật toán cho các hệ thống giao dịch. Công việc đòi hỏi các dự báo của anh ấy phải rất chính xác nếu không muốn bị nghỉ việc.
Do đó khi bài toán tài chính trở thành COVID-19, Youyang Gu đã có thể tiếp cận ngay được vấn đề. Anh liên tục huấn luyện thuật toán của mình học từ dữ liệu dự đoán và đối chiếu nó với số ca tử vong do COVID-19 được công bố tại Mỹ.
Cứ mỗi ngày trôi qua, thuận toán sẽ học được một vòng dữ liệu và trở nên chính xác hơn bao giờ hết.
Cho đến cuối tháng 4 năm ngoái, trang web của Youyang Gu dự đoán Hoa Kỳ sẽ chứng kiến 80.000 ca tử vong vì COVID-19 vào ngày 9 tháng 5. Số người chết thực tế được công bố khi đó là 79.926 người. Trong so sánh, dự báo tương tự vào cuối tháng 4 từ IHME nghĩ rằng Hoa Kỳ sẽ không có quá 80.000 ca tử vong trong cả năm 2020.
Nhưng Youyang Gu tiếp tục đặt niềm tin vào thuật toán của anh. Nó nghĩ rằng vào ngày 18 tháng 5, số ca tử vong vì COVID-19 tại Mỹ sẽ cán mốc 90.000 và ngày 27 tháng 5 là 100.000. Một lần nữa, sự thật đã xảy ra đúng như vậy.
Cùng thời điểm đó, mô hình của IHME thì vẫn tỏ ra vô dụng. Được vận hành bởi hàng chục chuyên gia hàng đầu tại Đại học Washington và nhận 500 triệu USD tài trợ từ Quỹ Bill & Melinda Gates, IHME tiếp tục đưa ra một dự đoán mới nói rằng virus SARS-CoV-2 sẽ biến mất khỏi Mỹ ngay sau khi nước này thực hiện giãn cách xã hội vào tháng 6.
Trái với đó, mô hình của Youyang Gu nói rằng sẽ có một làn sóng lây nhiễm và tử vong lớn thứ hai khi nhiều bang của Hoa Kỳ mở cửa trở lại. Và như bạn đã biết, ai là người dự đoán đúng những gì đã xảy ra.
Đáng tiếc, dữ liệu của IHME vẫn được lựa chọn để trích dẫn trong các nghiên cứu, bài báo và thậm chí cả phát biểu của cựu tổng thống Donald Trump, chỉ bởi họ là một tổ chức lớn và có tiếng uy tín. Các quan chức của IHME cũng tích cực quảng bá dự đoán của họ.
"Bạn đã thấy IHME trên tất cả các chương trình tin tức phải không, những chương trình cố gắng nói với mọi người rằng số người chết vì COVID-19 sẽ giảm về 0 vào tháng Bảy", Youyang Gu nói.
"Nhưng với trực giác thông thường, mọi người đều biết [nó là không thể] khi chúng ta vẫn chứng kiến từ 1.000 đến 1.500 người chết mỗi ngày. Tôi nghĩ IHME và các kênh truyền thông đã làm điều đó một cách vô ích".
Để cố gắng chống lại xu hướng dự báo sai và cảnh báo phương tiện truyền thông cùng các nhà dịch tễ học, Youyang Gu nghĩ ra một cách. Anh liên tục tag các phóng viên mình biết trên Twitter và tra cứu email của các nhà khoa học để gửi cho họ xem thử mô hình thống kê của mình.
Về cơ bản, nó giống như một chiến dịch spam bền bỉ trong suốt nhiều tuần lễ. Dần dần, cũng bắt đầu có nhiều người chú ý đến trang web của anh hơn. Vào cuối tháng 4 năm ngoái, Carl Bergstrom, một nhà sinh vật học nổi tiếng của Đại học Washington đã kiểm tra và tweet về mô hình của Gu trên Twitter:
"Không giống như mô hình của IHME, mô hình của Youyang Gu cố gắng dự đoán những gì sẽ xảy ra sau giai đoạn giãn cách xã hội gay gắt như hiện nay. Điều này cho phép cậu ấy tránh được các ước tính thấp đến mức nực cười của IHME về số ca tử vong vì COVID-19 trong tháng 6".
Không lâu sau, Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh Hoa Kỳ (CDC) cũng đã để ý đến mô hình dự báo tốt hơn của Youyang Gu và đưa các con số của anh ấy lên trang web phân tích COVID-19 của mình.
Tại IHME, khi bị chất vấn về các dự báo sai, Christopher Murray, giám đốc của họ nói rằng đó chỉ là những dữ liệu ban đầu. Một khi mô hình của họ xử lý tốt hơn thì các dự báo của họ sau tháng 4 sẽ được cải thiện một cách triệt để.
Nhưng điều đó chỉ diễn ra sau khi Youyang Gu, một chàng thanh niên gốc Hoa nhập cư lớn lên ở Illinois, California được mời tham gia vào hàng loạt các cuộc họp thường xuyên với CDC. Trong đó, Trung tâm kiểm soát dịch bệnh Hoa Kỳ đã phải tập hợp các đội ngũ thiết kế mô hình dự đoán bao gồm nhiều nhà dịch tễ học chuyên nghiệp lại để nghe cậu ấy chia sẻ về cách cải thiện dữ liệu.
Cùng lúc đó, lưu lượng truy cập vào trang web của Youyang Gu đã bùng nổ. Có hàng triệu người đã đăng ký mỗi ngày để có thể xem những gì đang xảy ra ở các tiểu bang và sẽ xảy ra với toàn nước Mỹ trong đại dịch.
Tất nhiên, mô hình của Youyang Gu vẫn hoạt động một cách hoàn hảo. Những dự đoán mà nó đưa ra về con số tử vong trong vài tuần tới đều chính xác. Chẳng hạn, mô hình của anh ấy cho biết số lượng ca tử vong tại Hoa Kỳ vào ngày 1 tháng 11 năm 2020 sẽ là 231.000 trường hợp. Đến đúng ngày 1 tháng 11 năm ngoái, Hoa Kỳ báo cáo 230.995 cái chết do COVID-19.
Nhưng bất ngờ, đó cũng là dự báo cuối cùng mà mô hình của Youyang Gu đưa ra. Đầu tháng 10, anh ấy quyết định dừng tính toán số lượng người chết ở Hoa Kỳ trong đại dịch. Trang web chuyển sang các thống kê mới liên quan đến chương trình tiêm chủng vắc-xin và dự báo miễn dịch cộng đồng.
Tại Trung tâm Dự báo COVID-19 Quốc gia Hoa Kỳ, Nicholas Reich, một phó giáo sư đến từ Khoa Thống kê Sinh học và Dịch tễ học Đại học Massachusetts đã xem xét mô hình của Youyang Gu cùng với khoảng 50 mô hình dự báo COVID-19 khác. Ông ấy kiên nhẫn theo dõi chúng trong nhiều tháng để xếp hạng độ chính xác của các mô hình này.
"Mô hình của Youyang luôn nằm trong top dẫn đầu", Reich nói. Công việc của ông sau đó là xử lý các dữ liệu tổng hợp từ tất cả các mô hình đúng nhất này, để cho ra một dự báo thống nhất về tình hình đại dịch ở Mỹ.
"Youyang Gu đã lùi lại phía sau với một cảm giác khiêm tốn đáng kể", Reich cho biết thêm. Đó là khi anh ấy thấy các mô hình khác đã bắt đầu được cải tiến và trở nên đáng tin cậy hơn. Một mình Youyang Gu đã làm việc toàn thời gian và không lương để xây dựng mô hình này.
Anh ấy cũng đã không ngại ngần chia sẻ kinh nghiệm mình với các chuyên gia của CDC cùng các tổ chức khác. Giờ khi mọi thứ đều đã trở nên tốt đẹp hơn giờ là lúc anh ấy cần trở lại với công việc của riêng mình.
Thế nhưng khi giải thích về sự rút lui của Youyang Gu, giám đốc của IHME, Murray lại cho rằng đó là vì mô hình của anh ấy sắp bộc lộ yếu điểm khi mùa đông tới. Ông nói rằng mô hình của Youyang Gu không dựa trên tính chất bùng phát theo mùa của virus corona và nó sẽ không dự báo được số lượng ca tử vong tăng thêm trong mùa đông.
Bản thân Murray cũng thừa nhận các phương pháp học máy mà Youyang Gu sử dụng hoạt động rất tốt trong các dự đoán phạm vi ngắn. Có điều, chúng sẽ "không hiểu rõ điều gì đang xảy ra" trong một bức tranh lớn hơn, Murray nói.
Theo ông, các thuật toán này cũng chưa tính đến trường hợp virus SARS-Cov-2 biến thể và mức độ hiệu quả của vắc-xin đáp ứng với điều đó.
Về phần mình, IHME cũng thừa nhận sai lầm trong dự báo của mình vào tháng 4. Tuy nhiên, họ nhấn mạnh trước sai lầm đó, mô hình của IHME vẫn chính xác. Dự báo số ca tử vong giảm mạnh trong tháng 6 chỉ là một sai lầm nhất thời và đã được sửa chữa.
"Kể từ đó, chúng tôi là nhóm duy nhất đã làm đúng một cách nhất quán", Murray nói.
Reich đồng ý một nửa với điều này, ông nói rằng những dự báo của IHME sau này có thể dùng được. "Tuy nhiên, ngay từ đầu, mô hình của IHME đã không làm được những gì họ quảng cáo. Phải tới tận gần đây, nó mới trở thành một mô hình hợp lý. Tôi sẽ không nói mô hình của IHME nằm trong nhóm những mô hình tốt nhất, nhưng nó hợp lý".
Khi được hỏi về những nhận xét của Murray, Youyang Gu đã từ chối bình luận mà chỉ trả lời một cách khiêm tốn: "Tôi rất trân trọng Tiến sĩ Chris Murray và nhóm của ông ấy vì công việc họ đã làm. Nếu không có họ, tôi sẽ không có được vị trí như ngày hôm nay".
Vậy rốt cuộc, bài học mà nước Mỹ có thể rút ra được trong câu chuyện này là gì? Reich cho biết đó là thái độ chuẩn bị và sự nghi ngờ cần có khi lấy kết quả từ mọi mô hình dự báo đơn lẻ, dù cho nó đã được xây dựng bởi bất kỳ tổ chức lớn nào.
Youyang Gu, một nhà khoa học dữ liệu trẻ nhập cư có thể đã đánh bại cả hai tổ chức lớn chỉ nhờ vào tinh thần phản biện và kỹ năng nghề nghiệp của anh ấy. Điều này một mặt cho thấy tài năng của Youyang Gu, nhưng mặt khác cũng chứng minh IHME đã không chuẩn bị tốt cho đại dịch.
"Tôi hy vọng chúng ta sẽ có thể đầu tư nhiều thời gian, năng lượng và tiền bạc hơn để thiết lập một hệ thống sẵn sàng đáp ứng hơn với bất kể một biến cố nào, ngay ở thời điểm ban đầu của nó", Reich nói. "Chúng ta phải có những người luôn sẵn sàng, thay vì cứ phải đi xung quanh và gõ cửa từng nhà một".
Thật vậy, nếu nước Mỹ không gõ cửa nhà Youyang Gu vào năm ngoái, thực sự khó có thể biết cái nhìn về đại dịch COVID-19 của họ sẽ bị các dự báo bóp méo đến bao giờ.
Tham khảo Bloomberg