原文标题:Bạn đã huấn luyện trí tuệ nhân tạo của Google trong 15 năm. Bạn không hề hay biết.
原文作者:Sharbel, Đồng sáng lập Unfungible
原文 dịch: Lila, BlockBeats
Phần biên tập: Captcha, hay còn được gọi là hình ảnh xác thực, là các số hoặc hình ảnh mà bạn cần phải nhấp vào mỗi khi đăng nhập vào một trang web, mỗi người dùng internet đều quen thuộc với nó. Nhưng khi bạn liên tục nhấp vào "Tôi không phải là robot", bạn nghĩ rằng bạn chỉ đang xác minh danh tính, thực tế là bạn đang tham gia vào quá trình sản xuất dữ liệu lớn nhất và kín đáo nhất trên toàn cầu. reCAPTCHA được ra đời bởi Luis von Ahn đã biến các hành vi con người phân mảnh thành nền tảng dữ liệu hỗ trợ cho Google và các công ty con như công ty lái xe tự hành của họ - Waymo.
Dưới vỏ bọc "miễn phí" và "an toàn", internet đã yên lặng tạo ra một hình thức mối quan hệ lao động mới hoàn toàn: bạn dành thời gian để chứng minh bạn là con người, nhưng bạn đang đóng góp cho việc huấn luyện trí tuệ nhân tạo, và khi trí tuệ nhân tạo đã học được, công việc này sẽ bị thay thế hoàn toàn. Bài viết này đã đạt hơn 9,5 triệu lượt xem trên Twitter trong chưa đầy 20 giờ kể từ khi được đăng. Dưới đây là nội dung ban đầu:
Mỗi ngày, khoảng 500.000 giờ lao động của con người đã được Google sử dụng miễn phí. Những người đóng góp chỉ muốn đăng nhập vào internet banking một chút.
reCAPTCHA là hoạt động dữ liệu ẩn hiệu quả nhất trong lịch sử internet. Trong những thời điểm cao điểm, có 200 triệu người mỗi ngày hoàn thành xác minh. Nhưng gần như không ai nhận ra rằng ý nghĩa đằng sau mỗi lần nhấp.
Công ty xe hơi tự hành của Google - Waymo, hiện có giá trị thị trường 450 tỷ đô la. Và hầu hết dữ liệu huấn luyện cốt lõi của họ đều là do bạn cung cấp miễn phí khi truy cập các trang web khác nhau.
Dưới đây là câu chuyện đầy đủ:
Năm 2000, robot thư rác đang làm hỏng internet. Diễn đàn bị làm tràn, hộp thư đến tràn ngập, các trang web cần một cách phân biệt được con người và máy móc.
Giáo sư Luis von Ahn của Đại học Carnegie Mellon đã giải quyết vấn đề này. Ông đã phát minh ra hình ảnh xác thực (Captcha): một dòng chữ méo mó mà chỉ có con người mới có thể đọc được, máy móc không thể vượt qua được.
Nhưng von Ahn thấy được điều không chỉ như vậy. Hàng triệu người đã dành thời gian cho những thách thức này. Nhưng nếu năng lượng đó có thể làm hai việc cùng một lúc?
Vào năm 2007, anh đã giới thiệu reCAPTCHA. Điều tinh tế ở đây là: không còn hiển thị các ký tự ngẫu nhiên, mà thay vào đó hiển thị hai từ. Một từ là đã biết trong hệ thống, từ kia là từ của cuốn sách quét thật mà máy tính vẫn chưa thể nhận diện. Và câu trả lời của bạn đã giúp vào việc số hóa cuốn sách đó.
Những cuốn sách này đến từ kho lưu trữ của The New York Times và Google Books, lên đến 130 triệu cuốn.
Bạn có thể nghĩ rằng bạn chỉ đang đăng nhập vào một trang web bình thường, nhưng thực ra bạn đang tham gia vào quá trình OCR (Thuật toán nhận diện ký tự quang học) cho thư viện số lớn nhất thế giới.
Vào năm 2009, Google chính thức mua lại reCAPTCHA.

Thời kỳ "viết chữ xoắn" kết thúc vào khoảng năm 2012.
Google lại đối mặt với thách thức mới: Xe chụp ảnh đường phố đã chụp mọi con đường trên thế giới, nhưng hình ảnh chỉ là dữ liệu gốc. Để cho trí thông minh nhân tạo hoạt động, nó cần hiểu những gì nó nhìn thấy: biển báo đường, vạch đi bộ, đèn giao thông, cửa hàng.
Do đó, Google đã thiết kế lại reCAPTCHA v2. Không còn chữ xoắn, thay vào đó là lưới hình ảnh. "Chọn tất cả các ô có đèn giao thông đỏ." "Chọn mỗi dải phân cách." "Nhận diện cửa hàng."
Các hình ảnh này trực tiếp từ Google Street View. Việc bạn nhấp chuột là việc gán nhãn.
Mỗi lần lựa chọn đều thông báo cho mô hình thị giác máy tính của Google: cụm pixel đó là đèn giao thông, hình dạng kia là dải phân cách. Bạn không phải là người làm bài kiểm tra, bạn đang xây dựng tập dữ liệu.

Trong giai đoạn đỉnh điểm, mỗi ngày có 200 triệu reCAPTCHA được mở khóa. Mỗi thách thức mất 10 giây, điều này nghĩa là mỗi ngày tạo ra 20 tỷ giây lao động của con người. Tức là: mỗi ngày 500 nghìn giờ lao động.
Chi phí gán nhãn dữ liệu có thể lên đến từ 10 đến 50 đô la mỗi giờ. Theo tiêu chuẩn thấp nhất: Giá trị lao động miễn phí mỗi ngày lên đến 5 triệu đô la.
Ngoài ra, reCAPTCHA không chỉ tồn tại trên một Ứng dụng nào. Nó lan rộng đến mỗi ngân hàng, mỗi cổng thông tin chính phủ, mỗi trang web thương mại điện tử. Bạn không có lựa chọn: Muốn đăng nhập vào tài khoản? Hãy đánh dấu bộ dữ liệu trước.Google chưa bao giờ hỏi ý kiến của bạn, không trả lương cho bạn một xu, thậm chí chưa bao giờ nói với bạn điều này.

Dữ liệu này trực tiếp dùng để huấn luyện hai sản phẩm:
-Google Maps: Công cụ dẫn đường phổ biến nhất trên thế giới. Khả năng nhận diện biển số đường, cửa hàng và địa lý thành phố, một phần là nhờ hàng tỷ lần con người đánh dấu khi đăng nhập.
-Waymo: Dự án lái xe tự động của Google. Để lái xe an toàn, xe không người lái cần nhận diện gần như hoàn hảo hàng ngàn mẫu hình.
Công việc nhận diện đó là giá trị thực sự của dữ liệu huấn luyện, và đã được hàng triệu người đóng góp thông qua reCAPTCHA mà họ không hay biết. Waymo đã hoàn thành hơn 4 triệu chuyến đi có phí vào năm 2024, được định giá 450 tỷ USD. Nền tảng của nó, chính là từ những "dân mạng Internet" chỉ muốn kiểm tra email miễn phí.
Việc đánh dấu dữ liệu cực kỳ đắt đỏ. Sự tồn tại của các công ty như Scale AI, Appen và Labelbox chính là để giải quyết vấn đề này, họ thuê hàng trăm nghìn lao động, đôi khi với mức lương không đến 1 đô la mỗi giờ.
Lời giải của Google đi theo một cách tiếp cận khác: họ biến việc đánh dấu trở thành bắt buộc. Không cần trả tiền, không cần sự đồng ý, mà là một "vé vào cửa" cho mỗi góc Internet. Kết quả là: hàng tỷ hình ảnh đã được đánh dấu, với phủ sóng toàn cầu, mọi thời tiết, mỗi thành phố trên thế giới. Không một công ty đánh dấu nào có thể làm được điều này.Internet chính là một nhà máy, mỗi người dùng Internet đều là nhân viên không ký hợp đồng.

reCAPTCHA v3 ra mắt vào năm 2018 thậm chí không còn hiển thị thách thức. Nó dựa vào cách bạn di chuyển chuột, tốc độ cuộn trang, thời gian dừng lại để đánh giá xem bạn là con người hay không. Dữ liệu hành vi của bạn cũng sẽ được truyền lại vào hệ thống AI của Google.
Bạn chưa bao giờ chọn tham gia tự nguyện, không hề có một ô kiểm nào để bạn chọn. Nhưng lúc này, bạn vẫn đang làm điều đó trên hầu hết các trang web mà bạn truy cập.
Ý định ban đầu của Luis von Ahn là thiên tài: chuyển đổi năng lượng mà con người đang lãng phí thành sản phẩm hữu ích. Nhưng những gì Google làm dựa trên tầm nhìn đó lại là một câu chuyện hoàn toàn khác. Họ tận dụng cơ chế bảo mật mà người dùng phải sử dụng để triển khai trên toàn mạng, thu hoạch sản phẩm để xây dựng sản phẩm thương mại trị giá hàng tỷ đô la. Người dùng không nhận được gì, thậm chí còn không hề biết.
Ý cười lạ nhất ở chỗ: Bạn mất nhiều năm để chứng minh mình là con người, thông qua việc hoàn thành công việc nhận diện hình ảnh mà AI không thể làm được vào thời điểm đó. Nhưng khi AI học được những điều đó, việc gán nhãn hình ảnh của con người không còn cần thiết nữa.
Bạn đã chứng minh mình là con người, nhưng kết quả lại là làm cho mình trở nên có thể bị thay thế.
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia