Hôm thứ Tư 21/02/2024 vừa qua (giờ Mỹ), Google vừa ký thỏa thuận về quyền sử dụng dữ liệu với mạng xã hội Reddit. Theo đó, gã khổng lồ tìm kiếm này sẽ trả cho Reddit mỗi năm 60 triệu USD để có quyền truy cập vào nội dung của Reddit. Những nội dung này sẽ được dùng để huấn luyện cho Trí tuệ nhân tạo (AI) của Google.
Tờ Bloomberg nhận định thỏa thuận này có thể coi là một cột mốc, một hình mẫu cho các hợp đồng tương tự trong tương lai.
Trong hơn 1 năm qua, kể từ khi ChatGPT ra mắt, các ông lớn vẫn đang ở trong cao điểm của cuộc đua làm AI. Trong cuộc đua này, dữ liệu dùng để huấn luyện AI đóng một vai trò rất quan trọng. Và cùng từ đó, rất nhiều các cáo buộc cũng như kiện tụng đã nổ ra. Những người sáng tạo nội dung liên tục lên án các công ty làm AI đã sử dụng trái phép, vi phạm bản quyền các nội dung trên mạng. Các công ty công nghệ vẫn đang “vô tư” sử dụng tự do (và không trả phí) nội dung trên mạng để huấn luyện AI của mình.
Thỏa thuận giữa Google và Reddit có thể coi là một cột mốc mới, thể hiện giá trị của dữ liệu cũng như sự tôn trọng bản quyền mà các công ty công nghệ dành cho những người sáng tạo nội dung.
Đây có thể coi là một thỏa thuận mà đôi bên lãnh đạo công ty cùng có lợi. Reddit được coi là một mạng xã hội có nội dung rất chất lượng với các nhóm thảo luận chuyên sâu đa dạng, một số nhóm có hàng chục triệu thành viên. Và những dữ liệu này rất quý và hiệu quả trong việc huấn luyện AI.
Với việc trả phí cho Reddit, Google có được một nguồn dữ liệu tốt, hợp pháp để đào tạo AI trong bối cảnh họ đang bị tụt lại so với đối thủ như OpenAI hay Microsoft.
Đây cũng đặc biệt là chiến thắng của đội lãnh đạo Reddit. Mới nửa năm trước, Reddit còn bị lên án và tẩy chay vì kế hoạch thu phí AI này. Ban lãnh đạo Reddit bị hàng loạt người dùng chỉ trích và đe dọa rời bỏ nền tảng vì chính sách thu phí nhắm vào các công ty làm AI như kiểu ChatGPT hay Google.
Hồi tháng 6/2023, hơn 6.000 người dùng đã chuyển tài khoản của họ về chế độ “riêng tư” như một cách bày tỏ sự phẫn nộ trước quyết định thu phí API của Reddit.
Từ trước đến giờ, Reddit vẫn miễn phí truy cập dữ liệu của mình thông qua API. Một cách nôm na, API là 1 cổng để các phần mềm bên ngoài truy cập, lấy và sử dụng dữ liệu của Reddit. Tận dụng điều đó, rất nhiều công ty phần mềm trí tuệ nhân tạo (AI), tiêu biểu như OpenAI (chủ quản ChatGPT), đã lấy dữ liệu của Reddit để đào tạo cho AI của mình.
Giám đốc Reddit, ông Steve Huffman có vẻ rất “ngứa mắt” với điều đó. Ông khẳng định kho dữ liệu của Reddit rất có giá trị trong việc đào tạo trí tuệ nhân tạo và không thể “cho không biếu không” cho Google, OpenAI, Microsoft để những công ty này làm phần mềm của riêng mình được. Thế là tháng 4/2023, Reddit thông báo kế hoạch thu phí những công ty truy cập dữ liệu của Reddit và gây lên một cuộc tẩy chay lớn.
Nhưng cuối cùng, với thỏa thuận mới này, ban lãnh đạo Reddit đã chứng minh được tầm nhìn xa trông rộng của mình khi đã bắt được các hãng AI phải tôn trọng bản quyền nội dung của Reddit.
Nhưng với những người sáng tạo nội dung trên Reddit, những tác giả thực sự của dữ liệu vừa được bán với giá 60 triệu đô một năm, thì vẫn chưa thấy phần quyền lợi của mình trong bản thỏa thuận vừa ký này.