Meta Bị Tố “Thao Túng” Điểm Benchmark AI Llama 4: Sự Thật Hay Tin Đồn?

Meta Bị Tố “Thao Túng” Điểm Benchmark AI Llama 4: Sự Thật Hay Tin Đồn?

#Meta #Llama4 #AI #Benchmark #CôngNghệ #TinTức

Mới đây, Meta đối mặt với cáo buộc “thổi phồng” hiệu suất của hai mô hình AI Llama 4 Maverick và Scout bằng cách điều chỉnh dữ liệu đánh giá. Tuy nhiên, lãnh đạo cao cấp của công ty đã lên tiếng phản bác, khẳng định thông tin này là sai sự thật.

### Meta Phủ Nhận Cáo Buộc Gian Lận Benchmark
Ahmad Al-Dahle, Phó Chủ tịch phụ trách AI tạo sinh tại Meta, bác bỏ nghi ngờ rằng công ty sử dụng bộ dữ liệu kiểm tra (test set) để huấn luyện mô hình nhằm đạt điểm benchmark cao hơn thực tế. Trên nền tảng X (Twitter), ông khẳng định: *”Việc Meta huấn luyện Llama 4 bằng test set là hoàn toàn không đúng sự thật.”*

Trong lĩnh vực AI, việc sử dụng test set để huấn luyện mô hình bị coi là gian lận, vì nó làm sai lệch kết quả đánh giá, khiến AI có vẻ mạnh hơn khả năng thực tế.

### Nguồn Gốc Tin Đồn
Nghi ngờ bắt nguồn từ một bài đăng trên mạng xã hội Trung Quốc bởi một người tự xưng là cựu nhân viên Meta, cho rằng công ty “che giấu điểm yếu” của Llama 4. Tin đồn lan rộng trên X và Reddit sau khi một số báo cáo chỉ ra rằng Maverick và Scout hoạt động kém hiệu quả trong một số tác vụ cụ thể.

Đáng chú ý, Meta bị nghi ngờ sử dụng phiên bản Maverick chưa công bố để đạt điểm cao trên bảng xếp hạng LM Arena, trong khi phiên bản công khai lại có hiệu suất thấp hơn.

### Meta Thừa Nhận Vấn Đề Chất Lượng Không Đồng Đều
Al-Dahle thừa nhận rằng một số người dùng gặp phải tình trạng chất lượng không ổn định khi dùng Maverick và Scout thông qua các nhà cung cấp đám mây khác nhau. Ông giải thích: *”Do chúng tôi phát hành mô hình ngay khi hoàn tất, cần vài ngày để tối ưu hóa phiên bản công khai. Chúng tôi đang khắc phục lỗi và hỗ trợ đối tác tích hợp.”*

### Kết Luận
Dù tin đồn chưa được xác minh, sự việc làm dấy lên tranh cãi về tính minh bạch trong đánh giá AI. Liệu đây chỉ là hiểu lầm hay Meta thực sự có hành vi “làm đẹp” kết quả? Cộng đồng công nghệ đang chờ đợi phản hồi chi tiết hơn từ phía công ty.

Khánh Huyền (Theo TechCrunch)

#Meta #Llama4 #Benchmark #TríTuệNhânTạo #TinCôngNghệ #AI #XácThựcThôngTin

Một lãnh đạo cấp cao của Meta vừa lên tiếng bác bỏ tin đồn cho rằng công ty đã điều chỉnh các mô hình trí tuệ nhân tạo (AI) mới để đạt điểm cao bất thường trong các bài đánh giá chuẩn (benchmark), đồng thời che giấu các điểm yếu thực sự của mô hình.

Ahmad Al-Dahle, Phó Chủ tịch phụ trách mảng AI tạo sinh (generative AI) tại Meta, viết trên nền tảng X rằng việc Meta huấn luyện các mô hình Llama 4 Maverick và Llama 4 Scout bằng các bộ dữ liệu kiểm tra (test set) là “hoàn toàn không đúng sự thật”.

Meta bị nghi “thổi phồng” kết quả thử nghiệm AI Llama 4. (Ảnh: Reuters)

Trong lĩnh vực AI, test set là tập dữ liệu dùng để đánh giá hiệu suất của mô hình sau khi huấn luyện. Nếu mô hình được huấn luyện trên chính bộ dữ liệu này, điểm số benchmark sẽ bị bóp méo, khiến mô hình có vẻ như hoạt động tốt hơn thực tế.

Cuối tuần qua, tin đồn chưa được xác thực về việc Meta gian lận điểm benchmark của các mô hình mới bắt đầu lan truyền trên X và Reddit. Nguồn gốc của tin đồn được cho là bắt nguồn từ một bài đăng trên mạng xã hội Trung Quốc, bởi một người dùng tự nhận là cựu nhân viên Meta đã nghỉ việc để phản đối cách công ty thực hiện các bài đánh giá mô hình.

Bảng đánh giá Llama 4 của Meta cung cấp.

Một số báo cáo cho thấy Llama 4 Maverick và Scout hoạt động kém hiệu quả trong một số tác vụ nhất định, góp phần làm dấy lên nghi ngờ. Việc Meta sử dụng một phiên bản thử nghiệm, chưa công bố rộng rãi của Maverick để đạt điểm số cao hơn trên benchmark LM Arena cũng làm tin đồn thêm phần lan rộng. Một số nhà nghiên cứu trên X cho biết họ quan sát thấy sự khác biệt rõ rệt giữa phiên bản Maverick có thể tải về công khai và phiên bản được Meta triển khai trên LM Arena.

Al-Dahle thừa nhận rằng một số người dùng đang gặp phải chất lượng không đồng đều khi sử dụng Maverick và Scout thông qua các nhà cung cấp đám mây khác nhau.

“Kể từ khi chúng tôi phát hành các mô hình ngay khi hoàn tất, sẽ mất vài ngày để các phiên bản công khai được điều chỉnh tối ưu,” ông viết. “Chúng tôi sẽ tiếp tục xử lý lỗi và hỗ trợ các đối tác tích hợp.”

Khánh Huyền (Nguồn: Tech Crunch)


Khám phá thêm từ Rao vặt giá tốt

Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.

Gửi phản hồi

[analytify-views]
💥 Không tìm thấy hàm Analytify!

Khám phá thêm từ Rao vặt giá tốt

Đăng ký ngay để tiếp tục đọc và truy cập kho lưu trữ đầy đủ.

Tiếp tục đọc