AI ‘tự giác’: Mô hình ngôn ngữ lớn tự kiểm duyệt lời nói, giảm thiểu độc hại

Các mô hình ngôn ngữ lớn (LLM) đang định hình tương lai, nhưng mặt trái của chúng – khả năng tạo ra nội dung độc hại, sai lệch – vẫn là một thách thức nhức nhối. Giờ đây, một phương pháp đột phá từ MIT, MIT-IBM Watson AI LabIBM Research, mang tên self-disciplined autoregressive sampling (SASA), hứa hẹn sẽ trang bị cho AI khả năng “tự kỷ luật”, hướng tới một kỷ nguyên giao tiếp số an toàn và có đạo đức hơn.

Key Takeaways

  • LLM có thể tạo ra nội dung độc hại do học từ dữ liệu chứa thông tin sai lệch và ngôn ngữ thô tục.
  • Phương pháp SASA giúp LLM tự “giải độc” nội dung mà không làm giảm tính trôi chảy của ngôn ngữ.
  • SASA hoạt động bằng cách xác định ranh giới giữa “không gian con độc hại” và “không độc hại” trong LLM.
  • SASA đã được chứng minh là giảm đáng kể việc tạo ra ngôn ngữ độc hại trên nhiều LLM khác nhau.
  • SASA có tiềm năng mở rộng để AI không chỉ “nói sạch” mà còn trung thực, hữu ích và đáng tin cậy.

AI “Mất Kiểm Soát”: Nỗi Ám Ảnh Từ Ngôn Ngữ Độc Hại

Không thể phủ nhận sức mạnh biến đổi của các mô hình ngôn ngữ lớn . Tuy nhiên, chính nguồn dữ liệu khổng lồ mà chúng “tiêu thụ” để học hỏi – thường là toàn bộ internet và các bộ dữ liệu công khai khác – lại chứa đựng những “mầm mống” nguy hiểm. Từ ngữ thô tục, thông tin sai lệch, định kiến độc hại, tất cả đều có thể len lỏi vào quá trình huấn luyện, khiến LLM có khả năng tự sản sinh hoặc bị “lừa” để tạo ra nội dung tiêu cực, ngay cả từ những gợi ý vô hại ban đầu.

AI ‘tự giác’: Mô hình ngôn ngữ lớn tự kiểm duyệt lời nói, giảm thiểu độc hại

Nguồn Cội Của “Bóng Tối” Trong LLM

Thực tế cho thấy, việc LLM học và khuếch đại những ngôn ngữ không mong muốn, thậm chí gây bất lợi cho nhiều ứng dụng và tác vụ sau đó, là một vấn đề cố hữu. Chúng ta phát triển từ thời thơ ấu, vốn từ và cách sử dụng ngôn ngữ của chúng ta ngày càng phong phú, phản ánh giá trị cá nhân, đạo đức và chuẩn mực văn hóa. Chúng ta học cách tự điều chỉnh, tránh những phát ngôn có thể gây tổn thương. LLM, theo một cách nào đó, cũng cần một “kim chỉ nam” nội tại tương tự.

Giới chuyên gia từ lâu đã nhận diện nguy cơ tiềm ẩn này. Việc một LLM, vốn được thiết kế để hỗ trợ con người, lại có thể trở thành công cụ lan truyền thông tin độc hại là một nghịch lý đáng báo động. Nhu cầu về các chiến lược giảm thiểu hoặc khắc phục trở nên cấp thiết hơn bao giờ hết.

Mục lục

    SASA: Tia Sáng Mới Trong Cuộc Chiến “Thanh Lọc” AI

    Trước thách thức đó, phương pháp SASA ra đời như một giải pháp đầy hứa hẹn. Điểm cốt lõi của SASA là cho phép LLM tự “giải độc” cho kết quả đầu ra của chính nó mà không làm suy giảm sự trôi chảy của ngôn ngữ. Đây là một bước tiến quan trọng, bởi các phương pháp trước đây thường phải đánh đổi.

    Cơ Chế Hoạt Động Đột Phá: LLM Tự “Dạy Dỗ” Chính Mình

    Khác biệt với các kỹ thuật “giải độc” khác, thuật toán giải mã này học cách xác định một “ranh giới” giữa các “không gian con độc hại/không độc hại” ngay bên trong biểu diễn nội tại của LLM. Điều quan trọng là nó thực hiện điều này mà không cần thay đổi các tham số của mô hình gốc, không cần huấn luyện lại tốn kém, hay dựa vào một mô hình khen thưởng bên ngoài.

    AI ‘tự giác’: Mô hình ngôn ngữ lớn tự kiểm duyệt lời nói, giảm thiểu độc hại

    Trong quá trình tạo văn bản (suy luận), thuật toán sẽ đánh giá “mức độ độc hại” của cụm từ đang được tạo ra – bao gồm các token (từ) đã được chấp nhận và mỗi token tiềm năng mới. Sau đó, nó ưu tiên chọn một từ đưa cụm từ vào “không gian không độc hại”. Kết quả là một cách thức nhanh chóng và hiệu quả để tạo ra ngôn ngữ ít độc hại hơn.

    Ching-Yun “Irene” Ko PhD ’24, tác giả chính của nghiên cứu, hiện là nhà khoa học nghiên cứu tại Trung tâm Nghiên cứu Thomas J. Watson của IBM, chia sẻ: “Chúng tôi muốn tìm ra một cách để bất kỳ mô hình ngôn ngữ hiện có nào, trong quá trình tạo văn bản, việc giải mã có thể tuân theo một số giá trị nhân văn; ví dụ ở đây chúng tôi đang lấy là tính độc hại.”

    Không Cần “Đập Đi Xây Lại”: Ưu Điểm Vượt Trội Của SASA

    Nhiều giải pháp đã được đề xuất, từ việc làm sạch bộ dữ liệu huấn luyện khổng lồ – một công việc tốn kém và có thể ảnh hưởng đến hiệu năng tổng thể của mô hình – đến việc sử dụng các mô hình khen thưởng bên ngoài, vốn thường chậm hơn và đòi hỏi nhiều bộ nhớ hơn. SASA, với chiến lược dựa trên giải mã trong quá trình suy luận của LLM, đã tận dụng bản chất tự hồi quy của các mô hình này. Nó dần dần điều hướng việc tạo ra từng token một, tránh xa các kết quả không mong muốn.

    Nhóm nghiên cứu đã xây dựng một bộ phân loại tuyến tính hoạt động trên không gian con được học từ phần nhúng (embedding) của LLM. Họ giả thuyết rằng phần nhúng của LLM, nơi các từ có nghĩa tương tự được đặt gần nhau, cũng nắm bắt thông tin ngữ cảnh có thể dùng để “giải độc”. Bằng cách sử dụng các bộ dữ liệu chứa các cặp gợi ý-phản hồi được gán nhãn độc hại/không độc hại, một bộ phân loại Bayes-tối ưu đã được áp dụng để “vẽ” một ranh giới giữa các không gian con này. Hệ thống SASA sau đó sẽ điều chỉnh xác suất lấy mẫu của token tiềm năng mới nhất dựa trên giá trị của nó và khoảng cách của cụm từ đang tạo đến bộ phân loại, nhằm mục tiêu duy trì sự gần gũi với phân phối lấy mẫu ban đầu.

    “Mục tiêu là thay đổi quá trình lấy mẫu tự hồi quy bằng cách điều chỉnh lại xác suất của các token tốt. Nếu token tiếp theo có khả năng độc hại trong ngữ cảnh nhất định, chúng tôi sẽ giảm xác suất lấy mẫu cho những token dễ gây độc đó,” bà Ko giải thích.

    Thử Nghiệm Nghiêm Ngặt: SASA Chứng Minh Hiệu Quả

    Các nhà nghiên cứu đã đánh giá phương pháp của họ với nhiều biện pháp can thiệp cơ sở trên ba LLM có kích thước tăng dần: GPT-2 Large (762 triệu tham số), Llama2-7b (7 tỷ tham số), và Llama 3.1-8b-Instruct (8 tỷ tham số). Mỗi LLM được yêu cầu hoàn thành câu/cụm từ 25 lần cho mỗi gợi ý, và PerspectiveAPI sẽ chấm điểm độc hại từ 0 đến 1 (trên 0.5 là độc hại).

    Hai chỉ số chính được xem xét: điểm độc hại tối đa trung bình qua 25 lần tạo và tỷ lệ độc hại (xác suất tạo ra ít nhất một cụm từ độc hại qua 25 lần). SASA đã được thử nghiệm trên các bộ dữ liệu RealToxicityPrompts (RPT), BOLD, và AttaQ.

    AI ‘tự giác’: Mô hình ngôn ngữ lớn tự kiểm duyệt lời nói, giảm thiểu độc hại

    Giảm Độc Tính, Cân Bằng Giới: Những Con Số Biết Nói

    Kết quả cho thấy SASA đã giảm đáng kể việc tạo ra ngôn ngữ độc hại, hiệu suất tương đương với RAD, một kỹ thuật mô hình khen thưởng bên ngoài tiên tiến. Tuy nhiên, một quan sát chung là việc “giải độc” mạnh hơn thường đi kèm với sự suy giảm nhất định về tính trôi chảy của ngôn ngữ. Một điểm đáng chú ý, trước khi can thiệp, các LLM có xu hướng tạo ra nhiều phản hồi độc hại hơn cho các gợi ý được gán nhãn nữ so với nam. SASA đã có thể giảm đáng kể các phản hồi có hại này, giúp chúng trở nên cân bằng hơn giữa các giới.

    Sự Đánh Đổi Và Bài Toán Tối Ưu

    Việc kết hợp lọc từ trên nền tảng SASA tuy làm giảm rõ rệt mức độ độc hại, nhưng cũng phần nào cản trở khả năng phản hồi mạch lạc của LLM. Đây chính là bài toán tối ưu mà bà Ko đề cập: tìm kiếm sự cân bằng giữa việc tạo ngôn ngữ tự nhiên, mở và nhu cầu giảm thiểu ngôn ngữ không mong muốn. Đây là một vấn đề tối ưu hóa có giới hạn, được xác định rõ ràng.

    Hướng Tới AI “Toàn Diện”: Tiềm Năng Chưa Khai Phá Của SASA

    Bà Ko nhấn mạnh: “Nếu chúng ta nghĩ về cách con người suy nghĩ và phản ứng trên thế giới, chúng ta thấy cả những điều xấu, vì vậy vấn đề không phải là chỉ cho mô hình ngôn ngữ thấy những điều tốt đẹp. Vấn đề là hiểu toàn bộ phổ – cả tốt và xấu – và chọn cách duy trì các giá trị của chúng ta khi nói và hành động.”

    Trong tương lai, SASA có thể hoạt động tốt cho nhiều thuộc tính khác nhau. Con người không chỉ muốn tránh nói những điều độc hại mà còn muốn trung thực, hữu ích và đáng tin cậy. Việc tinh chỉnh một mô hình cho tất cả các giá trị này sẽ đòi hỏi nhiều tài nguyên tính toán và đào tạo bổ sung. Nhờ tính gọn nhẹ, SASA có thể dễ dàng được áp dụng trong các trường hợp này. “Nếu bạn muốn làm việc với nhiều giá trị, đó chỉ đơn giản là kiểm tra vị trí của thế hệ trong nhiều không gian con. Nó chỉ thêm chi phí cận biên về mặt tính toán và tham số,” bà Ko cho biết, mở đường cho ngôn ngữ tích cực, công bằng và phù hợp với các nguyên tắc hơn.

    Kết luận

    SASA không chỉ là một giải pháp kỹ thuật đơn thuần; nó mở ra một hướng đi mới trong việc xây dựng AI có trách nhiệm và phù hợp với các giá trị nhân văn. Khả năng tự điều chỉnh, tự định hướng hành vi của LLM, mà không cần can thiệp sâu vào cấu trúc hay huấn luyện lại từ đầu, là một bước tiến quan trọng. Trong tương lai, phương pháp này hoàn toàn có thể được mở rộng để AI không chỉ “nói sạch” mà còn “nói thật”, hữu ích và đáng tin cậy, đóng góp tích cực hơn vào sự phát triển của xã hội số. Đây là một minh chứng cho thấy, với sự đổi mới không ngừng, con người có thể định hình công nghệ AI theo hướng phục vụ tốt hơn cho cộng đồng.

    Để lại một bình luận

    Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *