原文标题:Tại Sao Chúng Ta Cần Học Liên Tục
原文作者:Malika Aubakirova, Matt Bornstein, a16z crypto
原文翻译:TechFlow深潮
Trong bộ phim Memento của Christopher Nolan, nhân vật chính Leonard Shelby sống trong một hiện tại tan nát. Thiệt hại não làm cho anh ta mắc chứng mất trí nhớ theo hướng thuận lợi, không thể hình thành những ký ức mới. Mỗi vài phút, thế giới của anh ta đều được thiết lập lại một lần, bị mắc kẹt trong "hiện tại" vĩnh cửu, không nhớ được điều gì vừa xảy ra, cũng như không biết điều gì sẽ xảy ra tiếp theo. Để sống sót, anh ta có hình xăm trên cơ thể, polaroid, dựa vào những món đồ ngoại cảnh này để thay thế chức năng lưu trữ ký ức mà não bộ không thể thực hiện.
Các mô hình ngôn ngữ lớn cũng sống trong một hiện tại vĩnh cửu tương tự. Sau quá trình huấn luyện, kiến thức khổng lồ bị đóng băng trong các tham số, mô hình không thể tạo ra ký ức mới, không thể cập nhật các tham số của mình dựa trên kinh nghiệm mới. Để bù đắp cho điều này, chúng ta đã đưa ra rất nhiều công cụ hỗ trợ như: lịch sử trò chuyện đóng vai trò như ghi chú ngắn hạn, hệ thống tìm kiếm như một cuốn sổ ghi chú bên ngoại, các gợi ý của hệ thống giống như hình xăm trên cơ thể. Nhưng mô hình chính nó, không bao giờ thực sự hấp thụ thông tin mới này.
Ngày càng nhiều nhà nghiên cứu tin rằng việc này không đủ. Học Liên Kết (ICL) có thể giải quyết các vấn đề mà một điều kiện tiên quyết (hoặc mảnh vụ của một điều kiện) đã tồn tại ở một góc nào đó của thế giới. Nhưng đối với những vấn đề cần phải phát hiện thực sự (như chứng minh toán học hoàn toàn mới), tình huống đối đầu (như tấn công và phòng thủ an ninh), hoặc kiến thức quá ẩn, không thể được diễn đạt bằng ngôn ngữ, có đủ lý do để tin rằng: mô hình cần một cách, sau khi triển khai, ghi trực tiếp thông tin và kinh nghiệm mới vào các tham số của mình.
Học Liên Kết là tạm thời. Học hành thực sự cần sự nén. Trước khi chúng ta cho phép mô hình tiếp tục nén, có lẽ chúng ta đang bị mắc kẹt trong hiện tại vĩnh cửu của Memento. Ngược lại, nếu chúng ta có thể huấn luyện mô hình tự học kiến trúc ký ức của chính mình, thay vì phụ thuộc vào các công cụ tùy chỉnh gắn thêm, có thể mở khóa một chiều tỉ lệ scaling hoàn toàn mới.
Lĩnh vực nghiên cứu này được gọi là học liên tục (continual learning). Khái niệm này không mới (xem bài báo của McCloskey và Cohen năm 1989), nhưng chúng tôi tin rằng đó là một trong những hướng nghiên cứu quan trọng nhất hiện nay trong lĩnh vực AI. Sự bùng nổ khả năng của mô hình trong hai, ba năm qua đã khiến cho khoảng cách giữa "đã biết" và "có thể biết" trở nên rõ ràng hơn. Mục đích của bài viết này là chia sẻ những điều chúng tôi học được từ các nhà nghiên cứu hàng đầu trong lĩnh vực này, giúp làm sáng tỏ các con đường khác nhau của học liên tục và thúc đẩy chủ đề này trong sinh thái khởi nghiệp.
Chú ý: Sự hoàn thiện của bài viết này là nhờ vào sự giao tiếp sâu sắc với một nhóm nghiên cứu viên, tiến sĩ và doanh nhân xuất sắc, họ rộng lượng chia sẻ công việc và quan điểm của mình trong lĩnh vực học tập liên tục. Từ cơ sở lý thuyết đến hiện thực kỹ thuật học sau triển khai, cái nhìn của họ đã làm cho bài viết này vững vàng hơn nhiều so với việc chúng tôi viết một mình. Cảm ơn sự đóng góp của các bạn trong thời gian và ý tưởng của mình!
Trước khi bào chữa cho việc học thông số (tức là cập nhật trọng số mô hình), cần phải nhận ra một sự thật: việc học theo ngữ cảnh thực sự mang lại hiệu quả. Và có một lập luận mạnh mẽ cho rằng nó sẽ tiếp tục chiến thắng.
Bản chất của Transformer là một bộ dự đoán token kế tiếp có điều kiện trên chuỗi. Đưa cho nó một chuỗi đúng, bạn sẽ nhận được hành vi phong phú đáng ngạc nhiên, mà hoàn toàn không cần phải can thiệp vào trọng số. Đó là lý do tại sao việc quản lý ngữ cảnh, kỹ thuật gợi ý, điều chỉnh hướng dẫn và ví dụ ít mẫu như vậy mạnh mẽ. Trí tuệ được đóng gói trong các tham số tĩnh, nhưng khả năng thể hiện được biến đổi mạnh mẽ tùy thuộc vào nội dung bạn cung cấp vào khung cửa sổ.
Articel sâu về tự học quy mô của tự động hóa mà Cursor vừa đăng là một ví dụ tốt: trọng số mô hình là cố định, điều thực sự khiến hệ thống hoạt động là sự sắp xếp ngữ cảnh tỉ mỉ - bỏ gì vào, khi nào tóm tắt, cách duy trì trạng thái nhất quán trong vài giờ hoạt động tự động.
OpenClaw là một ví dụ khác tốt. Nó trở nên phổ biến không phải vì có quyền hạn mô hình đặc biệt (mọi người đều có thể sử dụng mô hình cơ bản), mà vì nó đã biến ngữ cảnh và công cụ thành trạng thái làm việc rất hiệu quả: theo dõi những gì bạn đang làm, cấu trúc hóa sản phẩm trung gian, quyết định khi nào nhập lại từ khóa gợi ý, duy trì bộ nhớ lâu dài về công việc trước đó. OpenClaw đã đưa thiết kế "vỏ bên ngoài" của trí thông minh lên một cấp độ độc lập học thuật.
Khi kỹ thuật gợi ý lần đầu tiên xuất hiện, nhiều nhà nghiên cứu đều bày tỏ sự nghi ngờ về việc "chỉ dựa vào từ khóa gợi ý" có thể trở thành giao diện chính thức. Nó trông giống như một hack. Nhưng đó lại là sản phẩm tự nhiên của kiến trúc Transformer, không cần đào tạo lại và tự động nâng cấp khi mô hình tiến triển. Mô hình mạnh mẽ, từ khóa cũng mạnh mẽ. Các giao diện "thô nhưng tự nhiên" thường có thể chiến thắng, vì chúng kết nối trực tiếp với hệ thống cơ sở, chứ không phải đối lập với nó. Cho đến nay, quỹ đạo phát triển của LLM chính là vậy.
Khi quy trình làm việc chính chuyển từ LLM gốc sang vòng lặp trí tuệ tự động, áp lực mà mô hình học ngữ cảnh đối mặt càng ngày càng lớn. Trước đây, trường hợp mà cửa sổ ngữ cảnh được lấp đầy hoàn toàn là hiếm. Điều này thường xảy ra khi LLM được yêu cầu hoàn thành một chuỗi nhiệm vụ rời rạc dài, ứng dụng có thể cắt giảm và nén lịch sử trò chuyện một cách tương đối trực tiếp.
Nhưng đối với một thực thể thông minh, một nhiệm vụ có thể đòi hỏi một phần lớn của ngữ cảnh tổng thể có sẵn. Mỗi bước vòng lặp của thực thể phụ thuộc vào ngữ cảnh được truyền từ các lần lặp trước đó. Và chúng thường thất bại sau 20 đến 100 bước, vì họ đã "mất kết nối": ngữ cảnh bị tràn đầy, tính nhất quán giảm, không thể hội tụ.
Do đó, các phòng thí nghiệm trí tuệ nhân tạo hàng đầu hiện đang đầu tư một lượng lớn tài nguyên (tức là chạy đào tạo quy mô lớn) để phát triển các mô hình có cửa sổ ngữ cảnh siêu dài. Điều này là một con đường tự nhiên, vì nó dựa trên các phương pháp đã hiệu quả (học ngữ cảnh) và phù hợp với xu hướng lớn của ngành sang tính toán hồi quy khi suy luận. Kiến trúc phổ biến nhất là xen kẽ các lớp bộ nhớ cố định giữa các đầu chú ý thông thường, tức là Mô hình Không gian Trạng thái (SSM) và biến thể chú ý tuyến tính (gọi chung là SSM ở dưới). SSM cung cấp đường cong tỷ lệ mở rộng cố bản tốt hơn trong ngữ cảnh dài.

Chú thích hình: So sánh tỷ lệ mở rộng giữa SSM và cơ chế chú ý truyền thống
Mục tiêu là giúp thực thể thông minh tăng số bước chạy nhất quán lên một số với nhiều chữ số, từ khoảng 20 bước lên khoảng 20,000 bước, đồng thời không mất kỹ năng và kiến thức rộng lớn mà Transformer truyền thống cung cấp. Nếu thành công, điều này sẽ là một bước tiến lớn đối với các thực thể chạy lâu dài.
Bạn thậm chí có thể xem xét phương pháp này như một hình thức học liên tục: mặc dù không cập nhật trọng số mô hình, nhưng giới thiệu một lớp bộ nhớ bên ngoài gần như không cần phải đặt lại.
Do đó, các phương pháp không tham số hóa này là thực sự mạnh mẽ. Bất kỳ đánh giá nào về học liên tục cũng phải bắt đầu từ đây. Vấn đề không phải là hệ thống ngữ cảnh hiện tại có hữu ích hay không, nó thực sự hữu ích. Vấn đề là: Liệu chúng ta đã đạt tới tường, và phương pháp mới có thể đưa chúng ta đi xa hơn.
"Những gì diễn ra với AGI và pretraining là, ở một khía cạnh nào đó, họ đã đi quá xa... Con người không phải là AGI. Đúng, con người thực sự có một cơ sở kỹ năng, nhưng con người thiếu kiến thức một cách lớn lao. Chúng ta phụ thuộc vào việc học liên tục."
"Nếu tôi tạo ra một thiên tài 15 tuổi, anh ta không biết gì cả. Một học sinh chăm chỉ, rất mong muốn học. Bạn có thể nói, hãy trở thành lập trình viên, hãy trở thành bác sĩ. Việc triển khai chính nó sẽ liên quan đến một quá trình học tập, thử nghiệm. Đó là một quá trình, không phải việc đưa ra sản phẩm ngay lập tức." - Ilya Sutskever
Hãy tưởng tượng một hệ thống vô hạn lưu trữ. Chính là chiếc tủ tập tin lớn nhất trên thế giới, mỗi sự thật được chỉ mục hoàn hảo, có thể truy xuất ngay lập tức. Nó có thể tìm kiếm bất cứ điều gì. Nó đã học được chưa?
Không. Nó chưa từng bị ép buộc phải nén.
Đây chính là cốt lõi của luận điệu của chúng tôi, lấy cảm hứng từ quan điểm mà Ilya Sutskever đã đưa ra trước đó: LLM về bản chất là một thuật toán nén. Trong quá trình huấn luyện, chúng nén Internet thành các tham số. Việc nén là có tổn thất, và chính sự có tổn thất này khiến chúng mạnh mẽ. Việc nén buộc mô hình tìm kiếm cấu trúc, tổng quát hóa, xây dựng biểu diễn có thể di chuyển qua ngữ cảnh. Một mô hình chỉ ghi nhớ tất cả các mẫu huấn luyện không bằng một mô hình khám phá quy luật cơ bản. Việc nén có tổn thất chính là việc học.
Trớ trêu thay, cơ chế khiến LLM mạnh mẽ như vậy trong quá trình huấn luyện (nén dữ liệu gốc thành biểu diễn nén gọn, có thể di chuyển), chính là điều chúng ta từ chối để chúng tiếp tục khi triển khai. Chúng ta ngừng nén ngay từ thời điểm phát hành, thay vào đó sử dụng bộ nhớ ngoại.
Tất nhiên, hầu hết các thức thể trí tuệ tổ hợp đều sẽ nén ngữ cảnh bằng cách nào đó theo cách tùy chỉnh. Nhưng bài học cay đắng có phải không dạy cho chúng ta rằng, mô hình bản thân nên học được việc nén này, một cách trực tiếp, quy mô lớn?
Yu Sun chia sẻ một ví dụ để làm sáng tỏ cuộc tranh luận này: Toán học. Hãy xem Định lý Fermat. Trong hơn 350 năm, không có nhà toán học nào có thể chứng minh nó, không phải vì họ thiếu tư liệu chính xác, mà là vì phương pháp giải quá mới mẻ. Sự cách biệt về ý tưởng giữa kiến thức toán học hiện có và câu trả lời cuối cùng quá lớn.
Khi Andrew Wiles cuối cùng vượt qua nó vào những năm 1990, anh ta dành bảy năm cô lập gần như hoàn toàn với thế giới bên ngoài, phải tạo ra các kỹ thuật hoàn toàn mới để đạt được câu trả lời. Bằng chứng của anh ta phụ thuộc vào việc nối liền thành công hai nhánh toán học khác nhau: đường cong Elliptic và mẫu hình. Mặc dù Ken Ribet đã chứng minh trước đó rằng nếu có thể thiết lập được cầu nối này, sẽ tự động giải quyết Định lý Fermat, nhưng trước Wiles, không ai có công cụ lý thuyết để xây dựng cầu này. Grigori Perelman có thể làm đồng ít như vậy với định lý Poincaré.
Câu hỏi cốt lõi là: Những ví dụ này có chứng minh rằng LLM thiếu một cái gì đó, một khả năng cập nhật tiên điều, khả năng suy nghĩ sáng tạo thực sự không? Hay câu chuyện này chứng minh ngược lại - toàn bộ kiến thức nhân loại chỉ là dữ liệu được huấn luyện và tái tổ chức, Wiles và Perelman chỉ đơn giản là giới thiệu những gì mà LLM cũng có thể làm trên quy mô lớn hơn?
Câu hỏi này là thực nghiệm, câu trả lời vẫn chưa rõ ràng. Nhưng chúng ta thật sự biết rằng, có nhiều loại vấn đề mà học ngữ cảnh sẽ thất bại ngày nay, trong khi học cấp tham số có thể hữu ích. Ví dụ:

Chú thích: Thể loại vấn đề mà học trong ngữ cảnh thất bại và học tham số có thể chiến thắng
Quan trọng hơn, học trong ngữ cảnh chỉ có thể xử lý những thứ có thể được diễn đạt bằng ngôn ngữ, trong khi trọng số có thể mã hóa các khái niệm mà gợi ý không thể truyền đạt bằng văn bản. Một số mẫu cấu trúc quá phức tạp, quá ẩn, quá sâu không thể chứa trong ngữ cảnh. Ví dụ, phân biệt giữa dạng bóng giả lành và khối u trong quét y khoa, hoặc micro-dáng âm thanh độc đáo của một người nói, những mẫu này không dễ dàng phân rã thành từ vựng chính xác.
Ngôn ngữ chỉ có thể mô phỏng chúng. Dù có từ gợi ý dài đến đâu, chúng vẫn không thể truyền đạt những điều này; kiến thức loại này chỉ có thể tồn tại trong trọng số. Chúng sống trong không gian ẩn của biểu diễn học, không phải là văn bản. Dù cửa sổ ngữ cảnh mở rộng đến bao nhiêu, luôn có một số kiến thức mà văn bản không thể mô tả, chỉ có thể được mang bởi tham số.
Điều này có thể giải thích tại sao tính năng "máy nhớ" rõ ràng (ví dụ: bộ nhớ của ChatGPT) thường khiến người dùng cảm thấy không thoải mái thay vì ngạc nhiên. Người dùng thực sự muốn không phải là "hồi ức" mà là "khả năng". Một mô hình đã internalize cách hành xử của bạn có thể tổng quát hóa sang các tình huống mới; một mô hình chỉ nhớ lại lịch sử của bạn không thể làm được điều đó. Sự khác biệt giữa "Đây là nội dung bạn đã viết khi trả lời thư này lần trước" (từng chữ) và "Tôi đã hiểu đủ cách suy nghĩ của bạn, có thể dự đoán bạn cần gì" chính là sự khác biệt giữa truy xuất và học.
Học liên tục có nhiều con đường. Điểm chia không nằm ở "có chức năng nhớ" hay không, mà ở: Nén xảy ra ở đâu? Các con đường này lan tỏa dọc theo một phổ phân bố, từ không nén (trả về tìm kiếm, đóng băng trọng số), đến hoàn toàn nén bên trong (học tập cấp trọng số, làm mô hình thông minh hơn), với một khu vực quan trọng khác (mô đun).

Chú thích: Ba con đường của học tiếp — ngữ cảnh, mô đun, trọng số
Ở đầu cuối ngữ cảnh này, nhóm xây dựng bộ ống học trí thông minh, lớp vỏ tinh vi và sắp xếp từ khóa thông minh hơn. Đây là loại hình chín muồi nhất: cơ sở hạ tầng đã được xác minh, con đường triển khai rõ ràng. Giới hạn nằm ở độ sâu: độ dài ngữ cảnh.
Một hướng lưu ý mới: cấu trúc đa tác nhân là một chiến lược mở rộng của ngữ cảnh chính mình. Nếu một mô hình đơn bị giới hạn trong cửa sổ 128K từ, một bộ cụm tập trung các tác nhân — mỗi tác nhân giữ ngữ cảnh riêng của mình, tập trung vào một phần nào đó của vấn đề, giao tiếp với nhau kết quả — có thể làm việc gần như vô hạn. Mỗi tác nhân học từ ngữ cảnh riêng của mình; hệ thống thực hiện tổng hợp. Các ví dụ sớm như dự án autoresearch của Karpathy và ví dụ xây dựng Trình duyệt Web Cursor là các trường hợp tiền đầu. Đây là phương pháp không tham số hoàn toàn (không thay đổi trọng số), nhưng nó đã nâng cao giới hạn mà hệ thống ngữ cảnh có thể đạt được.
Trong không gian mô-đun, nhóm xây dựng các mô-đun kiến thức có thể cắm (bộ nhớ cache KV nén, lớp điều chỉnh, lưu trữ bộ nhớ bên ngoài), cho phép mô hình chung thông thạo hóa mà không cần huấn luyện lại. Một mô hình 8B kèm theo mô-đun phù hợp có thể khớp với hiệu suất của mô hình 109B trên nhiệm vụ mục tiêu, và lượng bộ nhớ chiếm chỉ là phần nhỏ. Sức hấp dẫn của nó nằm ở việc nó tương thích với cơ sở hạ tầng Transformer hiện có.
Ở phía cập nhật trọng số, các nhà nghiên cứu đang theo đuổi việc học cấp độ thực sự của tham số: chỉ cập nhật lớp nhớ dày đặc của các tham số liên quan, tối ưu hóa mô hình từ phản hồi học tăng cường, nén ngữ cảnh vào trọng số trong lúc thử nghiệm (test-time training). Đây là những phương pháp sâu nhất, cũng là những phương pháp khó triển khai nhất, nhưng chúng thực sự cho phép mô hình hoàn toàn tiếp thu thông tin hoặc kỹ năng mới.
Cơ chế cụ thể của việc cập nhật tham số có nhiều loại. Dưới đây là một số hướng nghiên cứu:

Chú thích hình ảnh: Tổng quan về các hướng nghiên cứu về học cấp độ trọng số
Nghiên cứu về cấp độ trọng số bao gồm nhiều dòng tiến triển song song. Phương pháp chính quy hóa và không gian trọng số có lịch sử lâu dài nhất: EWC (Kirkpatrick et al., 2017) trừng phạt sự thay đổi của tham số dựa trên tầm quan trọng của tham số đối với nhiệm vụ trước đó; trộn lẫn trọng số (Kozal et al., 2024) kết hợp cấu hình trọng số mới và cũ trong không gian tham số, nhưng cả hai đều khá dễ vỡ ở quy mô lớn.
Test-time training được khởi xướng bởi Sun et al. (2020), sau đó phát triển thành ngữ cảnh kiến trúc (lớp TTT, TTT-E2E, TTT-Discover), với cách tiếp cận hoàn toàn khác biệt: thực hiện gradient descent trên dữ liệu kiểm thử, nén thông tin mới vào tham số vào thời điểm cần thiết.
Học meta đặt câu hỏi: Liệu chúng ta có thể huấn luyện một mô hình hiểu biết "cách học"? Từ việc khởi tạo tham số thân thiện với ít mẫu của MAML (Finn et al., 2017) đến học nhúng của Behrouz et al. (Nested Learning, 2025), hướng tiếp cận sau sẽ cấu trúc hóa mô hình thành một vấn đề tối ưu hóa phân cấp, chạy các mô-đun thích ứng nhanh và cập nhật chậm ở các thang thời gian khác nhau, lấy cảm hứng từ quá trình củng cố ký ức sinh học.
Distillation thông qua việc so khớp mô hình của học sinh với điểm kiểm tra của giáo viên đóng băng để duy trì kiến thức của nhiệm vụ trước đó. LoRD (Liu et al., 2025) thông qua việc cắt tỉa mô hình và tái phát buffer song song, làm cho quá trình chưng cất hiệu quả đến mức có thể duy trì. Tự Chưng cất (SDFT, Shenfeld et al., 2026) lật ngược nguồn, sử dụng đầu ra của mô hình trong điều kiện chuyên gia làm tín hiệu huấn luyện, vượt qua quên ngổn tuần tự.
Đệ quy Tự cải tiến hoạt động theo cùng một cách tiếp cận: STaR (Zelikman et al., 2022) hướng dẫn khả năng suy luận từ chuỗi suy diễn tự tạo; AlphaEvolve (DeepMind, 2025) đã phát hiện ra thuật toán tối ưu mà không được cải tiến suốt vài thập kỷ; "Kỷ nguyên kinh nghiệm" của Silver và Sutton (2025) định nghĩa việc học của cơ thể thông minh là một dòng kinh nghiệm liên tục không bao giờ dừng lại.
Các hướng nghiên cứu này đang hội tụ. TTT-Discover đã hợp nhất việc huấn luyện khi kiểm thử và khám phá động cơ RL. HOPE đưa vòng lặp học nhanh và học chậm nằm lồng vào một kiến trúc duy nhất. SDFT đã biến việc chưng cất thành một hoạt động cơ bản của Tự cải tiến. Biên giữa các cột đang mờ dần. Hệ thống học liên tục thế hệ tiếp theo có khả năng sẽ kết hợp nhiều chiến lược: sử dụng chính quy hóa để ổn định, sử dụng học meta để tăng tốc, sử dụng tự cải tiến để tăng lợi ích. Một số công ty khởi nghiệp đang đặt cược vào nhiều cấp độ của ngăn xếp công nghệ này.
Phần cuối cùng của một dãy ngày càng nổi tiếng là đầu không tham số. Các công ty vỏ (Letta, mem0, Subconscious) xây dựng lớp triển khai và kết cấu dự phòng, quản lý nội dung được đưa vào cửa sổ ngữ cảnh. Lưu trữ ngoại vi và cơ sở hạ tầng RAG (như Pinecone, xmemory) cung cấp cột sống trả lại. Dữ liệu hiện hữu, thách thức là thời điểm đúng để đưa lát cắt đúng vào mặt mô hình. Khi cửa sổ ngữ cảnh mở rộng, không gian thiết kế của các công ty này cũng mở rộng theo, đặc biệt là ở phần cuối, một làn sóng mới của các công ty khởi nghiệp đang nổi lên để quản lý chiến lược ngữ cảnh ngày càng phức tạp.
Phần tham số là giai đoạn sớm hơn và đa dạng hơn. Các công ty ở đây đang thử nghiệm một phiên bản nào đó của "nén sau triển khai", khiến cho mô hình hấp thụ thông tin mới trong trọng số. Có thể chia con đường thành một số đặc điểm đặc biệt, về việc mô hình nên "học như thế nào" sau khi phát hành.
Nén Phần: Học mà không cần huấn luyện lại. Một số nhóm đang xây dựng các mô-đun kiến thức có thể chèn được (bộ nhớ KV nén, lớp bộ chuyển đổi, lưu trữ bộ nhớ ngoại vi), để mô hình chung có thể chuyên sâu hóa mà không cần di chuyển trọng số cốt lõi. Điều quan trọng là bạn có thể đạt được sự nén có ý nghĩa (không chỉ là truy xuất), đồng thời kiểm soát sự cân bằng giữa ổn định và linh hoạt trong ngữ cảnh dễ quản lý, vì quá trình học được phân chia, chứ không phải là phân tán trên toàn bộ không gian tham số. Mô hình 8B kết hợp với mô-đun thích hợp có thể phù hợp với hiệu suất của mô hình lớn hơn rất nhiều trên tác vụ mục tiêu. Ưu điểm là tính kết hợp: các mô-đun có thể được gắn vào và sử dụng ngay lập tức với kiến trúc Transformer hiện có, có thể trao đổi hoặc cập nhật độc lập, chi phí thực nghiệm thấp hơn rất nhiều so với việc huấn luyện lại.
RL và Chuỗi Phản Hồi: Học từ Tín Hiệu. Một số nhóm cá cược vào việc, việc học tối đa tín hiệu phong phú nhất sau triển khai đã tồn tại trong chính chu kỳ triển khai đó - sự chỉnh sửa từ người dùng, thành công / thất bại của nhiệm vụ, tín hiệu thưởng từ kết quả trong thế giới thực. Ý tưởng cốt lõi là mô hình nên xem mỗi tương tác như một tín hiệu huấn luyện tiềm năng, không chỉ là yêu cầu suy luận. Điều này tương tự như cách con người tiến bộ trong công việc: làm việc, nhận phản hồi, nội hóa những phương pháp hiệu quả. Thách thức kỹ thuật là chuyển đổi phản hồi thưa thớt, ồn ào và đôi khi đối kháng này thành cập nhật trọng số ổn định, đồng thời tránh quên thiệt hại. Nhưng một mô hình thực sự có thể học từ việc triển khai sẽ tạo ra giá trị nhiều lần mà hệ thống văn bản không thể đạt được.
Tập Trung vào Dữ Liệu: Học từ Tín Hiệu Đúng. Một cá cược tương tự nhưng khác biệt là, điểm chặn không phải ở thuật toán học mà ở dữ liệu huấn luyện và hệ thống xung quanh. Những nhóm này tập trung vào lọc, tạo hoặc tổng hợp dữ liệu chính xác để thúc đẩy cập nhật liên tục: giả sử một mô hình đang có dữ liệu học chất lượng cao, có cấu trúc tốt chỉ cần một số bước gradient ít hơn để cải thiện có ý nghĩa. Điều này liên kết tự nhiên với chuỗi phản hồi, nhưng nhấn mạnh vấn đề ở phần trước: mô hình có thể học được một vấn đề, nhưng nó nên học từ đâu và đến mức độ nào là một vấn đề khác.
Kiến Trúc Mới: Học Tính Năng Từ Thiết Kế Cấp Thấp. Cá cược táo bạo nhất tin rằng kiến trúc Transformer chính là điểm chặn, việc học liên tục đòi hỏi nguyên lý tính toán khác biệt từ căn bản: một kiến trúc có thời gian liên tục động và cơ chế lưu trữ tích hợp. Điều luận điểm ở đây là cấu trúc: nếu bạn muốn một hệ thống học liên tục, bạn nên nhúng cơ chế học vào kiến trúc cơ sở.

Chú thích hình ảnh: Bản đồ Công ty Khởi nghiệp Học liên tục
Tất cả các phòng thí nghiệm chính cũng tích cực triển khai trong các danh mục này. Một số đang khám phá cách quản lý ngữ cảnh và suy luận chuỗi tốt hơn, một số khác đang thử nghiệm mô-đun bộ nhớ bên ngoài hoặc đường ống tính toán thời gian ngủ, còn một số công ty ẩn danh đang theo đuổi kiến trúc mới. Lĩnh vực này đủ sớm để chưa có phương pháp nào chiến thắng, và với mức độ đa dạng của trường hợp sử dụng, cũng không nên có một người chiến thắng duy nhất.
Cập nhật tham số mô hình trong môi trường sản xuất sẽ kích hoạt một loạt các mẫu thất bại vẫn chưa được giải quyết ở tỷ lệ lớn.

Chú thích hình ảnh: Mẫu Thất Bại của Cập Nhật Trọng Số Ngây Thơ
Vấn đề kỹ thuật đã được ghi chép đầy đủ. Sự quên lãng mạnh mẽ đồng nghĩa với việc mô hình học đủ nhạy bằng dữ liệu mới sẽ phá hủy biểu diễn đã có — mâu thuẫn ổn định-plasticity. Thời gian không liên kết đề cập đến việc quy tắc không đổi và trạng thái có thể thay đổi được nén vào cùng một bộ trọng số, cập nhật một sẽ làm hỏng cái kia. Sự thất bại của tích hợp logic là do cập nhật sự thật không lan truyền vào suy diễn của nó: thay đổi bị hạn chế trong mức từng token, không phải mức độ khái niệm ngữ nghĩa. Việc quên vẫn là không thể: không tồn tại một thao tác trừ có thể đạo hàm, vì vậy không có giải phẫu chính xác cho kiến thức giả mạo hoặc độc hại.
Vấn đề thứ hai ít được chú ý hơn. Sự tách rời giữa việc huấn luyện và triển khai hiện tại không chỉ là tiện lợi về mặt kỹ thuật, nó là biên giới của an ninh, khả kiểm tra và quản trị. Mở rộng ranh giới này, nhiều vấn đề sẽ xảy ra đồng thời. Việc cân bằng an ninh có thể đột ngột bị suy giảm: thậm chí việc điều chỉnh hẹp trên dữ liệu thiện lành cũng có thể tạo ra hành vi mất cân đối rộng lớn.
Cập nhật liên tục tạo ra một cửa đánh cắp dữ liệu — một phiên bản tiêm gợi ý châm biền chậm, kiên trì, nhưng sống trong trọng số. Việc giám sát có thể bị sụp đổ, vì một mô hình cập nhật liên tục là một mục tiêu di động, không thể kiểm soát phiên bản, kiểm tra regression hoặc xác thực một lần. Khi tương tác người dùng được nén vào tham số, rủi ro về quyền riêng tư tăng lên, thông tin nhạy cảm đã được nung trong biểu diễn, khó lọc hơn so với thông tin trong ngữ cảnh truy xuất.
Đây là những vấn đề chưa được giải quyết, không phải là khả năng cơ bản không thể thực hiện. Giải quyết chúng cũng như giải quyết thách thức cốt lõi về kiến trúc, là một phần của chương trình nghiên cứu liên tục học tập.
Leonard trong "Mảnh ghép ký ức" không phải vấn đề là anh ta không thể chạy được — anh ta thông minh trong bất kỳ tình huống nào, thậm chí có thể coi là xuất sắc. Bi kịch của anh ta là anh ta không bao giờ thành công mỗi lần. Mỗi trải nghiệm chỉ dừng lại ở bề ngoài — một tấm ảnh Polaroid, một hình xăm, một tờ giấy viết tay của người khác. Anh ta có thể truy xuất, nhưng anh ta không thể nén tri thức mới.
Khi Leonard lạc mất trong mê cung xây dựng bởi chính bản thân mình, ranh giới giữa thực tế và niềm tin bắt đầu mờ nhạt. Bệnh tình của anh ta không chỉ là lấy đi ký ức của anh ta; nó buộc anh ta phải xây dựng ý nghĩa liên tục, khiến anh ta vừa trở thành thám tử trong câu chuyện của bản thân, vừa là một kể chuyện không đáng tin cậy.
AI ngày nay đang hoạt động trong các ràng buộc tương tự. Chúng ta đã xây dựng các hệ thống truy xuất rất mạnh mẽ: cửa sổ ngữ cảnh lớn hơn, vỏ bọc thông minh hơn, bầy đàn nhiều tác nhân phối hợp, và chúng hoạt động. Nhưng truy xuất không đồng nghĩa với học tập. Một hệ thống có thể tra cứu bất kỳ sự thật nào không bị buộc phải tìm kiếm cấu trúc. Nó không bị buộc phải tổng quát hóa. Việc huấn luyện để có đặc điểm mạnh mẽ như vậy — cơ chế chuyển đổi dữ liệu gốc thành biểu diễn có thể di chuyển — chính là điều chúng ta đã tắt nguồn điện từ lúc triển khai.
Con đường tiến lên rất có thể không phải là một đợt bùng nổ duy nhất, mà là một hệ thống phân tầng. Việc học trong ngữ cảnh vẫn sẽ là đường phòng thủ chính đầu tiên: nó là cốt lõi, được kiểm chứng, và đang được cải tiến liên tục. Cơ chế mô-đun có thể xử lý khu vực trung gian cá nhân hóa và chuyên ngành.
Nhưng đối với những vấn đề thực sự khó khăn — phát hiện, chống lại sự thích nghi, kiến thức ẩn mà không thể diễn đạt bằng lời— chúng ta có thể cần cho phép mô hình tiếp tục nén kinh nghiệm vào tham số sau quá trình huấn luyện. Điều này có nghĩa là cấu trúc thưa, mục tiêu học meta, và chu trình tự cải tiến bản thân. Điều này có thể đòi hỏi chúng ta phải định nghĩa lại ý nghĩa của "mô hình": không phải là một bộ trọng số cố định, mà là một hệ thống đang tiến triển, bao gồm bộ nhớ của nó, thuật toán cập nhật của nó, và khả năng trừu tượng hóa từ kinh nghiệm của bản thân nó.
Tủ hồ sơ càng ngày càng lớn. Nhưng dù tủ hồ sơ có lớn tới đâu thì vẫn chỉ là một tủ hồ sơ. Bước phát triển đột phá là khi huấn luyện mô hình sau triển khai để làm cho nó mạnh mẽ: nén, trừu tượng hóa, học hỏi. Chúng ta đứng ở điểm bùng nổ từ mô hình mất trí nhớ đến mô hình có chút kinh nghiệm. Nếu không, chúng ta sẽ mắc kẹt trong "Mảnh ký ức" của chính bản thân.
Liên kết đến bài gốc
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia