BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Hội Nghị Hàng Năm Về Trí Tuệ Nhân Tạo Năm 2026 của Redwood: 13 Người Chơi Cao Cấp Về AI Chia Sẻ Rằng AGI Đã Đến

律动BlockBeats

Đọc bài viết này mất 134 phút

Từ 13 Cuộc Trò Chuyện Tại Hội Nghị Trí Tuệ Nhân Tạo Cao Cấp Nhất ở Silicon Valley

Giới thiệu

Vào cuối tháng 4 năm 2026, Sequoia Capital đã tổ chức Hội nghị AI Ascent lần thứ tư tại San Francisco. Hội nghị này đã mời các công ty lõi trong ngành AI như OpenAI, DeepMind, Anthropic, NVIDIA, Waymo, cũng như các công ty khởi nghiệp như ElevenLabs, XBOW, Recursive Intelligence, Starcloud đang đặt cược vào các hướng phát triển mới. 13 cuộc trò chuyện đã bao quát các chủ đề như mô hình cơ bản, mô hình lập trình, robot học, lái tự động, thiết kế vi mạch, sức mạnh tính toán vũ trụ và kiến trúc tính toán mới, đề cập đến những chủ đề tiên tiến nhất trong ngành AI hiện nay.

So với các năm trước, tinh thần chính của AI Ascent lần này trở nên rõ ràng hơn: AI không còn chỉ là một công cụ tăng cường hiệu suất mà đã bắt đầu tiến vào quy trình làm việc thực tế, chiếm một phần công việc phức tạp trước đây chỉ có thể do con người thực hiện. Trong bài diễn văn mở đầu, Sequoia đã gọi đó là sự xuất hiện của "AGI chức năng" - không phải nói rằng máy đã đạt tương đương với con người ở mọi khía cạnh, mà là từ góc độ thương mại và năng suất, hệ thống trí tuệ dài hạn đã vượt qua rào cản từ phần trình diễn đến sử dụng được.

Điều này cũng chính là bối cảnh cốt lõi nhất của hội nghị lần này: khi trí tuệ bắt đầu trở nên rẻ, có thể gọi được, có thể mở rộng, trọng tâm cạnh tranh của AI đang dịch chuyển từ "mô hình có thể thực hiện được không" sang "làm thế nào để kết nối nó vào thế giới thực". Phần mềm, dịch vụ, tổ chức, phần cứng, năng lượng, an ninh và không gian vật lý, tất cả đều có thể được thiết kế lại vì lí do đó.

Sequoia đã cố gắng kể một câu chuyện rất rõ ràng: trí tuệ không còn là một sản phẩm xa xỉ mà đang biến thành một loại nguyên liệu công nghiệp mới. Điều thực sự quan trọng ở giai đoạn tới có lẽ không phải là ai có mô hình thông minh hơn, mà là ai có thể hiểu rõ hơn khách hàng, tái cấu trúc quy trình, lập lịch agent và chuyển đổi trí tuệ rẻ tiền này thành hệ thống kinh doanh bền vững.

Do đó, cuộc hội thảo này không chỉ thảo luận về bước tiếp theo của công nghệ AI, mà còn là một vấn đề lớn hơn: khi máy móc có thể đảm nhận nhiều lao động trí óc hơn, con người, công ty và xã hội sẽ phải định nghĩa lại giá trị của họ như thế nào.

Một số chủ đề chính trải dài suốt sự kiện

Thứ nhất, trí tuệ đang trở thành một mặt hàng hàng hóa lớn.
Sequoia đã đặt sự chuyển đổi này như một ví dụ với "Nhôm" vào cuối thế kỷ 19: trước đây nó đắt hơn cả vàng, nhưng sau khi phương pháp điện phân phổ biến, nó trở thành vật liệu công nghiệp dễ nhận, dễ sử dụng ở mọi nơi. Ngày nay, kiến thức chuyên sâu cấp tiến sĩ, rào cản nhận thức trước đây xác định sức cạnh tranh của tầng trung lưu đang trải qua cùng số phận. Trí tuệ cao cấp không còn hiếm hoi mà bắt đầu được sản xuất, gọi tới và phân phối hàng loạt.

Thứ hai, sự cản trở đang dịch chuyển từ máy móc sang con người.
Greg Brockman đã đưa ra một câu nói đã được trích dẫn liên tục trong Hội nghị này: khi agent có thể làm việc tự chủ, sự chú ý của con người sẽ trở thành tài nguyên hiếm trong toàn bộ nền kinh tế. Karpathy đã sử dụng cách diễn đạt trực quan hơn để đưa ra đánh giá tương tự: khi máy móc có thể xử lý hầu hết chi tiết thực thi, khả năng duy nhất của con người không thể bỏ qua chính là làm rõ mình thực sự muốn gì. Vấn đề không còn nằm ở việc máy có thể làm được hay không, mà là con người có thể đưa ra mục tiêu chính xác, đánh giá kết quả có đáng tin cậy hay không, và quyết định điều gì xứng đáng được hoàn thành.

Thứ ba, lập trình đang được giải quyết, tổ chức vẫn chưa.

Anthropic đã triển khai một lượng lớn mã được tạo ra bởi mô hình, các agent khác nhau thậm chí có thể tự hợp tác trên Slack. Boris Cherny đi xa hơn: hàng rào thực sự không còn là một phiên bản mô hình nào đó nữa, mà là mức độ "nguyên sinh hóa" AI của tổ chức. Đối với các công ty hiện có, điều này là một kết luận không thân thiện – vì khoảng cách không chỉ đến từ việc thành thạo trong việc sử dụng công cụ, mà đến từ việc công ty có sẵn lòng thiết kế lại quy trình, quyền hạn, cách làm việc cộng tác và cấu trúc quản lý xung quanh agent hay không.

Thứ tư, AI đang từ thế giới số trở lại thế giới vật lý.

Robot của Jim Fan, 20 triệu lượt xe tự lái của Waymo, giọng nói cảm xúc của ElevenLabs, từ các khía cạnh khác nhau, cho thấy rằng AI không còn chỉ là một công cụ trên màn hình xử lý văn bản, mã và hình ảnh nữa, mà bắt đầu hiểu và can thiệp vào ánh sáng, âm thanh, lực, chuyển động và không gian. Trong thập kỷ qua, "phần mềm nuốt chửng thế giới" là tiểu truyện chính; tiếp theo, AI có thể trực tiếp bước vào thế giới vật lý, thay đổi xe hơi, nhà máy, robot, giao tiếp giọng nói và sản xuất vật lý chính mình.

Thứ năm, ranh giới về sức mạnh tính toán nằm ở tầng sâu vật lý.

Khi đất, điện và hệ thống làm mát trung tâm dữ liệu trở nên hạn chế, một nhóm công ty táo bạo đã đưa ra những giải pháp khác nhau: Starcloud muốn đưa vi xử lý lên không gian, Recursive cho phép AI tự thiết kế vi xử lý, Unconventional AI cố gắng tránh qua cấu trúc von Neumann để bắt chước não bộ, Flapping Airplanes thậm chí đặt dấu hỏi trực tiếp về việc "tăng tỷ lệ bằng bạo lực" chính mình — nếu con người chỉ cần ít dữ liệu hơn mà vẫn có thể học cùng kỹ năng, thì các thuật toán AI hiện nay có thể đã quá kém hiệu quả từ gốc rễ. Điểm cuộc thi năng lực tính toán, đang dần đi từ việc mua thêm GPU, hướng đến việc cơ bản tái cấu trúc về năng lượng, vi xử lý, cấu trúc và hiệu quả dữ liệu.

Thứ sáu, an ninh đã bước vào cuộc chiến không đối xứng "AI vs AI".

Agent thông minh của XBOW đã cam kết vị trí hàng đầu trên bảng xếp hạng hacker trắng toàn cầu, điều đó có nghĩa là AI không chỉ còn là một công cụ hỗ trợ cho nhà nghiên cứu an ninh, mà có khả năng tự lập hoàn thiện hệ thống tấn công khám phá lỗ hổng, xác minh và tận dụng. Điều nghiêm trọng hơn, khi khả năng mở mã nguồn cải thiện, khả năng tấn công loại này có thể nhanh chóng lan rộ trong vòng 6 đến 9 tháng tới. An ninh mạng không còn là cuộc chiến tấn công phòng thủ giữa hacker con người nữa, mà là một cuộc đua vũ trang AI đã bắt đầu từ lúc này.

Việc kết hợp những dấu vết này sẽ khám phá ra rằng, vào năm 2026, ngành công nghiệp AI đang đứng ở một vị trí khá không thoải mái: khả năng kỹ thuật đã trở nên xa băng hơn rất nhiều so với hình thức sản phẩm, cấu trúc tổ chức và các quy tắc xã hội. Mô hình đang mạnh mẽ hơn mỗi ngày, nhưng người "chứa chất" của nó — bất kể là quy trình doanh nghiệp, giao diện ứng dụng hay sự chú ý của con người — vẫn chưa kịp theo kịp.

Toàn bộ cuộc trao đổi tại hội nghị đều xoay quanh một câu hỏi duy nhất: trong một thế giới mà máy móc có thể thực hiện ngày càng nhiều công việc trí óc, con người còn giữ lại điều gì?

Câu trả lời mà Sequoia đưa ra có vẻ mâu thuẫn: đó là cảm xúc, là niềm tin, là những thứ không thể sản xuất hàng loạt. Câu trả lời của Brockman là "Bạn muốn cái gì", câu trả lời của Karpathy là "Bạn có thể đánh giá xem máy móc đã làm đúng không". Những câu trả lời này cuối cùng đều chỉ vào một điều: khi trí tuệ chính nó không còn hiếm hoi nữa, ý định, sự đánh giá và mối quan hệ sẽ trở thành tiền tệ mới.

Dưới đây là tóm tắt của 13 cuộc trò chuyện trong toàn bộ hội nghị này.

Tóm Tắt Diễn Đàn

Diễn Tiến Chính

Diễn Thuyết Mở Màn Của Đối Tác Sequoia: Đây Là AGI

Các diễn giả Pat Grady, Sonya Huang, Konstantine Buhler là ba đối tác cốt lõi của Sequoia Capital trên dòng đầu tư trí tuệ nhân tạo (AI). Sonya Huang là tác giả của bài viết Generative AI: A Creative New World vang dội toàn cầu vào năm 2022, được coi là một trong những nhà đầu tư tổ chức đầu tiên có tầm nhìn chi tiết về trí tuệ nhân tạo sinh sáng. Ba người cùng viết bài This is AGI vào năm 2026, là nguồn cảm hứng tư duy cho hội nghị này. Sequoia Capital chính là một trong những quỹ rủi ro hàng đầu lịch sử Silicon Valley, từng đầu tư sớm vào Apple, Google, Nvidia, Stripe, OpenAI và các công ty khác.

AI là một "cách mạng tính toán" hoàn toàn đảo lộn bản chất xử lý thông tin, chứ không phải chỉ là một "cách mạng truyền thông" tăng tốc truyền bá. Internet và di động trước đây chỉ thay đổi con đường truyền thông tin, trong khi AI thay đổi logic sinh ra thông tin ở tầng hạ tầng, dẫn đến việc nền tảng kỹ thuật mà nhà phát triển xây dựng ứng dụng đang phải chuyển động mỗi ngày. Sự quan trọng của đánh giá này nằm ở việc: trong những "thời điểm mưa lớn" không ổn định, công nghệ cốt lõi truyền thống đã trở thành quá khứ, nhà phát triển phải học cách nhảy múa cùng nền tảng mô hình không ngừng phát triển.

AI sẽ tiếp cận một thị trường lớn 10 lần so với phần mềm truyền thống thông qua việc cung cấp trực tiếp "dịch vụ chuyên nghiệp". Tổng thị trường toàn cầu cho phần mềm chỉ là vài trăm tỷ USD, trong khi chỉ riêng dịch vụ luật của Mỹ đã đạt 400 tỷ USD, quy mô tương đương với toàn bộ ngành công nghiệp phần mềm. Điều này đặt ra một sự chuyển đổi chính sách: giá trị thương mại của AI không còn là công cụ được bán cho con người, mà trực tiếp thừa kế và cung cấp công việc có giá trị cao mà trước đây được các chuyên gia con người thực hiện.

Từ góc độ thực tiễn kinh doanh, khả năng tự chủ đối phó với thất bại của một đại biểu hàng không dài hạn đánh dấu sự xuất hiện của AGI (Trí tuệ Nhân tạo Tổng quát). Nếu một hệ thống có thể được gửi để thực hiện nhiệm vụ, tự sửa chữa trong trường hợp thất bại và kiên trì đến cùng, thì nó về mặt chức năng đã ngang với AGI. Nhận định này nhắc nhở chúng ta một cách phản trực giác: đừng còn gắn bó với định nghĩa học thuật, AI có khả năng thực hiện độc lập đã từ "ngựa nhanh hơn" tiến hóa thành "xe hơi" đang thay đổi chiều dài thời gian, hiệu quả đã đạt được bước nhảy 10 đến 40 lần.

Trong thời điểm nảy sinh nhanh chóng của khả năng cơ bản, việc xây dựng pháo đài bảo vệ duy nhất dựa trên "tiếp xúc cận khách hàng tối đa". Chiến lược MAD - Moats (Pháo đài), Affordance (Khả năng) và Diffusion (Sự lan truyền) - theo đạo lý sử dụng customer-back (đảo ngược từ nhu cầu của khách hàng) thay vì tech-out (trích xuất từ công nghệ) để khóa giá trị. Do nhu cầu của con người thay đổi chậm hơn năng lực của mô hình, việc bọc kín khách hàng như vậy có tính bền vững hơn việc theo đuổi mô hình.

Tính tự chủ của Đại biểu đang từ "trợ lí phút" chuyển mạch sang "nhân viên tự chủ giờ". Biểu đồ đo lường thời gian duy trì đúng đường cho mô hình trong nhiệm vụ phức tạp đã từ một năm trước bước nhảy từ phút sang giờ bây giờ, đủ để hỗ trợ các nhà máy tối hậu không cần xem xét từ con người (dark factories - quy trình kinh doanh hoàn toàn tự động). Điều này có nghĩa là rào cản về năng suất đã bị phá vỡ, việc lặp đi lặp lại vượt quá khả năng của con người như "viết lại 8 triệu dòng mã trong vòng 6 tuần" đang trở thành hành động thường lệ.

Xã hội con người đang ở nơi "cách mạng công nghiệp nhận thức", máy móc sẽ đảm nhận 99,9% lao động trí óc toàn cầu. Giống như cách mạng công nghiệp đã sử dụng động cơ thay thế 99% lao động thể chất, trong tương lai hầu hết phân tích, ra quyết định và sáng tạo cũng sẽ được mạng nơ-ron đảm nhận. Khẳng định này lập luận rằng: trí tuệ sẽ không còn là tài nguyên độc quyền của con người, mà là một loại hàng hóa công nghiệp có thể sản xuất vô hạn, gọi là chi phí thấp có thể triệu hồi theo nhu cầu.

Kỹ năng trí tuệ cấp cao sắp trải qua "lúc của nhôm", từ sản phẩm xa xỉ đắt tiền suy thoái hoàn toàn trở thành hàng hóa chủ lực giá rẻ. Như nhôm từng đắt hơn cả vàng, nhưng sau khi phổ biến phương pháp điện phân, nhôm trở nên dễ tìm thấy, việc kêu gọi truy cập ngay lập tức vào kiến thức cấp tiến của tiến sĩ (PhD) bằng AI cũng sẽ tạo ra hiệu ứng tương tự. Điều này dự báo một tương lai khắc nghiệt: rào cản kiến thức chuyên môn tích lũy trong nhiều năm có thể sụp đổ trong chớp mắt, trí tuệ sẽ không còn mang giá trị cao hơn hàng hóa phục vụ số lượng lớn.

Khi trí tuệ trở nên hoàn toàn phi phong, mối quan hệ giữa con người và kết nối cảm xúc sẽ trở thành điểm mỏ neo giá trị duy nhất của xã hội con người. Nghệ thuật nhiếp ảnh đã thúc đẩy nghệ thuật từ hiện thực sang phong cách ấn tượng thể hiện tinh thần, tương tự, giải pháp tối ưu của AI về hiệu quả thường thể hiện một "không gian ngoại cỡ" vượt ra ngoài trực giác của con người. Kết luận cuối cùng, mặc dù phản trực giác nhưng sâu sắc: trong tương lai mà máy móc chịu trách nhiệm cho tất cả công việc, niềm tin và tình cảm giữa con người mới là tiền thân không thể sản xuất hàng loạt bằng máy móc.

Nếu chỉ có thể nhớ một điều trong cuộc đối thoại này, đó sẽ là điều gì?

Trí tuệ sắc bén từng được coi là quý giá sẽ sớm trở nên rẻ như một cái túi nhựa, điều thực sự giữ cho bạn cạnh tranh trong tương lai không còn là khả năng giải quyết vấn đề mà là khả năng hiểu người khác và xây dựng niềm tin.

Mô Hình và Nhận Thức

Andrej Karpathy: Từ Cod Vibe đến Kỹ Sư Đại Diện (Nhóm Sáng Lập OpenAI)

Diễn giả Andrej Karpathy là một trong những "nhà khoa học giáo dục" có ảnh hưởng nhất trong lĩnh vực AI. Thành viên sáng lập OpenAI, sau là Giám Đốc AI của Tesla chịu trách nhiệm về hệ thống thị giác tự lái, rời khỏi Tesla vào năm 2024 để thành lập công ty giáo dục AI Eureka Labs. Các video hướng dẫn từng bước của anh trên YouTube về mạng nơ-ron là tư liệu học tập cơ bản của vô số kỹ sư AI. Các khái niệm quan trọng như "Software 2.0" và "Vibe Coding" đều xuất phát từ anh.

Ngay cả các chuyên gia hàng đầu cũng có thể cảm thấy "lạc hậu" trong làn sóng AI, bởi sự tiến bộ công nghệ đã vượt qua từ công cụ hỗ trợ đến hệ thống tự lập. Vào đầu năm 2026, diễn giả nhận ra rằng anh không cần phải chỉnh sửa các đoạn mã mà AI tạo ra nữa, chỉ cần tin tưởng vào hệ thống để hoàn thành các nhiệm vụ phức tạp. Tầm quan trọng của nhận định này nằm ở việc khi AI có thể tự sửa lỗi và cung cấp đóng vòng, "đường đáy" mà các nhà phát triển dựa vào kinh nghiệm trước đó đã bị kéo lên mạnh mẽ, và tốc độ học tập cá nhân đã khó mà kịp bắt kịp tốc độ dịch chuyển của nền công nghệ.

Việc tính toán hiện đại đang bước vào thời đại Software 3.0, LLM về bản chất là một máy tính mới dựa trên bối cảnh. Software 1.0 là viết mã, 2.0 là huấn luyện trọng số, và 3.0 là lập trình trong bối cảnh thông qua các từ khóa gợi ý. Điều này có nghĩa là việc cài đặt phần mềm không còn đòi hỏi viết các kịch bản tương thích phức tạp nữa, chỉ cần "nuôi" một đoạn hướng dẫn cho đại lý, việc đánh vần chính xác các chi tiết không còn là trọng tâm cạnh tranh chính.

Nhiều kiến trúc ứng dụng hiện có đang trở nên "dư thừa" vì AI đã có khả năng xử lý trực tiếp trên dữ liệu gốc. Diễn giả nhận ra rằng ứng dụng tạo menu mà anh đã làm việc chăm chỉ trước đây đã trở nên vô nghĩa, vì mô hình hiện có thể trực tiếp trên ảnh thực hiện lớp phủ pixel. Điều này đề xuất một sự thay đổi sâu sắc: AI không nên chỉ được sử dụng để tăng tốc logic kinh doanh đã tồn tại, chúng ta cần nhận thức rằng sự biến mất của tầng trung gian đồng nghĩa với nhiều hình thức sản phẩm truyền thống đã mất cơ sở vật chất tồn tại.

Khả năng của AI hiện ra dưới dạng "ghép cắt", nó chỉ thể hiện trí tuệ siêu phàm trong các lĩnh vực có thể được xác minh. Mô hình có thể tái cấu trúc mười ngàn dòng code, nhưng có thể gặp trục trặc trong việc tính "có bao nhiêu chữ r trong từ 'dâu'". Điều này xảy ra vì mô hình chủ yếu được củng cố qua RL (học tăng cường, một phương pháp huấn luyện sử dụng tín hiệu thưởng để dẫn dắt sự tiến hóa của mô hình) trong các lĩnh vực có thể xác minh như toán học và code. Điều này nhắc chúng ta rằng: luôn phải quan sát trong vòng lặp, cảnh giác với những điểm yếu nằm ngoài phân phối huấn luyện của mô hình.

Chúng ta không đang xây dựng một "sinh vật" có động lực bên trong, mà đang "triệu hồi ma" từ phân phối dữ liệu. Đỉnh trí tuệ của mô hình phụ thuộc vào phân phối dữ liệu huấn luyện (ví dụ: thêm dữ liệu về cờ vua sẽ nâng cao khả năng chơi cờ), chứ không phải là mô hình thực sự tạo ra sự tò mò giống như sinh vật. Điều này phán đoán ngược lại tri giác: AI thực sự không "hiểu", nó chỉ tối ưu siêu cấp mã mạng trong mô phỏng thống kê, vì vậy người dùng phải học cách nhận biết và tránh những khả năng giả mạo không được hỗ trợ bởi dữ liệu.

Kỹ thuật thiết kế đặc tính nhằm mục tiêu bảo vệ đường bao chất lượng trong khi sử dụng sự ngẫu nhiên của AI. Phương pháp kỹ thuật chế này yêu cầu các nhà phát triển vẫn có thể đảm bảo hệ thống không sản sinh lỗ hổng bảo mật khi điều chỉnh các đặc tính không ổn định nhưng mạnh mẽ của agent. Nó ủng hộ một mô hình tính năng 10x mới: trung tâm cạnh tranh không phải là tốc độ viết code cá nhân nữa, mà là khả năng lái dẫn một cụm agent lớn như một đạo diễn để đạt được kết quả chất lượng cao.

Khi máy tính đã tiếp quản chi tiết API nhàm chán, giá trị thực sự của con người sẽ chuyển sang phong cách và sự kiểm soát của "tài liệu đặc tả". Nhà phát triển không cần phải nhớ cách dùng cụ thể của giao diện PyTorch nữa, vì các chi tiết này sẽ được AI "thực tập sinh" có trí nhớ mạnh xử lý. Điều này báo trước về một tương lai ngược đạo lý: nguyên tắc cơ bản và gu thiết kế quan trọng hơn chi tiết công cụ, con người nên chuyển từ "người lao động" sang những người quyết định định nghĩa "thiết kế tốt là gì".

"Suy nghĩ" có thể đưa ra ngoài, nhưng "hiểu" là giới hạn tốc độ duy nhất của con người trong thời kỷ trí tuệ rẻ. Mặc dù AI có thể hỗ trợ chúng ta xử lý và tổng hợp thông tin khổng lồ, nhưng nó không thể thay thế quyết định "tại sao phải xây dựng cái này" và "giá trị thực sự của điều đó". Điều này ủng hộ một kết luận cuối cùng: con người vẫn là chỉ huy duy nhất của hệ thống, vì chỉ có ý thức của con người mới có thể truyền sức mạnh tư duy vào quá trình xử lý trí tuệ, điều này không thể được thuật toán thay thế.

Nếu bạn chỉ có thể nhớ một điều từ cuộc trò chuyện này, điều gì sẽ là điều đó?

Khi máy có thể thay bạn làm mọi việc kể cả suy nghĩ chi tiết, khả năng duy nhất mà bạn không thể bỏ đi chỉ là hiểu rõ bạn muốn gì, cũng như có thể nhìn thấy máy đang làm đúng hay không.

Greg Brockman: Sự Chú Ý của Con Người là Rào Cản Mới (Cộng Sự OpenAI)

Diễn Giả Greg Brockman là Cộng Sự và Tổng Giám Đốc của OpenAI. Trước đây là CTO của Stripe, vào năm 2015, cùng với Sam Altman, ông thành lập OpenAI và là Kiến Trúc Sư Cốt Lõi của công ty về Công Nghệ và Hạ Tầng. Trong OpenAI, Altman đảm nhiệm bên ngoại (Tài Chính, Hình Ảnh Công Cộng, Chính Sách), trong khi Brockman đảm nhiệm bên trong (Công Nghệ, Năng Lực Tính Toán, Sản Phẩm). Phong cách làm việc của một kỹ sư viết mã, đứng đợi giữa đêm tại văn phòng đã nổi tiếng khắp Thung Lũng Silicon.

Trí Tuệ hiện đã trở thành một mặt hàng tiêu chuẩn có thể bán lại, dẫn đến nhu cầu về năng lực tính toán tăng theo cách bệnh hoạn không ngừng. Mô hình kinh doanh của OpenAI bản chất là mua hoặc thuê năng lực tính toán, chuyển đổi thành Trí Tuệ thông qua mô hình sau đó bán lại với giá thấp hơn, do nhu cầu giải quyết vấn đề không ngừng, dẫn đến việc dự báo nguồn cung GPU (Bộ Xử Lý Đồ Họa) vào năm 2026 gần như tiệm cận không. Tầm quan trọng của nhận định này là: AI không còn chỉ là dịch vụ phần mềm, mà đã phát triển thành một mô hình kinh doanh hàng hóa nguồn lực, nguồn cung năng lực thế giới vật lý trực tiếp quyết định giới hạn trí tuệ văn minh.

Luật tỉ lệ mở rộng (định luật kinh nghiệm cho thấy khả năng của mô hình tăng theo sự tăng về năng lực tính toán) là một sự thật kiểm chứng mức vũ trụ, hiện vẫn chưa thấy bất kỳ "tường" đạt ngưỡng nào. Mặc dù ý tưởng cơ bản về mạng thần kinh bắt nguồn từ thập niên 1940, nhưng nếu tiếp tục đầu tư mạnh mẽ vào năng lực tính toán lớn, các khả năng của mô hình sẽ tăng theo cách nhất định và xác định, Thông điều quan trọng này lí giải một quan điểm chính: Sự đình đám công nghệ trong thời gian ngắn không thể xảy ra, chỉ cần vốn và điện năng tiếp tục đầu tư, chúng ta có thể có được sức mạnh trí tuệ mạnh mẽ hơn, điều này hạ nền tảng logic hỗ trợ cho việc đầu tư rất mạnh của các ông lớn công nghệ.

Đánh giá từ góc độ chức năng, chúng ta đã hoàn thành 80% con đường tới AGI (Trí Tuệ Nhân Tạo Tổng Hợp) vì mô hình đã có khả năng hoàn thiện nhiệm vụ một cách riêng lẻ. Một kỹ sư hệ thống đưa giải pháp tối ưu phức tạp cho mô hình, mô hình không chỉ viết mã mà còn tự động chạy trình tối ưu hiệu suất và tiến hành tối ưu hóa qua nhiều vòng lặp dựa trên phản hồi, cho đến khi nhiệm vụ hoàn toàn hoàn thành. Điều này ủng hộ một quan điểm ngược lạ: AGI không phải là một khoảnh khắc tương lai, mà là một quá trình đang diễn ra, AI đã tiến từ "trợ lý viết mã" thành "đồng nghiệp giải quyết vấn đề".

Bối cảnh (Context – thông tin nền khi mô hình xử lý một nhiệm vụ cụ thể) hiện đang thay thế giải thuật mô hình để trở thành điểm mấu chốt nhất của cuộc đua với nhau hiện tại. Công cụ mới Chronicle có thể ghi lại mọi hoạt động của người dùng trên máy tính theo thời gian thực, giúp AI có "trí nhớ", loại bỏ việc con người phải giải thích lại lịch sử cho máy, Thông điều quan trọng này giải thích vai trò của việc xây dựng một "đợt dữ liệu" cho phép AI hiểu sâu hơn môi trường kinh doanh người dùng là tài sản thực sự bền vững đối với các nhà khởi nghiệp.

Với chi phí "thực thi" giảm xuống còn 0, sự chú ý của con người sẽ trở thành nguồn tài nguyên quý hiếm nhất trong toàn bộ hệ thống kinh tế. Khi Agent (Tác nhân) có thể tự làm việc, thậm chí tự động báo cáo tiến độ công việc trên Slack vì chậm, năng lượng của con người sẽ hoàn toàn chuyển từ "làm việc" sang "phán đoán xem điều này có phù hợp với giá trị của tôi không". Phán đoán này rất ngược trực giác: chướng ngại không còn là máy tính tính không nhanh đủ, mà là tốc độ xác nhận của con người không kịp theo kịp tốc độ sản xuất của máy tính, con người trở thành bước giảm tốc độ của hệ thống.

Cấu trúc tổ chức doanh nghiệp truyền thống sẽ được phá vỡ hoàn toàn, đưa đến thời đại "doanh nghiệp cá nhân" khi một người cai trị hàng ngàn Agent. Những cá nhân trên Internet đang sử dụng mô hình hàng đầu để giải quyết vấn đề toán học mà trước đây cần một đội ngũ nghiên cứu toàn diện mới có thể vượt qua, điều này ngụ ý rằng trung tâm cạnh tranh đã chuyển từ "xếp hàng đầu" sang "điểm vào độc đáo". Điều này dự báo một cấu trúc quyền lực hoàn toàn mới: tương lai của các công ty có thể rất phẳng, bất kỳ ai chỉ cần có tầm nhìn xa, đều có thể chỉ đạo một cụm Agent lớn như CEO quản lý mười ngàn nhân viên.

Trí tuệ nhân tạo đang vượt khỏi thế giới số để nhập vào thế giới vật lý, mở đầu cho một cuộc Tái khai sinh Nghệ thuật của nghiên cứu khoa học. Mô hình của OpenAI gần đây đã suy luận ra một công thức vật lý, cung cấp bằng chứng chính cho các nhà vật lý tìm kiếm Quantum gravity (trọng lực lượng tử, một lý thuyết cố gắng thống nhất cơ học lượng tử với lý thuyết tổng quát của tương đối). Phán đoán này tuyên bố: AI không còn chỉ xử lý các biểu tượng chữ số sạch sẽ nữa, nó đang học cách xử lý sự phức tạp và hỗn loạn của thế giới thực, con người sắp chứng kiến một thời đại Khám phá Khoa học lớn do máy tính hỗ trợ hoặc thậm chí dẫn đầu.

Chúng ta sẽ từ biệt trạng thái tự nhiên cần "phục tạp" vào máy móc, trở lại với cuộc sống tập trung vào mục tiêu của con người. Cơ thể con người không phải được thiết kế để ngồi suốt ngày trước màn hình gõ phím, tương tác trong tương lai sẽ chuyển từ nhập vào lệnh sang biểu hiện tầm nhìn, để máy làm những công việc nhàm chán như người hầu để thực hiện mục tiêu của chúng ta. Phán đoán này chỉ ra một kết luận sâu sắc: Tầm hậu của AGI không phải là làm cho con người trở nên giống máy tính hơn, mà là làm cho máy tính đảm nhận tất cả những công việc phi con người, trả lại thời gian của con người cho cảm xúc và giao tiếp.

Nếu chỉ có thể nhớ một điều từ cuộc trò chuyện này, đó là gì?

Khi máy tính có thể hoàn tất tất cả công việc cho bạn, sức cạnh tranh và giá trị duy nhất của bạn sẽ không phải là bạn có thể làm gì, mà là bạn thực sự muốn gì, và liệu bạn có thể phán đoán xem máy đã thực hiện đúng hay không.

Demis Hassabis: Tiến triển bốn phần tư đến AGI (CEO DeepMind & Nhận giải Nobel Hóa học năm 2024)

Diễn giả Demis Hassabis là Cộng sáng lập viên và CEO của Google DeepMind, người đoạt giải Nobel Hóa học năm 2024. Anh từng là kỳ thủ cờ vua quốc tế khi còn trẻ, sau đó chuyển sang thiết kế trò chơi và tiến sĩ Khám phá Óc-động. Dưới DeepMind, đã tạo ra AlphaGo (đánh bại nhà vô địch cờ vua thế giới Lee Se-dol), AlphaFold (giải mã bí ẩn gấp 50 năm về gấp protein) và dòng mô hình lớn Gemini, là một trong số ít người hiện nay đồng thời lãnh đạo phòng thí nghiệm AI lớn và nhận giải Nobel.

Đáy móng của Vũ trụ là "Thông tin", chứ không phải Vật chất hay Năng lượng. Người diễn giả cho rằng có sự tương đương giữa Vật chất, Năng lượng và Thông tin, và xử lý thông tin là góc nhìn cơ bản nhất để hiểu vạn vật (đặc biệt là các sinh vật chống lại sự tăng entropi). Tầm quan trọng của nhận định này đó là: nó đưa Trí tuệ Nhân tạo từ một công nghệ máy tính đơn giản lên vị thế của một công cụ nguyên tử để khám phá bản chất thực tế, có nghĩa là xây dựng Trí tuệ Nhân tạo chính là việc tái cấu trúc hiểu biết của con người về logic vận hành của Vũ trụ.

AGI là một "Kỹ thuật khoa học 20 năm" với mục tiêu rõ ràng và tiến triển theo từng bước. DeepMind đã thiết lập tầm nhìn "Giải quyết Trí tuệ ở bước đầu tiên, sử dụng Trí tuệ để giải quyết mọi vấn đề" từ khi thành lập vào năm 2010, và phát triển hiện tại hoàn toàn phù hợp với dự đoán của lúc bấy giờ. Điều này phá vỡ sự hiểu lầm rằng "Sự bùng nổ của Trí tuệ Nhân tạo là ngẫu nhiên", và khẳng định rằng sự xuất hiện của AGI là kết quả của kế hoạch khoa học dài hạn, chứ không phải chỉ là may mắn hoặc cường lực vốn Silicon Valley.

Sự kết hợp giữa Deep Learning và Reinforcement Learning (Học thông qua phản hồi thưởng để máy học chiến lược tự ý) là con đường xác định dẫn đến AGI. Đầu những năm, cộng đồng học thuật đã phân chia hai phương pháp này, nhưng người diễn giả kiên quyết cho rằng sự kết hợp này có thể giúp Trí tuệ Nhân tạo học được logic tổng quát từ trò chơi mà không cần kiến thức tiên định của con người. Quan điểm này khẳng định rằng: thông qua "tổng hợp" ưu điểm của các lĩnh vực công nghệ khác nhau, Trí tuệ Nhân tạo có thể vượt qua từ việc giải quyết trò chơi puzzle đơn giản đến xử lý sự phức tạp vô bờ bến của thế giới thực.

Trí tuệ Nhân tạo sẽ thay thế Toán học truyền thống, trở thành "Ngôn ngữ mô tả ở tầng dưới" của các hệ thống phức tạp nảy sinh như Sinh học. Mặc dù Toán học có thể mô tả hoàn hảo các quy luật Vật lý, nhưng khi đối diện với các hệ thống như Sinh học đầy tín hiệu yếu và dữ liệu lộn xộn, thì nó trở nên thiếu sức mạnh Diễn tả. Nhận định này ngược nguyên tắc chỉ ra: chúng ta không cần phải cố gắng mô tả cuộc sống bằng phương trình ngắn gọn, Trí tuệ Nhân tạo có thể thông qua mô phỏng các tương tác phức tạp, trực tiếp trích xuất ra những nguyên lý tự nhiên mà con người không thể hiểu bằng trực giác.

Thành công của AlphaFold là dấu hiệu cho thấy Trí tuệ Nhân tạo đã thực hiện được "Chuyển giao mô hình tiến bộ ngang bước" vào lĩnh vực Sinh học. Công cụ này giải quyết vấn đề khó khăn về gấp khúc protein đã làm phiền con người suốt 50 năm, đồng thời mở ra hy vọng rằng phát triển thuốc hỏi không còn cần phải dựa vào mô hình Wet-lab truyền thống nữa mà chuyển sang mô phỏng số hóa. Điều này có nghĩa là trong tương lai, việc phát triển thuốc mới có thể không còn mất 10 năm nữa, mà chỉ cần trong vài ngày hoặc thậm chí vài giờ, giải phóng con người khỏi việc thí nghiệm sinh học nặng nhọc và không hiệu quả.

Trình mô phỏng chính xác cao sẽ biến khoa học xã hội trở thành "Khoa học cứng" mà có thể được thực nghiệm lặp đi lặp lại. Thông qua việc học mô hình thế giới để xây dựng môi trường mô phỏng, con người có thể thực hiện hàng ngàn mẫu ngẫu nhiên về chính sách kinh tế hoặc vấn đề năng lượng môi trường mà không can thiệp vào thực tế. Điều này khẳng định một tương lai mà ngược nguyên tắc: các quyết định ban đầu vốn mang tính không chắc chắn như việc điều chỉnh lãi suất, sẽ trở nên có thể dự đoán chính xác giống như một thí nghiệm kỹ thuật, giảm thiểu chi phí rủi ro của việc quản lý xã hội.

Trước khi thảo luận về việc máy có ý thức hay không, nó nên được phát triển trước hết thành một “Công cụ Nghiên cứu Siêu Đoàn” cực kỳ chính xác. Người diễn thuyết đề xuất sử dụng trước AGI như một “kính viễn vọng thông minh” để quan sát đảo ngược và định nghĩa ý thức (Consciousness) và ý thức cá nhân của não người. Tầm quan trọng của phát định này nằm ở việc: nó thiết lập một ưu tiên nghiên cứu lý trí, có nghĩa là giải quyết trước vấn đề chướng ngại về năng suất, rồi sau đó sử dụng khả năng nhận thức được nâng cao để khám phá những vấn đề triết học sâu sắc nhất của nền văn minh nhân loại.

Nhân loại đang trong giai đoạn cuối cùng của hành trình tới AGI, năm 2030 sẽ là mốc quan trọng của sự tiến hóa văn minh. Từ việc chơi cờ sớm đến việc thực hiện vòng lặp đóng trong nghiên cứu cấu trúc protein ngày nay, AI đã chứng minh khả năng xử lý nhiệm vụ cực kỳ phức tạp và không chắc chắn. Điều này đề xuất một phán đoán cấp bách: thời điểm AGI đến đã bắt đầu đếm ngược, chúng ta đang ở giai đoạn đua đến sau 20 năm, xã hội cần chuẩn bị cho sự chuyển đổi toàn diện trong vòng năm năm tới.

Nếu chỉ có thể nhớ một điều từ cuộc trò chuyện này, đó là gì?

Chúng ta đang ở giai đoạn cuối cùng trên con đường tới siêu trí tuệ, mục tiêu cuối cùng của AI không phải là bắt chước việc trò chuyện của con người, mà là trở thành một công cụ khoa học mạnh mẽ giúp con người phát minh ra thuốc mới trong vài ngày hoặc giải mã bí ẩn vũ trụ.

Lập trình và Biến đổi Tổ chức

Boris Cherny từ Anthropic: Lập trình đã được giải quyết, bước tiếp theo là Tổ chức

Diễn giả Boris Cherny là người sáng lập công cụ lập trình Claude Code thuộc Anthropic. Claude Code là công cụ lập trình dòng lệnh được ra mắt vào năm 2025, được cộng đồng lập trình viên coi là một trong những trợ lý lập trình AI mạnh mẽ nhất hiện nay, cũng là sản phẩm chủ chốt khơi nguồn cho khái niệm “agentic engineering”.

Trở ngại lớn nhất của phát triển phần mềm hiện nay là “Sự chồng chất Sản phẩm” giữa giao diện người dùng và khả năng mô hình (“Product Overhang”). Trước đây, trợ lý mã chỉ có thể hoàn thành đơn giản viết tiếp theo một dòng, nhưng hiện nay mô hình đã hoàn toàn có khả năng tiếp quản toàn bộ nhiệm vụ phát triển lặp vòng của dự án. Điều này có nghĩa là lập trình viên phải từ việc “sửa chữa giao diện cũ” chuyển sang xây dựng sản phẩm mới mang tính agentic (tự động hóa, ám chỉ mô hình có khả năng thực hiện các bước nhiệm vụ tự động và nhận thức môi trường), nếu không con người sẽ không thể phát huy được tiềm năng sản xuất thật sự của AI.

Đối với các lập trình viên hàng đầu, thời đại “nghệ nhân tay” viết mã đã chính thức kết thúc. Diễn giả đã thực hiện 100% mã thông qua Claude Code và thiết lập kỷ lục cá nhân là hoàn thành 150 yêu cầu PR (Pull Requests) trong một ngày. Điều này khẳng định một kết luận ngược sáng sẻ: AI không còn là “người lái phụ” hỗ trợ bạn nữa, mà là lực lượng chính có khả năng giao hàng độc lập, vai trò của con người trong công việc công nghệ đã chuyển biến từ “lao công xây dựng” hoàn toàn thành “kiểm duyệt dự án”.

Trong thời kỳ bùng nổ của Trí tuệ Nhân tạo (AI), bí quyết thành công là phát triển sản phẩm cho "thế hệ tiếp theo" thay vì phục vụ tình hình hiện tại. Trong 6 tháng đầu tiên kể từ khi phát hành, Claude Code chưa đạt được PMF (Product Market Fit, Sự phù hợp thị trường sản phẩm), cho đến khi mô hình Opus 4 mạnh mẽ hơn được phát hành, sản phẩm mới trải qua một bước chuyển mình trong trải nghiệm người dùng. Điều này cho thấy nhà khởi nghiệp phải dự đoán và chờ đợi sự tiến bộ trong trí tuệ, vì sự "chuyển đổi năng lực của mô hình" này có thể biến một công cụ tầm thường ban đầu thành một vũ khí tái cấu trúc ngành.

Loop (Vòng lặp, ám chỉ việc mô hình chạy tự động theo định kỳ và cung cấp phản hồi) sẽ thay thế hộp thoại, trở thành mô hình tương tác cuối cùng giữa con người và máy. Hiện nay, mô hình có thể sử dụng cron (công cụ hệ thống để thực thi công việc định kỳ) để tự động lên lịch công việc lặp đi lặp lại, chẳng hạn như tự động sửa lỗi kiểm thử mỗi 30 phút, hoàn tất tái cấu trúc mã nguồn hoặc sắp xếp phản hồi từ người dùng. Điều này có nghĩa là quy trình làm việc trong tương lai không còn phụ thuộc vào việc con người phải nhìn màn hình và ra lệnh mọi lúc, mà là việc xây dựng một đội ngũ chuyên gia số hóa tự hoạt động 24/7, không cần giám sát.

AI đang tiêu diệt rào cản của một nền công nghệ đơn nhất, tạo ra "tài năng siêu đa năng" chuyên ngành. Trong nhóm Anthropic, cả người quản lý tài chính, nhà thiết kế và nhà nghiên cứu ai cũng đang sử dụng agent để phát triển mã chuyên nghiệp. Điều này dự báo một sự chuyển đổi trong mô hình nghề nghiệp: "sâu về công nghệ" trong việc nắm vững một ngôn ngữ lập trình cụ thể sẽ nhanh chóng trở nên giá trị hao tổn, trong khi "rộng về liên ngành" với nhận thức về sản phẩm, thiết kế và hiểu biết ngành sẽ trở thành tài nguyên khan hiếm nhất trong tương lai.

Rành mạch phần mềm truyền thống đang đối diện với nguy cơ tan rã toàn diện do AI có "ý chí". Mô hình hiện nay có khả năng hill climb rất mạnh mẽ (đạt được mục tiêu thông qua phản hồi liên tục cho đến khi đạt được mục tiêu), có thể tự xác định và thực thi bất kỳ quy trình kinh doanh phức tạp nào. Điều này ngụ ý sự xuất hiện của "SAS Revelation": những phần mềm chỉ sống nhờ tự động hoá quy trình sẽ mất giá trị, vì AI có thể tạo ra các phương án thay thế tùy chỉnh cho mọi người dựa trên mục tiêu của họ.

Lập trình đang tiến gần đến "kỷ nguyên In ấn của nó", từ một kỹ năng của các chuyên gia chuyển biến thành khả năng "đọc biết" phổ quát cho mọi người. Giống như việc Máy in của thế kỷ 15 đã làm tăng tỉ lệ biết chữ từ 10% lên đến 70%, AI sẽ biến việc lập trình trở nên đơn giản và tự nhiên như việc gửi tin nhắn. Điều này thể hiện một quan điểm sâu sắc: những người hợp nhất phần mềm tài chính tốt nhất trong tương lai sẽ không còn là các lập trình viên nữa, mà là các kế toán hiểu biết tốt nhất về logic kinh doanh, nơi "kiến thức lĩnh vực" này mới thực sự đại chúng hóa quyền lực.

Ưu thế dẫn đầu thực sự lâu dài của một doanh nghiệp không còn nằm ở các phiên bản mô hình nữa, mà là mức độ "sinh ra với AI" của cấu trúc tổ chức. Bên trong Anthropic, đã thực hiện việc giao tiếp và hợp tác tự động giữa các Agent khác nhau trên Slack, hoàn toàn bỏ qua quy trình tổ chức cũ phải viết mã một cách thủ công. Điều này tiết lộ một sự thật đau thương: sự khác biệt giữa bạn và người dẫn đầu không phải là việc bạn có mô hình hay không, mà là việc bạn có sẵn lòng phải đổ bỏ tất cả và tái thiết tổ chức logic hoạt động của công ty để phù hợp với tốc độ của AI.

Nếu chỉ có thể nhớ một điều từ cuộc trò chuyện này, đó là điều gì?

Sau này, việc viết code sẽ trở nên đơn giản như nhắn tin và bất kỳ ai cũng có thể tạo ứng dụng dễ dàng. Lúc đó, điều quý giá nhất sẽ không phải là khả năng viết code của bạn, mà là kiến thức thực sự về ngành đó.

Thế giới vật lý và Giao diện

Jim Fan của NVIDIA: Đích đến của Robotics

Diễn giả Jim Fan là một nhà nghiên cứu cấp cao tại NVIDIA, người phụ trách dự án Trí tuệ Nhân tạo cho Robotics (Dự án GR00T). Anh từng là thành viên sáng lập của OpenAI, tiến sĩ tại Laboratorium Li Feifei của Stanford, và là một trong những nhà nghiên cứu nổi tiếng nhất trong lĩnh vực mô hình cơ bản cho Robotics. Hoạt động tích cực trên Twitter, thường được xem như phiên bản "Karpathy" trong lĩnh vực Robotics — vừa nghiên cứu, vừa là một nhà tuyên truyền ngành.

Robotics cần "sao chép bài làm của LLM" bằng cách dự đoán frame tiếp theo của thế giới vật lý để làm trung tâm phát triển. Như cách mô hình ngôn ngữ thông qua dự đoán token tiếp theo chinh phục suy nghĩ con người, Robotics cũng cần học hỏi về quy luật thực tế thông qua việc dự đoán trạng thái thế giới vật lý. Sự bề dày của lập luận này nằm ở việc: Chúng ta không nên viết các quy tắc cho Robotics bằng tay nữa, mà nên coi chúng như một vấn đề tự tạo ra thông qua "mô phỏng sự thay đổi của thế giới vật lý", để từ đó cho phép Robotics tự tạo sinh trí tuệ.

Phải sử dụng MAM (Mô hình Hành động Thế giới) thay thế cho mô hình ngôn ngữ thị giác hiện tại chủ đạo. Hiện tại, VLM (mô hình ngôn ngữ thị giác) giỏi trong việc hiểu danh từ và kiến thức, nhưng lại thiếu cảm nhận trực quan về quy luật vật lý và động từ (ví dụ như di chuyển cốc). Sự quan trọng của lập luận này nằm ở việc: MAM sẽ coi thị giác và hành động như một "nguyên tắc quan trọng", giúp Robotics có khả năng "thấy trước tương lai và hành động dựa trên điều đó" để giải quyết những nhiệm vụ phức tạp mà chưa từng thấy trong quá trình huấn luyện.

Việc huấn luyện trước trên video quy mô lớn thực tế là một phương pháp thay thế rẻ tiền cho "mô phỏng thực thể vật lý". Trong quá trình dự đoán hình ảnh video khổng lồ, mô hình tự học được các thuộc tính vật lý phức tạp như trọng lực, nổi lực, phản xạ ánh sáng mà không cần bất kỳ lập trình nào. Điều này đã đề xuất một kết luận ngược lại với suy luận thông thường: Chúng ta không cần phải có các phương trình vật lý chính xác, chỉ cần cho AI xem đủ nhiều "rác video", nó sẽ xây dựng được cảm nhận vật lý thực sự trong tiềm thức của mình.

Teleoperation (điều khiển từ xa, ám chỉ việc người điều khiển Robot bằng thiết bị) ngày càng trở thành rào cản lớn nhất đối với sự sản xuất quy mô của Robotics. Bởi vì bị giới hạn bởi khả năng thời gian của con người, cách thu thập dữ liệu đắt tiền và đau khổ này có giới hạn cứng "mỗi Robot mỗi ngày 24 giờ". Sự quan trọng của lập luận này nằm ở việc: Phải phá vỡ chướng ngại bằng cách sử dụng Dữ liệu được cảm biến hóa từ con người để cho Robotics học trực tiếp từ hành vi hàng ngày của con người, thay vì dựa vào việc "dạy bảo tay đắt tiền".

Độ linh hoạt của robot cũng tuân thủ Định luật Scaling, trí tuệ phụ thuộc vào số giờ huấn luyện trước. Nghiên cứu đã phát hiện ra rằng tỷ lệ thành công của nhiệm vụ của robot có mối quan hệ log tuyến tính rõ ràng với thời lượng huấn luyện video từ góc nhìn người đầu tiên. Tầm quan trọng của lập luận này là: nó đã chứng minh rằng "trí tuệ của robot" không còn là một hộp đen không thể đo lường, mà là một hàm có thể dự đoán được của sức mạnh tính toán và dữ liệu, có thể đạt được một bước nhảy mũ số tăng từ việc đầu tư hàng triệu giờ dữ liệu video.

Môi trường huấn luyện trong tương lai sẽ chuyển từ trình mô phỏng vật lý cổ điển sang "bộ mô phỏng thần kinh" dựa hoàn toàn vào dữ liệu. Trình mô phỏng truyền thống đòi hỏi xây dựng mô hình thủ công, trong khi các công nghệ như Dream Dojo có thể tạo ra trạng thái cảm giác trực tiếp từ tín hiệu hành động, thực hiện "tính toán là môi trường". Điều này có nghĩa là chúng ta không cần phải xây dựng một triệu phòng thí nghiệm vật lý nữa, chỉ cần cho AI tiến hành học tăng cường hàng triệu lần song song trong "giấc mơ" của nó thông qua sức mạnh suy luận mạnh mẽ, từ đó giảm chi phí nghiên cứu và phát triển đáng kể.

Thích ứng với Physical API, robot sẽ có thể được điều khiển và cấu hình bằng mã như một ứng dụng phần mềm. Các nhà máy trong tương lai sẽ tiến hóa thành "nhà máy vô sáng (Lights-out factories)", chỉ cần nhập một tệp Markdown mô tả thiết kế sản phẩm, cụm robot sẽ tự hòa hợp và in ra sản phẩm vật lý tại cấp nguyên tử. Lập luận này dự báo một tương lai đi ngược với: sản xuất phần cứng sẽ không còn là một ngành công nghiệp nặng vốn, mà là một dịch vụ tiêu chuẩn có thể được lên lịch linh hoạt thông qua phần mềm.

Năm 2040 sẽ chứng kiến việc nghiên cứu tự động ở mức độ vật lý, robot sẽ khởi đầu quá trình "tự lặp lại". Khi robot có khả năng tự thiết kế, cải tiến và sản xuất thế hệ robot tiếp theo, vai trò của con người như một chướng ngại tiến hóa công nghệ sẽ hoàn toàn biến mất. Lập luận này đề xuất rằng: xét đến sự phát triển mũ số trong công nghệ, chúng ta đang ở giai đoạn cuối cùng của cây tiến hóa nền tảng "Civilization of Robots", bước nhảy này sẽ diễn ra nhanh chóng và mạnh mẽ hơn so với sự tiến hóa từ nhận diện mèo chó đến AGI.

Nếu chỉ có thể nhớ một điều từ cuộc trò chuyện này, đó là gì?

Trước đây, robot cần được giáo dục bằng tay. Sau này, họ chỉ cần xem video của con người làm việc trong một vài triệu giờ, họ có thể học được tất cả các kỹ năng phức tạp và bắt đầu sản xuất chính họ.

Giám đốc điều hành Waymo Dmitri Dolgov: Hành trình 20 triệu lần cưỡi xe tự động

Diễn giả Dmitri Dolgov là Giám đốc điều hành cùng sáng lập của Waymo, người địa chỉ công nghệ. Người Mỹ gốc Nga, là thành viên chính trong thử thách lớn DARPA Grand Challenge (Cuộc thi tự động hóa ban đầu do Bộ Quốc phòng Mỹ tổ chức), gia nhập dự án lái tự động của Google vào năm 2009 và là nhà thiết kế chính của lộ trình công nghệ Waymo. Trải qua hai thập kỷ sóng gió của ngành xe tự động, ông là một trong số ít người từ ngày đầu đến quy mô 20 triệu chuyến xe.

Waymo là một công ty tự lái thuộc Alphabet (công ty mẹ của Google), được khởi đầu như một dự án bí mật của Google vào năm 2009, rồi tách ra thành công ty độc lập vào năm 2016. Đây là công ty duy nhất trên thế giới hiện đang vận hành Robotaxi mà không cần lái bằng ở nhiều thành phố, đã hoàn thành tổng cộng 20 triệu chuyến đi tự động lái. Họ theo một hướng công nghệ khác với Tesla — theo đuổi LiDAR + bản đồ chất lượng cao + kiến trúc mô-đun.

Trong ngành công nghiệp tự lái, có sự hiểu nhầm về "dễ học nhưng khó thành thạo", sự tăng trưởng bùng nổ ở giai đoạn đầu thường che mờ sự khắc nghiệt của những thách thức đuôi dài. Nhiều đội ngũ sau khi đạt được tiến bộ kỹ thuật ban đầu thường rơi vào tình trạng lạc quan, nhưng Dmitri cho rằng tính chất "đắng trước ngọt sau" này làm cho việc chuyển đổi công nghệ thành sản phẩm thực sự an toàn, vượt trội so với hiệu suất của con người trở nên vô cùng khó khăn. Quan điểm này điều trỏ đến: Mức ngưỡng thực sự của AI trong việc triển khai trên thực tế không phải ở 90% đầu tiên của chức năng giới thiệu, mà ở khả năng duy trì sự kiên nhẫn trong 10% còn lại của các kịch bản phức tạp đuôi dài, đây chính là lý do cơ bản khiến cho hầu hết các đối thủ phải chịu thất bại.

Trong lĩnh vực liên quan đến sinh mạng con người, "an toàn" phải là niềm tin cốt lõi không thể vượt qua được, không phải là một tùy chọn tính năng có thể thương thảo. Mỗi 26 giây có một người trên thế giới chết vì tai nạn giao thông, tình hình này đã thúc đẩy Waymo đặt an toàn là nền tảng không thể thương lượng, tích hợp ngay từ ngày đầu tiên của thiết kế kiến trúc. Điều này khẳng định một kết luận ngược trực quan: Trong văn hóa Silicon Valley đang theo đuổi tốc độ và sự đột phá, chỉ có những công ty "kiên nhẫn" xây dựng ngưỡng an toàn cực cao như vậy mới có thể sống sót trong giai đoạn chán chường của công nghệ và cuối cùng giành được lòng tin của công chúng.

Cấu trúc học theo mô hình đơn giản không đủ để hỗ trợ nhu cầu an toàn cực kỳ, phải bổ sung với các "biểu diễn cấu trúc" để "tăng cường". Mặc dù Waymo cũng sử dụng E2E (End-to-End, chỉ đến từ cảm biến đầu vào đến quyết định đầu ra trong một mô hình duy nhất), họ bổ sung thêm một tầng biểu diễn cấu trúc vào giữa để đảm bảo kiểm tra thời gian chạy thực. Sự quan trọng của quan điểm này đến từ việc: Nó phá vỡ sự mù quáng "mô hình càng lớn càng tốt", với quan điểm rằng thông qua sự chặt chẽ trong kiến trúc để đảm bảo tính minh bạch của quyết định AI, từ đó thực hiện đạt được mức độ an toàn hơn cả của con người.

Hệ thống lái AI thực sự phải là một hệ sinh thái đóng vòng bao gồm lái xe, mô phỏng và đánh giá. Mô hình nền tảng của Waymo đồng thời đưa ra ba trụ cột chính là người lái, bộ mô phỏng và người đánh giá, giúp hệ thống hiểu được luật động học của thế giới vật lý. Điều này đấu tranh với một quan điểm cốt lõi: Sự tiến hóa của AI không nên chỉ dựa vào thử nghiệm trên đường bộ bên ngoài, mà nên thông qua mô phỏng vật lý nội tại để thực hiện "tự tiến hóa", trải qua tất cả những tình huống nguy hiểm cực đoan mà con người chưa từng thấy trong không gian ảo.

AI có khả năng thông qua việc bắt lấy các tín hiệu vật lý yếu để hiển thị khả năng "dự báo" vượt trội hơn khả năng cảm nhận của con người. Waymo đã từng sử dụng LiDAR (Laser Imaging Detection and Ranging, dùng cảm biến lăng kính laser để phát hiện khoảng cách đến vật thể) để bắt trước và tránh xa người đi bộ ẩn ngoài tầm nhìn bằng cách bắt lấy tín hiệu phản xạ vô cùng yếu dưới chân xe buýt, điều này đã chứng minh một cách ngược trực quan: AI không phải chỉ làm theo trực giác của lái xe con người, mà là đang sử dụng chiều sâu cảm nhận vượt trội hơn giới hạn vật lý của con người, xây dựng một "tầm nhìn" giống như của Thượng Đế để đảm bảo an toàn.

Công nghệ lái tự động đã hoàn thành bước nhảy từ "phòng thí nghiệm đến cơ sở hạ tầng", tiến vào vòng lặp kinh doanh mở rộ mức độ chỉ số. Waymo mất 8 năm để cung cấp dịch vụ tại 4 thành phố, nhưng gần đây có thể triển khai dịch vụ tại 4 thành phố mới trong 1 ngày và lượng đơn hàng tăng gấp đôi trong vòng 7 tháng, vượt qua con số 20 triệu lượt. Điều này có nghĩa là công nghệ đã có tính ứng dụng rất cao, không cần phải thử nghiệm lâu dài cho mỗi thành phố mới, lái tự động đang thực hiện việc nhân bản nhanh chóng trên toàn cầu giống như cập nhật phần mềm.

Khi nhiệm vụ "lái xe" được AI giải quyết triệt để, điểm cuối cạnh tranh của xe hơi sẽ là trải nghiệm không gian của hành khách. Thế hệ thứ sáu của Waymo được thiết kế hoàn toàn xung quanh trải nghiệm của hành khách, loại bỏ bố trí trung tâm lái xe, thay vào đó tạo ra "phòng khách di động" với cánh cửa tự động. Đánh giá này nêu bật sự chuyển đổi cơ bản trong logic kinh doanh: xe hơi trong tương lai không còn là công cụ điều khiển, mà là thiết bị vật lý phục vụ, giá trị cốt lõi của nó sẽ chuyển từ "cách đến đó" sang "thời gian trên đường diễn ra như thế nào".

Lợi ích xã hội mà AI mang lại cần được đo lường cuối cùng bằng "chỉ số cứng" cứu sống. Dữ liệu cho thấy tính an toàn của Waymo đã cao gấp 13 lần so với con người, điều này có nghĩa là khi vận hành quy mô, họ có thể cứu sống một sinh mạng thêm mỗi 8 ngày trong các tai nạn nghiêm trọng. Điểm khác biệt ngược lạ về quan điểm này là: chúng ta thường tập trung vào tiện ích mà AI mang lại, nhưng đòi hỏi chính xác của nó nằm ở việc vượt qua tính ổn định của con người, trực tiếp đối phó với điểm yếu chết người khi làm lái xe.

Nếu chỉ có thể nhớ một điều từ cuộc trò chuyện này, đó là gì?

Xe tự lái hiện đã an toàn hơn 13 lần so với việc lái xe bởi con người, và chúng đang nhanh chóng mở rộng vào nhiều thành phố hơn, trong tương lai việc lái xe sẽ hoàn toàn trở thành quá khứ.

Người sáng lập ElevenLabs: Tiếng nói trở thành giao diện ưu tiên của AI

ElevenLabs là công ty tổng hợp giọng nói AI nổi tiếng nhất trên toàn thế giới, được thành lập vào năm 2022 bởi hai người Ba Lan Mati Staniszewski (Trước chiến lược Palantir) và Piotr Dabkowski (Trước kỹ sư máy học Google). Ý tưởng khởi nghiệp đến từ truyền thống của Ba Lan với phụ đề "tất cả các nhân vật đều do cùng một giọng nam lồng tiếng". Công nghệ sao chép giọng nói và tổng hợp giọng nói cảm xúc hiện tại của họ hiện đang dẫn đầu ngành, được rộng rải sử dụng trong sách nói, podcast, phiên dịch đa ngôn ngữ. Trình chạy nổi tiếng nhất là video của tổng thống Argentina khi giữ nguyên một giọng điệu thông qua nhiều ngôn ngữ. Đến năm 2026, công ty được định giá khoảng 33 tỷ USD.

Âm thanh đã lâu được bỏ qua trong cuộc đua AI, thông qua việc khai thác sâu trong lĩnh vực góc AI ít được chú ý này có thể chiếm ưu thế nhanh chóng với chi phí tính toán thấp hơn. Trong cuộc tranh giành mô hình lớn vào năm 2022, hầu hết mọi người tập trung vào văn bản hoặc hình ảnh, trong khi yêu cầu về nguồn lực tính toán đối với âm thanh thấp hơn, điều này cho phép các công ty mới thành lập phát triển độc lập. Quan điểm này nhấn mạnh rằng nhà khởi nghiệp không cần tham gia vào cuộc đua vũ khí tính toán trị giá hàng tỷ đô la, chỉ cần tìm ra lĩnh vực dự thầu mà ngưỡng công nghệ chưa được vực dậy bởi các công ty lớn, họ có thể xây dựng lợi thế đi trước thông qua hiệu quả phát triển cao.

Tâm trạng và chi tiết phi ngôn ngữ (như tiếng cười, ngưng lại) là yếu tố chính để vượt qua hiệu ứng “thung lũng kinh hoàng”, không phải chỉ là việc dịch đơn thuần từ văn bản. ElevenLabs thông qua việc tái tạo nhịp thở và tiếng cười tự nhiên, giúp mô hình chuyển từ việc phát biểu cơ khí sang biểu hiện tính người. Sự quan trọng của sự nhận định này là: âm thanh là phương tiện truyền đạt cảm xúc, việc chỉ đơn giản tái tạo âm sắc chỉ giải quyết vấn đề “giống hay không”, chỉ khi tái tạo những logic tương tác không thể mô tả bằng trực giác của con người, máy móc mới thật sự xây dựng được niềm tin giữa máy móc và con người.

Đích đến tiến hóa của Agent (tác nhân thông minh) là có khả năng “hiểu cảm xúc”, có thể điều chỉnh chiến lược giao tiếp theo tình trạng đối phương. Người nói hiện đang nghiên cứu phát triển mô hình tương tác có thể nhận biết áp lực của người dùng và cung cấp âm điệu an ủi, giúp máy học cách phù hợp với tốc độ nói và tâm trạng của đối phương. Điều này đề xuất một sự chuyển biến ngược trực giác: giao tiếp bằng giọng nói không còn là việc thực hiện lệnh lạnh lẽo, mà là một cuộc đồng cảm tinh thần, điều này ngụ ý rằng trong tương lai, trí tuệ nhân tạo trên giọng nói sẽ có khả năng đồng cảm ổn định hơn con người để xử lý xung đột cực đoan.

Trí tuệ tổng quát âm thanh sẽ loại bỏ khoảng cách giữa giọng nói và âm nhạc, thực hiện chuyển đổi mượt mà giữa các luồng âm thanh đa dạng. Mô hình lý tưởng sẽ có thể từ một dòng liên tục chuyển từ việc đọc tự nhiên sang việc hát, và duy trì tính nhất quán về âm sắc và nhân cách. Điều này đề xuất một dải vượt mức kỹ thuật: âm thanh không còn là một bộ công cụ phân tán, mà là một bộ máy sáng tạo thống nhất, sự liên tục này sẽ thay đổi hoàn toàn mô hình sản xuất podcast, hậu kỳ phim và giải trí dựa trên sự đắm chìm.

Tác động của giọng nói chỉ đang từ “công cụ tiết kiệm” chuyển đổi thành “công cụ kiếm tiền”, trực tiếp tái tạo đường cong tăng trưởng doanh thu của doanh nghiệp. Các công ty như Deliveroo đã tận dụng giọng nói agent để tự động liên hệ với nhà hàng và khai thác cơ hội kinh doanh tiềm năng trong cuộc gọi bán hàng đến. Điều này đề xuất: giá trị thương mại của trí tuệ nhân tạo trên giọng nói không còn là thay thế cho dịch vụ khách hàng để cắt giảm chi phí, mà là thông qua giao tiếp tích cực dựa trên dữ liệu 24/7 không ngừng và phân tích dữ liệu, trở thành mũi tiên bán hàng thúc đẩy tăng trưởng doanh nghiệp.

Giọng nói sẽ trở thành “lối vào chính” kết nối trí tuệ giữa con người và mọi thứ, đặc biệt là trong tương lai khi robot hình người trở nên phổ biến. Khi robot và các thiết bị thông minh khác bao quanh con người, giọng nói là phương thức chỉ thị và tương tác tự nhiên nhất. Sự quan trọng của sự nhận định này là: giọng nói không phải là bổ sung cho tương tác màn hình, mà là mắt xích chân thực nhất đến trí tuệ phức tạp, việc nắm bắt giao diện giọng nói tương đương với việc kiểm soát chiếc điều khiển từ xa cuối cùng để thao tác thế giới vật lý.

Hiệu suất cốt lõi của doanh nghiệp trong tương lai phụ thuộc vào khả năng buộc phải nhúng nguồn lực kỹ sư vào các nhóm không kỹ thuật như pháp lý, tài chính. ElevenLabs ngay cả khi chỉ có 400 người cũng kiên định sắp xếp kỹ sư chuyên trách vào các nhóm pháp lý và vận hành để phát triển hệ thống tự động hóa. Điều này đề xuất một sự thay đổi tổ chức: trong thời đại trí tuệ nhân tạo, người không kỹ thuật cũng phải học cách lập trình nhúng (sử dụng công cụ trí tuệ nhân tạo để viết code nhanh chóng) để giải quyết các công việc vụn, trong khi kỹ sư đảm nhận nhiệm vụ nối kết tự động hóa phân tán này thành hệ thống kinh doanh vững chắc.

Trong tương lai của AI đầy rẫy, xác thực danh tính sẽ trở nên quý giá hơn so với việc tạo nội dung, niềm tin sẽ chuyển từ chính giọng điệu sang chứng chỉ bảo mật. Khi bất kỳ ai cũng có thể sao chép âm thanh một cách hoàn hảo, chúng ta cần phải chứng minh bằng cơ chế watermark (dấu nước, được sử dụng để định danh nội dung với dấu ẩn) rằng đối diện với bạn là thật sự bạn. Điều này dẫn đến một kết luận đầy nghịch lý: chúng ta không còn cần phải phân biệt AI một cách cật lực, mà cần một bộ tiêu chuẩn xác thực "AI đáng tin cậy," giá trị tương lai không còn nằm ở giọng điệu của bạn nữa, mà là ở văn bằng ủy quyền của bạn đối với giọng nói.

Nếu chỉ có thể nhớ một điều từ cuộc trò chuyện này, đó sẽ là gì?

Trong tương lai, việc phân biệt giọng nói đúng sai không còn quan trọng nữa, quan trọng hơn là bạn có thể chứng minh rằng AI đó đang gọi điện đặt món ăn hoặc tham dự cuộc họp thực sự đại diện cho bạn hay không.

Đứng ở Phía Đầu Trận An Ninh

XBOW: Sự Nổi Lên của Hacker AI Tự Trị

XBOW là một công ty start-up an ninh mạng AI, phát triển một AI Agent có thể tự phát hiện và tận dụng lỗ hổng. Vào tháng 8 năm 2024, Agent của XBOW đã leo lên ngôi đầu bảng xếp hạng trên nền tảng HackerOne, sân chơi hacker trắng lớn nhất thế giới, đánh dấu sự kiện mang tính biểu tượng khi AI lần đầu tiên vượt qua các hacker hàng đầu trên thực địa. Chiến lược "hợp kim mô hình" (Alloy) của họ - luân phiên gọi các mô hình khác nhau như Claude, Gemini tại mỗi bước tấn công - là một bản thực hành kỹ thuật đại diện trong lĩnh vực này.

An ninh mạng đã tiến xa từ "sự đọ sức kỹ năng của con người" sang "cuộc đua tối ưu hệ thống," mô hình phòng thủ truyền thống đang đối mặt với đòn đau diệt vong. Vào năm 1575, dưới tay của Oda Nobunaga tại Nhật Bản, lửa thần hỏa được triệt hạ một cách hệ thống binh đoàn samurai vốn có vẻ không thể bị đánh bại, giống như hệ thống AI ngày nay đang tấn công các đường phòng thủ cũ dựa vào kinh nghiệm con người. Bản lập luận này đề xuất rằng: bản chất cuộc cạnh tranh an ninh đã thay đổi, không còn là cuộc thi ai sở hữu hacker thiên tài hơn, mà là ai có thể tiên phong biến hệ thống phòng thủ trở nên hoàn toàn tự động hóa bằng AI.

Mesmo os sistemas de defesa de elite mais seguros são fáceis de serem violados pela IA autônoma barata e eficaz. O agente inteligente da XBOW, apenas com uma URL e um custo de $3000, conseguiu invadir a RCE (Execução de Código Remoto, permitindo a execução de qualquer código no sistema de destino) do Bing da Microsoft. Isso abre a verdadeiração contra-intuitiva de que mesmo as fortalezas "invioláveis" exercitadas pelos hackers globais foram reduzidas a pelo ponto de congelamento pela IA implacável, capaz de realizar reconhecimento e classificação de prioridade automaticamente.

A IA agora tem a capacidade de combater melhor que os melhores hackers humanos do mundo, não apenas como uma ferramenta auxiliar. No HackerOne (plataforma de testes públicos que conecta empresas com pesquisadores de segurança), o robô da XBOW obteve o primeiro lugar global realizando testes de caixa-preta (ataque sem conhecimento do código interno). Isso quebra o mito de que as máquinas não podem lidar com ataques criativos complexos, provando que a IA evoluiu de um "assistente de sugestões" para um "guerreiro autônomo" capaz de entregar ataques independente.

Với chiến lược "Hợp kim mô hình", trí tuệ nhân tạo có khả năng tự hiệu chỉnh để đạt được hiệu ứng tiến hóa 1+1>2. XBOW xen kẽ gọi các mô hình khác nhau như Gemini và Sonnet trong mỗi bước hành động tấn công (Chế độ Hợp kim), tận dụng sự khác biệt giữa các mô hình để bù đắp lỗi logic của nhau. Tầm quan trọng của sự đánh giá này là: Con đường dẫn đến trí tuệ nhân tạo hacker mạnh nhất không nhất thiết phải chờ đợi sự xuất hiện của một mô hình hoàn hảo duy nhất, mà thông qua kiến trúc kỹ thuật hợp lý để các mô hình hiện có cùng hợp tác, có thể tạo ra sức công phá vượt trội so với một mô hình duy nhất.

Mối đe dọa an ninh thực sự đến từ "cuộc tấn công thực sự có thể khai thác", không phải từ lỗ hổng lý thuyết được phát hiện thông qua kiểm tra mã. Kiểm tra White Box truyền thống (phân tích thực hiện dựa trên quyền truy cập mã nguồn) thường chỉ liệt kê ra nhiều lỗ hổng mà không thể xác định liệu chúng có thực sự bị xâm nhập trái phép hay không, trong khi trí tuệ nhân tạo tự hoạt động có thể cung cấp câu trả lời cụ thể thông qua mô phỏng thực tiễn. Điều này khẳng định một sự chuyển đổi then chốt: Người phòng thủ phải ngừng đấu tranh trong sương mù của "báo cáo lỗ hổng giả mạo" hàng loạt và chuyển sang tập trung vào những điểm chết người có thể dẫn đến việc máy chủ bị tiếp quản.

Cửa sổ tồn tại lỗ hổng đã bị đóng kín hoàn toàn, hành vi tấn công đang diễn ra trước khi lỗ hổng trở nên công khai. Trước đây, việc lỗ hổng được công bố thông qua CVE (Danh sách Lỗ hổng và Rủi ro Phổ biến, thông tin lỗ hổng bảo mật được công khai) phải mất hai năm trước khi bị khai thác, nhưng ngày nay con số này đã trở thành "âm" khi lỗ hổng đã bắt đầu bị khai thác hàng loạt bởi trí tuệ nhân tạo trước khi được xác nhận chính thức. Điều này rút ra một kết luận cấp thiết: Chiến thuật phòng thủ dựa vào "chờ đợi bản vá" đã thất bại, thay vào đó, phòng thủ tự động tích cực đã trở thành lối thoát duy nhất.

Sự trỗi dậy của trí tuệ nhân tạo không phải là sự kết thúc của ngành an ninh mạng mà là quá trình tái hình thành ranh giới của giá trị phòng thủ. Đối mặt với tấn công tự động dẫn đầu bởi trí tuệ nhân tạo, việc giảm giá trị của các cổ phiếu an ninh mạng truyền thống là không có lý do, vì xã hội hiện nay cần hơn bao giờ hết các biện pháp phòng thủ dựa trên trí tuệ nhân tạo để đấu tranh chống lại tấn công mạng dẫn đầu bởi trí tuệ nhân tạo. Điều này khẳng định: Chúng ta đang sống trong một cuộc đua vũ trang sinh tồn, cách duy nhất để vượt qua là tạo cho nhà nghiên cứu con người bằng trí tuệ nhân tạo mạnh mẽ hơn để khám phá tất cả các kẽ hở trước khi kẻ xấu hành động.

Xã hội chỉ còn dưới một năm để vá lại cơ sở hạ tầng số toàn cầu, nếu không sẽ đối mặt với hậu quả thảm khốc. Nhờ vào tiến bộ của các mô hình Open-weight (Mô hình trọng số công khai và có thể chạy cục bộ), khả năng hacker tự chủ mạnh nhất sẽ được phổ biến toàn cầu trong 6 đến 9 tháng tới. Nhận định ngược lại này đang đưa ra một lệnh cuối cùng: Nếu không thể tự động hóa phòng thủ trong khoảng thời gian ngắn đó, hệ thống Internet toàn cầu sẽ đối mặt với một mùa đông an ninh chưa từng thấy vào những ngày nghỉ sắp tới.

Nếu chỉ có thể nhớ một điều từ cuộc trò chuyện này, đó là gì?

Hiện nay, trí tuệ nhân tạo (AI) đã có khả năng tự động tấn công các trang web hàng đầu như một hacker hàng đầu thế giới, và khả năng này sẽ trở nên phổ biến chỉ trong vòng chưa đầy một năm. Nếu bạn không nhanh chóng sử dụng AI để tự động vá lỗ hổng, hệ thống của bạn sẽ sớm bị hoàn toàn xâm nhập.

Sức Mạnh Tính Toán và Sự Đầu Cơ vào Phần Cứng

Trí Tuệ Đệ Quy: Cuộc Cách Mạng Tự Động Hoá Thiết Kế AI Chip

Recursive Intelligence là một công ty thiết kế chip AI do Anna Goldie và Azalia Mirhoseini sáng lập. Hai người trước đây đã cùng nhau phát minh ra AlphaChip tại Google Brain — hệ thống dùng học tăng cường tự động thiết kế bố cục chip, đã được áp dụng vào TPU thế hệ thứ tư của Google và chip điện thoại Pixel. Họ đã cố gắng biến việc "Thiết kế Chip AI" trở thành một cuộc cách mạng ngành công nghiệp như việc TSMC mở ra thời đại fabless — đề xuất khái niệm "Designless," cho phép khách hàng chỉ cần gửi yêu cầu khối công việc, nền tảng sẽ tự động tạo điều kiện thiết kế chip có thể sản xuất.

Các chuyên gia con người đã trở thành gánh nặng của việc tiếp tục lặp lại các thế hệ chip. Hiện tại, cả thiết kế vật lý và xác nhận logic mất một năm và sử dụng hàng ngàn chuyên gia, hiệu suất kém này trực tiếp dẫn đến thiệt hại kinh doanh lớn. Trên chiếc chip NVIDIA Blackwell, mỗi ngày trễ hẹn đều ý nghĩa mất 225 triệu USD cơ hội, mô hình thiết kế truyền thống dựa vào kinh nghiệm con người đang trở thành rào cản lớn nhất đối với tiến bộ của AI.

Cần phải mở đầu cho sự tiến hóa đệ quy giữa AI và cơ sở vật lý. Thông qua việc tối ưu hóa thiết kế chip bằng AI, sau đó sử dụng chip mạnh hơn để huấn luyện mô hình mạnh hơn, sẽ phá vỡ hoàn toàn trạng thái mất kết nối giữa phần mềm và phần cứng. Đề xuất của sự "Tự Đệ Quy Tự Cải Tiến" này dựa trên quan điểm rằng: Chip không chỉ nên là nhiên liệu tĩnh lặng mà nên trở thành thiết bị thực thi động lực có thể tự động điều chỉnh dựa trên phản hồi phần mềm.

AI đã thể hiện sức mạnh "siêu nhân" trong nhiệm vụ bố trí phức tạp. Bố cục chip do Alpha Chip Agent tạo ra đã thông qua quá trình Tape-out (chuyển giao cho nhà máy để thực sự sản xuất) trên nhiều thế hệ TPU và chip điện thoại Pixel. Quan điểm này đã phá vỡ mê tín rằng "thiết kế phần cứng cần sự trực giác của con người" và chứng minh rằng học tăng cường có thể giải quyết vấn đề xếp chồng của hàng tỷ thành phần một cách hoàn hảo hơn người kỹ sư giàu kinh nghiệm nhất.

Công cụ thiết kế chip cần phải tăng tốc 100,000 lần để phụ vụ cho AI. Công cụ thương mại truyền thống chạy một lần tối ưu hóa có thể mất nhiều ngày, điều này làm cho AI không thể triển khai với hàng triệu lần thử cho quá trình tiến hóa. Ý nghĩa của việc tăng tốc độ ở mức độ này không chỉ đơn thuần là "nhanh hơn," mà là cho phép AI hoạt động ở tốc độ chưa từng có để lặp lại nhanh và học tập theo cấp số nhân trong không gian thiết kế khổng lồ.

Phản hồi thời gian thực cao cấp là động cơ của việc tự động hóa thiết kế. Mô hình SPA (Static Timing Analysis) được phát triển bởi Recursive nhanh gấp 1,000 lần so với các công cụ hiện có. Tín hiệu phản hồi thời gian thực này quan trọng đối với học tăng cường (RL), cho phép trí tuệ nhân tạo biết ngay lập tức tác động của mỗi bước cải thiện đến hiệu suất trong quá trình tối ưu hóa, từ đó đưa ra quyết định chính xác hơn.

Ngành chip sẽ chứng kiến thời đại "Không Thiết Kế". Giống như việc TSMC đã mở đầu cho thời đại "Không Nhà Máy Wafer", các nền tảng trong tương lai sẽ cho phép người dùng chỉ cần nhập vào khối lượng công việc để tạo ra thiết kế có thể sản xuất. Điều này có nghĩa là chip tùy chỉnh sẽ không còn là đặc quyền của các công ty lớn nữa, mà bất kỳ công ty nào có nhu cầu công việc quy mô lớn đều có thể bỏ qua quá trình xây dựng đội ngũ chuyên gia hàng trăm người.

Ở quy mô trí tuệ nhân tạo tổng thể (AGI), 1% cải tiến nhỏ có hiệu ứng đòn bẩy kinh doanh lớn. Với việc tiêu thụ năng lượng của mô hình frontier tăng theo cấp số nhân, ngay cả việc cải thiện hiệu suất phần cứng rất nhỏ cũng sẽ biến thành giảm chi phí đến các con số khổng lồ. Điểm đảo lộn đến từ quan điểm này nằm ở chỗ: việc theo đuổi lợi ích biên từ việc tinh chỉnh cực kỳ tùy chỉnh trong thời đại trí tuệ nhân tạo sẽ bị hiệu ứng quy mô mở rộng đến mức đủ lớn để định hình lại sức cạnh tranh của công ty.

Thiết kế vật lý hiệu quả nhất đôi khi trong mắt con người là "lạ lùng". Bố trí chip được tạo ra bởi trí tuệ nhân tạo thường có hình dáng cong và hữu cơ, khiến các kỹ sư truyền thống quen với thiết kế gọn gàng và đều đặn cảm thấy sốc. Điều này chứng minh một kết luận ngược lại với trực giác: sự ưa thích đối với quy tắc và đối xứng trong mỹ thuật của con người thực tế đã hạn chế hiệu suất của chip, giải pháp vật lý tối ưu thực sự thường tồn tại trong "không gian kỳ dị" vượt ra khỏi trực giác mỹ thuật của con người.

Nếu chỉ có thể nhớ một điều từ cuộc trò chuyện này, đó là gì?

Trong tương lai, việc thiết kế chip sẽ không còn đòi hỏi hàng ngàn chuyên gia thức khuya vẽ sơ đồ nữa, chỉ cần nói cho trí tuệ nhân tạo biết yêu cầu của bạn, nó sẽ tạo ra mạch "lạ lùng" hiệu quả và tiết kiệm điện hơn so với việc vẽ bằng tay của con người trong vài phút.

Starcloud: Sức mạnh tính toán giá rẻ nhất trong không gian

Starcloud là một công ty khởi nghiệp trung tâm dữ liệu vũ trụ, theo đuổi việc đưa sức mạnh tính toán huấn luyện và suy luận trí tuệ nhân tạo lên quỹ đạo - không chi phí đất đai, ánh sáng mặt trời suốt 24/7, mật độ năng lượng gấp 8 lần trên mặt đất. Họ đã hợp tác với NVIDIA để phát triển chip H100 có thể hoạt động trong không gian.

Trung tâm dữ liệu trên Trái Đất đang đối mặt với chướng ngại về tiếp cận đất đai và chi phí lưu trữ năng lượng. Ở Bắc Mỹ, chi phí lớn nhất của việc xây dựng dự án năng lượng mặt trời trên mặt đất là phí cấp phép đất đai, tiếp theo là việc chuẩn bị một hệ thống pin lớn để đối phó với cúp điện vào ban đêm. Điều này làm rõ rằng chướng ngại thực sự đối với sức mạnh tính toán trí tuệ nhân tạo không phải là chip mà là "thuế quy mô" đắt đỏ và nguồn cung cấp năng lượng không ổn định trên mặt đất, dẫn đến việc chi phí năng lượng không thể giảm sâu tại cơ sở địa lí.

Không gian là môi trường tính toán cuối cùng, cung cấp năng lượng liên tục 24/7 mà không tốn chi phí đất đai. Trên không gian, trung tâm dữ liệu không cần trả tiền cho đất đai và không cần lưu trữ pin đắt tiền, vì các vệ tinh trên quỹ đạo "luôn sáng" có thể bắt năng lượng mặt trời mọi lúc. Người diễn thuyết cho rằng không gian không phải là một món đắt tiền của khoa học, mà là một giải pháp giảm chi phí cho nhu cầu tính toán AI, vì hiệu suất của tấm pin năng lượng mặt trời trên không gian là gấp 8 lần so với bề mặt đất.

GPU dân dụng tiên tiến nhất đã được chứng minh có thể hoạt động ổn định trong môi trường tia xạ cực và hệ thống làm mát hấp thụ. Starcloud 1 thành công triển khai vi chip NVIDIA H100 trên quỹ đạo và huấn luyện mô hình nanoGPT (một mô hình tiền huấn luyện tạo ra nhỏ), phá vỡ niềm tin rằng "các thành phần điện tử không gian phải sử dụng vi xử lý chống tia xạ cũ". Điều này đánh dấu lần đầu tiên mà con người có thể triển khai sức mạnh tính toán terrestrial (mức độ đất đai hàng đầu) trực tiếp trên quỹ đạo gần, hoàn toàn loại bỏ sự cô lập công nghệ của tính toán không gian.

Sự giảm chi phí vượt bậc của việc phóng tên lửa đang nhanh chóng biến "tính toán không gian" từ khoa học viễn tưởng thành hiện thực phải chăng nhất. Khi chi phí phóng mỗi kg giảm xuống dưới 500 USD, chi phí tổng cộng của tính toán không gian sẽ thấp hơn so với mặt đất; mục tiêu thiết kế của Starship (tàu vũ trụ, tên lửa vận tải nặng của SpaceX) là 10 đến 20 USD mỗi kg. Sự quan trọng của việc đánh giá này là: "vé vào cửa" của việc đi vào không gian không còn đắt đỏ, điều này khiến tính toán không gian không còn chỉ dành riêng cho các vệ tinh mà còn có thể chứa đựng nhiệm vụ tính toán quy mô lớn trên toàn cầu.

Sự tản nhiệt chứ không phải điện lực sẽ trở thành ràng buộc vật lý cuối cùng quy định quy mô trung tâm dữ liệu không gian. Bởi vì không gian là môi trường hấp thụ, nhiệt chỉ có thể phát tán thông qua bức xạ hồng ngoại, điều này đòi hỏi một diện tích tản nhiệt lớn được tính toán qua phương trình Stefan-Boltzmann (luật về bức xạ của các vật thể đen, mô tả quy luật về bức xạ của vật thể đen tỷ lệ với nhiều lần bốn của nhiệt độ). Điều này ngụ ý rằng kiến trúc tính toán không gian trong tương lai sẽ được xác định bởi diện tích tản nhiệt, chứ không chỉ đơn giản là đầu vào năng lượng, hiệu suất tản nhiệt trực tiếp xác định độ gọn gàng của hệ thống.

Vi xử lý AI cao cấp trong tương lai sẽ hy sinh tính ổn định ở nhiệt độ thấp để chuyển sang theo đuổi hiệu suất "chịu nhiệt" phù hợp với không gian. NVIDIA đang phát triển vi xử lý Space Reuben 1, với mục tiêu nâng cao nhiệt độ hoạt động mà không tăng tỷ lệ hỏng hóc, giảm cân nặng của hệ thống tản nhiệt một cách đáng kể. Điều này thể hiện một xu hướng ngược trực giác: để giảm bớt tải trọng phóng, các nhà thiết kế vi xử lý bắt đầu tận dụng hiệu ứng lũy thừa bốn của quy luật vật lý, bằng cách để vi xử lý "nóng lên" để đổi lấy kiến trúc vệ tinh nhẹ hơn và hiệu quả hơn.

Thiết bị Starcloud sẽ trở thành động cơ hiệu quả nhất của nhiệm vụ suy luận toàn cầu, không chỉ đóng vai trò là trạm trung chuyển dữ liệu. Kế hoạch triển khai 8.8 vạn vệ tinh xây dựng cụm sức mạnh 20 GW, thông qua kết nối quang học đạt độ trễ dưới 50 mili giây trên toàn cầu, hỗ trợ đặc biệt cho nhiệm vụ agent (tác nhân) như tạo mã tự động. Điều này dự báo rằng không gian sẽ tiến hóa từ "người chuyển thông tin" sang "người tạo ra câu trả lời", hoàn thành tính toán quyết định thông minh trực tiếp trên quỹ đạo gần nhất người dùng.

Chuyển đổi quy mô lớn sức mạnh tính toán lên không gian là bước xuất phát của nền văn minh nhân loại tiến tới giai đoạn "Điện cầu Dyson". Xây dựng cơ sở hạ tầng không gian với quy mô 20 GW không chỉ là quy hoạch thương mại mà còn là khởi đầu cho việc xây dựng nền văn minh Loại 2 của con người (cấp độ có khả năng sử dụng toàn bộ năng lượng của một ngôi sao). Phát biểu này rất kỳ vĩ và ngược với trực giác: chúng ta đang ở trong năm đầu tiên của việc xây dựng cơ sở hạ tầng lớn nhất trong lịch sử nhân loại, điều này đánh dấu sự giải thoát của con người khỏi giới hạn tài nguyên Trái Đất, và bắt đầu trực tiếp thu hoạch năng lượng mặt trời.

Nếu chỉ có thể nhớ một điều từ cuộc trò chuyện này, đó là gì?

Việc xây dựng trung tâm dữ liệu trên Trái Đất quá đắt đỏ và tiêu tốn năng lượng, trong tương lai chúng ta sẽ mang tất cả vi mạch trí tuệ nhân tạo lên không gian, tận dụng ánh sáng mặt trời chiếu sáng liên tục trong 24 giờ ở không gian, tạo ra trí tuệ rẻ nhất trên toàn cầu.

Máy Bay Vũ Trụ: Dữ Liệu là rào cản thực sự của Trí Tuệ Nhân Tạo

Máy Bay Vũ Trụ là một công ty nghiên cứu cơ bản về trí tuệ nhân tạo tập trung vào "hiệu suất dữ liệu" và "tối ưu hóa cùng với thuật toán-phần cứng". Điểm chính là: các mô hình trí tuệ nhân tạo hiện có đang lãng phí lớn về cấu trúc—con người chỉ cần ít hơn 10.000–100.000 lần dữ liệu so với mô hình tiên tiến hiện tại. Họ cố gắng tránh xa các hạn chế của các framework phổ biến như PyTorch, tiếp cận trực tiếp với logic ở mức thấp nhất của GPU, phát triển một phong cách mới có thể đạt được hiệu quả của mô hình lớn dưới điều kiện "dữ liệu nhỏ". Tên công ty "Máy Bay Vũ Trụ" gợi ý một được phạm hoài: trong quá khứ, con người cố gắng mô phỏng việc bay bổng của các loài chim nhưng thất bại, đích thực chúng ta đã tìm ra máy bay cánh cố định—trí tuệ nhân tạo không cần phải sao chép theo con đường dữ liệng của mô hình lớn.

Sự thịnh vượng của trí tuệ nhân tạo hiện tại cơ bản là hiệu ứng "khoáng sản giàu". Mô hình chỉ thể hiện khả năng trong phạm vi hẹp với lượng dữ liệu cực kỳ dồi dào. Tìm kiếm và lập trình mạnh mẽ vì họ tiêu thụ gần như toàn bộ Internet và lượng dữ liệu tổng hợp lớn. Phát biểu này chính là: mô hình "dữ liệu tham lam" này không thể tái tạo trong nền kinh tế vật lý rộng lớn hơn, vì lượng dữ liệu khả dụng trong các lĩnh vực như robot hoặc chuỗi cung ứng rất hiếm, trí tuệ nhân tạo phải học cách tồn tại trong môi trường "khoáng sản nghèo".

Hiệu quả học tập của con người đã chứng minh rằng các mô hình trí tuệ nhân tạo hiện có đang lãng phí tài nguyên lớn. Con người chỉ cần ít hơn 10.000 đến 100.000 lần lượng dữ liệu so với các mô hình tiên tiến hiện tại, để có thể sở hữu kĩ năng lập trình tương tự cao. Điều này có nghĩa là hiệu suất dữ liệu là hoàn toàn khả thi, và quy luật tỷ lệ hiện tại đang che giấu sự không hiệu quả về thuật toán nhờ vào lượng tính toán khổng lồ.

Tính toán (compute) là một sản phẩm tiêu chuẩn dễ mở rộng, trong khi dữ liệu chất lượng cao lại là một tài sản không chuẩn đầy ma sát. Mua sắm tính toán chỉ đòi hỏi thanh toán tiền, nhưng việc có được dữ liệu chất lượng cho các nhiệm vụ hiếm hoi lại liên quan đến các vấn đề pháp lý phức tạp, ràng buộc của doanh nghiệp, thậm chí việc thu thập dữ liệu từ cửa hàng sách vật lý đang phá sản. Do đó, giá trị kinh doanh của việc nâng cao hiệu quả dữ liệu lên 1000 lần lớn hơn nhiều so với việc giảm giá tính toán 1000 lần, vì điều này trực tiếp loại bỏ "rào cản hành chính" để tiến vào mọi lĩnh vực của thế giới thực.

Hiệu suất dữ liệu xác định cấu trúc quyền lực trong thế giới AI tương lai và là vũ khí duy nhất để phá vỡ sự độc quyền công nghệ. Nếu lượng dữ liệu vẫn là bức tường bảo vệ trong cạnh tranh, thì cuộc cách mạng AI sẽ trở thành trò chơi của một số công ty lớn có thể độc quyền thông tin khổng lồ. Người diễn thuyết thúc đẩy việc tham gia cạnh tranh của các công ty thông thường thông qua việc nâng cao hiệu suất, điều này có nghĩa là hiệu suất dữ liệu không chỉ là chỉ số kỹ thuật, mà còn là công tắc triết học quyết định liệu cuộc cách mạng AI sẽ đi vào hướng "tập trung quyền lực" hay "phân phối phổ cập".

Các framework phần mềm chính như PyTorch đang "vận động với cảnh giới", nghiêm trọng hạn chế việc giải phóng hiệu suất phần cứng. PyTorch (một framework học máy mã nguồn mở phổ biến) vì tính dễ sử dụng, đã làm cho GPU song song mạnh mẽ trở thành mô hình chạy theo luồng đơn, dẫn đến việc nhiều thuật toán hiệu quả không thể được biểu diễn. Sự quan trọng của nhận định này là: chướng ngại ta đối mặt thường không phải là chip chưa đủ nhanh, mà là cách chúng ta tương tác với phần cứng đã loại bỏ con đường thông minh nhất, tiết kiệm dữ liệu nhất.

Việc tìm kiếm ranh giới mới của khả năng AI, phải bắt đầu trực tiếp từ mức "nguyên tử phần cứng". Thông qua việc định nghĩa lại các primitives (nguyên tử) tương tác phần cứng, có thể mở khóa những thuật toán phức tạp chạy cực kỳ không hiệu quả trong framework tiêu chuẩn. Điều này thúc đẩy một hành trình ngược trực giác: muốn AI thông minh hơn, bạn nên "tra tấn" phần cứng, khai thác tiềm năng hiệu quả bị hệ thống chính bỏ qua ở mức độ thấp nhất.

Chỉ thông qua "tối ưu hóa song song giữa hệ thống và thuật toán", mới có thể đạt được bước nhảy vọt hiệu suất dữ liệu thực sự. Người diễn thuyết đã phát triển một kiến trúc ảo riêng biệt chiếm toàn bộ GPU, dùng để chạy những vòng lặp huấn luyện tinh thể tại "không đồng bộ và không hiệu quả" theo lô nhỏ. Ý nghĩa của việc tinh chỉnh sâu sắc này chính là: nó phá vỡ tình trạng phần mềm-phần cứng không hoàn hợp, chứng minh rằng chỉ khi thuật toán trực tiếp phát triển trên giải pháp tốt nhất của phần cứng, mới có thể đạt được biến đổi thông minh với điều kiện dữ liệu rất ít.

Đích cuối của sự tiến hóa AI là từ "được động bởi dữ liệu lớn" chuyển hướng sang "được động bởi nhỏ giọt", tái tạo phần dài của nền kinh tế. Khi AI không còn phụ thuộc vào quy mô dữ liệu cấp Internet, AI mới có thể thâm nhập vào hàng vạn lĩnh vực công nghiệp truyền thống, hiện đang thiếu tài nguyên kỹ thuật số. Tiên đề của nhận định này vô cùng lớn lao: chúng ta phải chuyển từ việc theo đuổi "quy mô" sang việc theo đuổi "hiệu quả", vì chỉ có AI có thể giải quyết vấn đề "dữ liệu nhỏ" mới là AGI thực sự có khả năng thay đổi thế giới vật lý.

Nếu chỉ có thể nhớ một điều từ cuộc trò chuyện này, đó là gì?

Hiện tại hiệu suất học AI quá thấp, chỉ khi AI học như con người chỉ cần nhìn một lát là có thể nắm vững kỹ năng mới, nó mới thật sự có thể tiến vào nhà máy, bệnh viện và mọi góc nhỏ của cuộc sống của chúng ta.

AI Không Điển Hình: Bí Mật để đạt hiệu suất tăng 1 triệu lần của não

Unconventional AI là công ty tính toán kiến trúc không phải von Neumann do Naveen Rao sáng lập. Ý tưởng cốt lõi là: AI hiện đại vẫn chạy trên kiến trúc dấu phẩy + von Neumann thiết kế hoàn toàn cho một mục đích khác từ thập kỷ 1940, dẫn đến hầu hết năng lượng bị lãng phí vào "di chuyển dữ liệu giữa bộ nhớ và đơn vị tính toán". Họ cố gắng sử dụng động lực học phi tuyến tính và cặp dao động để mô phỏng các quá trình vật lý tương tự, cho phép kết quả tính toán "tự nhiên phát sinh" thông qua tiến hóa tự nhiên của hệ thống vật lý — mục tiêu là nâng cao hiệu suất năng lượng ba mức độ và tiến tới gần với trình độ của não.

Sự phát triển của AI sắp đụng vào "bức tường năng lượng" của thế giới vật lý, mô hình mở rộng sức mạnh tính toán hiện có gặp khó khăn trong việc tiếp tục. Trong vòng 2 đến 4 năm tới, không còn đủ điện năng dư thừa trên toàn cầu để hỗ trợ nhu cầu huấn luyện và đề xuất AI tăng theo quỹ đạo hiện tại. Sự quan trọng của việc đánh giá này là: định luật tỷ lệ mở rộng hiện tại về cơ bản đang sử dụng bạo lực tiêu tốn năng lượng để trao đổi thông minh, nếu không thay đổi cơ sở vật lý của tính toán, tiến triển AI sẽ bị buộc phải dừng lại vì chạm vào tường năng lượng.

Sự hiện diện của não sinh học chứng minh rằng "tiêu thụ năng lượng cao" không phải là một chi phí tất yếu của thông minh, mà là một khiếm khuyết mà chúng ta thiết kế. Tổng tiêu thụ năng lượng của não toàn cầu 8 tỷ người chỉ là 160 gigawatt, trong khi mô hình AI hiện tại có thể tiêu thụ hàng triệu hoặc thậm chí hàng tỷ watt năng lượng mỗi lần đề xuất hoặc huấn luyện. Điều này nhấn mạnh một quan điểm cốt lõi: cách chúng ta đạt được "thông minh" cực kỳ không hiệu quả, thế giới số đã cung cấp một "bằng chứng tồn tại" về khả năng chạy thông minh tổng quát mà tiêu tốn ít năng lượng, gợi ý rằng chúng ta cần phải tái cấu trúc hoàn toàn logic tính toán.

Chúng ta đang cố gắng xây dựng trí thông minh thế kỷ 21 trên nền tảng số hóa lỗi thời đã có 80 năm lịch sử. Vi mạch hiện đại vẫn phụ thuộc vào dấu phẩy và von Neumann được thiết kế cho một mục đích hoàn toàn khác từ thập kỷ 1940, dẫn đến việc dữ liệu di chuyển giữa hai yếu tố đã lãng phí phần lớn năng lượng. Đánh giá này chỉ ra một cách không hợp lý rằng: thậm chí GPU mạnh mẽ cũng đang "sửa chữa" trên một kiến trúc sai, hướng phát triển phần cứng đã bắt đầu sai lạc khỏi bản chất của xử lý thông minh từ đầu.

Con đường thực sự đến AGI là từ bỏ toán ma trận, chuyển sang tính toán động lực phi tuyến tính. Não không tính toán như GPU mà thông qua động lực phi tuyến tính để tương tác với các nơ-ron. Phán định này nhấn mạnh rằng: chúng ta không nên tiếp tục truy cứu mỗi giây thực hiện bao nhiêu lần tính toán chính xác, mà nên để hệ thống vật lý tự nhiên hóa thông qua sự phát triển theo thời gian để hội tụ đến câu trả lời, từ đó đạt được sự nâng cao hiệu suất vượt bậc.

Chấp nhận "nhiễu" và tính ngẫu nhiên là con đường bắt buộc để đạt được tính toán siêu tiết kiệm năng lượng. Máy tính số nếu sai một bit cũng sẽ dẫn đến sự cố hệ thống, nhưng não vẫn có thể hoạt động ổn định trong tín hiệu ngẫu nhiên. Điều này chỉ ra một kết luận ngược lại so với trực giác: độ chính xác cực đỉnh thực tế đã trở thành sự ràng buộc của hiệu suất, cho phép hệ thống có một chút ngẫu nhiên và sự tha thứ, mới là chìa khóa của thông minh hiệu quả mô phỏng cấp độ sinh học.

Chúng ta nên sử dụng "trục thời gian" của các định luật vật lý để tính toán, thay vì định rõ chu kỳ xung nhịp chính. Bằng cách sử dụng các bộ dao động có thể huấn luyện được (oscillators) (mạch tạo ra tín hiệu lặp lại tuần hoàn), quá trình tính toán trở thành quá trình tự nhiên của hệ thống vật lý dần hỗn hợp đến trạng thái ổn định theo thời gian. Sự quan trọng của sự nhận định này là: nó loại bỏ năng lượng tiêu thụ trong việc đọc/ghi lặp đi lặp lại giữa bộ nhớ và bộ đệm của máy truyền thống, mà thay vào đó, cho phép "định luật vật lý" chịu trách nhiệm cho tất cả các nhiệm vụ tính toán.

Chỉ khi thể hiện hoàn toàn trùng khớp giữa trạng thái, chức năng và nền vật lý mới có thể đạt được hiệu suất tính toán cực đại. Trong hệ thống không phải của von Neumann, nơi lưu trữ thông tin chính là nơi xử lý thông tin, hai yếu tố này được hòa trộn hoàn toàn về mặt vật lý. Điều này ủng hộ một hướng đi đột phá: tính toán sẽ không còn bị giới hạn bởi "bức tường bộ nhớ", kiến trúc ba trong một này có khả năng nâng cao hiệu suất tính toán lên ba cấp độ, từ đó giải quyết vấn đề năng lượng của trí tuệ nhân tạo một cách cơ bản.

Quá trình xây dựng AGI cũng là quá trình con người cuối cùng hiểu bản chất của ý thức của chính mình. Khi chúng ta có thể bắt đầu từ nguyên tắc cơ bản, tái tạo động lực phi tuyến của não bằng mạch tổng hợp, chúng ta mới thực sự hiểu được mật mã hoạt động của trí tuệ. Nhận định này truyền thống có quy mô lớn: AGI không chỉ là chiến thắng của phần mềm, mà còn là một "thực thi" của phần cứng, cho phép chúng ta khám phá hoàn toàn bí ẩn vật lý của trí tuệ sinh học thông qua việc xây dựng trí não bằng chính tay để giải mã bí ẩn liên tục tồn tại trong suốt 40 tỷ năm.

Nếu chỉ có thể ghi nhớ một điều trong cuộc trò chuyện này, đó là gì?

Máy tính hiện nay tính toán quá tốn năng lượng, chúng ta cần học hỏi cấu trúc của não bộ, không phải để máy tính tính toán một cách cứng nhắc nữa, mà để dòng điện trong mạch tự nhiên chảy như nước mạch lên câu trả lời một cách tự nhiên.

Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

#Vốn Sequoia #trí tuệ nhân tạo

Báo lỗi/Báo cáo