BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
lang
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Trang chủ
Cộng đồng
AI AI
Tin nhanh
Bài viết
Sự kiện
Thêm
Thông tin tài chính
Chuyên đề
Hệ sinh thái chuỗi khối
Mục nhập
Podcast
Data
OPRR

Karpathy: Đề xuất chuyển đổi mô hình lớn sang đầu ra HTML, mục tiêu tương tác AI là "Video Neural Tương tác"

Theo theo theo dõi từ Beat AI, đề xuất về "vibe coding", thành viên sáng lập của OpenAI Andrej Karpathy đã đăng bài ủng hộ mạnh mẽ phương pháp của nhóm Claude Code về việc "sử dụng HTML thay thế cho Markdown". Anh không chỉ đồng ý mạnh mẽ với sự thay đổi này, mà còn phác thảo một lộ trình tiến hóa giao diện AI tương tác, dự đoán rằng sau nhiều vòng lặp hình dạng, hình dạng cuối cùng của đầu ra của mô hình lớn sẽ là "video thần kinh tương tác".

Karpathy cho rằng, sự tiến hóa định dạng đầu ra của AI đã từng bắt đầu từ văn bản thuần túy rất khó đọc, tiến triển đến Markdown hiện nay, và đang dần trở thành chuẩn mới, có khả năng định dạng văn bản cao của HTML. Tương lai sẽ trải qua nhiều dạng trung gian (4, 5, 6 vv), cuối cùng đạt đến trạng thái cuối cùng (n): "video thần kinh tương tác" được tạo trực tiếp từ mô hình lan truyền. Đối với hình dạng cụ thể này, anh đã công khai nhắc đến bản tương lai mà cựu nghiên cứu viên của OpenAI đã phát hành gần đây, mang tên Flipbook với khả năng tạo hình không mã nguồn mức điểm.

Logic cơ bản của xu hướng tiến hóa này phản ánh trong băng thông vật lý của não người. Karpathy chỉ ra rằng, khoảng một phần ba não người được dành riêng cho xử lý tín hiệu thị giác của bộ xử lý song song, đây là "đường cao tốc 10 làn" đưa thông tin vào não người. Điều này quyết định giải pháp tối ưu cho tương tác hợp nhất người-máy: cách tốt nhất mà con người gửi chỉ thị cho AI (Input) là thông qua giọng nói cực kỳ hiệu quả trong giao tiếp, trong khi cách mà AI truyền kết quả cho con người (Output) là thông qua hình ảnh có băng thông cao (ảnh, hoạt hình hoặc video).

Ngoài ra, anh chỉ ra rằng lỗ hổng rõ ràng vẫn tồn tại ở đầu vào hiện tại. Chỉ dựa vào giọng nói hoặc văn bản vẫn không đủ, cần khẩn cấp bổ sung khả năng chỉ dẫn không gian tương tự như khi hai người ngồi ngang nhau xem máy tính "chỉ vào khu vực cụ thể trên màn hình". Làm một biện pháp tạm thời để cải thiện trải nghiệm tại giai đoạn hiện nay, anh mạnh mẽ đề xuất người dùng thêm vào cuối từ chỉ dẫn "chuyển phản hồi thành cấu trúc HTML".

举报 Báo lỗi/Báo cáo
Báo lỗi/Báo cáo
Gửi
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành