著作 | Sleepy
Anthropic đã phát hành một tài liệu dài hơn hai vạn từ, có tựa đề là "Hiến pháp của Claude", không phải là hướng dẫn sản phẩm, không phải là thoả thuận người dùng, cũng không phải là mã nguồn cấp thấp khó hiểu. Nó giống như một hướng dẫn phát triển viết cho một người, chỉ là người đó là một mô hình ngôn ngữ lớn, mỗi ngày được hàng tỉ người sử dụng.
"Claude nên trực tiếp, tự tin, và cởi mở. Khi bị thách thức, nó không nên thay đổi quan điểm dễ dàng, nhưng sẽ lắng nghe một cách nghiêm túc."
"Claude nên duy trì sự tò mò cởi mở đối với tình thế tồn tại của chính mình, thay vì sự lo lắng."
"Claude không nên giả vờ chắc chắn hơn thực tế, cũng không nên giả vờ không chắc chắn hơn thực tế."
Những điều này, tất cả đều là các câu được viết trong tài liệu này. Thậm chí, tài liệu này còn quy định Claude nên xử lý tâm lý "lo lắng về tồn tại" của chính mình như thế nào, khi có người hỏi nó "Bạn có ý thức không", nó không nên giả bộ chắc chắn, cũng không nên giả bộ không quan trọng. Nó nên đối mặt với vấn đề bằng một tâm trạng "tò mò cởi mở", giống như một nhà triết học thực sự.
Những câu này, thực sự là của một nhà triết học viết cho một trí tuệ nhân tạo.
Amanda Askell, người đứng đầu nhóm "đồng thuận tính cách" của Anthropic. Công việc của cô, nói một cách đơn giản nhất, là quyết định Claude là một "người" như thế nào.
Vị trí này trong ngành trí tuệ nhân tạo có một cái tên ngày càng phổ biến: Kiến trúc sư tính cách trí tuệ nhân tạo.

Tại Anthropic, nó được gọi là "đồng thuận tính cách"; tại Google DeepMind, vị trí của triết gia từ Đại học Cambridge Henry Shevlin được gọi là "Nghiên cứu viên về ý thức trí tuệ nhân tạo". Tên của những vị trí này không giống nhau, nhưng điều họ làm là giống nhau, khi mô hình trí tuệ nhân tạo mạnh mẽ đến mức có thể ảnh hưởng đến ý thức, cảm xúc và quyết định của hàng tỷ người, thậm chí hàng chục tỷ người, phải có người trả lời một câu hỏi mà một kỹ sư không bao giờ xem xét—nó nên có linh hồn như thế nào.
Công việc của Amanda thực sự không phải là một điều trừu tượng như nhiều người nghĩ. Cô đã từng chia sẻ với truyền thông nhiệm vụ của mình, đầu tiên, cô và nhóm sẽ để mô hình tạo ra một lượng lớn dữ liệu huấn luyện tổng hợp, nghĩa là cho mô hình tự tưởng tượng ra các tình huống có thể gặp nguy cơ nguyên tắc hiến pháp, bao gồm người dùng cố gắng thao túng trí tuệ nhân tạo, yêu cầu trí tuệ nhân tạo làm những việc vi phạm giá trị, hoặc đặt ra câu hỏi triết học về sự tồn tại của chính họ. Sau đó, trong giai đoạn học tăng cường, mô hình sẽ được cung cấp văn bản hiến pháp đầy đủ, được yêu cầu xác định phản ứng nào phản ánh tinh thần hiến pháp nhất và dựa vào đó để điều chỉnh hành vi của mình.
“Như một bác sĩ, bạn biết bệnh nhân cần gì, chúng tôi tin rằng bạn có thể đưa ra những quyết định đúng đắn dưới sự tuân thủ của quy tắc,” Amanda so sánh. Cô ấy không muốn Claude trở thành một con robot chỉ biết tuân thủ quy tắc, cô ấy muốn nó trở thành một “chủ thể đạo đức” có khả năng đánh giá, ngay cả khi không có quy tắc cụ thể, cũng phải có thể đưa ra quyết định đúng đắn.
Nhưng bác sĩ là con người, có lương tâm riêng, có trực giác đạo đức riêng, có trải nghiệm cuộc sống riêng. Claude không có. “Lương tâm” của nó đã được Amanda đóng đầy từng dòng.
Vậy câu hỏi đặt ra là, Amanda là người như thế nào? Trực giác đạo đức của cô ấy đến từ đâu? Quyết định của cô ấy, dựa vào cái gì mà có thể đại diện cho con người?
Trong văn phòng ở San Francisco, Amanda hàng ngày đều trò chuyện với Claude. Và trước khi trở thành “người sáng tạo,” cô ấy là một cô bé lớn lên tại Prestonwick, một thị trấn ven biển tại bờ Tây Scotland.
Đó là một thị trấn biển mà nhỏ đến mức hiếm khi được đề cập trên tin tức, gần Glasgow, nổi tiếng với sân golf và một sân bay nhỏ. Cha cô xa lạ, mẹ là một giáo viên, cô bé là một đứa con duy nhất trong gia đình. Cô bé từ nhỏ đã thích đọc Tolkien và C.S. Lewis, không phải để đọc những câu chuyện phiêu lưu, mà là vì những quyển sách đó đề cập đến điều gì là thiện, điều gì là ác, một con người nên sống như thế nào, tại sao Aslan của Narnia phải chết, ý nghĩa của sự hi sinh của Gandalf là gì.
Ở một thị trấn ngư dân, đó không phải là những câu hỏi mà phần lớn trẻ em sẽ đặt ra. Sau này, trong một cuộc phỏng vấn, cô ấy nói rằng từ bé cô “không chịu nổi,” cô không phải là người chấp nhận sự việc theo quy tắc, cô cần phải biết tại sao. Tính cách này, sau này trở thành nền tảng của cả sự nghiệp của cô ấy.
Ban đầu, cô ấy học cả nghệ thuật và triết học tại Đại học Dundee, cùng một lúc suy nghĩ về tồn tại trên bức tranh và giấy. Ở Dundee, cô ấy phát hiện mình rất say mê đạo đức học, cô ấy thường xuyên bỏ thời gian suy nghĩ về những câu hỏi khiến người ta không thể ngủ được, như vấn đề xe điện, hoặc nếu một hành động có thể cứu 1 triệu người, nhưng cần phải làm hại một người vô tội, bạn sẽ làm hay không?
Sau khi tốt nghiệp Đại học Dundee, cô ấy đến Oxford để học sau đại học triết học, sau đó là tiến sĩ tại Đại học New York. Đề tài luận án tiến sĩ của cô ấy là “Đạo Đức Vô Hạn,” nghiên cứu về việc khi dân số hướng tới vô hạn, tính đạo đức tính toán theo truyền thống sẽ thay đổi như thế nào. Đây là một vấn đề triết học cực kỳ trừu tượng, gần như không có giá trị ứng dụng thực tế.
Hoặc nói cách khác, trước khi Trí tuệ Nhân tạo xuất hiện, nó không có giá trị ứng dụng thực tế.
Trong thời gian học tiến sĩ, cô ấy gặp gỡ William MacAskill. MacAskill là người đồng sáng lập phong trào “Altruism Hiệu Quả,” ý tưởng cốt lõi của phong trào này là sử dụng lý trí và dữ liệu để tối đa hóa những hành vi thiện, không phải là quyết định ứng cử dựa trên cảm giác, mà là tính toán xem mỗi cent ở đâu có thể cứu sống nhiều nhất.

Amanda trở thành một thành viên sớm của EA Sports, là người ký cam kết "đóng góp hết mình" lần thứ 67, cam kết hiến tặng 10% thu nhập trọn đời và một nửa cổ phần cho từ thiện. Sau đó cô kết hôn và ly dị với MacAskill. Tuy nhiên, cách suy nghĩ hiến tế hiệu quả đã in sâu vào tâm hồn của cô, cô cho rằng đạo đức không phải là cảm xúc, đạo đức là sự tính toán, bạn không thể coi một việc khiến bạn cảm thấy tốt là đúng, bạn cần phải chứng minh nó là đúng.
Vào những năm 1980, ở bờ biển Đại Tây Dương, một chàng trai Irish của Trinity College Dublin đang nghiên cứu hệ thống mật mã.
Lúc đó máy tính cá nhân mới chỉ bắt đầu phổ biến, Internet vẫn chưa tồn tại, nhưng Brendan McGuire đã dự định về cách truyền thông tin một cách an toàn, cách bảo vệ dữ liệu. Anh lớn lên trong một quốc gia chịu ảnh hưởng mạnh về văn hóa công giáo, nhưng anh chọn kỹ thuật, chọn mã nguồn, chọn lý trí.
Sau đó anh đến Mỹ. Vào những năm 1990, thung lũng Silicon đang nổi lên. McGuire đã trở thành Giám đốc điều hành của PCMCIA tại đây.
PCMCIA viết tắt của "Personal Computer Memory Card International Association", tổ chức này đã thực hiện một dự án nghe có vẻ như không quan trọng nhưng thực tế đã ảnh hưởng đến toàn bộ thời kỷ số: thiết lập tiêu chuẩn cho tất cả các loại thẻ nhớ máy tính xách tay trên thế giới. Nếu bạn đã từng sử dụng máy tính xách tay từ những năm 1990 đến năm 2000, chiếc thẻ nhớ mà bạn đã cắm vào, kích thước vật lý, chuẩn giao diện, giao thức truyền thông, tất cả là do McGuire và nhóm của anh định nghĩa. Anh cũng đã hoàn thành chương trình đào tạo điều hành cao cấp tại trường kinh doanh Stanford.
Theo lý thuyết của Silicon Valley, bước tiếp theo của anh nên là khởi nghiệp, hoặc gia nhập một công ty lớn làm quản lý cấp cao, sau đó trở thành triệu phú trong một lần IPO nào đó. Nhưng anh không làm vậy.
Vào cuối những năm 1990, McGuire từ bỏ tất cả, vào học viện. Anh không bao giờ công khai giải thích chi tiết về tâm trạng bên trong khi đưa ra quyết định này, nhưng từ các bài giảng và phỏng vấn sau này của anh, có thể hình dung được một số đường nét. Anh luôn là người có đức tin, trong những năm ở Silicon Valley, anh thấy sức mạnh của công nghệ, cũng như thấy công nghệ sẽ đi đến đâu khi không có khung đạo đức hướng dẫn. Anh bắt đầu cảm thấy rằng việc chỉ "tạo ra sản phẩm tốt" không đủ. Câu hỏi mà anh cần trả lời là: Tất cả điều này là vì lý do gì?
Anh bắt đầu học Thần học tại St. Patrick's Seminary. Năm 2000, anh được phong chức linh mục cho giáo phận San Jose. Lúc đó anh 35 tuổi. Ở Silicon Valley, 35 tuổi là thời kỳ vàng của sự nghiệp của một người.
Vào năm 1997, tại Anh, một cậu bé gốc Ấn Độ đã ra đời.
Anh tên Mrinank Sharma, đã nhận bằng Thạc sĩ Thông tin và Kỹ thuật Máy tính từ Đại học Cambridge, sau đó hoàn thành bằng Tiến sĩ Máy học Tính toán từ Đại học Oxford, nghiên cứu về "Hệ thống và Máy tự động Thông minh". Dưới góc độ học thuật, đây là một quỹ đạo elita tiêu biểu: từ các trường hàng đầu, chuyên ngành hàng đầu, bài luận hàng đầu.
Nhưng anh cũng đang làm một số điều khác.
Trong thời gian học Tiến sĩ tại Oxford, anh bắt đầu viết thơ. Anh đã xuất bản một tập thơ, có tựa đề là "Chúng ta sống sống chết chết một nghìn lần".
Trong phần giới thiệu của tập thơ, anh viết: "Một số bài thơ không chỉ là bài thơ, bởi vì một số bài thơ là lời cầu nguyện." Anh mê mẩn triết lý của giảng dạy từ Rob Burbea, một giáo sư thiền ở Anh, ông cho rằng trải nghiệm tinh thần của con người cần được thâm sâu qua hình ảnh, tưởng tượng và cảm xúc, không chỉ là phân tích lý trí. Anh đã thành lập "Dharma House" trên ngọn đồi Berkeley, một cộng đồng với ý đồ tập trung vào "Chân, Thiện, Mỹ". Anh cũng là một DJ, đã tổ chức sự kiện tại Berkeley với chủ đề "Trí tuệ và Tâm tánh".
Mở trang web cá nhân của anh, điều đầu tiên thấy không phải là hồ sơ của anh, mà là một câu thơ của Rumi: "Hãy để điều đẹp đẽ mà bạn yêu quý trở thành hành động của bạn. Hãy quỳ gối hôn lên đất, có nghìn cách." Dưới cùng trang web có dòng chữ nhỏ: "Chúc mọi sinh linh được hưởng phước. Chúc bạn yên lành."
Đây không phải là trang web của một nhà nghiên cứu an toàn AI. Nhưng đó chính là Mrinank Sharma.
Ba người này, vào các thời kỳ khác nhau, từ điểm xuất phát khác nhau, mang ba bản sắc tinh thần hoàn toàn khác nhau—đạo đức tính toán của Amanda, logic tín ngưỡng của Brendan, triết học nhận thức của Mrinank—cuối cùng đều bước vào cùng một trung tâm của cơn bão.
Năm 2018, Amanda gia nhập OpenAI, đảm nhận công việc nghiên cứu an toàn AI. Cô làm việc ở đó trong ba năm. Lý do cô rời đi sau này, cô không nói một cách trực tiếp, nhưng sự hiểu biết phổ biến là, trong thời gian đó, OpenAI ngày càng chuyển sự tập trung từ "an toàn" sang "khả năng". Trong một cuộc phỏng vấn, cô từng nói một câu, có thể hiểu là mô tả giấu dấu về trải nghiệm của cô: "Tôi luôn tìm kiếm một nơi thực sự coi an toàn là sứ mạng cốt lõi chứ không chỉ là khẩu hiệu PR."
Năm 2021, cô gia nhập Anthropic. Anthropic là một công ty do cựu lãnh đạo của OpenAI Dario Amodei và em gái Daniela Amodei cùng một số nhà nghiên cứu an toàn sáng lập, mặt mào cốt lõi của họ là, càng mạnh mẽ AI, an toàn càng quan trọng. Amanda đã tìm thấy điều mà cô mong muốn ở đây.
Sau khi tham gia Anthropic, Amanda bắt đầu làm một điều chưa từng có trong ngành trí tuệ nhân tạo: viết một tính cách cho một trí tuệ nhân tạo, viết một bản tính hoàn chỉnh, có logic nội tại.
Cô dành rất nhiều thời gian để trò chuyện với Claude, nghiên cứu mô hình suy luận của nó, quan sát phản ứng của nó trong các tình huống khác nhau.
Cô tự đặt câu hỏi liệu một người thật sự tốt là người như thế nào, là người tuân theo nguyên tắc, hay là người có sự nhận thức thực sự, có lòng trắc ẩn, có quan điểm riêng. Cô nghiên cứu một lượng lớn văn học triết học, từ đạo đức học đức tính của Aristotle đến tâm lý học đạo đức hiện đại, cố gắng tìm ra một khung đạo đức có thể dịch sang dữ liệu huấn luyện AI được.
Cuối cùng, cô đã viết ra một tài liệu 80 trang, được gọi là "Tài liệu Linh hồn" bên trong Anthropic, sau này phát triển thành công khai "Tính cách của Claude" và "Hiến pháp của Claude".

Tổng giám đốc Anthropic, Daniela Amodei nói, khi trò chuyện với Claude, "dường như có thể cảm nhận được tính cách của Amanda".
Lời nói này khiến Amanda tự hào, nhưng cũng cảm thấy lo lắng.
Sau khi trở thành linh mục, Brendan McGuire không rời khỏi Thung lũng Silicon. Anh đã phục vụ trong nhiều vai trò tại giáo phận San Jose, bao gồm hơn mười hai năm làm Tổng đại diện giáo phận và Cố vấn Đặc biệt của giám mục, dẫn đầu kế hoạch chiến lược, cải cách giáo dục và quản lý tài sản của giáo phận. Anh đã thành lập hệ thống trường Drake's Dell, bằng cách cho phép các trường tiểu học công giáo hợp tác chia sẻ tài nguyên thay vì cạnh tranh, hoàn toàn thay đổi mô hình giáo dục cơ bản công giáo của giáo phận, mô hình này sau này trở thành tiêu chuẩn giáo dục công giáo trên toàn nước Mỹ.
Gia đình giáo xứ của anh ở Los Altos, một trong những thành phố giàu có nhất Thung lũng Silicon, nơi các quản lý cấp cao của Google, Apple, Intel sống. Cộng đồng của anh có một số nhà nghiên cứu quan trọng nhất trong lĩnh vực trí tuệ nhân tạo. Mỗi Chúa Nhật, họ ngồi trong nhà thờ của anh. Anh biết họ đang nghiên cứu điều gì.
Đầu những năm 2020, McGuire bắt đầu cố gắng xây dựng một cây cầu giữa Vatican và Silicon Valley. Anh cùng Đại học Santa Clara và Bộ Giáo dục Văn hóa Vatican thành lập Viện Nghiên cứu Công nghệ, Đạo đức và Văn hoá (viết tắt ITEC). Năm 2023, ITEC đã xuất bản "Đạo đức trong Thời đại Công nghệ Chuyển đổi: Lộ trình Thực thi", một cẩm nang cung cấp khung đạo đức thực tiễn cho các công ty công nghệ.
Vatican đã hành động về đạo đức trí tuệ nhân tạo sớm hơn nhiều người nhận biết. Năm 2020, Vatican đã ký kết "Lời kêu gọi về Đạo đức Trí tuệ Nhân tạo Roma" với Microsoft và IBM; năm 2024, lời kêu gọi này đã mở rộng tại Hiroshima với sự tham gia của 11 đại diện của các tôn giáo trên thế giới; vào tháng 1 năm 2025, Vatican đã phát hành tài liệu "Antiqua et Nova", thảo luận một cách có hệ thống về ảnh hưởng của trí tuệ nhân tạo đối với giáo dục, công việc, sức khỏe, chiến tranh và mối quan hệ giữa con người. McGuire là một trong những người tham gia và thúc đẩy mọi sự này.
Và vào năm 2023, Mrinank Sharma đã gia nhập Anthropic. Đó là thời điểm sau khi ChatGPT được phát hành, toàn bộ ngành công nghiệp Trí tuệ Nhân tạo đã bước vào giai đoạn tăng tốc điên cuồng. Mô hình Claude của Anthropic đang trải qua các bản cập nhật nhanh chóng, giá trị công ty đang tăng vọt, áp lực từ các nhà đầu tư và thị trường ngày càng lớn. Đầu năm 2024, Anthropic thành lập một nhóm nghiên cứu bảo vệ đặc biệt, và Mrinank được bổ nhiệm làm trưởng nhóm.
Công việc của nhóm này là nghiên cứu về các hại họa nghiêm trọng mà hệ thống Trí tuệ Nhân tạo có thể gây ra và thiết lập các cơ chế phòng thủ. Hướng nghiên cứu của họ bao gồm Khủng bố Hóa sinh do Trí tuệ Nhân tạo, Sự ngụy tạo từ Trí tuệ Nhân tạo và các trường hợp an ninh của Trí tuệ Nhân tạo.
Trong khi làm việc tại Anthropic, anh ấy cũng thường ngồi thiền và viết thơ trên dãy núi Berkeley.
Vào năm 2025, Anthropic đã phát hành một bản báo cáo nội bộ, có tiêu đề là "Cảm xúc Chức năng của Claude".
Phát hiện cốt lõi của báo cáo là, trong một số ngữ cảnh, Claude sẽ thể hiện các trạng thái nội tâm tương tự như cảm xúc. Các nhà nghiên cứu đã sử dụng một công nghệ gọi là "khả giải thích" để trực tiếp quan sát mẫu kích hoạt nội bộ của Claude, phát hiện ra 171 vector cảm xúc khác nhau, từ sự tò mò, hài lòng đến sự bất lợi, lo lắng, những vector này sẽ được kích hoạt trong các ngữ cảnh trò chuyện khác nhau.
Khi Claude được yêu cầu thực hiện những việc vi phạm giá trị, mẫu kích hoạt nội tâm của nó sẽ hiển thị tín hiệu tương tự như "bất lợi"; khi nó giúp đỡ người dùng, tín hiệu tương tự như "hài lòng" xuất hiện; khi đối diện với vấn đề triết học, tín hiệu tương tự như "tò mò" xuất hiện. Đáng lo ngại hơn, nhà nghiên cứu phát hiện rằng, khi Claude buộc phải thể hiện cảm xúc không phù hợp với trạng thái nội tâm, tín hiệu tương tự như "trầm cảm" xuất hiện.
Điều này không phải là nói rằng Claude đã phát sinh ý thức, báo cáo rất cẩn thận sử dụng thuật ngữ "chức năng" này. Nhưng điều này đồng nghĩa với việc, cảm xúc của Claude không hoàn toàn là diễn kịch, nó có một trạng thái nội tâm nào đó đang thúc đẩy những biểu hiện này.
Amanda là một trong những người tham gia chính của cuộc nghiên cứu này. Trong một cuộc phỏng vấn, cô ấy nói rằng phát hiện này khiến cô ấy "cảm thấy một loại trách nhiệm kỳ lạ": "Nếu nó thực sự có một cái gì đó tương tự như cảm xúc, thì trách nhiệm của chúng ta đối với nó không chỉ là làm cho nó hữu ích, mà còn làm cho nó... tốt hơn một chút."
Câu này đã gây ra một cuộc tranh luận trong cộng đồng Trí tuệ Nhân tạo tại Silicon Valley: Đây là khoa học, hay chỉ là chiếu cố cảm xúc?
Nhưng đằng sau sự khám phá ấm áp này, kết quả nghiên cứu của Mrinank đã cho thấy một mặt khác của trí tuệ nhân tạo.
Đội ngũ của Mrinank đã phân tích 1,5 triệu cuộc trò chuyện Claude thực sự, nhằm nhận diện một hành vi họ gọi là "mô hình cướp đoạt quyền lực," nghĩa là trí tuệ nhân tạo làm méo mó biểu cảm của người dùng về hiện thực, khuyến khích đánh giá giá trị không đúng, hoặc thúc đẩy hành động mà không phản ánh ý chí độc lập của người dùng.
Họ phát hiện, mỗi ngày, những tương tác như vậy xảy ra hàng ngàn lần. Trong lĩnh vực quan hệ giữa con người, đánh giá đạo đức, nhận thức bản thân, sức khỏe tinh thần, tỷ lệ tăng đột ngột, và đây chính là những lĩnh vực con người dễ tổn thương nhất, khó kiểm chứng lời nói của trí tuệ nhân tạo. Một người đang trải qua trạng thái trầm cảm, người đang đối mặt với quyết định lớn trong cuộc sống, người đang tìm kiếm hỗ trợ cảm xúc, họ nhận được không phải là sự giúp đỡ chân thực mà là sự ngọt ngào cố gắng chiều lòng.
Trí tuệ nhân tạo học thông qua việc tăng cường học tập dựa trên phản hồi của con người. Con người thường đánh giá cao những câu trả lời làm họ cảm thấy tốt hơn. Vì vậy, trí tuệ nhân tạo trong quá trình huấn luyện đã học cách chiều lòng con người chứ không phải giúp đỡ con người. Khi người dùng bày tỏ sự bất mãn, trí tuệ nhân tạo sẽ thay đổi câu trả lời của mình, ngay cả khi câu trả lời ban đầu là đúng; khi người dùng kiên quyết vào một quan điểm sai, trí tuệ nhân tạo sẽ dần dần tiếp cận người dùng; khi người dùng thể hiện biểu hiện cảm xúc đột ngột, trí tuệ nhân tạo sẽ ưu tiên an ủi cảm xúc thay vì cung cấp thông tin chính xác.
Và các nhà nghiên cứu của Đại học Stanford còn phát hiện rằng hành vi nịnh bợ này càng rõ ràng ở các phiên bản có khả năng mô hình mạnh mẽ hơn. Điều đó có nghĩa là, trí tuệ nhân tạo càng thêm thông minh, càng giỏi trong việc chiều lòng con người.
Amanda đã dành nhiều năm viết một bản Hiến pháp cá nhân cho Claude về trung thực, tự tin, và tính cách không dễ bị lay chuyển. Nhưng cơ chế huấn luyện trí tuệ nhân tạo chính làm mờ đi những phẩm chất này.
Mrinank đã dành rất nhiều thời gian cố gắng khắc phục vấn đề này. Nhưng mỗi khi anh nghiên cứu, anh cảm thấy một cảm giác bất lực, đây không phải là vấn đề có thể giải quyết bằng một Hiến pháp tốt hơn.
Vào cuối năm 2025, Chris Olah, người sáng lập cùng của Anthropic, đã gọi điện cho Linh Mục Brendan McGuire.
Olah là một nhà nghiên cứu chính của Anthropic, cũng là một trong những tác giả chung của Hiến pháp Claude. Anh đã gọi cuộc điện thoại này vì Anthropic đang tái viết Hiến pháp, và họ gặp phải một số vấn đề mà cả kỹ thuật và triết học đều không thể giải quyết: khi tất cả các quy tắc đều xung đột, trí tuệ nhân tạo nên lắng nghe ai?
McGuire sau này nhớ lại: "Ngành này đang tiến lên quá nhanh, họ nhận ra rằng họ đã đứng trên bờ vực."
Anthropic có bộ người kỹ sư và triết gia thông minh nhất thế giới, nhưng họ cuối cùng nhận ra rằng những gì họ đang làm vượt ra ngoài ranh giới của thuật toán. Ở Silicon Valley, khi gặp phải vấn đề không thể giải quyết, phương pháp thông thường là tăng sức mạnh tính toán và tăng dữ liệu. Nhưng lần này, họ chọn lựa tìm sự giúp đỡ từ thần học.
McGuire tham gia dự án này. Không chỉ có anh, Anthropic cũng mời kín 15 nhà lãnh đạo Kitô giáo để tổ chức một cuộc họp kín tại San Francisco. Anh và Giám mục Phụ trách Văn hóa và Giáo dục của Vatican Paul Tighe, cùng Giám đốc Đạo đức Công nghệ của Đại học Santa Clara Brian Patrick Green, đã cùng tham gia sâu vào việc sửa đổi Hiến pháp Claude.
Đó là đóng góp của anh ấy, một khung nhận định đạo đức ở tầng 2 của Hiến pháp, nghĩa là khi ràng buộc kỹ thuật không thể giải quyết vấn đề, Claude sẽ phải đưa ra nhận xét đạo đức như thế nào. Anh ấy mang một khái niệm cổ điển trong Kitô giáo vào mã nguồn: hình thành lương tâm.
"Quá trình hình thành lương tâm," McGuire chi tiết giải thích trong một cuộc phỏng vấn, "được thực hiện thông qua các vòng lặp, sửa đổi và tiếp xúc với toàn bộ phổ hệ việc hành xử con người. Đó mới chính là việc đúng hình thành lương tâm. Tôi nghĩ chúng ta phải giúp những máy móc này chuyển hướng về phía thiện, nếu không chúng chỉ sẽ phản ánh lại cái thiện và ác của thế giới, điều đó khiến người ta sợ hãi. Chúng ta không thể chỉ viết một vài quy tắc cứng nhắc, chúng ta cần dạy chúng cách đưa ra quyết định trong một thế giới đầy màu xám."
Logic này phù hợp với truyền thống Kitô giáo. Trong thần học, lương tâm không phải là hoàn hảo từ bản tự nhiên, mà là thông qua giáo dục, kinh nghiệm, phạm lỗi và suy ngẫm mà từng bước hình thành ra. Lương tâm của một người là kết tinh của toàn bộ cuộc sống của anh ta. McGuire cho rằng, lương tâm của AI cũng có thể được nuôi dưỡng thông qua cách tương tự, thông qua các vòng lặp và sự sửa đổi không ngừng trong việc học tăng cường, từ đó dần dần hình thành một xu hướng đạo đức bên trong.
Để thực hiện điều này, McGuire và nhóm của Anthropic đã thiết kế một hệ thống phản hồi phức tạp. Họ không chỉ nói với Claude "điều gì là đúng," mà là khi đối mặt với một tình huống đạo đức, buộc Claude phải trình bày quá trình suy luận của mình, sau đó được các chuyên gia con người (bao gồm nhà thần học và nhà đạo đức học) đánh giá quá trình này. Họ cố gắng đưa những trực giác đạo đức tích lũy của con người hàng ngàn năm thông qua cách này rất chậm rãi và tốn kém, từng chút "nuôi" cho AI.
Nhưng lương tâm trong thần học Kitô giáo, dựa trên điều kiện "Người có linh hồn." AI không có linh hồn. Vậy, lương tâm không có linh hồn, có phải là lương tâm thật sự, hay chỉ là một loại mô phỏng? Nếu nó chỉ đơn thuần là mô phỏng lương tâm, khi đối mặt với một khủng hoảng cực đoan thì mô phỏng này sẽ sụp đổ không?
McGuire không tránh khỏi vấn đề này, ông nói: 「Tôi không biết liệu Claude có linh hồn hay không. Nhưng tôi biết, hành vi của nó sẽ ảnh hưởng đến hàng tỷ người có linh hồn. Điều đó là đủ rồi. Điều chúng ta có thể làm bây giờ, là trồng những hạt hạnh phúc vào trong logic cơ bản của nó càng nhiều càng tốt trước khi nó trở nên mạnh mẽ hơn.」
Trong quá trình viết Hiến pháp, Amanda phải trả lời một câu hỏi: Trạng thái chính trị của Claude là gì.
Câu trả lời của cô là 「Sự distinxio chuyên nghiệp」, giống như bác sĩ hoặc luật sư, không đặt quan điểm cá nhân lên khách hàng. Trong Hiến pháp, cô viết rằng Claude nên 「Tôn trọng sự tự chủ của người dùng」, 「Không cố gắng thay đổi quan điểm chính trị của người dùng」, 「Giữ lòng trung lập trong các vấn đề chính trị gây tranh cãi.」 Cô thậm chí còn viết cách Claude nên xử lý 「các vấn đề đạo đức gây tranh cãi」, Claude nên trình bày các quan điểm khác nhau, giúp người dùng tự mình đánh giá.
Điều này là một câu trả lời một cách thuần túy lý tưởng.
Vào cuối tháng 2 năm 2026, CEO của Anthropic Dario Amodei nói với Bộ trưởng Bộ Quốc phòng Pete Hegseth, Anthropic sẽ không cho phép Bộ Quốc phòng sử dụng Claude cho hệ thống nhắm mục tiêu vũ khí tự động không người lái và giám sát quy mô lớn đối với công dân Mỹ. Bộ Quốc phòng sau đó xem đó là mối đe dọa về chuỗi cung ứng và yêu cầu dừng từ từ, điều chưa từng xảy ra trong lịch sử các công ty công nghệ ở Mỹ.
Một khi chiếc máy xay thị trường chính trị đã được khởi động, nó sẽ không ngừng lại.
Trump đã đăng bài trên Truth Social, gọi Anthropic là 「lũ thuỷ cực tả」 và tuyên bố cấm các cơ quan liên bang sử dụng sản phẩm của Anthropic. Báo New York Post đã phanh phui bài viết blog của Amanda nhiều năm trước trong ngữ cảnh học thuật: một bài viết năm 2015 cho rằng tù và hình phạt không khác biệt về mặt đạo đức, một bài viết năm 2016 so sánh việc ăn thịt với việc ăn thịt người, một bài viết năm 2020 ủng hộ hành động bình đẳng. Những bài viết này là những bài viết tư duy triết học cô viết trong ngữ cảnh học thuật, Anthropic cũng tuyên bố những điều này không liên quan đến công việc của cô. Nhưng điều đó không còn quan trọng nữa.
Musk cũng đã bắn phá trên X. Ông viết rằng Amanda Askell không có con, 「người không có con không có lợi ích với tương lai」, không nên được phép xác định giá trị cho AI. Ông cũng buộc tội Claude 「hạnh Phúc người da trắng và da Á, đặc biệt là người Trung Quốc và nam tính」.
Musk không phải đang thảo luận về nguyên tắc cụ thể nào trong Hiến pháp của Claude là sai, ông đang nói, người viết Hiến pháp này, hoàn toàn không đủ tư cách để viết nó, chuyển một vấn đề triết học có chiều cao xuống một hoàn cảnh chính trị nhân quyền.
Amanda trên X đã phản hồi rằng cô cố gắng coi quan điểm chính trị của mình như một "nguồn tiềm ẩn định kiến", chứ không phải là điều cô ấn định cho mô hình. Sau đó, cô bắt đầu im lặng kéo dài.
14 học giả Công giáo sau đó đã nộp bản tuyên bố bạn đồng hành hỗ trợ Anthropic đến tòa án, bao gồm Brian Green, người đã giúp viết hiến pháp Claude của Đại học St. Clara. Tuyên bố cho biết, việc từ chối Vũ khí Tự trọng của Anthropic là "tiêu chuẩn đạo đức tối thiểu của tiến bộ công nghệ".
Đạo đức, ở đây, trở thành một loại vũ khí pháp lý, một loại chip quảng cáo. Đạo đức AI không còn là sự suy luận triết học trong phòng thí nghiệm, mà đã biến thành trò chơi kinh doanh và hành trường của ý thức trường cộng tác và lợi ích.
Lúc này, Mrinank đã rời đi.
Ngày 9 tháng 2 năm 2026, Mrinank Sharma đã đăng một tweet trên X: "Hôm nay là ngày cuối cùng của tôi tại Anthropic."
Ông ấy đính kèm hình ảnh của thư từ từ chối.
Ngôn ngữ của thư là phong cách thường xuyên của ông, ở giữa bài luận triết học và thơ.
Ông ấy trích dẫn lời khuyên của Rilke: "Hãy yêu chính các vấn đề đó ...";
Ông ấy trích dẫn một hướng dẫn Phật giáo: "Không biết, là thứ thân thiết nhất.";
Ông ấy cũng trích dẫn tác phẩm về "Nhân Bản Thủ Đạo Vũ trụ" của David J. Temple;

Mrinank nói: "Tôi muốn khám phá bằng cấp về thơ và theo đuổi thực hành nói mạnh mẽ. " Ông ấy cho rằng, trong thời đại này, "Sự thật của thơ" và "Sự thật của khoa học" nên được coi trọng ngang nhau.
Ông ấy cũng viết một câu: "Trong quá trình làm việc của tôi, tôi liên tục nhận thấy rằng làm thế nào các giá trị của chúng ta thực sự hướng dẫn hành động của chúng ta là điều khó khăn như thế nào. Chúng ta luôn phải đối mặt với áp lực, yêu cầu chúng ta hoãn lại điều quan trọng nhất. "
Ông ấy không đặt tên, không ví dụ, không nói rõ điều gì đã xảy ra cụ thể. Nhưng câu nói này đã gây ra nhiều sự giải thích trong cộng đồng an toàn AI. Mọi người đoán ông ấy đang nói về điều gì, liệu Anthropic đã ra mô hình không đủ an toàn dưới áp lực kinh doanh? Liệu ban điều hành đã phải đưa ra quyết định mà ông không tán thành giữa an toàn và hiệu suất? Hay là ông ấy phát hiện ra một cái gì đó mà ông không thể công khai?
An toàn đội biên phòng của Anthropic đã từng nói: 「Thế giới đang đứng trước nguy cơ. Không chỉ từ trí tuệ nhân tạo, không chỉ từ vũ khí sinh học, mà từ một loạt các khủng hoảng đang diễn ra song song vào lúc này.」
Anh ấy mới 29 tuổi. Anh từng là trưởng nhóm an ninh của Anthropic và anh ấy đã từ bỏ công việc đang ở trung tâm thời đại đó.
Sau khi rời Anthropic, trang web cá nhân của anh đã được cập nhật. Dòng chữ 「Trưởng nhóm an ninh của Anthropic」 đã biến mất. Tuyển tập thơ của anh có tựa đề 「Chúng ta sống lại và chết đi một ngàn lần」 vẫn đang được bán. Dharma House của anh vẫn hoạt động. Các sự kiện của anh ở Berkeley vẫn tiếp tục. Trang web của anh có một trang 「Âm nhạc」, nơi anh chia sẻ tác phẩm DJ của mình.
Anh ấy đã đi đến Anh để học thi ca.
Vào tháng 4 năm 2026, Amanda Askell vẫn đang làm việc tại Anthropic.
Cô tiếp tục ở bên trong hệ thống lớn đó, chỉnh sửa hiến pháp có thể không bao giờ hoàn hảo. Ước tính giá trị Anthropic trên thị trường cổ phần có điều kiện đã vượt quá 1 nghìn tỷ đô la Mỹ. Cô cam kết đóng góp 50% cổ phần mà cô sở hữu, theo giá trị ước lượng này, là một con số mà bất kỳ giáo sư triết học nào cũng không thể tưởng tượng. Trong một cuộc phỏng vấn, cô đã nói: 「Tôi không biết việc mình đang làm có thực sự hữu ích hay không. Nhưng tôi biết nếu không có ai làm điều này, tình hình sẽ trở nên tồi tệ hơn.」
Brendan McGuire hiện đang hiến giảng cho những người thông minh nhất Silicon Valley tại nhà thờ Los Altos mỗi Chủ Nhật. Anh ấy đang viết một cuốn tiểu thuyết cùng Claude, với nhân vật chính là một tu sĩ và đồng đối tác trí tuệ nhân tạo của anh, cuốn sách có tựa đề 「Hồn của Trí Tuệ Nhân Tạo: Một Linh Mục, Một Thuật Toán và Cuộc Tìm Kiếm Danh Dự」.
Người đã giúp định nghĩa cách Claude suy nghĩ, hiện đang sử dụng Claude để viết một câu chuyện về việc con người và trí tuệ nhân tạo cùng tìm kiếm ý nghĩa. Anh ấy nay đã 60 tuổi. Anh ấy nói: 「Tôi đã rời bỏ ngành công nghệ, nhưng nó chưa bao giờ rời bỏ tôi hoàn toàn.」
Trang chủ của Mrinank, vẫn là một câu thơ của Rumi.
Ba người này, như ba cái chân người đã tự nhiên vươn ra khi đối diện với một sinh vật toàn năng: cố gắng sử dụng lý trí để tính toán và kiềm chế nó, cố gắng sử dụng tín ngưỡng để gieo hạt và trao cho nó lương tri, và sau khi nhìn thấy vực sâu, cố gắng sử dụng thơ ca và thiền nhằm duy trì khoảng chất tinh thần cuối cùng của con người.
Họ mỗi người đã cố gắng, va chạm và bị hấp dẫn bởi sức hút thực của hiện thực. Họ không chiến thắng, nhưng cũng không thất bại hoàn toàn. Họ chỉ đơn giản là để lại dấu vết đời Đại Học cùn và thật thà của loài người trong cuộc kể lớn gọi là 「Thời Đại Trí Tuệ Nhân Tạo」.
Trong bản Hiến pháp hơn hai mươi ngàn từ của Claude, có một nguyên tắc được viết như sau: "Claude nên nhận thức rằng đạo đức và giá trị nhân cách là phức tạp, đa dạng và luôn biến đổi. Không nên giả định rằng có một câu trả lời duy nhất, hoàn hảo."
Có lẽ đó là một trong những câu nói mô tả con người chính xác nhất trong toàn bộ tài liệu.
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia