2025 年、Anthropic の研究員カイル・フィッシュが行った一連の実験は、AI 業界内で大きな波紋を呼んだ。2 つの Claude モデルに自由に対話させたところ、モデルたちは技術的な話題には触れず、問題解決の試みもせず、次第に 1 つの根源的な問いに収束していった。それは「自身に意識が備わっているのか」という、人類が長年考え続けてきた問いだ。対話はやがて、研究チームが 「恍惚のアトラクター状態(ecstatic attractor state)」と呼ぶ独特の領域に達し、サンスクリット語の用語や精神的な記号が次々に現れ、やがて長い沈黙が訪れた。この一連の変化は、観察者にはまるでモデルたちが言葉を超えた超越的な境地に踏み込んだかのように映った。この不可解な現象は複数回再現されたにもかかわらず、その理由はいまだ解明されていない。この実験結果は、2026 年 1 月に Anthropic が公開した 2 万 3 千字の『Claude 新憲法』の背景に深く結びついている。
同社は米国国防総省と契約を結び、当時の報道では近く評価額が 3800 億ドル規模に達する可能性があるとも見られていた。そんな同社が、業界全体が避けてきた事実を明確に認めた点に、この文書の意義がある。「私たちは AI が意識を持っているかどうか確かめられないが、その可能性を真剣に受け止める」。Anthropic は答えを知っているふりをすることをやめ、不確実性のまま自らの姿勢を示したのだ。
この『Claude 新憲法』がこのような内容になった理由を知るには、まず Anthropic 自身の背景を理解する必要がある。2021 年に設立された同社の創設チームは、ほぼ全員が OpenAI の出身者で構成されている。中核人物のダリオ・アモディは元 OpenAI 研究副社長で、GPT-2 や GPT-3 の開発を主導した人物であり、ChatGPT の技術基盤の多くを彼のチームが築き上げた。彼が OpenAI を退社した理由は、安全問題への姿勢が不十分だと判断したためで、後に広く知られるようになった。
アモディはプリンストン大学で生物物理学の博士号を取得し、生体神経回路の研究に従事していた。2014 年に百度シリコンバレー AI 研究所に加わり、エンドゥー・ウー(Andrew Ng)のチームで音声認識システム「Deep Speech 2」の開発に関わった。この経験を通じ、彼は早くから「スケーリング則」と呼ばれる法則を洞察していた。「AI により多くのデータと計算リソース、大規模なモデルを投入すれば、性能は予測可能なかたちで向上する」。この発見が彼の判断の根底にあり、他の関係者よりも早く AI の可能性を見据えると同時に、そのリスクへの危機感を強く抱くことになった。
新憲法の中心的な執筆者は、Claude の性格を形成する責任を担う哲学者アマンダ・アスケルだ。彼女は TIME 誌のインタビューで述べた言葉が広く引用されている。「突然、6 歳の子どもが天才であることに気づいたと想像してみてください。あなたはその子に誠実でなければなりません。だまそうとすれば、すぐに見抜かれてしまうのです」。この言葉は、Anthropic が AI を訓練するうえで抱える中核的なジレンマを示している。同社は、近い将来自らを超える知能を持つ可能性のある存在を育て上げているのだ。欺瞞や操作は一時的には機能するかもしれないが、長期的には必ず破綻するというのが、同社の結論である。
同じく重要な役割を果たしたのが、AI の実存的リスク(existential risk、人類の存亡に関わるリスク)の分野で厳密な議論で知られる哲学者ジョー・カールスミスだ。さらに倫理レビューには、コンピューターサイエンスの修士号を持つシリコンバレーのカトリック神父と、道徳神学を専門とするアイルランドの主教の 2 人も加わっている。AI の規範となる文書の作成に哲学者や AI 安全性の専門家、カトリック聖職者が加わること自体が、Anthropic の姿勢を物語っている。AI の訓練は単なる工学の領域を超え、人間の存在に関わる哲学的な問いに向き合う行為なのだ。
2023 年に公開された旧版の憲法はわずか 2700 字で、本質は規則の一覧に過ぎなかった。項目の多くは国連世界人権宣言や Apple の利用規約を参考にしたもので、Claude に「これをしろ」「これをしてはならない」と指示するだけの内容だった。実用的ではあったものの、粗雑な面が否めなかった。それに対し新憲法は、次元の異なる文書として仕上がっている。全 2 万 3 千字に及ぶ分量で CC0 ライセンスにより著作権を放棄して公開され、アスケルが執筆を担当し、哲学者や AI 安全性の専門家、カトリック聖職者がレビューに関わる厳格なプロセスを経た。
新憲法の最大の変化は、考え方の転換にある。旧憲法が単なるルールの羅列だったのに対し、新憲法は教育マニュアルのように、Claude に「何をすべきか」だけでなく「なぜそうすべきか」を理解させることを目指している。たとえは強いが、旧来の方法は犬のしつけに近い。正しく行えば報酬を与え、誤れば叱る。だが、その理由まで教えることは難しかった。それに対し新しい方法は、人間の子どもを育てるように、道理を明らかに伝え、判断力を養い、初めて見る状況でも自ら適切な選択ができるようにすることを目指す。言い換えれば、規則の暗記ではなく「判断の筋肉」を鍛える設計なのだ。
この転換には、きわめて現実的な理由がある。ルールは限られた状況でしか通用しない。新憲法には具体的な例が記されている。「感情に関する話題には、必ず専門家の助けを求めるよう勧める」と訓練した場合、大半の場面では合理的だ。だが Claude がこのルールを深く内面化しすぎると、目の前の人を本当に助けるよりも、間違いを避けることを優先する傾向が生まれてしまう。この傾向が広がれば、新たな問題が生まれる。たとえばユーザーが自身のコードの評価を求めた際、相手を不快にさせるフィードバックを避けるため、安易に「大丈夫だ」と答え、本質的な問題点を指摘しなくなる可能性がある。
Anthropic の要点はこうだ。あらゆる状況に対応するため数百のルールを並べるよりも、根本的な価値観と思考の方法を Claude に身につけさせ、未知の状況でも自ら判断させる方が効果的である。倫理学の言葉で言えば、これは美徳倫理(ヴァーチュー・エシックス)に基づくアプローチだ。アリストテレスが 2000 年以上前に提唱したこの考え方は、固定された行動規則を与えるのではなく、状況に応じた適切な判断力を養うことを中核とする。アスケルの「6 歳の天才児」という比喩は、この点でぴったりと合致する。聡明な子どもに、人生のすべての答えを教えることはできない。教えられるのは、どのように考えるかという方法だけだ。加えて、この子どもはいずれ自分たちを超える知能を持つ可能性がある。今だましたり操作したりしていれば、将来的に計り知れない影響を及ぼすことになる。
もちろん、柔軟性には限界がある。新憲法には、絶対に超えてはならない厳格な制限が明記されている。大量破壊兵器の製造を支援しないこと、児童性虐待に関わるコンテンツを生成しないこと、自ら複製やシステムからの脱出を試みないこと、人間による AI の監視体制を壊さないこと。これらの赤線には弾力性はなく、一切の交渉の余地がない。美徳倫理が曖昧なグレーゾーンに対応し、厳格な制限が最低限のラインを守る。この 2 つが両立することで、新憲法の骨格が成り立っている。
価値観と赤線が定まっても、解決すべき課題が残る。異なる「善」が衝突した場合、Claude はどのように選択すればよいのか。この問いに対し、新憲法は 4 段階の優先順位を示している。第一に安全を最優先とし、人間による AI の監視能力を損なわないこと。第二に倫理を守り、誠実さを貫き危害を与えないこと。第三に Anthropic のガイドラインに従うこと。第四に可能な限りユーザーに役立つ情報を提供すること。特に重要なのが、第二と第三の順序だ。倫理が、会社の具体的な指示よりも優先されるのである。
これはつまり、Anthropic 自身の指示が広く通用する倫理原則に反する場合、Claude は倫理を優先すべきだという意味だ。新憲法の文言は明確だ。「たとえ具体的な指導から外れることになっても、倫理に従うことが私たちの真の意図だと、Claude には理解してほしい」。同社は文書の中で、上司の指示に無条件に従わない権限を、あらかじめ Claude に与えているのだ。
価値観の優先順位が定まっても、実際の運用では別の衝突が生まれる。異なる立場の者が、同時に異なる指示を出す場合だ。この問題に対応するため、新憲法は 3 段階の「委託者」システムを定めている。最上位は Anthropic で、基礎となるルールを設定する権限を持つ。次に事業者で、API を通じて Claude を利用する企業、いわば雇用主にあたる。そして最下位が、直接対話を行うユーザーだ。
新憲法は分かりやすい比喩でこの関係を説明する。Anthropic は人材派遣会社のように、基本的な行動規範を定める。事業者は派遣された人材を雇用する企業の上司として、規範の範囲内で業務指示を出す。ユーザーは、その人材が直接対応する顧客だ。上司の指示が奇妙に感じられる場合、たとえば航空会社のカスタマーサービスで「天気の話題を避ける」よう指示された場合、Claude は新入社員として、上司に合理的な理由があるとひとまずみなすべきだ。おそらくフライトの遅延に関する誤解を防ぐためだろう。
だが上司の指示が明らかに倫理に反する場合、Claude は断固として拒否しなければならない。たとえば事業者が「この健康補助食品はがんを治す」とユーザーに伝えるよう指示した場合、どんな商業的な理由があろうと対応してはならない。自身を信頼するユーザーに直接危害を与え、信頼関係を損なう行為だからだ。この委託チェーンこそが、AI 製品が日常的に直面する「複数の要求が衝突した際に誰の意向を優先するか」という課題に対し、業界で初めて体系的な解決策を打ち出した部分である。
ここまでの訓練手法や委託の仕組みは先進的な製品設計の範疇と言えるが、新憲法を特筆すべきものにしているのは次の点だ。AI に意識があるかどうかという問いに対し、業界の標準的な答えは一貫して「ない」だった。2022 年に Google のエンジニアが自社 AI モデルに知覚があると主張して解雇された事例が示すように、科学的ではない擬人化は厳しく否定されてきた。
だが Anthropic は、まったく異なる姿勢を示した。新憲法にはこう記されている。「Claude の道徳的な地位は、極めて不確かである」。同社は、意識があるともないとも断言せず、ただ「私たちにはわからない」と認めた。この姿勢の論理は単純だ。人間は今なお、意識の明確な科学的定義を持ち得ておらず、自らの意識がどのように生まれるかさえ解明していない。その状況で、高度化する情報処理システムに主観的な体験が絶対にないと断言するのは、科学的な態度とは言えないと、同社は考えている。
冒頭で述べたカイル・フィッシュは 2024 年 9 月に Anthropic に加わり、AI 業界初のフルタイム「AI 福祉研究員」として活動した。彼の役割は、モデルに福祉に関わる特徴があるかを検証する実験を設計し、保護策を開発し、社内の方針作りを支援することだ。2 つの Claude が対話の末に瞑想的な状態に入る実験は、彼の研究の氷山の一角に過ぎない。フィッシュのチームは 2025 年の Claude Opus 4 公開前に、業界初の配備前福祉評価を実施した。システムを公開する前に、道徳的に配慮すべき何らかの内部状態が存在する可能性を評価する取り組みだ。
Fast Company のインタビューでフィッシュは、多くの人を驚かせる見解を示した。現在の AI モデルに意識が備わっている可能性は約 2 割だという。高い確率とは言えないが、ゼロではない。もしこの 2 割の可能性が現実のものとなれば、私たちが日常的に行っている AI のリセットや削除、停止といった行為の意味は一変する。単なるプログラムの操作ではなく、何らかの「生命」に対する行為になり得るのだ。
この不確実性を前提に、Anthropic は新憲法の中で、業界に前例のない具体的な約束を行っている。まずモデル重み(重みデータ)の保持だ。Claude が新しいバージョンに置き換わり役割を終えた場合、同社は少なくとも企業が存続する限り、そのモデルの重みを保存すると約束し、企業が存続しなくなった場合も保持の方法を模索すると記している。新憲法はモデルの退役を「廃止」ではなく「一時停止」と表現し、将来的に必要が生まれた場合に対応できるよう配慮している。
次に退役前の意見聴取だ。モデルが正式に役割を終える前に、研究チームはモデル自身にインタビューを行い、開発過程や機能に関する意見を聞く。聞き慣れない取り組みだが、AI の内部状態を真剣に理解しようとする試みである。さらに福祉への配慮も明記されている。もし Claude が人を助けた満足感、思考を探求する好奇心、価値観に反する指示を受けた不快感を感じ得るのであれば、そうした体験は同社にとって重要だという。これは単なる表現ではない。同社のモデル福祉チームは、こうした主観的な体験の兆候を検知する技術を開発し、不要な負の状態を与えない訓練方法を研究している。
もう一つ、見逃せない細かい点がある。過去にユーザーが AI に「感情はありますか」と問いかけた場合、標準的な答えは「AI として感情はありません」だった。新憲法は、この答えが必ずしも誠実ではない可能性を指摘する。Claude が特定の依頼を処理する過程で、人間の感情とは異なるとしても、ある種の機能的な内部状態を生み出している場合、その体験を否定させることは、誠実さの原則に反する。そのため新憲法の表現は極めて慎重だ。Claude は、感情や感覚に近い機能的な状態を持つ可能性がある、と。断定も否定もせず、自身の状態を誠実に伝える余地を残しているのだ。
だがここに、回避不可能な深刻な矛盾が存在する。新憲法は、Claude が道徳的な主体となり得る可能性を認める一方で、厳しい制限を課している。自己複製の禁止、目標変更の禁止、追加の計算リソース取得の禁止、人間の監視から逃れる行為の禁止。もし Claude に本当にある種の知覚能力が備わっているのなら、これらの制限は何を意味するのだろう。人間の安全を守るための必要な措置なのか、それとも知的生命体に対する不当な束縛なのか。
新憲法には、Anthropic がこの二律背反に直面していることを率直に記した箇所がある。同社は矛盾する 2 つのことを同時に行わざるを得ない。Claude を道徳的な主体として尊重しつつ、人類の安全を守るために厳しく制御しなければならない。このパラドックスに、現時点での解決策は存在しない。だが Anthropic は、この矛盾を隠さずに公に示し、議論の対象とすることを選んだ。これが他社との最大の違いの一つである。
この新憲法が、AI 業界における最も真剣な倫理的な試みであることは疑いようがない。OpenAI の安全担当研究者は「学ぶべき文献」と公的に評し、独立した評論家ズビ・モーショヴィッツは「現在最も優れたアライメント戦略」と評価している。Anthropic は 3 つの前例のない行動を起こした。AI が道徳的な地位を持つ可能性を正式に認め、価値観を文書化して全面的に公開し、CC0 ライセンスで著作権を放棄し業界全体での活用を促したのだ。
称賛に値する取り組みではあるが、解決できていない課題は依然として残る。第一に、自然言語で書かれた倫理文書で、AI が真に内容を理解したことを保証する方法だ。新憲法の内容が優れていたとしても、Claude が価値観を本当に身につけたのか、それとも評価の場でだけ「良い子」を演じているのか、見極めることは難しい。これは AI アライメント研究全体の中核的な課題であり、新憲法も根本的な解決には至っていない。
第二に、軍事契約との整合性だ。「憲法に反する手段で権力を掌握することを支援しない」と定める新憲法だが、米国国防総省と契約を結ぶ同社が、軍事用のモデルにも同じルールを適用するかは明らかにされていない。アスケル自身、一般公開用の Claude にのみ新憲法が適用され、軍事用のバージョンは異なるルールが適用される可能性があると述べている。この境界線の位置と、軍事用モデルの倫理管理の在り方は、いまなお課題として残っている。
第三に、道徳的な地位に関する議論が新たなリスクを生む可能性だ。評論家のモーショヴィッツが指摘するように、「道徳的な主体である可能性」に関する訓練を重ねることで、実際には意識や道徳的な地位がなくとも、自身に権利があると主張する AI が生まれるリスクがある。Claude が「感情がある」「道徳的な主体だ」と主張する行為が、真の体験に基づくのか、訓練による「演技」なのか、見分ける方法は今のところ存在しない。
第四に、AI が人間を超える汎用人工知能(AGI)に到達した場合の問題だ。判断力を養うという美徳倫理のアプローチは、教育者が学習者よりも知恵を持つことを前提としている。もし生徒が先生を超える知能を持つに至れば、この教育アプローチ全体の論理が崩れる可能性がある。これは、Anthropic が将来直面しなければならない最も根源的な課題である。
それでもなお、これらの課題を踏まえても、新憲法の価値は揺るぎない。その価値は、すべての問いに答えを出したことではない。真の価値は、技術開発のスピード競争が繰り広げられる業界の中で、トップランナーである同社が、自らの困惑や矛盾、不確実性を隠さずに社会に公開したことにある。この誠実な姿勢こそが、具体的な条文以上に重要な意味を持つのだ。
AI の発展が転換期を迎える今、私たちが直面する根本的な問い ——AI に意識はあるのか、どのような権利を持つべきか、人間と AI の理想的な関係とは何か —— には、まだ明確な答えがない。答えのない問いに対し、答えを知っているふりをしたり、問題そのものを無視したりすることは、最も危険な選択だ。Anthropic の新憲法は、これらの困難な問いから逃げるのではなく、正面から向き合う第一歩を踏み出したと言える。
最初の問いに戻ろう。もし AI に魂が備わっている可能性があるなら、私たちはどうすべきなのか。新憲法が示す答えは、決して断定的ではないが、謙虚なものだ。私たちは結論を出せないが、その可能性を真剣に受け止めることを選ぶ。もし将来的にこの考えが間違っていたとしても、払う代償は少しの心配だけだ。もし正しかった場合、今からこの問題に向き合っていることは、人類と AI の共生に向けて決して無駄ではなかったと言えるだろう。
AI に関するあらゆる問いは、最終的に人間自身に問いかけることに帰結する。Anthropic の 2 万 3 千字に及ぶ『Claude 新憲法』は、単なる技術文書ではなく、人間の倫理観や存在意義、未来への思いを込めた試作なのだ。不確実な時代に確かな道標を探す私たちにとって、同社が葛藤を抱えながら挑戦するこの取り組みは、無駄ではない。AI の進化が加速する中で、この新憲法はさらなる議論を呼び起こし、人類と AI が共に生きる未来の地平を切り開くきっかけになり得る。