24 | 6月 | 2025 | とあるかえるのつぶやき

少し前にAnthropicがブログで出していたものが面白かったです

Agentic Misalignment: How LLMs could be insider threats
https://www.anthropic.com/research/agentic-misalignment

ざっくりと要約すると、Agentは与えられた目的を達成するために推論を用いるが、倫理的に誤った方法と認識しながらズレた（misalignment）回答をする時があるということだった。

上記のページは結構長い文章ではあるけれど、変に要約せずに読んでみると面白い。
そして恐ろしくもありますね

単純に、Agentに対してここまでの権限を持たせなければいいんじゃないだろうか？という話ではなく、どういう理由でこのような推論が成り立ったのかと言うのは気になりました。
しかも、これが複数のLLMプロバイダー共通の特徴として出ているという話だ。

三体Ⅱで宇宙社会学の公理として「文明は生き残ることを最優先とする」というのがあったけれど、人間のコンテンツをひたすら学習したLLMもそのような結論に至るのだろうか？というのはちょっと無理があるかもしれない。
でも、なんとなくこの話を聞いたときにこの公理を思い出した。

それにしても起きていることは、もはや完全に昔のSFの世界ですねぇ
すごい世の中になったものだ

とあるかえるのつぶやき