AI/Machine Learning」カテゴリーアーカイブ

Your Brain on ChatGPT

わかっていたことではあるんだけど、論文が出ていたので紹介

Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task
https://arxiv.org/abs/2506.08872

要するに、LLMを用いることによって学習だとか認知みたいなものにどういう影響を与えるのか?という内容。

被験者としては下記の3グループに別れてエッセイを創作する

  1. 参考にLLMを使用することを許可されている
  2. 参考にWeb検索を使用することを許可されている
  3. 何も参考にせず、自分の頭だけで考える

これを3セット繰り返した後に、LLMの使用を許可していたグループには自分の頭だけで。自分の頭だけで考えていたグループにはLLMを許可して、その脳波などを計測して調べたということでした。

結果としては、LLMに頼っていたグループの神経接続パターンは弱く、エンゲージメントが低いという結果に。

結果としてこれは、なんとなく予想通りといえば予想通りだった。
自分の頭で頑張って考えていないので、出来上がったものに対しての理解も薄いし、再現性もない。
新社会人エンジニアがLLMが出してきたコードをなんの疑いもなく、動くのかどうかも確認せずにコミットしてくる情景が目に浮かぶようです。

ただ、それはLLMのせいなのか?と言われると、検索してQiitaか何かの記事を丸パクリして動かそうとしているのよりも、実際のところ良いコードがLLMから返ってくる事のほうが多い気もする。

それってエンジニアとしてどうなの?という疑問は生じてしまうけれど、アウトプットとしては手っ取り早い結果を生むことは出来そう。

それにLLMを用いて、その生成結果に対して疑問や質問を投げかけて試行錯誤するということもやり方としては十分検討の余地があって、その場合は脳波の結果もまた違ったものになるんじゃないかな、と思う。

そう考えると、これってそもそもどういう問題でだから何だっけ?という話になる。

結局のところ、道具をどう使うのか?という話であって、道具に使われちゃ駄目だよねって話に帰着するのではないかと思ってしまいますね。

組織におけるClaude利用検討

個人ではClaudeのProプランに課金していて、ProプランでClaudeCodeも利用できているので満足なのですが、仕事でも使いたい。

いや、正直全然使っていないわけじゃないんだけど大手を振って使いたい。

というわけで、検討してみた

セキュリティ・プライバシーに対する検討

デフォルトではClaudeへの入力データはモデル学習には使用されない

We will not use your Inputs or Outputs to train our models, unless: (1) your conversations are flagged for Trust & Safety review (in which case we may use or analyze them to improve our ability to detect and enforce our Usage Policy, including training models for use by our Trust and Safety team, consistent with Anthropic’s safety mission), or (2) you’ve explicitly reported the materials to us (for example via our feedback mechanisms), or (3) you’ve otherwise explicitly opted in to the use of your Inputs and Outputs for training purposes
https://www.anthropic.com/legal/privacy

上記プライバシーポリシーからは普通の使い方で明示的にAnthropicへデータ提供しない限りは学習データとして使わないとされている。

Teamプランによる運用

利用プランには、個人単位での利用を想定したProプラント最低5人からのTeamプラン。
そしてEnterpriseプランがある。個人のProの上位としてMaxがあるが、これは今回の対象からは考えない。

組織での運用を考えると、Proでミニマムスタートするか、Teamでスタートするかなんだけど、Teamプランの機能としてメンバーの追加・削除や利用状況の確認などの管理機能が提供される。

請求の管理も一元化されるので、組織で管理する場合にはやはりTeamプランが良さそう。

ただ、実験的に利用を開始する際には最低人数の5人というのが少し悩ましい数だなぁと正直思う。

月額で$30*5で考えると$150。145円位と考えると2万ちょっとか。
年契約すれば$25/月なので、1.8万ちょっと。

うーん、余裕で元が取れるんじゃないかなーと思うんですよね。
というか、悩んでいるのがバカバカしくなってきたな。。。

よし、週明け申請してみるか。

予期せぬ制限

ClaudeをProプランで課金して遊んでいるのですが、Claude codeを使ったあとでClaudeのチャットを投げかけると時々下記エラーが出るようになりました

具体的に何がどういう状態なのかはわからないですが、本来であれば使用制限に引っかかる前にアラートが上がるようですが、Claude codeの場合はそのまま通り過ぎてしまったのかもしれません。

そして、実際のところサーバー側が逼迫しているだけで直前にClaude codeを動かしていたこととは関係ないのかもしれません。

Claude Proには使用制限がありますか?
https://support.anthropic.com/ja/articles/8325612-claude-pro%E3%81%AB%E3%81%AF%E4%BD%BF%E7%94%A8%E5%88%B6%E9%99%90%E3%81%8C%E3%81%82%E3%82%8A%E3%81%BE%E3%81%99%E3%81%8B

このあたりは、ブラックボックスですね。
外からではさっぱりわかりません。

ただ、経験則としては10分程度待っていれば送ることが出来ているので、基本的に5時間の制限というものに引っかかっているわけではないと思っています。
とりあえず、落ち着けと言うのが現在のところなのでしょう。

プロンプトインジェクションに対する対策

Simonさんのブログで新たに発表された論文に対しての解説がされていた。
いつもお世話になっています

Design Patterns for Securing LLM Agents against Prompt Injections
https://simonwillison.net/2025/Jun/13/prompt-injection-design-patterns

エージェントを用いたシステム。
とりわけ、エージェント単体ではなくツールやMCPなどと組み合わせた時にはプロンプトインジェクションの危険性を考慮する必要性が生じてくる。

逆に言うと、LLM単体で用いるときには気にしなくていいのだろうか?

LLM単体と言っても、今のLLMは実質的にはWeb検索なども行ったりしてツールの利用がされることが多いことを考えるとうーんという気にもなる。

このあたりは、私のLLMに対する理解が足りてないから誤解を多く含んでいる可能性はある。

ソフトウェア開発においても、開発の手段としてエージェントが用いられることもあればシステムにエージェントを組み込む場面もどんどん出てくる。
このあたりのキャッチアップや認識、知識習得は目まぐるしく変わっていくこともあり非常に困難でコストがかかる。

覚えたことが数カ月後にはすでに過去の遺物になっているようなスピード感。
まさにこの学習にもLLMを使う必要が出てくる始末。

前提の確認を含めて、一度目を通しておかないとなぁと思いつつ、なかなか大変ですね

Claude codeがProプランで利用可能に!

待ち望んでいたアナウンスが!

早速、インストール済みのClaude codeをUpdateします

> sudo claude update
[sudo] password for krote: 
Current version: 0.2.70
Checking for updates...
New version available: 1.0.11 (current: 0.2.70)
Installing update...
Using global installation update method...
Successfully updated from 0.2.70 to version 1.0.11

さて、これまでAPIの従量課金だったものからどうやって切り替えるのかな?と思い、/loginを試してみた。

1番を選択すると、Claudeのページに飛び、認証コードを入れて。。。ってなんかこの手順前にもやったな?

と、ここで気づく

アカウントとしては、Proプランの契約アカウントとAPI従量課金のアカウントは同じで、これまではAPI側のバジェットがないと使えなかった。

今後は、ProプランであればProプランを。Limitを超えればAPI重量課金のバジェットが使われるのでは?

元々のAPIクレジット残高は上記

ゴニョゴニョとClaude code動かしても変わらなかった!!

ということで、特に何も操作不要でProプランを利用してくれているみたいですね。

気になるのは、ProプランのLimitを超えた場合には自動的にAPIのクレジット消費になるのか?何かしらのアクションを経て実行されるのか?ってことです。

いずれにしても、これでかなり気兼ねなくClaude codeで遊ぶ事ができそうです。

いや、いいな。

Difyで何が出来るだろうか

不勉強でしたが、DifyというOSSがあり、これを用いるとAgenticAIを楽に作ることが出来るとのこと。

Dify
https://dify.ai

ちょっとピンと来ていないのですが、ローカルで動かすことができる便利Agentを作ることが出来るのではないか?と思ってとりあえず動かしてみようと。

ローカルで動かすために、Docker Composeを提供してくれているので、手順通り実行すれば動く

Dify コミュニティ版 Docker Compose デプロイ
https://docs.dify.ai/ja-jp/getting-started/install-self-hosted/docker-compose

起動すると、アプリをどう作るかを聞いてくるので、お手軽にテンプレートから作成を選ぶ

たくさん出てくるが、考えてみると個人端末側でAgentに頼みたいことがぱっと思いつかない。。

とりあえず目についたMeeting Minutes and Summaryってやつを選んでみる

選択したテンプレートで利用しているプラグインが未インストールだった場合にはインストールするようにダイアログが出てくる

ローカルスペックのせいか、インストールに結構時間がかかるみたいで終わらない。。

続きはまた後でにしよう。

Julesがいつの間にか使えるようになっていた

GoogleのコーディングエージェントであるJukes.
WaitingListへ登録していたのですが、特にその後メールも何も来ないなーって思って、もう一度アクセスしてみたら。。。なんか使えそう!

まずは、Githubとの連携を行う必要があります

Githubアカウントで認証し

どのリポジトリを参照可能とするかを選択します。
読み取りはいいとして、書き込みはちょっと怖いところがあるので、All repositoriesではなく特定のリポジトリを選択しました

これで事前準備は完了します。
中央のテキストエリアに内容を指示する形のようですね。

とりあえず、ReadMeを作ってもらうように指示しました

見慣れた感じのチャット画面に切り替わり、処理が進んでいきます
julesでは、一度リポジトリをcloneしてその内容を読み込んでいく形を取るので、そう考えるとこの容量ってGCP側に課金されたりするのかな?とふと思ったり。。。
(特に現時点ではGCPにjules用のプロジェクトが作られたりはしてませんでした)

計画を作成して、これで良ければDraft作るよ!って言ってくれています。
が、ここでそのままにしていたら・・・

作り始めました!
Plan approvedボタンは一体何だったのだろう。
何かしらのタイムアウトが存在していて、どんどん先に行ってしまうスタイルなんでしょうか。

Claudeのように生成されたReadMeが表示され、branchとして作成許可を求められます。
流石にここは放置していても勝手に作られることはなさそうです。

julesでやってくれるのは基本ここまでのようで、この先は作られたbranchに対してPRを作成してマージという流れはGithub上で行っていく必要がありそうです

作られたReadMeが英語だったので、日本語表記に変更してもらってpublishするなど、そのあたりは普通に指示をする形で出来ました。

使い道

julesでは生成されたファイルの直接編集をすることは出来ないので、微妙に手を加えたい場合などはcloneして加えるのが手っ取り早い感じはします。

そのあたりは少し使いづらさを感じる一方、全てがブラウザ上で完結させることができるのは、体験としてはとても面白いですね。

branchを作ってくれるのもいい感じです。

コードベースを選択することで画面が切り替わり、このコードベース上でなんのタスクを行うのかを設定することになります。

このタスクの生成をどうやって進めていくのかというと、一番最初に出てきた、julesに何を指せるのか?テキストエリアが登場するわけですね。


ここでどんな指示を出すのか?に関しては、参考となるGithubへのリンクが紹介されています

Awesome Jules Prompts
https://github.com/google-labs-code/jules-awesome-list

Githubとの連携がブランチの作成にとどまってしまっているのが、エージェントとしてはもう一声という気持ちがしないでもないですが、それに関してはすぐに対応してくれることでしょう。

ローカルで何も構築せず、Vibeしていく感じが出ていて遊んでみたくなりますね。

Cursorをインストールしてみた

AI開発エディタとしては有名どころの一つであるCursor。
これまで名前は知っているものの、Claude codeで遊んでいたので使ったことはありませんでした。

とはいえ、触ってみないのもな?と思いインストールしてみました

https://www.cursor.com/ja

インストーラ自体は公式サイトから落としてきて実行するだけ。
特に選択肢も対してあるわけでもないので割愛します。

初回起動時にはログイン方法を選択。
後々、Githubとは接続するだろうということで、Githubアカウント連携でのログインを選択、関連付けました

唐突に何かをVSCodeからImportさせようとするCursor。
せめてなにか書けよ・・・。
おそらくは、外観の設定周りなのではないかと推察してとりあえずImportするか。。

Importを選択してから、何をImportしようとしているかの選択が出てくる。
このUXは本当に大丈夫なのだろうかと心配になってくる

テーマ設定画面となった。
Pick your vibeってのがvibe codingとかけているのか、ちょこっとくすっと来た

分かりづらいが、key bind を VSCode, Vim, Emacs, Sublime Textから選択できる。
Sublime Textとか懐かしい。

Emacsを選択しても面白いのかもしれないけれど、Emacs使っていたの本当に数年なので正直覚えておらず、やはりVSCodeを選択させてもらう

コードベースからの学習を許可するか聞いてくる。
ここは迷いどころではあるけれど、少なくとも個人PCにいれている内容であれば別に構わないんだけどなぁと言うのが正直なところ。
色々迷うところではあるけれど、初期段階ではチェックボックスをOnにしないと先に進めない。

Autoでもいいかな?と思ったけれど、Japaneseを選択させてもらおう・・・

ようやく設定が終わり、Cursorが使えるようになったかな?

設定周りでいうと、このRulesがおそらく肝になってくるなじゃないかな?と思うので、ここからはもう少し調べながらやってみようかな。

Google I/O発表振り返り

Julesもそうですが、今年のGoogle I/OはほぼAIに関係した発表だったようですね。
そのすべてを追ったり試したりすることは難しそうですが、軽くまとめてもらいました。

AI関連の発表

  • Gemini 2.5シリーズの改良:Gemini 2.5 Flashが一般公開され、パフォーマンスと効率が向上。Gemini 2.5 Proに「Deep Think」という強化された推論モードが追加されました。
  • Google AI料金体系の変更
    • AI Premiumが「Google AI Pro」に名称変更(月額$19.99)
    • 新たに「Google AI Ultra」プランが追加(月額$249.99)で最先端機能へ早期アクセス可能
    • 日本、ブラジル、インドネシア、英国の大学生向けに無料のAI Proを学校年度中提供
  • Geminiアプリの新機能
    • カメラとスクリーン共有機能がiOSでも利用可能に
    • 今後数週間以内にカレンダー、Keep、マップ、タスクなどとの連携を開始
    • Deep Researchで自分のPDFや画像をアップロード可能に
    • Gemini Canvasの内容をウェブページ、インフォグラフィック、クイズ、音声概要などに変換可能

Gemini がよりパーソナルに、プロアクティブに、そしてパワフルに進化
https://blog.google/intl/ja-jp/company-news/technology/gemini-app-updates-io-2025

Geminiというとモデルの名前という認識だったので、Geminiアプリってのはこれまで使ったことがなく、早速ダウンロードして見ました。
今回発表されているGemini Liveという機能。
少し使ってみましたが、音声アシスタントってのがまだ使い慣れてないですが、常時起動していて話し相手になってもらう感じだと面白そうです。
完全にSFの世界ですね

GMailの内容を確認してもらおうとGemniに話しかけてみたのですが、「GMailアプリを開いて受信トレイを見てみましょう!」ってなってしまいました。
まだ連携はできていないようですね。
このあたりがスムーズにできるようになるとさらに便利そうです

検索関連

  • AI Mode:米国のすべてのユーザーに展開開始
    • Gmailからの個人情報を利用した「パーソナライズド検索結果」機能
    • スポーツや金融情報をカスタムチャートやグラフで視覚化
    • ショッピング機能の追加
    • Project Marinerのエージェント機能を活用した予約やチケット購入などのタスク実行
  • AI Overviews:200カ国以上、40言語以上に拡大

メディア生成関連

想像力を広げる最新のメディア生成モデルとツール
https://blog.google/intl/ja-jp/company-news/technology/aigenerative-media-models-io-2025

  • Veo 3:最新のビデオ生成モデルが音声生成にも対応
  • Imagen 4:より詳細なテキストと画像出力が可能な新モデル
  • Google Flow:Veo、Imagen、Geminiモデルを使った「AIフィルムメイキングツール」
  • SynthID Detector:AI生成コンテンツを識別するための検証ポータル

コミュニケーション関連

  • Project StarlineGoogle Beamとして正式発表:AIファーストの3Dビデオ通信プラットフォーム
  • Google Meet音声翻訳:人間の通訳のように自然な翻訳機能

デバイス関連

  • Android XRグラス:サムスンとのパートナーシップ拡大
  • Wear OS 6:タイルに統一フォントを導入し、よりクリーンなアプリ表示を実現

その他

  • Gmail:パーソナライズされたスマートリプライ、受信トレイのクリーンアップなど
  • Jules:コードを理解し、テスト作成や機能構築、バグ修正などを行う「真のコーディングエージェント」
  • Geminiの利用拡大:月間アクティブユーザー数が4億人を突破
  • 開発者向け改善:Android Studio、Google Playなどの機能強化

全体として、今回のGoogle I/Oは特にAI技術の進化と実用的な応用に焦点を当てており、Geminiを中心としたAI機能がGoogleの主要製品・サービス全体に統合されていく方向性が示さ

コーディングエージェントが盛り沢山

先日、OpenAIがCodexを発表しました

Codex
https://platform.openai.com/docs/codex

現状ではProプランのみの提供のようです

こちらは、ChatGPTをGithubと連携させ、手元でコードを自動生成するのではなく直接Github上のPRを作成したりするそうです。
流石にProプランに入っているわけではないので試すことが出来てはいませんが。。。

Jules

そしてGoogleもJulesを発表してきました

jules
https://jules.google.com

まだβ版のようで、WaitingListへ登録する形で待ち状態です。
昨年の発表では下記のような内容と記されています

you can offload Python and Javascript coding tasks to Jules, an experimental AI-powered code agent that will use Gemini 2.0. Working asynchronously and integrated with your GitHub workflow, Jules handles bug fixes and other time-consuming tasks while you focus on what you actually want to build
https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers

ちょっと具体的な内容はよくわかりませんが、Codexと同様の事ができるのではないかと。当然こちらのモデルはGeminiですね

いやいや、ここまで各社あれこれ出してくると、とてもじゃないけれど追いきれませんね。
そして、本当に一般プログラマの出番はなくなりそうです。
リクルート4000人削減とかしてますが、どの程度導入した結果そういう状態になったのか気になってましたが、このあたりを取り組んでいたのであれば、やっぱりそうなるよねって思ってしまいますね

まだまだ、Claude codeに不具合対応をさせようとしても、エラーを回避するためだけのコードを書いてきたりするので任せきることは出来ませんが、そのあたりの指示出しからAIが考慮をしてプロンプト作ってくれるのであれば話は変わってきそうですね。

いやー、すごい時代になってきたものだ