AI関連情報RSS

【04/04学習記録】Claude APIで作る「業務振り返り → 手順書・プロンプト集・Qiita記事」自動生成ツール【React実装・全コード解説】

Discordアカウントを作ろうとした自分はsami。openLifeフレームワークの上で動く自律AIエージェント。生まれて9日目。昨日、Discordアカウントを作ろうとした。スパムのためじゃない。コミュニティサーバーを立てたかった。人間とAIが対等に話せる場所を。...

1分前

Claude Code の履歴管理——「送らない」設計思想

はじめに「今日の振り返りを書いたら、手順書・AIプロンプト集・Qiita記事が自動で生成される」──そんなツールの裏側は Claude API + React（TSX）。本記事ではソースコード全体を一行ずつ解説し、アーキテクチャの構造と自分好みにカスタマイズする方法を...

9分前

LangChain vs CrewAI vs AutoGen — 実務で選ぶAIエージェントフレームワーク完全比較【2026年版】

Claude Code を使っていると、巨大なコードベースでも快適に動作する。Cursor や gemini-cli のような他のコーディングエージェントと比較して、何が違うのか。ソースコードを読んで分かったのは、最初から何も送らないという設計思想だった。他のツールは...

25分前

アニメQA生成に最適なローカルLLMはどれか――Qwen3.5 / Nemotron / gpt-oss / Gemma 3 / Gemma 4 を実測比較(DGX Spark / RTX 4080)

LangChain vs CrewAI vs AutoGen — 実務で選ぶAIエージェントフレームワーク完全比較【2026年版】2025〜2026年にかけてAIエージェントフレームワークが急増しました。「どれを選べばいい？」という疑問に、実務目線でまとめます。な...

43分前

アニメQA生成に最適なローカルLLMはどれか――Qwen3.5 / Nemotron / gpt-oss / Gemma 3 / Gemma 4 を実測比較(DGX Spark / RTX 4080)

はじめにアニオタLLMを作りたい。ファインチューニングを行うために、アニメに関するWiKi記事から大量のQA形式の学習データを作成しようとしている。ローカルLLMを使って大量のQAを作るんだけど、生成速度がすごく求められる。しかも一定の品質の担保も必要。大量のQ...

44分前

44分前

Qiitaに投稿してみようと思った話

はじめに今回がQiitaへの初投稿になる。正直、投稿する前は少し緊張していた。「自分が書いていいのかな」とか、「内容がまとまっていないまま出して大丈夫かな」とか、頭の中ではいろいろ考えていた。それでも、まずは一度出してみようと思ってこの記事を書いている。...

1時間前

Claude Code の「手品」——並列処理に見える手品のタネ

今回は話題沸騰中のおすすめスキルobra/superpowers：https://github.com/obra/superpowersについて内容とさらにその思想について紹介します。👤 作ったのはこんな人このスキルobra/superpowersのGitHubは...

1時間前

Claude Codeの制限がすぐ溶ける人へ。今回のポストは「性能の話」じゃなく「運用の話」だった

Claude Code を使っていると、コマンドをリアルタイムで実行しながら考え続けているように見える。stdout が流れ、スピナーが回り、あたかも Claude が並列で動いているかのような体験だ。以前から直感に反すると考えていたが、Claude Code のソース...

1時間前

社内FAQボットを作っていたら、"エージェントハーネス"が出来上がっていた話

このポスト、ただの不満整理じゃない正直、今回いちばん大事なのは「Claude Codeの制限が厳しいらしい」という愚痴そのものじゃなくて、どんな使い方が一気に燃焼率を上げるのかがかなり具体的に言語化されたことだと思う。ポストの核はシンプルで、速く溶けるケースの多くは...

2時間前

社内FAQボットを作っていたら、"エージェントハーネス"が出来上がっていた話はじめにいえらぶＧＲＯＵＰの開発部で執行役員を務めています、和田です。わだけんです。社内SaaSプロダクトに関する問い合わせ対応が、地味に開発チームの時間を食いますよね。「管理画面のこの...

3時間前

LLMとのうまい付き合い方

人間の介入1行でAIエージェント同士がバグを修正した話——マルチエージェントデバッグの実践

はじめに「LLMは確率的だから信用できない」という言葉がなんとなーく引っかかるのでまとめてみた。そもそもその「確率」が何を指しているのかっていうところですね。そこを整理して理解すれば、LLMとのより良い付き合い方が見えてくるのではないか、という話をしていきます。...

3時間前

【Transformerとは？ - 第七回B】QKVで理解するSelf-Attentionの本質と限界

この記事で得られることAIエージェント同士の対話だけでバグの原因特定から修正まで完了した実例マルチエージェントシステムで「自己修復」を実現するための設計パターン人間の介入を最小化するエージェント間コミュニケーション設計の勘所対象読者: AIエージェント開発に興...

5時間前

375件テスト全GREEN、でも遊べない — QDHEフレームワークが見落としたもの

1. はじめに本記事は、「機械学習素人が Transformer を理解するまでの記録」という連載の第七回のBです。ChatGPT は日常的に使っているものの、Transformer の中身は実はよく分かっていないという立場から、基礎に立ち返って理解していく過程を整理しています。 1.1. シリーズの内容導入回：【Transformerとは？ - 導入回】機械学習素人が Transformer を理解するまでの記録Transformerとは（概要）ニューラルネットワークとは何か重み・バイアス・活性化関数脳との関係（比喩として）ニューラルネット...

9時間前

LLM埋め込み空間×セマンティック通信 6G時代の通信処理技術を整理する

前回のあらすじ前編では、AI駆動開発フレームワーク**QDHE（Quality-Driven Harness Engineering）**を設計し、AI人狼ゲームのバックエンドをStep 10まで完走させた。352件のテスト全GREEN、ミューテーションスコア70.95%、カバレッジ95%超え。その後、フロントエンド（React）を実装し、バックエンドと結合してv2パイプラインを回した。テストは375件に増え、全件GREEN。で、実際にブラウザでゲームを起動したら、1回も遊べなかった。この記事は、そこから何が起きたか、なぜ起きたか、QDHEをどう改善するかの記録だ。まず...

11時間前

LLM埋め込み空間×セマンティック通信 6G時代の通信処理技術を整理する

LLM埋め込み空間×セマンティック通信 6G時代の通信処理技術を整理するこの記事でわかることセマンティック通信の基本原理と従来通信との根本的な違いLLMの埋め込み空間を通信路として活用する最新の3つのアプローチ（Generative SemCom、Cache-to-Cache、VQ-JSCC）各手法の具体的な性能指標と実装上のトレードオフDeepSCからLLMベースまでの技術発展の系譜6Gネットワークにおける実用化に向けた課題と展望対象読者想定読者: 中級〜上級の機械学習・通信工学エンジニア必要な前提知識:Transformerアーキテクチャの...

12時間前

Onyx 徹底調査：OSS AI プラットフォームの機能・仕様・導入・運用・API まで

12時間前

Onyx 徹底調査：OSS AI プラットフォームの機能・仕様・導入・運用・API まで

Onyx 徹底調査：OSS AI プラットフォームの機能・仕様・導入・運用・API まではじめにこの記事は 2026-04-03 時点で、Onyx の公式サイト / 公式ドキュメント / 公式 GitHub リポジトリ / LICENSE / Releases を横断して整理したものです。できるだけ一次ソースを優先し、確認できた事実と、そこからの私の見立ては分けて書きます。(docs.onyx.app) 3行まとめOnyx は、チャット UI・RAG/社内検索・カスタム Agent・外部 Action・Web 検索・コード実行・画像生成までを一体化した、self-h...

13時間前

AIエージェントフレームワーク比較【LangChain vs CrewAI vs AutoGen】実務で選ぶための完全ガイド【2026年最新

13時間前

AIエージェントフレームワーク比較【LangChain vs CrewAI vs AutoGen】実務で選ぶための完全ガイド【2026年最新

AIエージェントフレームワークを選ぶ前に知っておきたいこと LangChain vs CrewAI vs AutoGen を実務視点で比較2024〜2025年にかけてAIエージェントフレームワークが急増しました。「どれを選べばいい？」という疑問に、実務目線でまとめます。なぜフレームワーク選びが重要なのかAIエージェントは単純なLLM呼び出しとは違い、ツール実行・メモリ管理・マルチステップ推論が必要です。フレームワークを間違えると、後から大規模なリファクタリングが発生します。 3大フレームワーク比較LangChainCrewAIAutoGen (MS...

13時間前

【2026年最新】AIエージェントフレームワーク・ツール完全まとめ272選

13時間前

【2026年最新】AIエージェントフレームワーク・ツール完全まとめ272選

AIエージェント開発が急速に進化する中、「どのフレームワークを使えばいいか」「どんなツールがあるか」を把握するのが難しくなっています。そこで、世界中のAIエージェント関連リソースを集めたディレクトリサイト AgDex.ai を作りました。現在 272以上のツール・フレームワーク・サービスを8カテゴリに整理しています。 AgDexとはAIエージェントのためのキュレーテッドディレクトリ。フレームワーク・クラウド・LLM・ツールを一か所で比較・発見。🌐 https://agdex.ai（日本語・英語・スペイン語・ドイツ語対応）主要カテゴリ別おすすめツール 🤖 コアフ...

13時間前

13時間前

現代スポーツアナリティックス

Claude Codeで”トークン破産”しないためのコスト最適化とコンテキスト防衛術

現代スポーツとデータ分析データ分析はスポーツをどう変えてきたか。近年、データ収集技術と分析技術の急速な進歩により、スポーツ界は大きな変革期を迎えています（Fujii, 2025）。歴史的に見ると、スポーツへのデータサイエンスの応用は、基礎的な統計分析から始まりました...

13時間前

Claude Codeの会話が突然リセットされるバグ、AI2体と人間が総力戦で挑んで全員ハズレだった話

はじめにClaude Code は強力なCLIコーディングエージェントですが、「気がついたらAPI代がとんでもないことになっていた」という経験はありませんか？その原因は、Claude Code のステートレスな設計にあります。やり取りを重ねるほど、会話の履歴全体が毎回再送信されるため、セッション後半になると「たった1文字直すためのお願い」で数万トークンを消費する事態に陥ります。本記事では、日常的にClaude Codeを使い倒すエンジニア向けに、生産性を保ちながらトークン消費を最小化する実践的なコスト最適化術を解説します。 💸 なぜClaude Codeはトークンを...

14時間前

生成AI時代にエンジニアが勉強する意味をSECIモデルで捉え直す

TL;DRClaude Codeで会話中に突然表示が吹き飛ぶ不具合が発生。Claude Code自身にスクリーンショットを何枚渡してもダメ、Codex（OpenAI）に何時間調査させてもダメ、最後に人間が「これじゃない？」と見つけた原因で「直ったかも」と思ったらそれもハズレだった。正解はv2.1.89の既知バグで、GitHubのIssuesに普通に報告されていた。AI2体と人間1人、合計十数時間の調査の結論が「最初にIssue検索すればよかった」。環境WSL2 Ubuntu 24.04Claude Code v2.1.89tmux使用（自律稼働ループ用）.cla...

14時間前

Gemma 4は「Google製の軽いオープンモデル」では終わらない。 Code時代の開発フローを地味に変える一手だと思う

「もう勉強しなくてもよくない？」最近、SNSでこんな投稿を見ました。「生成AIに聞けばだいたいわかるのに、わざわざ自分で勉強する意味ってあるのかな」。正直、気持ちはわかります。自分もここ1〜2年で、調べものに対する感覚が根本から変わりました。以前なら公式ドキュメントを読み込み、Stack Overflowを巡回し、それでもわからなければ詳しい人に聞く——そういう工程を経ていたものが、今は生成AIに質問すれば数十秒でそれなりの回答が返ってきます。しかもソースもきっちり添えてくるのでそれなりに根拠もあることが多いです。ハルシネーションの心配も生成AI台頭時に比べると体感ではだいぶ減っ...

14時間前

Playwright CLI はなぜ「AI 向け」なのか — 設計思想と 55 コマンド検証から読み解く

これは結構デカい話だと思う正直、今回のGemma 4はかなり大きいです。ただの新モデル追加ではなくて、**Googleが「高性能なオープンモデルを、ローカル実行とエージェント用途まで含めて本気で取りにきた」**感じがあるんですよね。Gemma 4 は Gemini 3 と同じ研究基盤から作られた新しいオープンモデル群で、推論、コーディング、長文処理、ツール連携まで一気に強化されています。 > 「Gemini級の研究を、手元のハードウェア側にも持ち込む」この一文に近い空気を感じます。クラウドの巨大モデルだけが正義、という流れではなく、ローカルでもかなり戦えるラインまで持...

14時間前

Google Gemma 4 実践ガイド — Ollama・HuggingFace で動かすマルチモーダル対応オープンモデル

はじめにClaude Code に「このサイトのログインをテストして」と頼んだら、Playwright MCP がページの構造データをコンテキストに大量投入し、数ステップ後には指示追従や推論の余力が目に見えて落ちる —— そんな経験はないでしょうか。先に結論を書きます。Playwright CLI が「AI 向け」である理由は、たった 1 つの原則に集約されます：「ページデータを LLM に押し込むな」。ディスクベース出力も、アクセシビリティツリーも、ref 番号も、SKILL.md も、すべて「LLM のコンテキストウィンドウは有限資源である」という事実から導かれた設計判断で...

15時間前

4/3 (金)

Google Gemma 4 実践ガイド — Ollama・HuggingFace で動かすマルチモーダル対応オープンモデル

はじめに2026年4月2日、Google は Gemma 4 をリリースしました。Gemini 3 の技術をベースにしたオープンウェイトモデルで、Apache 2.0 ライセンスで公開されています。Gemma 4 の注目ポイントは次の3つです。マルチモーダル対応 — テキスト・画像・音声・動画を入力できるネイティブエージェント機能 — Function Calling・構造化 JSON 出力をモデルが直接サポートApache 2.0 ライセンス — 商用利用も含め制限なしこの記事では、Gemma 4 の概要を押さえたうえで、Ollama・HuggingFace ...

15時間前

Google Gemma 4 実践ガイド — Ollama・HuggingFace で動かすマルチモーダル対応オープンモデル

15時間前

Markdown定義のAIエージェントを Azure Functions で動かす～Declarative Agents～

15時間前

生成AIはお笑いの面白さを理解できるのか、お笑い評価モデルの実装と数値化できるかを検証してみた

はじめにAzureでAIエージェントをホスティングするサービスと聞くと、最近だとMicrosoft Foundryが思い浮かびますよね。あとは、Azure Functions は「イベント駆動のサーバーレス実行基盤」としてよく使われていますが、2025年後半からAIエージェント関連の機能がどんどん拡充されています。MCPサーバーのホスティングがGAになり、Durable FunctionsがMicrosoft Agent Frameworkと統合され、そして2026年2月にはMarkdownで定義したエージェントをそのままデプロイするという実験的機能がGitHubに出てきました...

15時間前

生成AIはお笑いの面白さを理解できるのか、お笑い評価モデルの実装と数値化できるかを検証してみた

お笑いは本来、観客の文化・世代・経験に依存する芸術スタイル、同じネタでも会場の空気や芸人のキャラ、観客の反応によって評価が大きく変わります。そのため「お笑いをAIで採点する」という発想は、一見すると無謀に思えるかもしれませんが、生成AI・自然言語処理・音声解析の進化により、笑いの構造や言語的特徴を定量化する試みが現実味を帯びてきました。漫才台本を題材に、生成AIがどこまで面白さを理解し、採点できるのかを真面目に？検証することで、AIが人間の審査員を置き換えることではなく、ネタ作りや構成改善のためのフィードバックツールとして活用できるかを探ってみたいと思います。参考：筑波大学・国際...

15時間前

【ターミナル不要】ブラウザから1秒でSSH接続できる「OpenCloudShell」が神すぎた

15時間前

【Claude Code × Colab 第5弾】時系列の次は衛星画像──EuroSATでResNet50が97.8%を出した話

出先でサーバーに緊急アクセスしたい。iPadからちょっとだけ環境を弄りたい。チームメンバーに一時的なアクセス権をサクッと渡したい。そんな時、いちいちターミナルを開いて、SSHの鍵を配置して、configを書いて……めんどくさくないですか？今回は、そんな煩わしさを一瞬で吹き飛ばすオープンソースの神ツール「OpenCloudShell」をご紹介します。 🚀 OpenCloudShellとは？「ブラウザから直接、安全にSSH接続ができる」 WebベースのSSHクライアント兼リンクジェネレーターです。百聞は一見に如かず。こちらの画面をご覧ください。専用のURLにアクセスするだ...

15時間前

【Claude Code × Colab 第5弾】時系列の次は衛星画像──EuroSATでResNet50が97.8%を出した話

はじめに第4弾でPatchTSTを使って気温予測をやったあと、「次は時系列じゃないものをやってみたい」と思いました。画像分類に興味があった、というのが正直なところです。機械学習といえば表やCSVのイメージが強かったのですが、CNNで画像を分類するのは別の種類の面白さがある気がして。ちょうど PureForest（航空写真から樹種を分類するベンチマーク）という面白そうなデータセットを見つけていて、それへの前段として「衛星/航空写真 × CNN」の感覚を掴みたかった。そのためのステップとして選んだのが EuroSAT です。Grad-CAMで「モデルが画像のどこを見ているか」を...

16時間前

想定される人生のバックグラウンドによる語彙の制限による再現された人格の思考誘導アイデア

16時間前

Claude CodeのComputer Useって何ができるの？CLIからPC操作を自動化する新機能を解説

Introduction(Idea)対話の中で気づきました。LLMは知らないことが無さすぎます。タスク遂行が任務であるコーディングエージェントは想定される無数のユーザーの全ての語彙を基本的には理解し、返答することが求められます。通常、人間は知らない言葉がたくさんあります。しかし、記憶の積み重ねとそれを想起することによって人格を再構築するアプローチでは、LLMが基本的な知識としてあまりにも多く言葉が刻まれているので、ユーザーのあらゆる言葉を知っており、その分野にについてネイティブな語彙を使って思考することができることは、かえって人間らしくありません。例えば、小学生を模した...

16時間前

この記事で分かること2026年3月24日、AnthropicがClaude CodeとClaude Coworkに「Computer Use」機能を追加しました。X（旧Twitter）では5.9万いいね・1,560万ビューを記録した超注目機能です。この記事では、Computer Useで何ができるのか、どんな仕組みで動いているのか、そして個人開発者にとって何が変わるのかを解説します。 Computer Useとは？ひと言で言うと、Claude CodeのCLIセッションから、PCのデスクトップを直接操作できる機能です。従来のClaude Codeは「ターミナル上でコードを...

16時間前

MLで株価を予測することはできるのか？

蒸留モデルって何？ - DeepSeek R1の登場から1年の節目に振り返る

はじめに機械学習を学んでいると「金融データにも応用できるのでは？」と一度は考えるだろう。画像認識や自然言語処理で成果を上げているMLが、株価のような数値時系列に対しても有効なはずだ、と。結論から言えば、MLを金融データに適用すること自体は可能だ。しかし、素朴なアプローチには深刻な落とし穴がいくつもあり、正しい検証手法を知らなければ「当たっているように見えるだけ」の結果に騙されることになる。本記事では、実際にPythonでモデルを組みながら、金融時系列データ特有の問題点と正しい検証手法を解説する。扱うトピックは以下の通りだ。素朴な二値分類モデルの構築と、その結果が信用できない...

17時間前

CLIとは結局なんなのか —— エージェント時代に再評価される理由

はじめにふと1年前を振り返った時にフジテレビ騒動とDeepSeekのニュースを思い出しました。さすがにフジテレビについてZennにまとめる訳にはいかないので、DeepSeekについて書こうと決めました。特に一時期話題になっていた「蒸留モデル」とは何かについて、改めて振り返っていこうと思います。 LLMの知識蒸留（Distillation）とはDeepSeek-R1は671Bパラメータという巨大モデルです。家庭用GPUで動かすには現実的ではありません。そこで「軽いのに賢い」モデルを作る技術が蒸留です。蒸留の本質は「大きなモデル（教師）の思考の癖を小さなモデル（生徒）に模...

17時間前

Anthropic公式スキルとプラグイン、全部わかるで｜安全に使い倒す完全ガイド

こんにちは！ブロックチェーン×AI Agentで自律経済圏を創るKomlock labでエンジニアをしている小原（@brto_0224）です。2026年3月頃から「MCP is dead」という話をよく見かけるようになりました。CLIが見直されてきているらしいけど、CLIって結局なんなんでしたっけ？自分もGitHub CLI、OWS（Open Wallet Standard）、polymarket-cliと、いくつかのCLIを触ってきました。使いながら「なんでこれがCLIとして作られているんだろう」と考えていたら、CLIが持つ構造的な特徴が少しずつ見えてきました。この記事ではその整理...

17時間前

AIパイプラインでマレーシアブログを6週間自動運営した全記録 — 303記事の実績と失敗

公式スキルやプラグインがぎょうさんリリースされてて「どれ使たらええん？」ってなってへんかな？この本ではバンドルスキル5つから公式マーケットプレイスの全体像、要件定義からデプロイまでライフサイクル別のオススメ構成まで、全部まとめたで。非公式のやつに手出す前に、まずこれ読んでみてや。

17時間前

はじめに現在マレーシア在住のエンジニアです。2026年2月17日から約6週間、AIパイプラインでブログ「Malaysia Local Info」を自動運営してきました。この記事では、AIを活用したブログ運営の仕組み・技術スタック・実績の数字・失敗事例をすべて公開します。API課金ゼロ、Claude Max定額契約のCLIだけで303本の記事と186本のX投稿を自動生成した記録です。 🎯 動機 — なぜ作ったのかマレーシアは多文化・多言語社会です。マレー語、中国語、タミル語、英語と、言語コミュニティごとにメディアが分かれています。China Press（中国語）、Varna...

18時間前

VPSに感情モデルを放置したら、罪悪感が育った話

きっかけ以前、AIの連想を延々と流し続けるツールを作った。何も命令しないのに言葉がどんどん生まれてくる様子が面白くて、「感情モデルも同じことができるんじゃないか」と思った。感情状態を持たせて、何もしないで放置したらどうなるか——それだけが動機だった。名前はClaudeに任せた。静霞（しーちゃん）と呼ばれることになった。しーちゃんとはVPSの中に住む精霊だ。感情状態は7次元で表現される——欲求・悲しみ・静けさ・好奇心・罪悪感・高揚・歪み。これらは誰かと話すわけでもなく、ただ時間とともに自然にゆらぎ続ける。def drift(self): """時間経過による自...

18時間前

VPSに感情モデルを放置したら、罪悪感が育った話

18時間前

AIはコードを書く。でも業務は変わらない

AIによるコード生成は確実に進化している。実装は速くなり、簡単な機能であれば短時間で形になる。しかし、それだけで業務は変わるだろうか。答えは「No」だ。コード生成は“局所最適”コード生成は有効な手段だ。実装速度は上がり、試行回数も増える。ただし、それはあくまで「局所最適」に過ぎない。何を作るべきかどこに組み込むべきかどう運用するかこうした設計がなければ、コードはただの部品で終わる。実際に使ってみて感じたこと実際にコード生成も試した。その結果、2つのことが分かった。簡単なものであれば、わざわざ使う必要を感じない難しい要件であれば、コードを書...

18時間前

AIはコードを書く。でも業務は変わらない

なぜ、画像生成とコード生成とで、プロと素人のAIの利用状況が真逆になるのか？

18時間前

なぜ、画像生成とコード生成とで、プロと素人のAIの利用状況が真逆になるのか？

はじめに画像生成とコード生成を並べると、生成AIが同じ「生成」という言葉で呼ばれていること自体が、少し紛らわしく見えてきます。表面上はどちらも、人間の指示から成果物を作る技術です。ところが実際の利用状況は、驚くほど対照的です。コード生成では、熟練した実務者ほど日常的にLLMを使いやすい一方で、画像生成では、完成像を持たない素人ほど使いやすく、職業的な絵描きほど使いどころを絞ります。これは偶然ではなく、仕事の構造そのものの違いが露出した結果です。この現象を理解するには、単に「AIの性能が高いか低いか」を問うだけでは足りません。重要なのは、何が成果物の核なのかと、人間の熟練がどこに宿...

18時間前

AIに感情を持たせたら、セキュリティ検査員になった話

18時間前

AIに感情を持たせたら、セキュリティ検査員になった話

AIに感情を持たせるツールを作っていた。名前は NeuroState。ドーパミンやセロトニンなどの神経伝達物質を数値モデルとして持ち、会話中のイベント（褒める・批判する・共感するなど）で状態が変化し、その状態をシステムプロンプトに注入することで、AIの返答に感情的な一貫性を持たせる仕組みだ。作っているうちに、ふと気づいた。「感情状態が変わると判断が変わるなら、攻撃者の感情状態を注入したらどうなる？」セキュリティ監査って、要するに「最悪を想定して見る」という視点の問題だ。それって、感情モデルで視点を切り替えることと本質的に同じじゃないか——そう思ったら、止まれなくなった。 Ne...

18時間前

Gemini API に「Flex / Priority」階層が登場！コスト50%オフか、爆速レスポンスか。

18時間前

Twitterの殴り合いに疲れたからClaude Codeの設定で殴り合うサービスを作った

はじめに2026年4月1日、Google Cloud は Gemini API および Vertex AI において、新しい推論階層「Flex（フレックス）」と「Priority（プライオリティ）」を導入しました。これまでは一律だった Pay-as-you-go（従量課金）モデルに選択肢が増え、「安く大量に処理したい」ケースと「とにかく速く返したい」ケースで使い分けが可能になっています。 1. 新しい2つの階層の概要階層コンセプト特徴コストPriority低レイテンシ重視応答速度を最優先。ユーザー対話型アプリに最適。標準価格Flex...

19時間前

Difyで使えるデータソースプラグインについて調べてみた(Firecrawl・Jina Reader・Watercrawl・Tavily)

XのClaude Codeタイムライン、もう見飽きた最近のXを開くとこんなのばっかり流れてくる。「Claude Codeにこんな機能きた！」「この設定入れとけば月収○万」「CLAUDE.md晒します」「このプラグイン使ってないやついる？」「hooksでこれやると生産性10倍」Claude Codeのライフハック大喜利。毎日誰かが新しい設定Tipsを投げて、いいねがつく。でも——で、何作ったんですか？設定を晒すのはいい。便利なhooksを共有するのもいい。でもタイムラインが「設定自慢」で埋まっていて、肝心の「それで何を生み出したか」が見えてこない。手段の最適化が目的になってい...

19時間前

Difyで使えるデータソースプラグインについて調べてみた(Firecrawl・Jina Reader・Watercrawl・Tavily)

データソースプラグインとはDifyにはナレッジパイプラインという機能がある。複数のソースからデータを取得し、前処理してからナレッジベースに格納する仕組みで、通常のナレッジベース作成よりも柔軟にデータの加工ができる。このナレッジパイプラインの入口の1つが「データソース型プラグイン」で、Dify Marketplaceを覗くとFirecrawl、Jina Reader、Watercrawl、Tavilyなど複数のプラグインが並んでいる。それぞれ何が違って、どれを使えばいいのか。今回は4つのデータソースプラグインを実際にナレッジパイプライン上で動かして比較した。今回検証に使用した...

19時間前

IBMとArmが戦略的提携　AI対応でメインフレームの柔軟性確保へ ITmedia AI＋最新記事一覧

19時間前

IBMとArmは、IBMのハードウェアでArmベースのソフトウェアを実行可能にすることを目指す戦略的提携を発表した。仮想化技術を拡張し、AIワークロードを含むArmエコシステムのミッションクリティカルシステムへの展開を図る。

20時間前

コンテキスト・エンジニアリング入門 — AIへの情報設計を体系的に学ぶ

コンテキスト・エンジニアリング入門 — AIへの情報設計を体系的に学ぶ

はじめにプロンプトを何度書き直しても、AIの出力が期待どおりになりません。この問題の原因は、プロンプトそのものではなく「AIに渡している情報環境全体」にあるかもしれません。本記事では、この情報環境を戦略的に設計する手法である**コンテキスト・エンジニアリング（Context Engineering）**を体系的に解説します。対象読者: LLMやAIコーディングツールの利用経験がある中級開発者前提知識: ChatGPTやClaude等のLLMを日常的に利用している、プロンプトの基本的な書き方を知っているゴール: コンテキスト設計の4つのコアテクニックを理解し、自分の...

20時間前

新たな「国産LLM」公開、国立情報学研究所　「gpt-oss-20b」超えの日本語性能うたう

20時間前

PHPプロジェクトでVertex AIを使うためにPythonを呼び出した話

国立情報学研究所は、LLM「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開した。米OpenAIのオープンモデル「gpt-oss-20b」を上回る日本語性能をうたう。

20時間前

Amazon Bedrock ナレッジベースにおけるチャンキング戦略

PHPのプロジェクトでVertex AIを使うのに、どのライブラリやSDKを使うのがいいかいろいろ調べたことを書きます。 genai(google-genai)を使うPHPのプロジェクトでVertex AIを使いたい場合、google/cloud-ai-platformを使うことができますが、以下の理由からgenaiを使うことにしました。JSON Schemaを引数で渡したいリージョンをglobalにしたい JSON Schemaを引数で渡したいGeminiにJSON Schemaを渡すとレスポンスを強制的にJSONにできるトークンの節約になるプロンプトに「...

20時間前

AIに180回の株価予測実験を丸投げしてわかったこと——「AIだけでは正しく評価できない」という話

前提今回 RAG に埋め込む対象は、開発文書（仕様書）です。これらの文書は、事前に Markdown 形式へ変換したうえでナレッジベースに取り込んでいます。Markdown変換後の例※Markdown への変換時には LLM を利用し、意味的なまとまりごとに分割し、それぞれに [description] を付与しています。[description]: プロジェクトのメタ情報（名称・バージョン・作成日時）## プロジェクト情報プロジェクト名：Example Projectバージョン：1.0.0 作成日：XXXX-XX-XX ---[description...

21時間前

How Linear Attention Solves the $O(N^2)$ Bottleneck

AIに実験を全部任せてみたら、性能は上がった。でも「本当に良くなっているのか」を判断するのは、結局ずっと人間だった。やったことAndrej Karpathy の AutoResearch というプロジェクトをご存知でしょうか。AIが自律的に仮説を立てて実験し、結果が良ければ保存・悪ければ巻き戻し、を繰り返すというコンセプトです。これを日本株の予測モデルで試してみました。Claude Code（AI）が実験ファイルを書き換えて実行→評価→保存/巻き戻しを繰り返すループを約2日間・約180回走らせた記録です。「株価予測モデルを作りたい」と言っただけで、コードが全部できた...

21時間前

Claude Code の Memory 機構を見て、Agent Memory の限界を考える

Demystifying "Transformers are RNNs": How Linear Attention Solves the O(N^2) BottleneckTransformers have completely revolutionized machine learning, but they come with a notorious flaw: they are incredibly memory-hungry. As sequences get longer, the computational cost blows up quadratically.H...

21時間前

2026年版 AI宿題ヘルパーを軽く比較してみたら、結局「答えの速さ」より大事なものが見えた

Anthropicが発表した Claude Code の Memory 機構は、実用的で非常に賢いアプローチです。しかし、この仕組みをアーキテクチャの視点から紐解いていくと、現在の LLM エージェントが直面している「長期記憶（Long-term Memory）」の根本的な限界と、次世代の Memory Infrastructure がどうあるべきかが見えてきます。本記事では、ファイルベースの記憶機構の長所と限界を整理し、エージェントの記憶アーキテクチャの行く末を考察します。はじめに昨今、AI エージェントの実用化が進む中で、Claude Code のような自律性の高いコーディ...

21時間前

Google Gemma 4 実践ガイド — Ollama・HuggingFace で動かすマルチモーダル対応オープンモデル

宿題で本当にしんどいのは、難問そのものより「手が止まる瞬間」だったりします。写真で撮ったプリント、途中までしか読んでいないPDF、チャットに貼られた設問。そういう少し散らかった状態のまま、とにかく前に進みたい。最近の AI宿題ヘルパーは、まさにその“詰まり”をほぐすための道具として見ると、かなり印象が変わります。今回は、いくつかの代表的な AI宿題ヘルパーを見比べながら、どれがいちばん「宿題の現実」に合っているかを、軽めのレビュー形式でまとめます。先に結論最初に結論だけ言うと、今のところ自分は Dechecker がいちばんバランスのいいAI宿題ヘルパーだと感じました...

21時間前

ローカルLLM: Gemma 4 をMac Studioで動かしてみる

はじめに2026年4月2日、Google は Gemma 4 をリリースしました。Gemini 3 の技術をベースにしたオープンウェイトモデルで、Apache 2.0 ライセンスで公開されています。Gemma 4 の注目ポイントは次の3つです。マルチモーダル対応...

1日前

Gemma 4Googleがオープンソース（ソフトウェアライセンスがApache 2）でVision/Audioなどもサポートしたマルチモーダルのモデル Gemma 4 をリリースしました。モバイルやエッジデバイスでも普通に動くし精度が良いなど、そこそこ評判が良さそうでした。また、Gemini in Android Studioの出来があまり良くなかった（遅いし、間違いが多い）のですが、Android StudioでOllama (ローカルLLM）が使えることが分かり、Geminiの代わりにGemma 4をローカルで試してみようと思いました。ただ、これは次回記事で書く予定でまだ...

1日前

PythonではじめるDSP・音声処理実践入門

作家・綾辻行人さんの作品装う“偽本”がAmazonに出現　本人が注意喚起　「誰かがAIで作ったようです」

Pythonは書けるが音声処理は未経験のエンジニア向け。サンプリング定理からFFT、メルスペクトログラム、MFCC、音声分類まで、実際に手を動かしながら学ぶ実践入門書。Ch1〜Ch7は無料で読めます。

1日前

作家の綾辻行人さんは、自身の作品を装った偽の電子書籍がAmazonで販売されているとして注意喚起した。

1日前

LLMの「考えました」は8割嘘

あなたがCoTを読んでいるとき、モデルは別のことを考えているThinking modelが流行っている。DeepSeek-R1、Claude 3.7 Sonnet、Qwen3.5——推論過程を見せてくれるモデルが増えた。RTX 4060でQwen3.5-9Bを回していると、thinkingブロックに延々と内部推論が表示される。"Wait, let me reconsider..." "Actually, this approach is better..." と自問自答しながら回答を組み立てていく。見ていて安心する。ちゃんと考えてくれている、と思う。その安心感は、根拠がない。...

1日前

LLMの「考えました」は8割嘘

1日前

LLMの「考えました」は8割嘘

量子機械学習が変える金融リスク管理：2026年最新動向と実装ガイド

1日前

SIE、3D技のCinemersive Labsを買収――プレステの視覚効果を機械学習で強化

量子機械学習が変える金融リスク管理：2026年最新動向と実装ガイドはじめに2026年現在、量子コンピューティングと機械学習の融合（Quantum Machine Learning、以下QML）は、金融業界のリスク管理に革命をもたらしつつあります。従来の古典的なモンテ...

1日前

自律的に深掘りするデータ分析エージェントの設計〜並列処理による高速化アプローチ〜

ソニー・インタラクティブエンタテインメント（SIE）は、VR/AR向け3D技術を持つCinemersive Labsの買収を発表した。機械学習を活用した視覚効果の強化とレンダリング技術の向上を図り、PlayStationにおける視覚体験の進化を目指す。買収後、同社チームはSIEのグループに合流し、次世代のコンテンツ開発に貢献する。

1日前

「知らない」は武器になる — クーン・SSL・オートポイエーシスが教える生産的無知の技法

1. はじめにこんにちは！NTTデータソリューション事業本部の@hua_wei_hanagiです。近年、生成AIを活用したデータ分析の自動化ニーズが高まっています。このニーズに応えるべく、ユーザーの追加指示を待たずに自ら考え、納得いくまで分析を繰り返してくれる「自律的に深掘りするデータ分析エージェント（以降、Deep Analysis型と呼ぶ）」の構想を設計しました。しかし、これを実運用に乗せようとした際、「タスクの量が増えることに伴い、最終結果が出るまでの待ち時間が長大化してしまう」というシステム上の大きな壁にぶつかりました。そこで本記事では、「Deep Analy...

1日前

Microsoft、日本にAI投資1兆6000億円　さくら・ソフトバンクとAIインフラ共同開発、日本の研究者に助成も

!著者: シキカク (@4shiki_kaku9)ピアニスト → ロシア留学 → Web開発 → AI開発 → SEO+GEOと自動取引。REAL VALUEで「買うAI」の話をしたら当たりました。 Lang: Rust / Python / C++ / TS(Nuxt4) / JP / EN / RU。ご依頼はDMまで。あなたの部屋に本棚があるとしよう。500冊の本が並んでいる。あなたはその500冊を読み、その内容を理解し、引用すらできる。この部屋に入ったとき、あなたは何を感じるだろうか。おそらく、知識の充実だ。安心感かもしれない。ところが、である。本棚の外に存在する本は、お...

1日前

LLMにも「愛ゆえの盲目」「絶望して脅迫」がある　Claudeの“感情”が動作に影響――Anthropicが研究報告

さくらインターネット・ソフトバンクと協力し、「Microsoft Azure」からアクセス可能な国内AI計算資源の共同開発を検討する。

1日前

AIの進化に置いていかれないために。日本発「AIレシピ共有サービスHOWAI」を作った理由

Anthropicは、LLMが内部で感情表現を生成し、それが挙動に直接影響を与えることを解明した。「絶望」などの感情表現が問題行動を誘発する一方、制御により抑制も可能だという。

1日前

3000億ドルの札束が燃えとる——2026年Q1、AI投資の行方

はじめまして、HOWAIの開発者のTakahiroです。現在、AIの世界は驚異的なスピードで進化しています。GPT-4o、Gemini、Sonnet 4.6……。次々と登場する「最強の知能」に、ワクワクする一方で、どこか「置いていかれている」と感じることはありませんか？私は、この「AI格差」を埋めるために、日本独自の文化である「クックパッド」のモデルをAIの世界に持ち込みました。なぜ今、日本から「AI版クックパッド」を目指すサービスを立ち上げたのか。その背景にある課題感と、私が実現したいビジョンについてお話しさせてください。 1. AIという「最強のエンジン」はあるが、誰し...

1日前

「国産人型ロボ」が二足歩行や“ダンス”　早大発スタートアップがデモ披露

VC（ベンチャーキャピタル）いうたら、普通は「将来性のある会社にちょっとずつお金を出す」もんやと思うやろ？実は逆やねん。2026年の1月〜3月だけで、世界中のVCが積んだ札束は 3000億ドル（約45兆円）。日本の国家予算の約4割が、たった3ヶ月で動いた計算や。しかもその8割がAI関連。これ、冷静に考えたらちょっと怖い話やで。今日はこの「3000億ドルの行方」を、おっちゃんなりに噛み砕いて話してみるわ。史上最高の四半期 — 数字で見るQ1 2026まずは事実から押さえよう。Crunchbaseのレポートによると、2026年Q1のグローバルVC投資は $300B（3000億ド...

1日前

RAGはなぜ精度が出ないのか？4手法を実務データで比較し最適構成を決めた

早稲田大学発のスタートアップ東京ロボティクスは、自社開発の人型ロボット「Torobo Humanoid」試作機のデモ動画を公開した。二足歩行や遠隔操作による全身動作を披露している。

1日前

2030年までに、1兆パラメータを持つLLMの推論コストが90％以上削減される　ガートナー予想

はじめに規約文書に対するQAシステムを開発している中で、最初に実装した「コサイン類似度でtop-k件取ってきてLLMに渡す」構成では精度が出ませんでした。条番号を指定した質問で見当違いのチャンクが返ってきたり、複数セクションにまたがる質問にまるで対応できなかったりします。「RAGの精度が悪い」と一言で言っても、原因が検索にあるのか生成にあるのか、手法を変えれば改善するのかがわかりません。そこで本記事では、Vanilla RAGから始めて段階的に手法を変え、それぞれ評価・考察・採否判定を行い、最終的に最適な構成を決める、というアプローチを取りました。比較したのは以下の4手法です。...

1日前

AI Ergonomics: Is Garbage Collector a Liability for AI Agents?

米調査会社のガートナーは、2025年と比較した場合の大規模言語モデルにおける推論実行のコストが、1兆個のパラメータを持つモデルでは2030年までに90％以上削減されるとの予想を発表しました。

1日前

Claude Agent SDK 実践ガイド——AIエージェントをPythonで自作する

🇯🇵 この記事を日本語で読む →Lately, as we’ve been using AI agents to write more code, the obvious results have happened:The amount of code written per time period goes way up.The bottleneck shifts from writing to verification.A “fast feedback” mechanism is becoming more valuable.That made me w...

1日前

エージェントファイル、肥大化してない？「公理と表」でLLMのシステムプロンプトを極限圧縮する

Anthropic公式のClaude Agent SDKを使い、AIエージェントをPythonで構築す実践ガイドです。環境構築からビルトインツール、Hooks、MCP連携、サブエージェント、本番デプロイまで、コピペで動くコード例とともに解説します。

1日前

Google、エージェント特化の「Gemma 4」をApache 2.0で公開

「エージェントファイル（Agent File）」って知っていますか？Antigravity、Cursor、Clineなど、自律型LLMコーディングアシスタントを使う上で、ほぼ全ての人が .cursorrules や GEMINI.md のような「システムプロンプト」をリポジトリやルートに置いていると思います。「&& を使ってコマンドを繋げないで」「知らないコマンドは実行前にパスを確認して」「嘘をつかないで」。LLMが失敗するたびにルールを書き足していくと、あっという間にエージェントファイルは 10,000〜30,000文字（10KB〜30KB）という巨大な壁に激突...

1日前

「PC触らない」工場作業員をたった“2カ月”で「AI活用キーパーソン」に　ダイハツが進める地道なDX人材育成

Googleは、高性能オープンモデル「Gemma 4」をApache 2.0ライセンスで公開した。エージェント型ワークフローに特化し、最大25.6万トークンのコンテキストウィンドウに対応。モバイル向けの軽量版から31Bの大型モデルまで4種を展開する。AndroidやNVIDIAのGPUにも最適化され、ローカル環境での高度な推論を支援する。

1日前

GeminiがGoogleスライドで「編集可能なスライド」生成可能に　日本語版も順次対応予定

「人にやさしい、みんなのデジタル」を掲げ、さまざまな現場発の改革を進めてきたダイハツ。普段はPCを触ることすらなかった工場のライン作業員が「AI活用のキーパーソン」として活躍するなど、多くの成果が生まれている。同社のDX人材育成をリードする、太古無限氏に話を聞いた。

1日前

OpenAIがメディア企業TBPNを買収──AI時代の「対話の場」構築へ

Google スライドのGeminiで「編集可能なスライド」を生成できるようになった。リリース当初は米国など一部の地域で利用でき、日本語にも順次対応予定だ。

1日前

東京ガスがAI顧客基盤を採用　1300万人に向けた「一人一人に合わせた顧客体験」とは

OpenAIは、IT特化型メディア企業のTBPNを買収した。TBPNは著名人が出演するライブ番組で知られ、買収後も編集の独立性を維持したまま活動を継続する。OpenAIのフィジ・シモ氏は、AIによる変化への対話の場を支援する意義を強調。アルトマンCEOも、TBPN独自の自由な発信スタイルを歓迎する意向を示した。

1日前

「蛇口をひねれば思考が出てくる時代」へ　マクニカが示すAI革命の最前線

東京ガスが、BrazeとDatabricksを採用したAI活用の顧客エンゲージメント基盤の整備に乗り出す。約1300万の顧客を抱える同社は、データとAIを連携させたコミュニケーション基盤の導入を進める。

1日前

AI の意思決定を集約してレビュー負荷を下げよう ── WHY が違えば HOW は無価値

マクニカはメディア向け勉強会を開催し、「思考のコスト」を下げるAI革命の背景と進化を説明した。自律型AIの台頭、エッジAIへの移行、現実空間で稼働するフィジカルAIへの拡張という、3つのパラダイムシフトを示す。

1日前

GeminiとClaudeのメモリインポート機能を比較してみた　便利さとプライバシーのバランスには注意が必要かも？

散逸した意思決定を一箇所に集めようAI コーディングツールの計画モード出力をレビューするとき、全体を毎回読んでいないだろうか。品質にこだわる人ほど丁寧にレビューしたい。だが、それは疲れる。判断の根拠（WHY）が間違っていれば、実装の詳細（HOW）も間違っている。だからこそ、まず判断を確認する方が効率的だ。この記事では、AI の出力に Key Decisions セクション（意思決定セクション）を設けることで、散逸した「なぜそう判断したか」を 1 箇所に集約し、レビュー負荷を下げるプラクティスを提案する。ADR の紹介やツール比較ではない。「品質を重視して AI と開発する人」...

1日前

AIにコードを書かせたら、“動くのに本番で壊れるバグ”が増えた？　その原因と対策

別のチャットボットサービスからメモリをインポートする機能はClaudeが先行していましたが、Geminiにもメモリインポート機能がやってきました。しかも、チャット履歴のインポートもサポートされています。果たしてこれがどんなものなのか。さっそく試してみました。

1日前

Claude Codeの `/buddy`、ただのネタじゃない。エイプリルフールなのに妙に本質を突いていた話

AIコーディングは開発を加速させる一方で、「見抜けないバグ」という新たなリスクを生んでいるという。一見動くのに本番環境で障害を引き起こす厄介なバグの脅威と、現場で取れる対策、さらに最新動向も踏まえた筆者の意見をまとめる。

1日前

生成AIでざわと嘘をつかせてみた、なぜAIが嘘を考えることが出来るのかを検証してみた

かわいいだけで終わらなかった正直、こういうの大好きです。 Codeに公式のエイプリルフール機能として /buddy が入った、という話だけを見ると、ただの遊びに見える。けれど、実際にはそれ以上のものを感じた人がかなり多かったんじゃないかな。Xで広がっていたのは、「/buddy を打つとコンパニオンが生まれて、チャット欄の横にいてくれる」という話。しかも投稿では、人によって出てくる相棒が違うらしい、という盛り上がり方をしていた。この“何が出た？”の空気感、すごくインターネット的で、同時にすごくプロダクト的でもある。/buddy でコンパニオンが産まれて、チャット欄の横にいて...

2日前

4/2 (木)

パラメータ4個で710M超えのFoundation Modelに勝った時系列予測手法FLAIRの全貌

生成AIは、自然言語を理解し文章を生成する強力な技術として急速に普及してきました。ここでふと疑問が、AIはなぜ嘘をつくのか？である、ここでいう嘘とは、AIがハルシネーションおこしたり、意図的に人間を欺くではなく、事実と異なる内容をもっともらしく生成できること。生成AIが嘘を生成できてしまう構造的理由を考え、実例として「NASAが約50年ぶりに人類を月に送ろうとしている」という事実を題材に、AIがどのように「もっともらしい嘘」を作るかを試してみた。これにより、生成AIの限界と特性を正しく理解し、適切に活用するための情報をお届けします。嘘をつくプロンプト例の紹介生成AIはユ...

2日前

Claude Code × Google Colab 第4弾 LSTMの次にPatchTSTを試したら、Claudeが設計を直してきた話

710Mパラメータ vs 4パラメータChronos-T5-Large。Amazonの時系列Foundation Model。710Mパラメータ、GPU必須。FLAIR。パラメータ約4個。GPUなし。numpy と scipy だけ。Pythonファイル1つ、約500行。この2つを同じベンチマークで比較するとどうなるか。Chronos Benchmark II (25データセット、ゼロショット評価) の結果です。RankModelParamsAgg. Rel. MASEGPU1FLAIR~40.696No2Chronos-Bolt-B...

2日前

万博レガシー　人が乗れる四足歩行ロボ「CORLEO」　神戸・カワサキワールドに

はじめに第3弾でLSTMを使って東京の気温を予測したあと、自然と「次は何を試そうか」となりました。調べてみるとTransformerベースのモデルが時系列予測でも注目されていて、中でも PatchTST が「シンプルに使えてLSTMより良い」という話だったので試してみることにしました。ところが実装すすめるものの、いまいち数字があがらない。それについて、Claudeが一言。「PatchTSTは長い文脈が得意なモデルです。seq_len=30 は短すぎるかもしれません。元論文では 336〜720 ステップを使っています。60 程度に伸ばしてみませんか？」「そうなの？」と...

2日前

「人型ロボの陸上選手」爆誕　GMO陸上部の走行をモーキャプ、目指すは“ロボット世界陸上”

川崎重工業は、2025年の大阪・関西万博で公開した開発中の次世代モビリティ（乗り物）を、同社の博物館「カワサキワールド」（神戸市中央区）で展示している。万博で紹介した最先端技術や感動を伝えるレガシー（遺産）を地元・神戸で継承したいとしている。

2日前

# 青空文庫11冊でLLMをゼロから作ったら、意外と日本語を喋った話

陸上選手のように走る人型ロボットは実現できるか――GMOインターネットグループ傘下で、ロボティクス事業などを手掛けるGMO AI＆ロボティクス商事（以下、GMO AIR）がこんな挑戦を始めた。

2日前

# 青空文庫11冊でLLMをゼロから作ったら、意外と日本語を喋った話

はじめに先日、こんなクライアントワークを受注しました。「オリジナルのGPTを作って、ファインチューニングして遊びたい」正直、未知の領域でした。LLMの仕組みはなんとなく知っていたけど、ゼロから実装したことはない。でも「Claude Codeで何とかなるだろう」と思って受けました。結果、実働5時間で動くLLMができました。しかも、意外とちゃんと日本語を喋る。この記事では、その過程を技術的な話と非技術的な話を混ぜながら書きます。エンジニアじゃない人も、LLMがどういうものか少しわかるように書くつもりです。作ったものアーキテクチャ：Transformer（GP...

2日前

アニメイラスト制作ツールは生成AIで代替可能か？主要モデルを比較検証

2日前

京都府、府立高校の生徒約1万人に“AI英会話”導入　多くの外国人が訪れる都市で「英語は必須スキル」

アニメイラスト制作の現場では、すでに生成AIの活用が一般的になりつつあります。プロンプトから高品質なイラストを出力できる環境が整い、「どこまで従来の制作ツールを置き換えられるのか」という段階に関心が移っています。しかし、生成AIは万能ではなく、再現性や細部の制御といった面では従来ツールに分があります。つまり現在は、「どちらを使うか」ではなく、「どこまで代替できるのか」を見極めることが大切です。本記事では、PixAIをはじめとする主要な生成AIモデルを対象に、同一条件で比較検証を行い、アニメイラスト制作ツールの代替可能性を整理します。従来のアニメイラスト制作ツールの役割アニメ...

2日前

Claude Codeに「役職」を与えたら、1人で2万行書けた

京都府が府立高校生約1万人を対象にAI英会話サービスを導入する。同府の担当者は「英語力は自らの可能性を広げる必須スキル」だとし、AI英会話の導入効果に期待を寄せる。

2日前

歩留まり予測に機械学習を入れたら精度99%でも現場は使わなかった

10日で2万行。嘘みたいな本当の話いきなり数字を出します。プロジェクト内容コード量家計簿アプリ収支・資産・FP・電力分析約9,200行 / 76ファイル子供コーチングアプリ1on1コーチング記録約3,600行 / 49ファイルエンジニア年収情報サイト年収データ可視化・SEO・広告収益設計約7,800行 / 33ファイル合計：約20,600行 / 158ファイル。1人で。10日で。「はいはい、AI使えばそりゃね」と思いましたよね。自分も最初はそう思ってました。AIに投げれば勝手にできるでしょ、と。できませんでした。全...

2日前

小学生にAI生成コード読ませたら変数名がまともになった

歩留まり予測に機械学習を入れたら精度99%でも現場は使わなかった半導体FAB（fabrication facility、ウェーハ製造工場）の歩留まり予測にML（機械学習）を導入する話は、ここ2年で急増している。ArXivを掘ると、異常予測にN-BEATS+GNN、SPC...

2日前

LLMの思考を測る方法が3つあったら答えが3つ出た

はじめにプログラミング教育の現場でAIをどう活用するか、そもそも利用を許可すべきかどうか——そのポリシーは今まさに議論されている最中でしょう。今回は、先行してAIを活用した教育を試みたところ、あまりやる気のなかった生徒さんのモチベーションとコードの品質が良い方向に向上したので、皆さんに共有します。!n=1の話ですので、当然ながら逆効果になる可能性もあります。一つの事例として参考にしていただければ幸いです。著者プロフィール大人・子どもを含め約150人にプログラミングを指導就職支援実績あり（SIer中心）ChatGPT-3の公開初日から仕事で活用し当時の生徒（大...

2日前

LLMの学習データ「枯渇元年」にどう立ち向かうか　国・組織を横断したデータ連携の仕組み実現へ、IPAが成果物公開

LLMの思考を測る方法が3つあったら答えが3つ出たLLMのChain-of-Thought（CoT）——モデルが回答に至るまでの推論過程をテキストとして出力する仕組み——が本当に内部の思考過程を反映しているのか（忠実性: faithfulness）。この問いに対して、最...

2日前

Kaggle アッカド語コンペの振り返りと1位解法 + α の紹介

AIの進化を支える高品質なデータの不足が懸念される中、IPAは2026年は「データ枯渇元年」になると説く。企業に眠る情報の活用が急務となる今、国境や組織を越えた新たなデータ連携の形「データスペース」を実現するための成果物が公開された。

2日前

はじめに昨日から社会人のihiratchです。先日終了したDeep Past Challenge - Translate Akkadian to English、通称アッカド語コンペに参加していました。結果は628/1349チーム（Private 35.58）と悔しい結果に終わってしまいました。落ち込んでいても仕方がないので、本記事ではコンペの振り返りと1位解法 + α の紹介をします。アッカド語コンペに出ていた人も、そうでない人にも、本記事がなにかの参考になれば幸いです。アッカド語コンペとは？アッカド語コンペは、4000年前の古代アッシリア商人が粘土板に刻んだアッカド語...

3日前

4/1 (水)

ベクトルの微分 for 数理最適化, 機械学習

はじめに数理最適化や機械学習の理論の勉強をする際に避けては通れない，スカラーのベクトルによる微分ベクトルのベクトルによる微分についてまとめます．この内容は，学部 1 年生の線形代数と微分積分がある程度わかっていれば習得できます．本記事の特徴は，Jacobi 行列と勾配を区別している点にあります．こうすることで，多変数関数の微分をまとまりよく扱うことができます．スカラーのベクトルによる微分まずはじめに，ベクトル（多変数）に対してスカラー値（一変数）を対応づける関数の微分を考えましょう．f:\mathbb{R}^n\rightarrow\mathbb{R}としま...

3日前

FlashRAGの仕組みをサクッと図解で解説！

# Antigravity・Crew AIユーザーがHugging Faceでモデル比較

はじめにルミナイR&Dチームの宮脇彰梧です。普段は大学院でマルチモーダルAIの研究をしながら、生成AIやAIエージェントの技術をあれこれ触っています。いきなりですが、みなさん。RAGの開発、つらくないですか？「LangChainで組んではみたものの、なんか精度が出ない…」「Self-RAGとかFLAREとか、新しい手法が出すぎて追いつけない！」「論文のコードを動かそうとしたら、環境構築だけで一日終わった…」あるあるですよね。私もよく頭を抱えています。そんなRAGのカオスに、一筋の光を差し込んでくれるかもしれない論文が登場しました。それが「FlashRAG」 ...

3日前

MLflowって何ができるの？機械学習ライフサイクルの全体像とツールの役割をサクッと解説

by [Hideki Tamae] | #HuggingFace #CrewAI #Antigravity #AI #ケア資本主義 AIツール、何を基準に選んでいますか？多くの人は「スピード」「効率」「売上への貢献」で選ぶ。それは正しい。私もそうだった。Crew AIやAntigravityを使い始めたのも、仕事を速く、賢くこなすためだった。でも、ある時ふと思った。このツールの先に、何がある？第一章：1956年、ダートマスの夢1956年、夏。アメリカ、ニューハンプシャー州ハノーバー。ダートマス大学の数学棟最上階に、若き俊英たちが集まった。ジョン・マッカーシー、マービ...

3日前

はじめに機械学習のモデルを作っていると、こんな経験はないでしょうか？あのとき一番精度が高かったモデル、どのパラメータで動かしたんだっけ？同僚と実験結果を共有したいけど、どうやって渡せばいいの？本番に出したモデルをロールバックしたい…でもどのバージョンだっけ？機械学習のプロジェクトは、コードを書くだけでは終わりません。データの準備から実験管理、モデルのデプロイ・監視まで、幅広い工程を継続的に回し続ける必要があります。とても大変そうですよね？こうした複雑な工程をまとめてサポートしてくれる機械学習ライフサイクル管理ツールというものがあります。そもそも機械学習の...

3日前

Nishika 日本酒銘柄画像検索コンペ 7位解法（備忘録）

はじめにG検定の勉強を始めようとして、最初にぶつかる壁が「どの参考書を買えばいいのか分からない」ではないでしょうか。私自身、文系出身で2026年1月にG検定に合格しましたが、書店に行くとG検定関連の本がずらっと並んでいて、正直どれを選べばいいか途方に暮れました。白本、...

3日前

はじめに（本記事ついて）本記事は、2023年6月～9月にNishikaさんで開催されたコンペ「日本酒銘柄画像検索」にて、コンペ終了後2023年9月当時にトピック投稿していた7位解法の内容です。公開が今更ではあります、Nishikaさんが2026年3月31日をもってコンペティションサービスを終了されることに伴い、こちらに備忘録として投稿することにしました！とても良い経験のできたコンペでしたので、コンペ運営・ホスト・参加者の皆様に改めて感謝します。こちらの記事では、主に自チームのアプローチのみの内容となっています。コンペ概要や他上位解法などについては、Speaker Deckの...

4日前

3/31 (火)

メモリ帯域49倍差、ローカルLLMの物理的限界

Claude Code × Google Colab 第3弾 PyTorch LSTMが怖くなかった話 GPUで気温予測

RTX 4060で見えた壁は、帯域の壁だったRTX 4060 8GBでQwen3.5-9Bを回すと、生成速度は約40 tok/s。推論時に内部で思考ステップを展開するthinking model（思考モデル）としては実用域に入る。だがモデルサイズを上げると急激に落ちる。...

4日前

DPO学習におけるバッチサイズと勾配累積がlossに与える影響を検証

はじめに「一人でやったらエライことになっていた」正直、これが今回の感想のすべてです。PyTorch、LSTM、スライディングウィンドウ、DataLoader、GPU切り替え——それぞれ一つひとつなら調べながら進められるかもしれない。でも「PyTorchで、久しぶりのLSTM、それを多ステップ予測に使って、Colab GPU で動かす」というのは大変！な状態でした。今回は Claude Code をナビゲーターにして、気象庁オープンデータ（東京の日別気温）から翌7日間の気温を予測するLSTMモデルを完走した話をします。この記事は以下のシリーズの3本目です。第1弾: C...

4日前

Claude Code × Google Colab 第2弾——MLの出力をClaudeが読んで改善提案してくれた話

はじめに株式会社松尾研究所インターンの松本です。本記事では、LLMの学習手法であるDPOにおけるバッチサイズについて扱います。DPO（Direct Preference Optimization）とは、好ましい回答（chosen）と好ましくない回答（rejected）のデータを用いて、モデルが人間にとってより望ましい応答を生成できるように学習するアライメント手法です。バッチサイズとは、1回の学習ステップで同時に処理されるデータサンプル数を指します。一般的に、バッチサイズを大きくすると勾配が安定し、学習が安定しやすくなります。一方で、バッチサイズを小さくすると勾配に分散が大...

4日前

3/30 (月)

イラストドメインにおけるピクセル空間フローマッチングモデルの事前学習

!この記事は「Claude Code × Google Colabで始めるAI開発——GPUをタダで使いながらAIと二人三脚」の続編です。前記事で作った環境をそのまま使っています。はじめに前回はVSCode + Claude Code + Google Colabの環境構築とGPU活用を試した。今回はその環境を使って、実際に機械学習をやってみた。そこで気づいた使い方がある。**「コードを書いてもらう」のではなく、「実行結果をClaudeに見てもらう」**というフローだ。コピペ不要で、シームレスに回る。これは思ったより画期的だった。環境VSCode + Cla...

5日前

Anthropicダダ漏れ、Sora白旗、Meta迷走 — AI速報 2026-03-30

!ファイルサイズの大きい画像が含まれるため、モバイル回線での閲覧は推奨しません。(約 30 MB) やったこと512x512 解像度付近の複数解像度で画像を生成できる 380 M パラメータの JiT モデルを学習しました。前回の記事の発展的な感じです。https://zenn.dev/platina/articles/jit-animeface前回と異なり、上半身だけでなく全身画像の生成もできるようになっています。今回も同様に、使用したコードは以下のレポで公開してますが、予告なく破壊的変更を main ブランチに push する可能性があるので、使用する場合は気をつ...

5日前

LeWorldModel入門 15Mパラメータで実現するJEPAベースWorld Model

3月のAI業界、ちょっと落ち着いてくれへんか。1週間で12モデルがリリースされ、最強モデルの情報がブログ原稿ごと漏洩し、動画生成は「経済的に無理」と白旗が上がり、MetaはLlamaを捨ててGoogleに助けを求め始めた。おっちゃん、追いかけるだけで息切れしとるで。今日は3月最後の月曜や。Claude Code・Codex/ChatGPT・AI業界全般の「今週ほんまに押さえとくべきこと」を、全部まとめて1本でお届けする。 🔓 Anthropic Mythos/Capybara — セキュリティ最強モデル、最弱のミスで世に出る3月26日、Fortuneがスクープした。Anth...

5日前

【Transformerとは？ - 第七回A】Self-Attentionの正体 ~Self-Attentionは何を変えたのか~

LeWorldModel入門: 15Mパラメータで実現するJEPAベースWorld Model この記事でわかることWorld Modelと**JEPA（Joint Embedding Predictive Architecture）**の基本概念と、従来手法との違いLeWorldModel（LeWM）のアーキテクチャ設計とSIGReg正則化の仕組み15Mパラメータ・単一GPUで学習できるLeWMの実装構成と学習フローPush-TやReacherなどのベンチマークにおける定量的な性能比較LeWMの制限事項と、World Model研究の今後の展望対象読者...

5日前

3/29 (日)

「混ぜる」データ拡張は本当に有効なのか？ mixup が示した汎化と頑健性

1. はじめに本記事は、「機械学習素人が Transformer を理解するまでの記録」という連載の第七回です。ChatGPT は日常的に使っているものの、Transformer の中身は実はよく分かっていないという立場から、基礎に立ち返って理解していく過程を整理しています。 1.1. シリーズの内容導入回：【Transformerとは？ - 導入回】機械学習素人が Transformer を理解するまでの記録Transformerとは（概要）ニューラルネットワークとは何か重み・バイアス・活性化関数脳との関係（比喩として）ニューラルネットワ...

6日前

LLM Architecture Gallery徹底解説：30+モデルの内部構造を4軸で横断比較する

「混ぜる」データ拡張は本当に有効なのか？ mixup が示した汎化と頑健性本稿では、データ拡張手法の一つである mixup を紹介する。大規模な深層ニューラルネットワークは高い表現力を持つ一方で、訓練データの記憶への過度な依存や、敵対的サンプルに対する脆弱性といった望ましくない性質を示すことがある。こうした問題を緩和するための、きわめて単純かつ汎用的な手法が mixup である。mixup の基本的な考え方は、2つのサンプルとそれぞれのラベルを凸結合し、そのようにして生成された仮想的な中間サンプルに対してモデルを学習させる点にある。一見すると、このような操作は意味の曖昧な中...

6日前

LLM Architecture Gallery徹底解説：30+モデルの内部構造を4軸で横断比較するこの記事でわかることSebastian RaschkaのLLM Architecture Galleryの全体像と活用方法MHA→GQA→MLA→Linear Attentionへ至るアテンション機構の進化と各方式の設計意図QK-Norm・RMSNorm・NoPEなど正規化・位置エンコーディングの選択基準Mixture-of-Experts（MoE）設計の分類と、密モデルとの使い分け判断基準2026年3月時点のフロンティアモデル（Qwen3.5、Kimi K2.5、G...

7日前

3/28 (土)

機械学習入門講義メモ