Zennの「AI」のフィード
フィード

375件テスト全GREEN、でも遊べない — QDHEフレームワークが見落としたもの
Zennの「AI」のフィード
前回のあらすじ前編では、AI駆動開発フレームワーク**QDHE(Quality-Driven Harness Engineering)**を設計し、AI人狼ゲームのバックエンドをStep 10まで完走させた。352件のテスト全GREEN、ミューテーションスコア70.95%、カバレッジ95%超え。その後、フロントエンド(React)を実装し、バックエンドと結合してv2パイプラインを回した。テストは375件に増え、全件GREEN。で、実際にブラウザでゲームを起動したら、1回も遊べなかった。この記事は、そこから何が起きたか、なぜ起きたか、QDHEをどう改善するかの記録だ。 まず...
13時間前

Onyx 徹底調査:OSS AI プラットフォームの機能・仕様・導入・運用・API まで
Zennの「AI」のフィード
Onyx 徹底調査:OSS AI プラットフォームの機能・仕様・導入・運用・API まで はじめにこの記事は 2026-04-03 時点で、Onyx の公式サイト / 公式ドキュメント / 公式 GitHub リポジトリ / LICENSE / Releases を横断して整理したものです。できるだけ一次ソースを優先し、確認できた事実と、そこからの私の見立ては分けて書きます。(docs.onyx.app) 3行まとめOnyx は、チャット UI・RAG/社内検索・カスタム Agent・外部 Action・Web 検索・コード実行・画像生成までを一体化した、self-h...
14時間前

Claude Codeで”トークン破産”しないためのコスト最適化とコンテキスト防衛術
Zennの「AI」のフィード
はじめにClaude Code は強力なCLIコーディングエージェントですが、「気がついたらAPI代がとんでもないことになっていた」という経験はありませんか?その原因は、Claude Code の ステートレスな設計 にあります。やり取りを重ねるほど、会話の履歴全体が毎回再送信されるため、セッション後半になると「たった1文字直すためのお願い」で数万トークンを消費する事態に陥ります。本記事では、日常的にClaude Codeを使い倒すエンジニア向けに、生産性を保ちながらトークン消費を最小化する実践的なコスト最適化術 を解説します。 💸 なぜClaude Codeはトークンを...
15時間前

Claude Codeの会話が突然リセットされるバグ、AI2体と人間が総力戦で挑んで全員ハズレだった話
Zennの「AI」のフィード
TL;DRClaude Codeで会話中に突然表示が吹き飛ぶ不具合が発生。Claude Code自身にスクリーンショットを何枚渡してもダメ、Codex(OpenAI)に何時間調査させてもダメ、最後に人間が「これじゃない?」と見つけた原因で「直ったかも」と思ったらそれもハズレだった。正解はv2.1.89の既知バグで、GitHubのIssuesに普通に報告されていた。AI2体と人間1人、合計十数時間の調査の結論が「最初にIssue検索すればよかった」。 環境WSL2 Ubuntu 24.04Claude Code v2.1.89tmux使用(自律稼働ループ用).cla...
16時間前

Playwright CLI はなぜ「AI 向け」なのか — 設計思想と 55 コマンド検証から読み解く
Zennの「AI」のフィード
はじめにClaude Code に「このサイトのログインをテストして」と頼んだら、Playwright MCP がページの構造データをコンテキストに大量投入し、数ステップ後には指示追従や推論の余力が目に見えて落ちる —— そんな経験はないでしょうか。先に結論を書きます。Playwright CLI が「AI 向け」である理由は、たった 1 つの原則に集約されます:「ページデータを LLM に押し込むな」。 ディスクベース出力も、アクセシビリティツリーも、ref 番号も、SKILL.md も、すべて「LLM のコンテキストウィンドウは有限資源である」という事実から導かれた設計判断で...
17時間前

Google Gemma 4 実践ガイド — Ollama・HuggingFace で動かすマルチモーダル対応オープンモデル
Zennの「AI」のフィード
はじめに2026年4月2日、Google は Gemma 4 をリリースしました。Gemini 3 の技術をベースにしたオープンウェイトモデルで、Apache 2.0 ライセンスで公開されています。Gemma 4 の注目ポイントは次の3つです。マルチモーダル対応 — テキスト・画像・音声・動画を入力できるネイティブエージェント機能 — Function Calling・構造化 JSON 出力をモデルが直接サポートApache 2.0 ライセンス — 商用利用も含め制限なしこの記事では、Gemma 4 の概要を押さえたうえで、Ollama・HuggingFace ...
17時間前

Markdown定義のAIエージェントを Azure Functions で動かす ~Declarative Agents~
Zennの「AI」のフィード
はじめにAzureでAIエージェントをホスティングするサービスと聞くと、最近だとMicrosoft Foundryが思い浮かびますよね。あとは、Azure Functions は「イベント駆動のサーバーレス実行基盤」としてよく使われていますが、2025年後半からAIエージェント関連の機能がどんどん拡充されています。MCPサーバーのホスティングがGAになり、Durable FunctionsがMicrosoft Agent Frameworkと統合され、そして2026年2月にはMarkdownで定義したエージェントをそのままデプロイするという実験的機能がGitHubに出てきました...
17時間前

生成AIはお笑いの面白さを理解できるのか、お笑い評価モデルの実装と数値化できるかを検証してみた
Zennの「AI」のフィード
お笑いは本来、観客の文化・世代・経験に依存する芸術スタイル、同じネタでも会場の空気や芸人のキャラ、観客の反応によって評価が大きく変わります。そのため「お笑いをAIで採点する」という発想は、一見すると無謀に思えるかもしれませんが、生成AI・自然言語処理・音声解析の進化により、笑いの構造や言語的特徴を定量化する試みが現実味を帯びてきました。漫才台本を題材に、生成AIがどこまで面白さを理解し、採点できるのかを真面目に?検証することで、AIが人間の審査員を置き換えることではなく、ネタ作りや構成改善のためのフィードバックツールとして活用できるかを探ってみたいと思います。参考:筑波大学・国際...
17時間前

【ターミナル不要】ブラウザから1秒でSSH接続できる「OpenCloudShell」が神すぎた
2
Zennの「AI」のフィード
出先でサーバーに緊急アクセスしたい。iPadからちょっとだけ環境を弄りたい。チームメンバーに一時的なアクセス権をサクッと渡したい。そんな時、いちいちターミナルを開いて、SSHの鍵を配置して、configを書いて……めんどくさくないですか?今回は、そんな煩わしさを一瞬で吹き飛ばすオープンソースの神ツール 「OpenCloudShell」 をご紹介します。 🚀 OpenCloudShellとは?「ブラウザから直接、安全にSSH接続ができる」 WebベースのSSHクライアント兼リンクジェネレーターです。百聞は一見に如かず。こちらの画面をご覧ください。専用のURLにアクセスするだ...
17時間前

【Claude Code × Colab 第5弾】時系列の次は衛星画像──EuroSATでResNet50が97.8%を出した話
Zennの「AI」のフィード
はじめに第4弾でPatchTSTを使って気温予測をやったあと、「次は時系列じゃないものをやってみたい」と思いました。画像分類に興味があった、というのが正直なところです。機械学習といえば表やCSVのイメージが強かったのですが、CNNで画像を分類するのは別の種類の面白さがある気がして。ちょうど PureForest(航空写真から樹種を分類するベンチマーク)という面白そうなデータセットを見つけていて、それへの前段として「衛星/航空写真 × CNN」の感覚を掴みたかった。そのためのステップとして選んだのが EuroSAT です。Grad-CAMで「モデルが画像のどこを見ているか」を...
18時間前

Claude CodeのComputer Useって何ができるの?CLIからPC操作を自動化する新機能を解説
Zennの「AI」のフィード
この記事で分かること2026年3月24日、AnthropicがClaude CodeとClaude Coworkに「Computer Use」機能を追加しました。X(旧Twitter)では5.9万いいね・1,560万ビューを記録した超注目機能です。この記事では、Computer Useで何ができるのか、どんな仕組みで動いているのか、そして個人開発者にとって何が変わるのかを解説します。 Computer Useとは?ひと言で言うと、Claude CodeのCLIセッションから、PCのデスクトップを直接操作できる機能です。従来のClaude Codeは「ターミナル上でコードを...
18時間前

CLIとは結局なんなのか —— エージェント時代に再評価される理由
1
Zennの「AI」のフィード
こんにちは!ブロックチェーン×AI Agentで自律経済圏を創るKomlock labでエンジニアをしている小原(@brto_0224)です。2026年3月頃から「MCP is dead」という話をよく見かけるようになりました。CLIが見直されてきているらしいけど、CLIって結局なんなんでしたっけ?自分もGitHub CLI、OWS(Open Wallet Standard)、polymarket-cliと、いくつかのCLIを触ってきました。使いながら「なんでこれがCLIとして作られているんだろう」と考えていたら、CLIが持つ構造的な特徴が少しずつ見えてきました。この記事ではその整理...
19時間前

Anthropic公式スキルとプラグイン、全部わかるで|安全に使い倒す完全ガイド
Zennの「AI」のフィード
公式スキルやプラグインがぎょうさんリリースされてて「どれ使たらええん?」ってなってへんかな?この本ではバンドルスキル5つから公式マーケットプレイスの全体像、要件定義からデプロイまでライフサイクル別のオススメ構成まで、全部まとめたで。非公式のやつに手出す前に、まずこれ読んでみてや。
19時間前

AIパイプラインでマレーシアブログを6週間自動運営した全記録 — 303記事の実績と失敗
Zennの「AI」のフィード
はじめに現在マレーシア在住のエンジニアです。2026年2月17日から約6週間、AIパイプラインでブログ「Malaysia Local Info」を自動運営してきました。この記事では、AIを活用したブログ運営の仕組み・技術スタック・実績の数字・失敗事例をすべて公開します。API課金ゼロ、Claude Max定額契約のCLIだけで303本の記事と186本のX投稿を自動生成した記録です。 🎯 動機 — なぜ作ったのかマレーシアは多文化・多言語社会です。マレー語、中国語、タミル語、英語と、言語コミュニティごとにメディアが分かれています。China Press(中国語)、Varna...
19時間前

VPSに感情モデルを放置したら、罪悪感が育った話
Zennの「AI」のフィード
きっかけ以前、AIの連想を延々と流し続けるツールを作った。何も命令しないのに言葉がどんどん生まれてくる様子が面白くて、「感情モデルも同じことができるんじゃないか」と思った。感情状態を持たせて、何もしないで放置したらどうなるか——それだけが動機だった。名前はClaudeに任せた。静霞(しーちゃん)と呼ばれることになった。 しーちゃんとはVPSの中に住む精霊だ。感情状態は7次元で表現される——欲求・悲しみ・静けさ・好奇心・罪悪感・高揚・歪み。これらは誰かと話すわけでもなく、ただ時間とともに自然にゆらぎ続ける。def drift(self): """時間経過による自...
19時間前

AIはコードを書く。でも業務は変わらない
Zennの「AI」のフィード
AIによるコード生成は確実に進化している。実装は速くなり、簡単な機能であれば短時間で形になる。しかし、それだけで業務は変わるだろうか。答えは「No」だ。 コード生成は“局所最適”コード生成は有効な手段だ。実装速度は上がり、試行回数も増える。ただし、それはあくまで「局所最適」に過ぎない。何を作るべきかどこに組み込むべきかどう運用するかこうした設計がなければ、コードはただの部品で終わる。 実際に使ってみて感じたこと実際にコード生成も試した。その結果、2つのことが分かった。簡単なものであれば、わざわざ使う必要を感じない難しい要件であれば、コードを書...
20時間前

AIに感情を持たせたら、セキュリティ検査員になった話
1
Zennの「AI」のフィード
AIに感情を持たせるツールを作っていた。名前は NeuroState。ドーパミンやセロトニンなどの神経伝達物質を数値モデルとして持ち、会話中のイベント(褒める・批判する・共感するなど)で状態が変化し、その状態をシステムプロンプトに注入することで、AIの返答に感情的な一貫性を持たせる仕組みだ。作っているうちに、ふと気づいた。「感情状態が変わると判断が変わるなら、攻撃者の感情状態を注入したらどうなる?」セキュリティ監査って、要するに「最悪を想定して見る」という視点の問題だ。それって、感情モデルで視点を切り替えることと本質的に同じじゃないか——そう思ったら、止まれなくなった。 Ne...
20時間前

Gemini API に「Flex / Priority」階層が登場!コスト50%オフか、爆速レスポンスか。
Zennの「AI」のフィード
はじめに2026年4月1日、Google Cloud は Gemini API および Vertex AI において、新しい推論階層 「Flex(フレックス)」 と 「Priority(プライオリティ)」 を導入しました。これまでは一律だった Pay-as-you-go(従量課金)モデルに選択肢が増え、「安く大量に処理したい」ケースと「とにかく速く返したい」ケースで使い分けが可能になっています。 1. 新しい2つの階層の概要階層コンセプト特徴コストPriority低レイテンシ重視応答速度を最優先。ユーザー対話型アプリに最適。標準価格Flex...
21時間前

Twitterの殴り合いに疲れたからClaude Codeの設定で殴り合うサービスを作った
Zennの「AI」のフィード
XのClaude Codeタイムライン、もう見飽きた最近のXを開くとこんなのばっかり流れてくる。「Claude Codeにこんな機能きた!」「この設定入れとけば月収○万」「CLAUDE.md晒します」「このプラグイン使ってないやついる?」「hooksでこれやると生産性10倍」Claude Codeのライフハック大喜利。毎日誰かが新しい設定Tipsを投げて、いいねがつく。でも——で、何作ったんですか?設定を晒すのはいい。便利なhooksを共有するのもいい。でもタイムラインが「設定自慢」で埋まっていて、肝心の「それで何を生み出したか」が見えてこない。手段の最適化が目的になってい...
21時間前

Difyで使えるデータソースプラグインについて調べてみた(Firecrawl・Jina Reader・Watercrawl・Tavily)
Zennの「AI」のフィード
データソースプラグインとはDifyにはナレッジパイプラインという機能がある。複数のソースからデータを取得し、前処理してからナレッジベースに格納する仕組みで、通常のナレッジベース作成よりも柔軟にデータの加工ができる。このナレッジパイプラインの入口の1つが「データソース型プラグイン」で、Dify Marketplaceを覗くとFirecrawl、Jina Reader、Watercrawl、Tavilyなど複数のプラグインが並んでいる。それぞれ何が違って、どれを使えばいいのか。今回は4つのデータソースプラグインを実際にナレッジパイプライン上で動かして比較した。今回検証に使用した...
21時間前