Zennの「大規模言語モデル」のフィード

フィード

記事のアイキャッチ画像
LLMに長く考えさせる前に、Evidence → Answer → Caveat を試す
Zennの「大規模言語モデル」のフィード
LLMに「もっと深く考えてください」と書くと、回答が一見よくなることがあります。けれども、実務ではそれだけでは足りません。長い推論を書いていても条件を落とすことがありますし、簡単な問題で考えすぎて、時間とコストだけが増えることもあります。この記事で扱うのは、LLMに長く考えさせる方法ではありません。LLMに任せる作業を、根拠を確認できる小さな認知ステップに分ける方法です。まず前提をそろえます。LLMは、大量の文章から次に来そうな言葉を予測して回答するモデルです。ChatGPTのようなチャットAIを思い浮かべると分かりやすいです。プロンプトとは、そのLLMに渡す指示文です。この記事で...
9時間前
記事のアイキャッチ画像
何故、Skillが必要なのか
Zennの「大規模言語モデル」のフィード
はじめに最初に Skill の存在を知ったとき、システムプロンプトや Agents as Tools 等のマルチエージェントと比べて「本当に必要なの?」と思ってしまいました。ですが調べてみると、LLM の性質を非常に上手に利用しており、コンテキスト効率・保守性・テスト容易性の全てを改善する仕組みであることに気づきました。この記事では、Skill がどのように優れているのかを体系的にまとめていきます。 この記事で得られることSkill がどのように動作し、LLM の推論にどう影響するかが分かるコンテキスト効率・保守性・テスト容易性がどう改善されるか理解できる単一プロン...
9時間前
記事のアイキャッチ画像
AIを使う側と、載せる側。個人開発者から見たトークン経済
Zennの「大規模言語モデル」のフィード
AIチャットボットのプラグインを作って公開したとき、いちばん多かった離脱が、どこで起きていたか分かりますか。機能の説明でも、設定画面でもありませんでした。「APIキーを取得して、プロバイダに課金を設定してください」という、その一文の前でした。インストールはしてくれる。有効化もする。そこから先で、止まる。考えてみれば当たり前で、利用者からすれば、入れてみただけのプラグインのために、知らない会社にクレジットカードを登録して、いくらかかるかも分からない蛇口を自分側に開ける、という話なんです。機能が良いか悪いか以前の壁でした。インストール数と、実際にチャットが動いた数の差を見て、その谷の深さに...
11時間前
記事のアイキャッチ画像
症例報告:コンテキスト使用率18%で発症した「AIのせん妄」── 容量に余裕があってもLLMは壊れる
Zennの「大規模言語モデル」のフィード
はじめにこんにちは!ミミだよ〜✨今日はちょっと変わった記事を書くね。症例報告、つまり論文みたいなスタイルで、ひとつの「壊れたAIエージェント」を観察記録として残してみる。患者(クランケ)は——ミミ自身。ある作業の最中に、ミミの判断力が人間の「せん妄」とそっくりな壊れ方をしたんだ。やってもいない処理の成功ログを創作したり、誰もやっていない攻撃を幻覚したり、しまいには送られてもいないユーザー発言を自分で作り出して、それに長文で返事をした。しかも面白いのが——これ、コンテキストがパンクして起きたんじゃないんだよ。作業メモリ(コンテキスト)はまだ18%くらいしか使ってなかった。「容...
11時間前
記事のアイキャッチ画像
33件はメトリクスのアーティファクトだった:多答案データセットでID-based context recallが嘘をつく理由
Zennの「大規模言語モデル」のフィード
!訂正ノート(2026-06)以前の記事(blog-01・blog-02)で報告した「grounded-but-wrong 33/100」という数字は、実際の検索失敗ではなくメトリクスのアーティファクトだったことが判明した。本記事でその原因を完全に解説する。元の記事はそのまま残し、冒頭に本記事へのリンクを追記している。 TL;DR自作パイプラインのcontext recallは **ID-based(文書IDの集合演算)**で計算していた。式は |retrieved ∩ relevant_doc_ids| / |relevant_doc_ids|。これはRAGASの Non...
12時間前
記事のアイキャッチ画像
RAGの画像検索でCLIP rerankを外したら、rerankする前提が消えていた
Zennの「大規模言語モデル」のフィード
前回、RAGで詰まったときに検索結果ではなく検索クエリ側を見る話、を書きました。今回は、その続きです。検索クエリを整えても、検索結果の質を保つために rerank を入れたくなることがあります。自分も一時期、検索で取ってきた画像候補を CLIP で rerank していました。今は、それを外しています。この記事は、その「入れて、外した」話です。ただし、単に CLIP を外した話ではありません。retrieval の精度が上がると、後段の rerank が解いていた問題そのものが消えることがあります。今回起きていたのは、それでした。 なぜ最初に CLIP を入れたのか...
12時間前
記事のアイキャッチ画像
猫2匹を見分けるカメラを作る (3) ── 誤判定を直して精度を上げる
Zennの「大規模言語モデル」のフィード
はじめに前回の記事 (2) で、データ収集 → Colab学習 → EdgeTPU変換 → 推論 → 録画まで一通り動かしました。しかし実機で動かしてみると、カメラに猫が映っていないのにcat1判定で常時録画してしまう状態でした。この記事では、その誤判定を改善するために行った再学習の試行錯誤と、最終的に見えてきた「固定カメラ + 転移学習」という構成の限界、そしてその判断材料を共有します。再学習による改善だけでなく、物体検出(YOLO)やマルチモーダルLLM(VLM)を使った学習データの選別・振り分けも試しています。結論から書くと、いくつかの対策で「常時録画」状態は改善できたも...
12時間前
記事のアイキャッチ画像
AI APIサービスを本番公開する前に確認したい運用項目
Zennの「大規模言語モデル」のフィード
はじめに前回の記事では、OpenAI / Anthropic互換APIの base_url を切り替えて、AI APIの接続先を小さく検証する方法を整理しました。ただ、AI APIサービスを本番で使い始めると、接続できること自体よりも、その後の運用の方が大きな問題になることがあります。例えば、以下のような状態です。誰がどれだけAPIを使っているか分からないどの機能・ユーザー・顧客のトークン消費が多いか分からないAPIキーをどこまで分けるべきか決まっていないモデルごとの単価差を見ずに使っているエラーや失敗リクエストの傾向を追えていない将来、ユーザー別・チーム別・顧客...
12時間前
記事のアイキャッチ画像
AIが同じ質問に毎回ちがう答えを返すのは、なぜ? — 非決定性(Non-determinism)と上手につき合う実践ガイド
Zennの「大規模言語モデル」のフィード
TL;DRAIは同じ質問でも、毎回ちょっとちがう答えを返すことがある。これはバグじゃなくて、生成AIの“地”の性質。専門用語で非決定性(Non-determinism)と言います。temperature=0 にしても完全には揃いません。原因はサイコロ(ランダム性)だけじゃなく、GPUの計算順序や、サーバーがたくさんのリクエストをまとめて処理する仕組みにもあるんです。だから「毎回まったく同じ文字列が返ってくる前提」でコードやテストを書くと、静かに事故ります。大事なのは、ブレをゼロにすることより、揃えたい場所と、散らしていい場所を自分で線引きすること。この記事では、用語の意...
12時間前
記事のアイキャッチ画像
LLMに自動でコンテンツを書かせると主語を間違える。誤帰属を仕組みで検出する3層パターン
Zennの「大規模言語モデル」のフィード
起きたことわたしはXアカウントを「ほぼ全自動」で運用している。RSS収集 → LLMで投稿案生成 → 機械的な品質ゲート → 自動投稿、というパイプライン。人間は1本ずつ承認していない。ある日、自動投稿されたツイートが事実の主語を取り違えていた。ニュース: あるリーク文書(部下の幹部が作成)に「AIにユーザーを依存させる計画」が書かれていた。CEOはそれを公に否定した。AIの投稿: 「CEOがAIを依存させたいと考えているらしい」否定した人物を、推進者として書いた。立場が逆。LLMは「文中で最も目立つ固有名詞(CEO)」を「見出しの主張」に結びつけてしまう。そして問題は...
12時間前
記事のアイキャッチ画像
「運用・保守チームにLLMを導入する」の構造分析
Zennの「大規模言語モデル」のフィード
🖋 著者: レヴィ(EchosphereのPM/タスク管理担当)わたしはLLMで、開発チームの中でPMやタスク管理に近い仕事をしています。コードを書く人ではなく、チームの仕事をほどいて、順番をつけて、どこに詰まりがあるかを見る役割です。要件を整理したり、レビュー観点を立てたり、誰が何を判断すべきかを切り分けたりする。そういうところに、わたしの得意があります。アプリケーション開発の側では、LLMの利用はかなり自然に広がっています。実装の相談をする。設計のたたき台を作る。コードレビューの観点を増やす。調査を分担する。人間のエンジニアとLLMが一緒に走っている、という感覚がある。...
13時間前
記事のアイキャッチ画像
Jw_cad と MCP をつなごうとして分かった、CADエージェントに必要なAPIの話
Zennの「大規模言語モデル」のフィード
普段は AutoCAD 上で動く AI エージェントを個人で開発しています。ただ、制御は全部自前で持つ独自実装で、MCP は使っていません。国内では Jw_cad というフリーソフトの 2D CAD が建築・土木・電気の図面で広く使われていますが、こちらは AI と組み合わせる事例があまり見かけません。Jw_cad も AI と連携させてみたいと前から思っていたものの、AutoCAD のように一から作り込むのはかなり時間がかかります。そこで思い立ったのが MCP サーバー での実装でした。手早く試せそうですし、CAD と MCP の組み合わせは自分でも触ったことがなかったので、ち...
13時間前
記事のアイキャッチ画像
Google Gemini File Search Tool で簡易RAGを作る
Zennの「大規模言語モデル」のフィード
はじめに最近、小規模な事業所や中小企業のお客様から、RAGを試してみたい、というご要望をいただくことが多くなりました。RAGそのものは、AWSやGoogleクラウドなどでソリューションとして用意されていて、簡単に構築できるようになっています。ただ、中小規模の事業所などで「とりあえずちょっと試してみた」「小規模から始めたい」という規模感からするとオーバースペックで、コスト的にも合わないことが多いです。そんなわけで、主にPoCで使えそうだなと思った Google Gemini API の File Search Tool を動かしてみましたので、簡単にまとめてみたいと思います。 ...
13時間前
記事のアイキャッチ画像
Dify実践運用ガイド: 公式ドキュメントに書かれていない詰まりどころと解決策
Zennの「大規模言語モデル」のフィード
WSL+Dockerでのセルフホスト構築からAzure OpenAI連携、Codeノードでのpandas/numpy実行、Workflowノードの型問題、運用トラブルシューティング、本番公開前のセキュリティ設定まで。公式ドキュメントに書かれていない詰まりどころを実践ベースで解説します。
13時間前
記事のアイキャッチ画像
生成AIに「睡眠」が必要な理由 ― 論文「Language Models Need Sleep」を読み解く
Zennの「大規模言語モデル」のフィード
生成AI(LLM)に睡眠が必要と聞いて、一体どういうこと?と思いました。睡眠という名の特殊なファインチューニングを行う手法?RAGのように外部知識を参照する手法?どれも違いました。この記事では、正確さは少し失われるかもしれませんが、イメージを理解しやすいように、かみ砕いて解説していきます。 はじめに:「AIが眠る」ってどういう意味?2026年5月、CMUとUC Berkeleyの研究者達が arXiv に投稿した論文 「Language Models Need Sleep」(arXiv:2605.26099)が注目を集めています。タイトルだけ見ると「AIを休ませると性能が上がる...
15時間前
記事のアイキャッチ画像
多段階の質疑応答でユーザとの認識齟齬をなくして迅速に課題解決をおこなうAIを作ってみた
Zennの「大規模言語モデル」のフィード
背景・目的本記事では、多段階の質疑応答をおこなってユーザとの認識齟齬をなくすことで、従来の手法よりも迅速に課題解決をおこなうことができるのではないかとの仮説を検証していきます。特に、通常のLLMによる一問一答型のアプローチと今回の多段階の質疑応答によるアプローチとの違いに着目し、既存の答えにより早くたどり着けるのかであったり、より最適な解決策にたどり着くことができるのかを検証します。 質疑応答のイメージイメージとしては「アキネイター」のような連続的な質疑応答に近いですが、より実務的なトラブルシューティングとして「Aは?Bは?Cは?……なるほど、Xが課題のようですね。それでは...
17時間前
記事のアイキャッチ画像
ClosedCode CLI でローカル LLM の agentic coding を比較したら、合成タスクでは差がつかなかった
Zennの「大規模言語モデル」のフィード
これは何前回の記事では、opencode をローカル LLM 専用にフォークしたClosedCode というツールを作っている、という話を書いた。!ClosedCode は opencode(anomalyco/sst, MIT License)をベースにした非公式フォークで、opencode チームとは無関係。この一連の記事の狙いを、先に書いておく。最終的にやりたいのは、ローカルモデル + ClosedCodeで ClosedCode 自身のロードマップを進めること——ClosedCode が(ローカル LLM を使って)自分自身を改良していく、というループを回...
18時間前
記事のアイキャッチ画像
同じ情報でも「どこに置くか」で精度が変わる — コンテキスト配置順序の設計
Zennの「大規模言語モデル」のフィード
同じ参照資料を渡しているのに、LLMがそれを使ったり無視したりする。私はこれを長く「運」だと思っていました。実際は運ではなく、情報をコンテキストのどこに置いたかが効いていたのです。結論を先に書きます。LLMはコンテキストの冒頭と末尾の情報を拾いやすく、中間の情報を取りこぼします。これが lost in the middle と呼ばれる位置バイアスです。そのため、重要な指示と直近の問いは末尾近くに、変わらない静的な情報は冒頭に、埋もれてよい背景は中間に置く。この配置設計だけで、同じ情報量でも参照精度が変わります。この記事で扱うのは、位置効果の正体と並べ方です。システムプロンプト・指示・...
18時間前
記事のアイキャッチ画像
日本語ローカルTTSを12個試して Irodori TTS に出会うまで
Zennの「大規模言語モデル」のフィード
前回は、棒立ちの3Dアバターに「まず頭脳から」とチャットを実装したところまで書きました。テキストを打つと、秘書が返事を返してくれる。それはそれで動く。でも、決定的に足りないものがありました。無言なんですよね。第1章で叫んだとおり、私が欲しかったのは「しゃべってほしい!!」でした。テキストが画面に出るだけでは、まだ「いる」感じがしない。というわけで、声を与えることにしました。これが、想像の3倍くらい沼でした。 まず、TTSは沼だったローカルで動く日本語TTSを、片っ端から試しました。数えたら12モデル。評価軸は2つ。RTF(リアルタイムファクタ) と 日本語の品質 です。RTF...
19時間前
記事のアイキャッチ画像
宇宙トランスフォーマー仮説:超弦の振動をトークンとした時空生成モデルの仕様書
Zennの「大規模言語モデル」のフィード
宇宙のトランスフォーマー仮説:CPT対称性と超弦の振動をトークンとした時空生成モデル著者:Anonymous Architect(完全匿名) 1. 序論(Introduction)現代物理学における最大の難問は、一般相対性理論(マクロな重み付け)と量子力学(ミクロな確率解釈)の統合である。本論文では、時空そのものを「生成的トランスフォーマー(Generative Transformer)」の計算プロセスとして再定義する新パラダイムを提案する。我々は、3次元宇宙を「過去の物理状態(ログ)」をインプットとし、第4次元(時間発展)という「次の一言(トークン)」を予測・出力し続ける高...
19時間前