Zennの「機械学習」のフィード

フィード

記事のアイキャッチ画像
猫2匹を見分けるカメラを作る (3) ── 誤判定を直して精度を上げる
Zennの「機械学習」のフィード
はじめに前回の記事 (2) で、データ収集 → Colab学習 → EdgeTPU変換 → 推論 → 録画まで一通り動かしました。しかし実機で動かしてみると、カメラに猫が映っていないのにcat1判定で常時録画してしまう状態でした。この記事では、その誤判定を改善するために行った再学習の試行錯誤と、最終的に見えてきた「固定カメラ + 転移学習」という構成の限界、そしてその判断材料を共有します。再学習による改善だけでなく、物体検出(YOLO)やマルチモーダルLLM(VLM)を使った学習データの選別・振り分けも試しています。結論から書くと、いくつかの対策で「常時録画」状態は改善できたも...
12時間前
記事のアイキャッチ画像
表形式データ拡張手法 part20:Radius-SMOTE
Zennの「機械学習」のフィード
基本情報SMOTEの記事で説明した通り,幅広い分野で使われる表形式データにはクラス不均衡という大きな課題があります.それを解決するために使用されるのが表形式データ拡張であり,その代表格がSMOTEです.しかし,SMOTEには多数クラスデータの分布を考慮していないため,多数クラスデータ領域に拡張データを生成してしまい,決定境界の侵害が起こる可能性があるという欠点があります.これを防ぐために様々な手法が開発されており,例えばクラスタリング手法を用いてそのクラスター内で生成するようなDBSMOTEなどがこれに当たります.しかし,DBSMOTEではクラスタリング時に少数クラスデータのみを...
16時間前
記事のアイキャッチ画像
【決定版】XGBoost vs LightGBM vs CatBoost:3大GBDTの深層解剖
Zennの「機械学習」のフィード
!本記事の執筆にあたって本記事は、筆者自身のKaggleでの実体験、学習メモ、GBDTに対する直感的な理解をベースにしつつ、AIアシスタントを壁打ち相手として活用して執筆しています。具体的には、筆者が箇条書きで書き出した構成案・比喩・コンペでの所感をもとに、Geminiを主な壁打ち相手として記事の骨格を整理し、その後GPT-5.5も用いながら数式・論文リンク・Markdown全体の流れを整えました。今回は XGBoost / LightGBM / CatBoost について書いてみます。初心者向けでありつつも、Kaggleや実務でTabularデータを触ってきた人が読んでも「...
1日前
記事のアイキャッチ画像
【Kaggle入門】Playgroundコンペから始める機械学習〜初心者が1位を獲るまでの戦略〜
Zennの「機械学習」のフィード
Kaggle Playgroundから始める機械学習 初心者から1st placeを取るまでに考えていたことKaggle Profile: https://www.kaggle.com/masayakawamata📝 執筆プロセスについて本記事は、私自身のKaggleでの実体験や学習メモ、生の思考をベースにしつつ、構成整理や文章化の過程でAIを活用して執筆しています。具体的には、箇条書きで書き出したアイデアや経験談をもとに、Gemini 3.1 Proを主な壁打ち相手として記事構成を整え、その後、GPT-5.5も用いながら表現や流れを推敲しました。 はじめにこ...
1日前
記事のアイキャッチ画像
G検定
Zennの「機械学習」のフィード
G検定2026第4回 学習記録① 自己紹介SAP FIエンジニア 30年以上AI・機械学習、英語を独学中読書(最近Kindle Scribe買いました) なぜG検定を受けるかSAP × AI のフリーランスとして差別化したい。 今日学んだこと機械学習機械学習の定義:人工知能のプログラム自身がデータから学習する仕組みである。 新しい画像が提示されたとき、犬か、猫か判断する場合、あらかじめ、犬の画像サンプル、猫の画像サンプルを学習し、犬と、猫の境界を明確にしておく。この場合、犬か、猫かのどちらかなので、犬のグループと、猫のグループを分ける直線が引け...
1日前
記事のアイキャッチ画像
Linux版Claudeを今すぐ出して
Zennの「機械学習」のフィード
Linux版Claudeを今すぐ出して2026-06-09 | 読了 4分 | #Claude #Linux #AI開発「Linuxで動かせない」——その一言が、522人の開発者の共感を呼んだ。Anthropicへの要望がHackerNewsで急上昇。これは単なる機能リクエストではなく、AIツールの「民主化」を巡る問いかけだ。 開発者の声が爆発した理由GitHubのissueがHNで522スコア・299コメントを記録した [1]。AIツールの要望としては異例の盛り上がりだ。コメント欄に並ぶのは、感情的な不満ではなく、実務的な声だ。「本番サーバーはLinuxなのに、な...
1日前
記事のアイキャッチ画像
ChronosからChronos-2へ:時系列基盤モデルはなぜ「関連情報」を見るようになったのか
Zennの「機械学習」のフィード
はじめにChronos-2の特徴を一言で言うと、一つの時系列だけでなく、その周辺にある関連情報も一緒に使って予測できる時系列基盤モデル です。従来のChronosは、時系列データをトークン化し、言語モデルのように未来を予測するというシンプルで強いアイデアを示しました。しかし、実際の業務では、売上なら価格やキャンペーン、休日情報が関係しますし、設備データなら温度だけでなく、圧力、電流、運転モードなども予測に影響します。つまり、実務の予測では、一つの時系列だけを見るだけでは不十分なことが多く、targetと関連する情報を一緒に見ることが重要になります。Chronos-2...
2日前
記事のアイキャッチ画像
金融トランザクション基盤モデルが変える不正検知・顧客インテリジェンスの統合設計:価値層はどこへ移動するのか
Zennの「機械学習」のフィード
はじめに金融機関が長年にわたって構築してきたAIシステムは、タスクごとに分断されたモデルの集積として存在している。不正検知モデル、与信審査モデル、顧客セグメンテーションモデル、それぞれが独立したフィーチャーストアと学習パイプラインを持ち、同じトランザクションデータを異なる視点から解釈し続けてきた。しかし2025年から2026年にかけて、この構造に対する根本的な問い直しが進んでいる。その中心に位置するのが「Transaction Foundation Model(トランザクション基盤モデル、以下TFM)」という概念である。NVIDIAが公開したAIブループリントや、REvolutが...
2日前
記事のアイキャッチ画像
表形式データ拡張手法 part19:MLOS
Zennの「機械学習」のフィード
基本情報SMOTEの記事で説明した通り,幅広い分野で使われる表形式データにはクラス不均衡という大きな課題があります.それを解決するために使用されるのが表形式データ拡張であり,その代表格がSMOTEです.データ拡張の分野において,データの不均衡度,すなわち少数クラスデータと多数クラスデータの比率は非常に重要です.例えば多数クラスデータ:少数クラスデータが2:1のようなあまり酷くない不均衡の場合,最近の強力な分類器を使えば不均衡の影響はほとんど感じられないと思います.しかし,この不均衡度がより極端になり,例えば100:1やそれ以上となってくると大きな影響がでてきます.更に少数クラスデ...
2日前
記事のアイキャッチ画像
LLMの出力にどのデータが寄与したかが分かる? TDAの基礎の基礎
Zennの「機械学習」のフィード
はじめにLLMの出力の信頼性を上げようという試みは多方面から行われています。その中でも本稿では「TDA (Training Data Attribution)」という手法についてまとめてみました。LLMはブラックボックスだと言われていますが、それでもLLMの出力の原因を解き明かそうとする先人達の試みを概観していきたいと思います。日本語でこの分野についてまとめた記事がほとんど無かったので、1つの足がかりになれることを願ってまとめていきます。随時拡張していければよいなと考えております。 想定読者LLMの信頼性に興味がある TDAとはそもそもTDAとは何なのでしょうか。...
2日前
記事のアイキャッチ画像
【全5回】特徴量エンジニアリングの自動化——人手設計からAutoFE・Feature Storeまで、実務で「どこまで自動化するか」を決める
Zennの「機械学習」のフィード
「"特徴量設計は職人芸"と言われ、何から手をつければいいのか分からなかった」「AutoFEツールに任せたら、数千個の特徴量が生成されて、結局どれを使うべきか分からなくなった」特徴量エンジニアリングの学習でつまずきやすいのは、個々の変換手法を覚えることより、どこまでを人手で設計し、どこからを自動化に任せるかという判断軸を持てないことだと感じています。「AutoFEツールを動かすこと」が目的化し、生成された特徴量の意味や運用が見えなくなる——そういう経験が、このシリーズを書くきっかけでした。全5回のシリーズ 「特徴量エンジニアリングの自動化」 を Zenn Books として公開しまし...
2日前
記事のアイキャッチ画像
2026年5月リリース!AIデータセンター GPUサーバー 時間貸しプランを使ってみた
Zennの「機械学習」のフィード
こんにちは、井手です。「高性能なGPU環境を使ってみたいけれど、まずは短時間だけ試したい」このように感じたことはないでしょうか。本記事では、ソフトバンクが2026年5月11日に提供を開始した「AIデータセンター GPUサーバー NVIDIA DGX A100 時間貸しプラン」を利用し、NVIDIAのソフトウェアプラットフォーム「NVIDIA® NGC™」を活用した大規模言語モデル(Large Language Model、以下 LLM)のファインチューニングを実際に試します。今回は、過去の記事で紹介した、キャラクター口調で応答するモデルの作成を題材に、具体的な手順を解説します。A...
2日前
記事のアイキャッチ画像
小さいLLMが希少スキルを学べないのは「容量不足」ではなかった:勾配の上書きで毎回忘れていた
Zennの「機械学習」のフィード
きのう the-decoder が報じた研究の一文が、ずっと頭に残っている。OLMo を 4M から 4B パラメータまで揃えて 210B トークン学習させ、わざと出現頻度を変えた人工タスクを混ぜたところ、「10 バッチに 1 回くらい(およそ 0.25%)しか出てこないタスク」を学習できたのは大きいモデルだけだった、という結果だ(Anthropic とスタンフォードらのチーム)。これが意味するのは、私たちが「創発(emergent abilities、ある規模を超えると急に出てくる能力)」と呼んできたものの正体が、賢さの問題ではなく忘却の問題だったということだ。 「大きいから賢...
2日前
記事のアイキャッチ画像
Linuxだけ置き去り?ClaudeのAI格差
Zennの「機械学習」のフィード
Linuxだけ置き去り?ClaudeのAI格差2026-06-08 | 読了 3分 | #Claude #Linux #AI開発「開発者のためのAI」を謳うAnthropicが、開発者の主戦場を後回しにしている。GitHubには今日も不満の声が積み重なり、HackerNewsでは407票が集まった。これは単なる要望ではなく、AI民主化の矛盾を突く問いだ。 LinuxユーザーはClaude Desktopを使えないClaude Desktopは現在、WindowsとmacOSにしか対応していない [1]。Linuxユーザーはブラウザ版のみで、MCPサーバー(AIとローカルア...
2日前
記事のアイキャッチ画像
競馬AI開発記録 #16 リークなき環境でエッジを掘り当てる:動的特徴量と「凡走サイン」の特定
Zennの「機械学習」のフィード
1. 概要前回(第15話)では、バックテストにおける異常な高ROIの原因が「構造的データリーク」にあることを特定し、時点固定(Point-in-Time)特徴量生成による物理的なデータ隔離を実装しました。リークを完全に排除したクリーンな環境で再評価を行った結果、穴馬検知モデルの的中率はランダムベースライン(約2.28%)と同等まで低下し、これまでの予測モデルが「未来の情報」に依存していたことが浮き彫りになりました。第16話では、静的な過去集計データだけでは捉えきれない「穴馬の激走予兆」を識別するため、馬の状態変化や条件の好転を捉える「動的特徴量」の導入と、特定の条件下で的中率を...
2日前
記事のアイキャッチ画像
scikit-learnパイプラインで作る、再現性のある機械学習モデル
Zennの「機械学習」のフィード
はじめに「ローカルでは動くのに、本番環境でエラーが出る」「前処理の順番を間違えてデータリークが起きた」機械学習モデルを実装していると、こういった問題に頻繁に遭遇します。原因の多くは、前処理とモデル訓練がバラバラに管理されていることにあります。本記事では、Pipelineの背景にある数式・使い所・実装を3点セットで解説します。 標準化(StandardScaler) いつ使うか特徴量のスケールが揃っていないとき(例:年齢と年収を同時に扱う)距離ベースの手法(SVM・k-NN・PCA)や正則化付きモデルで必須勾配降下法の収束を安定させるとき 数式特徴量 ...
2日前
記事のアイキャッチ画像
Jリーグの順位を予測してみよう ― 第5回:チームの「タイプ分け」で昇格クラブの強度推定を改善する
Zennの「機械学習」のフィード
Jリーグの順位を予測してみよう ― 第5回:チームの「タイプ分け」で昇格クラブの強度推定を改善する はじめにこのシリーズはJリーグの順位を複数の手法で予測してバックテストする記録だ(問題設定・評価指標は第1回)。ここまで試した手法は大きく2つに分かれており、それぞれ得意・不得意がある。本題に入る前に勝敗直接型とスコア強度型という2つのアプローチを整理する。 これまでの手法 勝敗直接型試合ごとに「どちらが勝つか」を確率として求め、モンテカルロで順位に変換する。手法入力形式Spearman ρM1: ELO×モンテカルロ試合単位のELO差(スカラー...
3日前
記事のアイキャッチ画像
バンディット問題の理論とアルゴリズム
Zennの「機械学習」のフィード
https://www.amazon.co.jp/バンディット問題の理論とアルゴリズム-機械学習プロフェッショナルシリーズ-本多-淳也/dp/406152917X数式追うのはしんどかったので流し読み。確率的バンディットと敵対的バンディットを少し理解した。次パチンコに行く時は、ε-貪欲法を参考に外れそうな台に対しては、試行回数tに対して1/tの確率となるように工夫するぜ⭐️まずは確率的バンディットを理解! バンディット問題とはバンディット問題は、「探索(Exploration)」と「活用(Exploitation)」をどう両立するかを考えるオンライン学習の代表的な問...
3日前
記事のアイキャッチ画像
【合格体験記】G検定の最短ルート?用語の沼を抜けて合格した勉強法について
Zennの「機械学習」のフィード
はじめにG検定に合格したので、勉強中に感じたことや、やってよかったことをまとめます。この記事は、すごく綺麗な学習ロードマップというより、どちらかというと「実際に勉強してみたら、ここで詰まった」「でもここが分かると急に景色が変わった」という体験記です。これからG検定を受ける方、とくに勉強を始めたばかりで、用語が多すぎてつらい機械学習とディープラーニングの違いがふわっとしているCNN、RNNあたりで頭がこんがらがる結局、合格目的なら何を優先すればいいの?という方の参考になればうれしいです。 合否結果結果は、無事に合格でした。=================...
3日前
記事のアイキャッチ画像
フィジカルAI 完全マップ|VLM・VLA・π0・GR00T・世界モデルの位置関係と使い分け
Zennの「機械学習」のフィード
LLM・VLM・拡散モデルの基礎は分かっている。でも VLA・π0・GR00T・Gemini Robotics・世界モデル…と急増したロボット系の用語が、互いにどう関係し、どう使い分けるのかが掴めない——。この記事は 2部構成 でそこを解決します。第1部:地図 … 用語の位置関係と分類を1枚で俯瞰(まず全体像)第2部:詳細 … 各カテゴリ・各手法の中身と、メリット/デメリット・使い分けまで「全体像 → 詳細」の順なので、第1部だけでも地図は手に入ります。!基礎用語(Transformer・自己回帰・拡散・flow matching・MoE・事前学習/ファインチューニン...
3日前