Zennの「ディープラーニング」のフィード
フィード

【Transformerとは? - 第七回B】QKVで理解するSelf-Attentionの本質と限界
Zennの「ディープラーニング」のフィード
1. はじめに本記事は、「機械学習素人が Transformer を理解するまでの記録」という連載の第七回のBです。ChatGPT は日常的に使っているものの、Transformer の中身は実はよく分かっていないという立場から、基礎に立ち返って理解していく過程を整理しています。 1.1. シリーズの内容導入回:【Transformerとは? - 導入回】機械学習素人が Transformer を理解するまでの記録Transformerとは(概要)ニューラルネットワークとは何か重み・バイアス・活性化関数脳との関係(比喩として)ニューラルネット...
11時間前

LLM埋め込み空間×セマンティック通信 6G時代の通信処理技術を整理する
Zennの「ディープラーニング」のフィード
LLM埋め込み空間×セマンティック通信 6G時代の通信処理技術を整理する この記事でわかることセマンティック通信の基本原理と従来通信との根本的な違いLLMの埋め込み空間を通信路として活用する最新の3つのアプローチ(Generative SemCom、Cache-to-Cache、VQ-JSCC)各手法の具体的な性能指標と実装上のトレードオフDeepSCからLLMベースまでの技術発展の系譜6Gネットワークにおける実用化に向けた課題と展望 対象読者想定読者: 中級〜上級の機械学習・通信工学エンジニア必要な前提知識:Transformerアーキテクチャの...
14時間前

【Claude Code × Colab 第5弾】時系列の次は衛星画像──EuroSATでResNet50が97.8%を出した話
Zennの「ディープラーニング」のフィード
はじめに第4弾でPatchTSTを使って気温予測をやったあと、「次は時系列じゃないものをやってみたい」と思いました。画像分類に興味があった、というのが正直なところです。機械学習といえば表やCSVのイメージが強かったのですが、CNNで画像を分類するのは別の種類の面白さがある気がして。ちょうど PureForest(航空写真から樹種を分類するベンチマーク)という面白そうなデータセットを見つけていて、それへの前段として「衛星/航空写真 × CNN」の感覚を掴みたかった。そのためのステップとして選んだのが EuroSAT です。Grad-CAMで「モデルが画像のどこを見ているか」を...
18時間前

How Linear Attention Solves the $O(N^2)$ Bottleneck
Zennの「ディープラーニング」のフィード
Demystifying "Transformers are RNNs": How Linear Attention Solves the O(N^2) BottleneckTransformers have completely revolutionized machine learning, but they come with a notorious flaw: they are incredibly memory-hungry. As sequences get longer, the computational cost blows up quadratically.H...
1日前

LLMの「考えました」は8割嘘
Zennの「ディープラーニング」のフィード
あなたがCoTを読んでいるとき、モデルは別のことを考えているThinking modelが流行っている。DeepSeek-R1、Claude 3.7 Sonnet、Qwen3.5——推論過程を見せてくれるモデルが増えた。RTX 4060でQwen3.5-9Bを回していると、thinkingブロックに延々と内部推論が表示される。"Wait, let me reconsider..." "Actually, this approach is better..." と自問自答しながら回答を組み立てていく。見ていて安心する。ちゃんと考えてくれている、と思う。その安心感は、根拠がない。...
1日前

イラストドメインにおけるピクセル空間フローマッチングモデルの事前学習
Zennの「ディープラーニング」のフィード
!ファイルサイズの大きい画像が含まれるため、モバイル回線での閲覧は推奨しません。(約 30 MB) やったこと512x512 解像度付近の複数解像度で画像を生成できる 380 M パラメータの JiT モデルを学習しました。前回 の記事の発展的な感じです。https://zenn.dev/platina/articles/jit-animeface前回と異なり、上半身だけでなく全身画像の生成もできるようになっています。今回も同様に、使用したコードは以下のレポで公開してますが、予告なく破壊的変更を main ブランチに push する可能性があるので、使用する場合は気をつ...
5日前

【Transformerとは? - 第七回A】Self-Attentionの正体 ~Self-Attentionは何を変えたのか~
Zennの「ディープラーニング」のフィード
1. はじめに本記事は、「機械学習素人が Transformer を理解するまでの記録」という連載の第七回です。ChatGPT は日常的に使っているものの、Transformer の中身は実はよく分かっていないという立場から、基礎に立ち返って理解していく過程を整理しています。 1.1. シリーズの内容導入回:【Transformerとは? - 導入回】機械学習素人が Transformer を理解するまでの記録Transformerとは(概要)ニューラルネットワークとは何か重み・バイアス・活性化関数脳との関係(比喩として)ニューラルネットワ...
6日前

「混ぜる」データ拡張は本当に有効なのか? mixup が示した汎化と頑健性
Zennの「ディープラーニング」のフィード
「混ぜる」データ拡張は本当に有効なのか? mixup が示した汎化と頑健性本稿では、データ拡張手法の一つである mixup を紹介する。大規模な深層ニューラルネットワークは高い表現力を持つ一方で、訓練データの記憶への過度な依存や、敵対的サンプルに対する脆弱性といった望ましくない性質を示すことがある。こうした問題を緩和するための、きわめて単純かつ汎用的な手法が mixup である。mixup の基本的な考え方は、2つのサンプルとそれぞれのラベルを 凸結合 し、そのようにして生成された仮想的な中間サンプルに対してモデルを学習させる点にある。一見すると、このような操作は意味の曖昧な中...
7日前

LLM Architecture Gallery徹底解説:30+モデルの内部構造を4軸で横断比較する
Zennの「ディープラーニング」のフィード
LLM Architecture Gallery徹底解説:30+モデルの内部構造を4軸で横断比較する この記事でわかることSebastian RaschkaのLLM Architecture Galleryの全体像と活用方法MHA→GQA→MLA→Linear Attentionへ至るアテンション機構の進化と各方式の設計意図QK-Norm・RMSNorm・NoPEなど正規化・位置エンコーディングの選択基準Mixture-of-Experts(MoE)設計の分類と、密モデルとの使い分け判断基準2026年3月時点のフロンティアモデル(Qwen3.5、Kimi K2.5、G...
7日前

機械学習入門講義メモ
Zennの「ディープラーニング」のフィード
きっかけ研究室の先生に今の研究は機械学習を使うものが多く、また身近な技術のため今や必須となってきていると伺った。そしてその先生と勉強会をする機会を頂き「ゼロから作るDeep Learning」という本をベースに機械学習を学ぶことにした。 この記事について勉強会で習った内容をベースに記述します。なるべく内容が間違いないよう精査するが、間違っている可能性を含んでいるため参考程度にお願いしたいです。 パーセプトロンパーセプトロンとは「複数の入力を受け取り計算結果が閾値を超えると1、超えないと0を出力する」ものです。以下は2入力の例。y = \begin{cases} ...
7日前

【超入門】「YOLO」って何がすごいの?物体検出モデルの仕組みから実践まで解説!
Zennの「ディープラーニング」のフィード
はじめに本記事では、初心者の方に向けて「YOLO(ヨロ)」という物体検出モデルについて、基礎から実践までをわかりやすく解説していきます。画像認識技術に興味があるけれど、「どこから手をつけていいか分からない」「YOLOって名前は聞くけど、何がすごいの?」という方の疑問を解消する内容になっています。 概要 YOLOとは何か?YOLO(You Only Look Once) とは、一言で表すと、非常に高速で高精度な「リアルタイム物体検出・画像セグメンテーションモデル」のことです。現在(特にUltralyticsが提供するYOLO)は、単なる特定の物体を枠で囲む機能にとどま...
9日前

活性化関数とは?種類・役割・使い分けをわかりやすく解説
Zennの「ディープラーニング」のフィード
はじめにニューラルネットワークの各層に必ず組み込まれている活性化関数(Activation Function)。地味な存在に思えますが、活性化関数がなければディープラーニングは成り立ちません。この記事では、活性化関数の役割・代表的な種類・使い分けを、数式をなるべく使わずに解説します。!小学5年生でもわかるシンプルな説明はこちら👉 【小学5年生でもわかる】活性化関数ってなに? 活性化関数とは活性化関数とは、ニューラルネットワークの各ニューロンの出力に適用される非線形変換です。入力の重み付き和を計算した後、活性化関数を通すことで非線形性を導入します。 なぜ活性化関数...
10日前

【小学5年生でもわかる】活性化関数ってなに?
Zennの「ディープラーニング」のフィード
活性化関数ってなに?活性化関数は、**AIの脳の中にある「スイッチ」**です。人間の脳では、信号が来たときに「この信号は大事だから次に伝えよう」「これは無視しよう」と判断する神経細胞があります。活性化関数はまさにこれと同じ役割をしています。 どんなスイッチがあるの?ReLU(レル):0より小さい信号は「いらない!」とゼロにして、0以上の信号はそのまま通す。一番よく使われるスイッチですシグモイド:信号を「0から1の間」に変換する。「どれくらい当てはまるか」を確率のように表現したいときに使いますソフトマックス:複数の答えの中から「どれが一番ありそうか」を確率にして教...
10日前

Qwen3.5の27Bが9Bに負けた RTX 4060の逆説
Zennの「ディープラーニング」のフィード
Qwen3.5の27Bが9Bに負けた RTX 4060の逆説Qwen3.5が出た。9B、27B、MoE構成の35B-A3B。パラメータ数だけ見れば大きいほど賢いで終わる話だが、それを8GB VRAMのGPUに押し込んだらどうなるか。結論から言うと、スペック表の数字と実用体験の間には、思っていたより遥かに大きな溝があった。VRAM使用量、コンテキスト長、パラメータ数——この3点セットだけで選んだモデルが、実際に使ったら期待と全然違う。そのなぜを解剖する。 検証環境GPU: NVIDIA GeForce RTX 4060 8GBCPU: AMD Ryzen 7(...
10日前

混ぜるAIから、守って選ぶAIへ ―― Beaconの設計思想とGhostDrift研究体系における次世代研究としての位置づけ
Zennの「ディープラーニング」のフィード
1. なぜ今、Beaconを「次世代研究」として位置づけるのか近年のAI研究において、Transformerに代表されるAttention(注意)機構は圧倒的な成果を挙げてきました。しかし、GhostDrift数理研究所が研究を進める「Beacon(ビーコン)」アーキテクチャを次世代研究として位置づける理由は、それが単なる「新しいAttentionの変種」だからではありません。Beaconは、従来の「いかに混合するか」を中心としたAttention設計に対し、「保護してから選ぶ」という順序そのものを設計対象に含めようとする試みです。本稿では、Beaconアーキテクチャが外部の先...
10日前

過学習(Overfitting)とは?原因と対策をわかりやすく解説
Zennの「ディープラーニング」のフィード
はじめに機械学習を学び始めると、必ず出てくるのが**過学習(Overfitting)**という概念です。正則化やドロップアウトといった対策手法とセットで理解しておきたい、機械学習の基本中の基本です。この記事では、過学習とは何か、なぜ起こるのか、どう防ぐのかを、数式をなるべく使わずに解説します。 過学習とは過学習とは、モデルが訓練データに対しては高い精度を出すのに、未知のデータ(テストデータ)に対してはうまく予測できない状態のことです。英語では Overfitting と呼びます。たとえるなら、テスト勉強で過去問の答えだけを丸暗記した状態です。同じ問題なら解けますが、少し違...
11日前

【詳解】RecGPT:アリババが明かすLLM推薦システムの決定版。リコールから説明性までを統合する「3塔アーキテクチャ」
Zennの「ディープラーニング」のフィード
1. はじめに:なぜ今、推薦システムにLLMが必要なのか現代の推薦システムは、IDベースの協調フィルタリング(CF)から、セマンティックな理解を伴う次世代のフェーズへ移行しています。アリババが公開した「RecGPT」は、大規模言語モデル(LLM)を推薦システムの「リコール(召喚)」と「説明性(Explainability)」に直接統合し、CTR(クリック率)やIPV(商品詳細閲覧)を5%以上向上させた非常に強力なソリューションです。本記事では、RecGPTの技術的な詳細、特にLLMの能力をどのように既存の双塔(Two-Tower)モデルに組み込んだのか、その工程を詳解します。...
13日前

VICReg: 自己教師あり学習における崩壊回避の明示的設計
Zennの「ディープラーニング」のフィード
VICReg: 自己教師あり学習における崩壊回避の明示的設計本稿では、自己教師あり学習における重要な課題である 表現崩壊 を、 明示的に防ぐ 手法として VICReg を取り上げる。近年の画像表現学習では、同一画像から得た異なるビューをそれぞれエンコーダに入力し、得られた埋め込み表現が一致するよう学習を行う方法が一般的である。一方で、この枠組みでは、エンコーダが定数ベクトルのような情報を持たない表現ばかりを出力してしまう 崩壊 を防ぐことが大きな課題となる。VICReg (Variance-Invariance-Covariance Regularization) は、この問題に...
15日前

理論と実装をつなぐ機械学習入門
Zennの「ディープラーニング」のフィード
機械学習を勉強していると「ライブラリを使えばできるけど、中で何が起きているか分からない」という壁にぶつかることがあります。この本では、11種類の機械学習アルゴリズムを取り上げ、アルゴリズムの概要から、数式の理解、スクラッチ実装までの流れを詳しく解説しています。【対象者】・機械学習を勉強中で理論も理解したいエンジニア・ライブラリの中身が気になっている人・数式と向き合いたい人【前提知識】・Pythonの基本的な文法・高校数学レベルの知識(微分、行列)
16日前

時系列ファウンデーションモデル2025-2026年最前線:Chronos-2・TimesFM・Sundialを徹底比較
Zennの「ディープラーニング」のフィード
時系列ファウンデーションモデル2025-2026年最前線:Chronos-2・TimesFM・Sundialを徹底比較 この記事でわかること時系列ファウンデーションモデル(TSFM)の基本概念と、NLPのLLMとの類似点・相違点2025-2026年にリリースされた主要5モデル(Chronos-2、TimesFM-2.5、Moirai-MoE、Sundial、Timer-XL)のアーキテクチャと特徴GIFT-Evalベンチマークによる各モデルの定量比較とモデル選定基準ゼロショット予測・Few-shot学習・共変量対応など、TSFMの実践的な活用パターンTSFMの現在の限...
16日前