分类论文下的文章 - 第 2 页 - 咕咕鸽爱学习

登录

找到 8 篇与论文相关的结果 - 第 2 页

2025-03-21
液态神经网络液态神经网络连续时间递归神经网络（CT-RNN）举例说明以下以第 $i$个隐藏神经元为例，给出一个典型的连续时间动力学方程（微分方程形式）： $$ \frac{d h_i(t)}{dt} ;=; -\alpha , h_i(t) ;+; \sum_{j} W_{ij} ,\sigma\bigl(h_j(t)\bigr) ;+; V_i, x(t). $$ $\displaystyle h_i(t)$ 表示第 (i) 个神经元的内部状态（或称膜电位、液体状态等）。 $\displaystyle -\alpha,h_i(t)$ 表示自然衰减项，$\alpha>0$ 是衰减系数。 $\displaystyle \sum_{j} W_{ij},\sigma\bigl(h_j(t)\bigr)$ 表示对第 $i$ 个输出神经元，计算所有输入神经元$j$的加权和。 $\displaystyle \sigma(\cdot)$ 是一个非线性激活函数，例如 $\tanh$、ReLU 等； $\displaystyle W_{ij}$ 是从神经元 (j) 到神经元 (i) 的连接权重；这里的求和 $\sum_{j}$意味着第 $i$ 个神经元会「收集」当前层所有神经元（含自己）的输出信号。 $\displaystyle V_i, x(t)$ 外部输入 $x(t)$ 对神经元 $i$ 的直接驱动作用。因此，这个公式表示：第 $i$个隐藏神经元的状态变化率，依赖：自身的衰减；其他神经元的输出（相互耦合）；来自上一层（或外部）的输入刺激。使用欧拉法 (Forward Euler) 离散近似这是最简单、最直接的数值积分方法。给定一个小的时间步长$\Delta t$，将连续时间 $t$ 离散化为 $t_0,, t_1,, \dots$，其中 $t_{n+1} = t_n + \Delta t$。则第 $i$ 个神经元的状态 $h_i(t)$ 在离散时刻 $t_n$ 的值可以表示为 $h_i^{(n)}$，其中 $h_i^{(n)}$ 表示在时间 $t_n$ 时刻的状态。微分方程： $$ \frac{d h_i(t)}{dt} = f_i\bigl(h_1(t), \dots, h_N(t), x(t)\bigr), $$ 在这里， $$ f_i(\mathbf{h}(t),\, x(t)) \;=\; -\alpha\, h_i(t) \;+\; \sum_j W_{ij}\,\sigma\bigl(h_j(t)\bigr) \;+\; V_i\,x(t). $$ **欧拉更新公式**： $$ h_i^{(n+1)} \;=\; h_i^{(n)} \;+\; \Delta t \,\Bigl[ f_i\bigl(\mathbf{h}^{(n)},\, x^{(n)}\bigr) \Bigr], $$ 其中： $ \mathbf{h}^{(n)} = [h_1^{(n)}, \dots, h_N^{(n)}]^\top$ 表示所有神经元在时刻 $t_n$ 的状态向量。 $x^{(n)} $ 表示输入信号在时刻$ t_n$的值（或小区间平均值）。这可以并行对所有 $i$ 同时更新。优点：简单易实现缺点：稳定性、精度较低，需要选小一些的$\Delta t$才能获得良好数值表现。神经ODE的基本形式神经ODE（Neural ODE）的状态 $x(t)$ 由以下微分方程定义： $$ \frac{dx(t)}{dt} = f(x(t), I(t), t, \theta) $$ 其中，$f$ 是一个由参数 $\theta$ 定义的神经网络，$I(t)$ 是输入，$t$ 是时间。通过数值ODE求解器可以计算状态 $x(t)$，并通过反向模式自动微分（reverse-mode automatic differentiation）来训练网络。使用伴随敏感度 (adjoint) 方法来节省显存，但这会带来一定的数值不稳定与反向误差连续时间递归神经网络（CT-RNN）的稳定性 $$ \frac{dx(t)}{dt} = -\frac{x(t)}{\tau} + f(x(t), I(t), t, \theta) $$ 其中，$-\frac{x(t)}{\tau}$ 是一个阻尼项，帮助系统达到平衡状态，$\tau$ 是时间常数。 $τ$ 越大，系统的响应越慢；$τ$ 越小，系统的响应越快小型生物（如线虫）的神经动力学模型在生物学中，非脉冲神经元的电位动态可以通过以下线性微分方程描述： $$ \frac{d\mathbf{v}(t)}{dt} = -g_l \mathbf{v}(t) + \mathbf{S}(t) $$ 其中： $\mathbf{v}(t)$ 是神经元的电位。 $g_l$ 是泄漏电导（leakage conductance），表示神经元电位的自然衰减速度。 $\mathbf{S}(t)$ 是突触输入的总和，表示来自其他神经元的输入信号。突触输入 $\mathbf{S}(t)$ 可以通过以下非线性函数近似： $$ \mathbf{S}(t) = f(\mathbf{v}(t), \mathbf{I}(t))(A - \mathbf{v}(t)) $$ 其中： $f(\mathbf{v}(t), \mathbf{I}(t))$ 是一个非线性函数（通常是 sigmoid 函数），表示突触前神经元的电位 $\mathbf{v}(t)$ 和外部输入 $\mathbf{I}(t)$ 对突触输入的影响。 $A$ 是一个偏置项，表示突触输入的最大值。（$A$ 可以理解为突触输入的平衡电位。当神经元的电位 **$v(t)$*接近 $A$ 时，突触输入$S(t)$*会减小，从而防止电位无限增长。）例子为了具体化，我们设定以下参数：泄漏电导：$g_l = 0.1$（表示电位以每秒 0.1 的速度自然衰减）。突触输入的最大值：$A = 1$。非线性函数：假设 $f(\mathbf{v}(t), \mathbf{I}(t))$ 是一个简单的 sigmoid 函数： $$ f(\mathbf{v}(t), \mathbf{I}(t)) = \frac{1}{1 + e^{-\mathbf{I}(t)}} $$ 其中，$\mathbf{I}(t)$ 是外部输入。假设在 $t = 0$ 时，神经元的电位为： $$ \mathbf{v}(0) = 0.5 $$ 假设在 $t = 0$ 到 $t = 10$ 秒内，外部输入 $\mathbf{I}(t)$ 为： $$ \mathbf{I}(t) = 1 $$ 计算突触输入根据设定的非线性函数，突触输入为： $$ f(\mathbf{v}(t), \mathbf{I}(t)) = \frac{1}{1 + e^{-\mathbf{I}(t)}} = \frac{1}{1 + e^{-1}} \approx 0.731 $$ 这里为了简化，突触输入仅由外部驱动，不随自身电位变化。因此，突触输入项为： $$ f(\mathbf{v}(t), \mathbf{I}(t))(A - \mathbf{v}(t)) = 0.731 \times (1 - \mathbf{v}(t)) $$ 动态方程将参数代入动态方程，得到： $$ \frac{d\mathbf{v}(t)}{dt} = -0.1 \mathbf{v}(t) + 0.731 (1 - \mathbf{v}(t)) $$ 数值模拟我们可以通过数值方法（如显示欧拉法）来模拟神经元的电位变化。假设时间步长 $\Delta t = 0.1$ 秒，初始电位 $\mathbf{v}(0) = 0.5$。第一次迭代（$t = 0$ 到 $t = 0.1$ 秒）计算电位变化率： $$ \frac{d\mathbf{v}(0)}{dt} = -0.1 \times 0.5 + 0.731 \times (1 - 0.5) = -0.05 + 0.3655 = 0.3155 $$ 更新电位： $$ \mathbf{v}(0.1) = \mathbf{v}(0) + \frac{d\mathbf{v}(0)}{dt} \times \Delta t = 0.5 + 0.3155 \times 0.1 = 0.53155 $$ 重复上述过程，直至t=10秒由于泄漏电导和偏置项$A$的作用，电位的上升速度逐渐减慢，最终趋于稳定值。稳定状态在稳定状态下，电位变化率为 0，即： $$ \frac{d\mathbf{v}(t)}{dt} = 0 $$ 代入动态方程： $$ 0 = -0.1 \mathbf{v}_{\text{stable}} + 0.731 (1 - \mathbf{v}_{\text{stable}}) $$ 解得： $$ \mathbf{v}_{\text{stable}} = \frac{0.731}{0.1 + 0.731} \approx 0.88 $$ 液态时间常数网络（LTCs） $$ \frac{dx(t)}{dt} = -\frac{x(t)}{\tau} + S(t) $$ 其中，$S(t)$ 是一个非线性项，定义为： $$ S(t) = f(x(t), I(t), t, \theta)(A - x(t)) $$ 这里，$f$ 是一个神经网络，$A$ 是一个偏置项。将 $S(t)$ 代入隐藏状态方程后，得到LTCs的动态方程： $$ \frac{dx(t)}{dt} = -\left[\frac{1}{\tau} + f(x(t), I(t), t, \theta)\right] x(t) + f(x(t), I(t), t, \theta) A $$ LTCs 的核心创新在于其**可变的时间常数** $\tau_{sys}$，它由以下公式定义： $$ \tau_{sys} = \frac{\tau}{1 + \tau f(x(t), I(t), t, \theta)} $$ 这意味着时间常数 $\tau_{sys}$ 会根据输入 $I(t)$ 和隐藏状态 $x(t)$ 的变化而动态调整。从而在处理复杂时间序列数据时表现出更强的适应性和表达能力。这个方程展示了LTCs的核心特性：可变的时间常数。显式欧拉 vs 隐式欧拉方法公式特点显式欧拉 $x_{k+1} = x_k + \Delta t \cdot f(x_k, t_k)$ 用当前时刻的导数计算下一步，计算快但稳定性差（步长受限）隐式欧拉 $x_{k+1} = x_k + \Delta t \cdot f(x_{k+1}, t_{k+1})$ 用未来时刻的导数计算下一步，稳定性好但需解方程（适合刚性系统）融合求解器 $$ \frac{dx(t)}{dt} = -\left[\frac{1}{\tau} + f(x(t), I(t), t, \theta)\right] x(t) + f(x(t), I(t), t, \theta) A $$ $$ \frac{dx}{dt} = -\alpha(t)x(t) + \beta(t) \quad \text{其中}\ \alpha(t) = \frac{1}{\tau} + f, \ \beta(t) = f \odot A $$ 应用隐式欧拉法离散化： $$ x_{k+1} = x_k + \Delta t \cdot \left[ -\alpha_{k+1} x_{k+1} + \beta_{k+1} \right] $$ **关键点**：右侧的$\alpha_{k+1}$和$\beta_{k+1}$都依赖于未来状态$x_{k+1}$。显示近似非线性项：论文假设非线性项$f$在时间步内近似不变（即$f_{k+1} \approx f_k$），从而： $$ \alpha_{k+1} \approx \alpha_k = \frac{1}{\tau} + f_k, \quad \beta_{k+1} \approx \beta_k = f_k \odot A $$ 代入后方程变为： $$ x_{k+1} = x_k + \Delta t \cdot \left[ -\left( \frac{1}{\tau} + f_k \right) x_{k+1} + f_k \odot A \right] $$ 求解：将含$x_{k+1}$的项移到左边： $$ x_{k+1} + \Delta t \left( \frac{1}{\tau} + f_k \right) x_{k+1} = x_k + \Delta t \cdot f_k \odot A $$ 提取公因子$x_{k+1}$： $$ x_{k+1} \left[ 1 + \Delta t \left( \frac{1}{\tau} + f_k \right) \right] = x_k + \Delta t \cdot f_k \odot A $$ 最终显式解： $$ x_{k+1} = \frac{x_k + \Delta t \cdot f_k \odot A}{1 + \Delta t \left( \frac{1}{\tau} + f_k \right)} $$ $x_k \in \mathbb{R}^N$ 是第 $k$ 个时间步的隐藏状态向量。 $I_k$ 是输入。 $f(\cdot)$ 是包含可学习权重的非线性映射，$f_k$ 表示在第 $k$ 步时刻对 $\bigl(x_k,I_k\bigr)$ 的运算结果。可以假设 $\tau$ 是时间常数（若每个神经元各有一套，可以是一个向量 $\tau \in \mathbb{R}^N$）。 $A \in \mathbb{R}^N$ 是可学习的偏置向量。 $\odot$ 表示逐元素相乘。示例参数与初始数据设定为便于演示，这里只做一次更新（从 $x_k$ 到 $x_{k+1}$），并给出具体数值。隐藏层维度 $N=2$。时间步长 $\Delta t = 1$（只是示例；实际中可更小或可自适应）。初始隐藏状态和输入（随意设定）： $$ x_k = \begin{bmatrix}0 \[4pt] 1\end{bmatrix}, \quad I_k = 2. $$ 令时间常数 $\tau = \begin{bmatrix}1 \[4pt] 1\end{bmatrix}$（即 2 维，都为 1）。令 $A = \begin{bmatrix}2 \[4pt] -1\end{bmatrix}$。非线性 $f$ 的定义我们假设 $$ f(x,I) ;=; \mathrm{ReLU}!\bigl(W_r,x ;+; W_i,I ;+; b\bigr), $$ 其中 $W_r$ 是隐藏层的“自连接”或“循环”权重，尺寸 $2\times 2$； $W_i$ 是输入到隐藏层的权重，尺寸 $2\times 1$； $b$ 是偏置向量（2 维）； $\mathrm{ReLU}(z)$ 对每个分量做 $\max(z,0)$。这里举例设： $$ W_r = \begin{bmatrix} 0.5 & -0.3\ 0.1 & ;,0.2 \end{bmatrix}, \quad W_i = \begin{bmatrix} 1\ 2 \end{bmatrix}, \quad b = \begin{bmatrix} -1\ 0.5 \end{bmatrix}. $$ 计算 $f_k$ 先算 $W_r,x_k$： $$ W_r\,x_k = \begin{bmatrix} 0.5 & -0.3\\ 0.1 & \;\,0.2 \end{bmatrix} \begin{bmatrix} 0\\[3pt] 1 \end{bmatrix} = \begin{bmatrix} 0.5 \times 0 \;+\; (-0.3)\times 1\\[5pt] 0.1 \times 0 \;+\; 0.2 \times 1 \end{bmatrix} = \begin{bmatrix} -0.3\\[3pt] 0.2 \end{bmatrix}. $$ 再算 $W_i , I_k$： $$ W_i \, I_k = \begin{bmatrix} 1\\ 2 \end{bmatrix} \cdot 2 = \begin{bmatrix} 2\\ 4 \end{bmatrix}. $$ 加上偏置 $b$： $$ \begin{bmatrix} -0.3\\[3pt] 0.2 \end{bmatrix} + \begin{bmatrix} 2\\[3pt] 4 \end{bmatrix} + \begin{bmatrix} -1\\[3pt] 0.5 \end{bmatrix} = \begin{bmatrix} -0.3 + 2 \;-\; 1\\[3pt] 0.2 + 4 \;+\; 0.5 \end{bmatrix} = \begin{bmatrix} 0.7\\[3pt] 4.7 \end{bmatrix}. $$ 通过 $\mathrm{ReLU}$，得到 $$ f_k = \mathrm{ReLU}\!\Bigl(\begin{bmatrix}0.7\\[4pt]4.7\end{bmatrix}\Bigr) = \begin{bmatrix}0.7\\[4pt]4.7\end{bmatrix}. $$ 更新 $x_{k+1}$ $$ x_{k+1} = \frac{ x_k + \Delta t\,\bigl[f_k \odot A\bigr] }{ 1 + \Delta t\,\Bigl(\frac{1}{\tau} + f_k\Bigr) } \quad\longrightarrow\quad \text{都是逐元素算}. $$ 先算分子： $f_k \odot A = [,0.7 \times 2,;;4.7 \times(-1),] = [,1.4,;-4.7]$。 $x_k + \Delta t,\bigl[f_k \odot A\bigr] = [,0,,1,] + [,1.4,;-4.7,] = [,1.4,;-3.7,]$。分母也要逐元素： $$ 1 + \Delta t \Bigl(\frac{1}{\tau} + f_k\Bigr) = 1 + 1 \cdot \bigl([\,1,\,1\,] + [\,0.7,\,4.7\,]\bigr) = 1 + [\,1.7,\,5.7\,] = [\,2.7,\;\,6.7\,]. $$ 逐元素相除： $$ x_{k+1} = \bigl[\,1.4,\;-3.7\bigr] \;\Big/\; \bigl[\,2.7,\;6.7\bigr] = \Bigl[\;\frac{1.4}{2.7},\;\;\frac{-3.7}{6.7}\Bigr] \approx [\,0.5185,\;-0.5522\,]. $$ 因此，我们最终得到 $$ x_{k+1} \approx [\,0.5185,\;-0.5522\,]. $$ 训练方法论文采用 BPTT（通过时间反向传播）进行训练：前向传播：使用数值求解器（融合显式-隐式欧拉法）沿时间步迭代计算状态 $x(t)$，公式为： $$ x_{k+1} = \frac{x_k + \Delta t \cdot f_k \odot A}{1 + \Delta t \left( \frac{1}{\tau} + f_k \right)} $$ 其中 $f_k = f(x_k, I_k, t_k, \theta)$，所有中间状态 ${x_0, x_1, ..., x_T}$ 被缓存。反向传播：从最终损失 $L$ 出发，沿时间步逆向计算梯度：通过链式法则逐层传递梯度 $\frac{\partial L}{\partial x_k}$；更新参数 $\tau$, $A$, $\theta$ 的梯度：$\nabla_{\tau} L$, $\nabla_{A} L$, $\nabla_{\theta} L$；显式利用缓存的中间状态，避免伴随方法的重积分误差。优势：精度高：直接计算梯度，无近似误差累积；稳定性强：适用于刚性（Stiff）动力学系统；代价：内存复杂度为 $O(T)$（$T$ 为时间步数），需权衡序列长度。代码训练：python har.py --model ltc --size 32 --epochs 50 --log 1 液态时间常数的直观作用对快/慢时间尺度的自适应：当网络检测到输入信号变化非常快或幅度很大时，可动态增大衰减、加速更新；反之信号较稳定时，则让衰减变小、记忆更久。增强模型的非线性表征能力：因为衰减系数也会因网络状态而变，所以整体微分方程更具表达力，理论上能更好地逼近复杂的非线性时变系统。优势参数数量减少：每个神经元本身通过内置的动态机制承担了更多的功能，网络在捕捉时间依赖性时不需要额外堆叠大量的隐藏层或者引入复杂的循环结构(LSTM、GRU)。这大大减少了模型参数数量，从而降低了计算资源和能耗。稀疏激活：动态更新机制意味着并非所有神经元在每个时刻都需要全量参与计算，只有部分神经元在关键时刻激活处理，从而提升整体计算效率。应用场景无人机和自动驾驶由于液态神经网络能够在新环境下实时适应，其在无人机导航和自动驾驶系统中表现出色。研究表明，即使在复杂、未见过的场景中，它也能做出精准决策，从而实现高效导航。金融和医疗预测在处理连续的时间序列数据（如股票价格、气候数据或生命体征监控）时，液态神经网络能够捕捉细微的动态变化，帮助进行更准确的预测与预警。

论文

zy123 1年前
0 7 0
2025-03-21
循环神经网络循环神经网络RNN 循环神经网络（Recurrent Neural Network，简称RNN）是一类专门用于处理序列数据的神经网络模型。与传统的前馈神经网络不同，RNN具有“记忆”功能，能够捕捉数据序列中的时间依赖关系。基本结构 RNN的核心在于它的循环结构，这个结构使得信息可以沿着时间步流动。一个典型的RNN单元在时间步 $t$ 接收输入向量 $x_t$ 和前一时刻的隐藏状态 $h_{t-1}$，然后计算当前时刻的隐藏状态 $h_t$。这种循环过程允许模型利用之前的状态信息来影响当前的预测。隐藏状态的更新隐藏状态更新通常通过如下公式实现： $$ h_t = f(W_{xh} \cdot x_t + W_{hh} \cdot h_{t-1} + b_h) $$ 其中： $h_t$ 表示时间步 $t$ 的隐藏状态（所有隐藏层神经元激活值的集合。）。 $x_t$ 是时间步 $t$ 的输入向量。 $W_{xh}$ 是输入到隐藏状态的权重矩阵。 $W_{hh}$ 是隐藏状态之间的递归连接权重矩阵。 $b_h$ 是偏置项。 $f$ 是激活函数，通常会选择非线性函数如tanh或ReLU，以引入非线性变换。在这种更新过程中，当前的隐藏状态 $h_t$ 同时依赖于当前的输入 $x_t$ 和之前的隐藏状态 $h_{t-1}$，这使得RNN能够捕捉长时间序列中的上下文关系。输出层有时RNN还会在每个时间步产生输出，输出计算方式通常为： $$ y_t = g(W_{hy} \cdot h_t + b_y) $$ 其中： $y_t$ 是时间步 $t$ 的输出。 $W_{hy}$ 是隐藏状态到输出的权重矩阵。 $b_y$ 是输出层的偏置项。 $g$ 是输出层激活函数（例如softmax用于分类任务）。困惑度假设我们有一个测试序列，其中包含 3 个单词，模型对每个单词的预测概率分别为： $P(w_1) = 0.5$ $P(w_2|w_1) = 0.2$ $P(w_3|w_1, w_2) = 0.1$ 根据困惑度的公式： $$ \text{Perplexity} = \exp\left(-\frac{1}{N} \sum_{i=1}^{N} \log P(w_i | \text{context})\right) $$ 当模型对每个单词都能百分之百预测（即概率为1），则平均交叉熵为0，困惑度为 $\exp(0)=1$。这表示模型没有任何不确定性，是理想状态。我们这里 $N=3$。下面是具体的计算步骤：计算每个单词的对数概率 $$ \log P(w_1) = \log(0.5) \approx -0.6931 $$ $$ \log P(w_2|w_1) = \log(0.2) \approx -1.6094 $$ $$ \log P(w_3|w_1, w_2) = \log(0.1) \approx -2.3026 $$ 求和并求平均将这些对数值相加： $$ \sum_{i=1}^{3} \log P(w_i|\text{context}) = -0.6931 - 1.6094 - 2.3026 \approx -4.6051 $$ 然后求平均： $$ \text{平均对数概率} = \frac{-4.6051}{3} \approx -1.5350 $$ 计算困惑度取负值再求指数： $$ \text{Perplexity} = \exp\left(1.5350\right) \approx 4.64 $$ 训练过程与挑战整体训练流程可以总结为下面几个步骤，每个 epoch 都会重复这些步骤：前向传播对于一个完整的句子（或者一个批次中的多个句子），模型按顺序处理所有时间步，生成每个时间步的输出。比如，对于句子“我爱编程”，模型会依次处理“我”、“爱”、“编程”，得到对应的输出（例如每个时间步预测下一个词的概率分布）。计算损失将模型在所有时间步的输出与真实目标序列（也就是每个时间步的正确答案）进行比较，计算整体损失。损失通常是所有时间步损失的总和或平均值，例如均方误差或交叉熵损失。反向传播（BPTT）对整个句子进行反向传播，即通过时间（Back Propagation Through Time，BPTT）计算所有时间步的梯度。这一步会利用链式法则，把整个序列中各个时间步的梯度累积起来，形成每个参数的总梯度。参数更新使用优化器（如 Adam、SGD 等）根据计算得到的梯度更新模型参数。重复整个过程以上步骤构成了一个训练迭代周期（一个 epoch），在一个 epoch 中，所有训练样本都会被送入模型进行训练。然后在下一个 epoch 中，再次重复整个流程，直到达到预设的 epoch 数或满足其他停止条件。在训练过程中，RNN通过反向传播算法（具体为“反向传播通过时间”（BPTT））来更新参数。然而，由于梯度在长序列上传播时可能出现梯度消失或梯度爆炸问题，使得RNN在捕捉长程依赖关系时面临挑战。为此，后来发展出了如长短时记忆网络（LSTM）和门控循环单元（GRU）等改进模型，它们在结构上增加了门控机制，有效缓解了这一问题。门控循环单元GRU GRU（Gated Recurrent Unit，门控循环单元）是一种常用的循环神经网络变种，旨在解决标准 RNN 中梯度消失或梯度爆炸的问题，同时比 LSTM 结构更简单。基本结构 GRU 通过两个门（gate）来控制信息的流动：更新门 $z_t$：控制当前隐藏状态需要保留多少来自过去的信息以及引入多少新的信息。重置门 $r_t$：决定如何结合新输入和过去的记忆，尤其是在产生候选隐藏状态时。另外，GRU 计算一个候选隐藏状态 $\tilde{h}_t$，并结合更新门 $z_t$ 的信息，更新最终的隐藏状态 $h_t$。隐藏状态更新公式对于每个时间步 $t$，GRU 的计算过程通常包括以下步骤：更新门 $z_t$ $$ z_t = \sigma(W_{xz} x_t + W_{hz} h_{t-1} + b_z) $$ 其中： $x_t$ 是当前时间步的输入； $h_{t-1}$ 是上一时刻的隐藏状态； $b_z$ 是偏置向量； $\sigma(\cdot)$ 是 sigmoid 函数，用于将输出限制在 $[0, 1]$ 区间。重置门 $r_t$ $$ r_t = \sigma(W_{xr} x_t + W_{hr} h_{t-1} + b_r) $$ 其中参数意义与更新门类似，重置门决定忘记多少过去的信息。候选隐藏状态 $\tilde{h}_t$ $$ \tilde{h}t = \tanh(W{xh} x_t + W_{hh} (r_t \odot h_{t-1}) + b_h) $$ 这里： $r_t \odot h_{t-1}$ 表示重置门 $r_t$ 和上一时刻隐藏状态的逐元素相乘（Hadamard 乘积），用以调制历史信息的影响； $\tanh(\cdot)$ 激活函数，用来生成候选隐藏状态，将输出限制在 $[-1, 1]$。最终隐藏状态 $h_t$ GRU 结合更新门和候选隐藏状态更新最终隐藏状态： $$ h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t. $$ 这表明更新门 $z_t$ 决定了新信息 $\tilde{h}t$ 与旧信息 $h{t-1}$ 的比例。公式 GRU 更新公式如下： $$ \begin{aligned} z_t &= \sigma(W_{xz} x_t + W_{hz} h_{t-1} + b_z), \\ r_t &= \sigma(W_{xr} x_t + W_{hr} h_{t-1} + b_r), \\ \tilde{h}_t &= \tanh(W_{xh} x_t + W_{hh}(r_t \odot h_{t-1}) + b_h), \\ h_t &= (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t. \end{aligned} $$ 长短时记忆网络LSTM LSTM 是一种常用的循环神经网络变种，专门为解决标准 RNN 中的梯度消失问题而设计。它通过引入额外的“记忆单元”和多个门控机制，有效地控制信息的保存、遗忘和输出，从而捕捉长距离的依赖关系。基本结构 LSTM 的核心在于其“细胞状态”（cell state），这是一个贯穿整个序列传递的信息流，同时有三个主要的门（gate）来控制细胞状态的更新过程：遗忘门 $f_t$ 决定当前时间步需要遗忘多少之前的记忆信息。输入门 $i_t$ 决定当前时间步有多少新的信息写入细胞状态。输出门 $o_t$ 决定当前时间步从细胞状态中输出多少信息作为隐藏状态。此外，还引入了一个候选细胞状态 $\tilde{c}_t$ 用于更新细胞状态。隐藏状态更新公式对于每个时间步 $t$，LSTM 的更新过程通常可以写为以下公式（所有权重矩阵用 $W$ 和 $U$ 表示，各门的偏置为 $b$）： $$ \begin{aligned} \textbf{遗忘门:} \quad f_t = \sigma\Big(W_{xf}\, x_t + W_{hf}\, h_{t-1} + b_f\Big) \\ \textbf{输入门:} \quad i_t = \sigma\Big(W_{xi}\, x_t + W_{hi}\, h_{t-1} + b_i\Big) \\ \textbf{输出门:} \quad o_t = \sigma\Big(W_{xo}\, x_t + W_{ho}\, h_{t-1} + b_o\Big) \\\\ \textbf{候选细胞状态:} \quad \tilde{c}_t = \tanh\Big(W_{xc}\, x_t + W_{hc}\, h_{t-1} + b_c\Big) \\ \textbf{细胞状态更新:} \quad c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c}_t \\ \textbf{隐藏状态:} \quad h_t = o_t \odot \tanh(c_t) \end{aligned} $$ 连续传递在时间步 $t$ 中计算出的隐藏状态 $h_t$ 会作为下一时间步 $t+1$ 的输入之一，与当前输入 $x_{t+1}$ 一起用于后续计算。这样，每个 $h_t$ 都包含了前面所有时间步的信息，从而实现信息的传递和累积。最终输出预测如果任务是做序列到单个输出（例如分类、回归等），通常最后一个时间步（即 $h_T$）会用作整个序列的表示，并作为最终的特征传递给预测层（如全连接层）进行输出预测。但需要注意的是，在一些任务中，比如序列标注或序列生成，每个时间步的隐藏状态都可能参与输出预测或进一步处理。直观理解细胞状态 $c_t$：细胞状态是贯穿整个序列的“记忆通道”，负责长期保存信息。它像一条传送带，在不同时间步中线性传递，避免信息被频繁修改，从而维持长期记忆。隐藏状态$h_t$：代表的是当前时间步的输出或者说是短时记忆。它是基于当前输入以及细胞状态经过非线性激活处理后的结果，反映了对当前时刻输入信息的即时响应。遗忘门 $f_t$：用于丢弃上一时刻不再需要的信息。如果遗忘门输出接近 0，说明遗忘了大部分过去的信息；如果接近 1，则保留大部分信息。类比：若模型遇到新段落，遗忘门可能关闭（输出接近0），丢弃前一段的无关信息；若需要延续上下文（如故事主线），则保持开启（输出接近1）。输入门 $i_t$ 和候选细胞状态 $\tilde{c}_t$：输入门控制有多少候选信息被写入细胞状态。候选细胞状态是基于当前输入和上一时刻隐藏状态生成的新信息。类比：阅读时遇到关键情节，输入门打开，将新信息写入长期记忆（如角色关系），同时候选状态 $\tilde{c}_t$提供新信息的候选内容。输出门 $o_t$：控制从细胞状态中输出多少信息作为当前时间步的隐藏状态。隐藏状态 $h_t$ 通常用于后续计算（例如，生成输出、参与下一时刻计算）。类比：根据当前任务（如预测下一个词），输出门决定暴露细胞状态的哪部分（如只关注时间、地点等关键信息）。双层或多层LSTM 双层 LSTM 是指将两个 LSTM 层堆叠在一起：第一层 LSTM 处理输入序列 $x_1, x_2, \ldots, x_T$ 后，生成每个时间步的隐藏状态 $h_t^{(1)}$。第二层 LSTM 以第一层输出的隐藏状态序列 ${h_1^{(1)}, h_2^{(1)}, \ldots, h_T^{(1)}}$ 作为输入，进一步计算新的隐藏状态 $h_t^{(2)}$。作用与优势：捕捉更复杂的模式第一层：提取低层次特征（如局部变化、短时依赖）。第二层：整合低层特征，捕捉长距离依赖或抽象模式。更强的表达能力通过多层堆叠，网络能建模更复杂的序列数据映射关系。时序卷积网络TCN TCN是一种专为处理序列数据设计的深度学习架构。它通过结合因果卷积、扩张卷积和残差连接，解决了传统RNN和LSTM在并行化能力和梯度稳定性上的局限性。卷积操作：与 RNN 逐步递归处理序列不同，TCN 利用一维卷积一次性对整个序列进行并行处理，这使得训练时可以充分利用硬件的并行计算能力。 1. 因果卷积（Causal Convolution）因果卷积确保模型在预测时刻$t$的数据时，仅使用$t$时刻之前的信息，避免未来数据泄漏。因果卷积类似于一个滑动窗口（窗口大小=$k$），每次用当前和过去的$k-1$个值加权求和，生成当前时刻的输出。通过以下调整保证因果性：卷积核方向：仅对当前及过去的时间步进行卷积。填充（Padding）：在输入序列的左侧填充 $(k-1)$ 个零（$k$ 为卷积核大小），确保输出长度与输入一致，且不泄露未来信息。公式定义：对于卷积核 $W \in \mathbb{R}^k$ 和输入 $X \in \mathbb{R}^T$，因果卷积的输出 $Y \in \mathbb{R}^T$ 为： $$ Y_t = \sum_{i=0}^{k-1} W_i \cdot X_{t-i} \quad \text{（若 } t-i < 0 \text{，则 } X_{t-i}=0 \text{）} $$ 示例：输入序列 $X$: [x0, x1, x2, x3]（长度 $T=4$）卷积核 $W$: [w0, w1, w2]（大小 $k=3$）输出 $Y$: [y0, y1, y2, y3]（与输入长度相同）输入填充：左侧补 k−1=2k−1=2 个零，得到 [0, 0, x0, x1, x2, x3] 通常卷积核需要翻转：：[w2, w1, w0] 计算 $y_0$（$t=0$）: $$ y_0 = w0 \cdot x0 + w1 \cdot 0 + w2 \cdot 0 = w0 \cdot x0 $$ 计算 $y_1$（$t=1$）: $$ y_1 = w0 \cdot x1 + w1 \cdot x0 + w2 \cdot 0 $$ 计算 $y_2$（$t=2$）: $$ y_2 = w0 \cdot x2 + w1 \cdot x1 + w2 \cdot x0 $$ 计算 $y_3$（$t=3$）: $$ y_3 = w0 \cdot x3 + w1 \cdot x2 + w2 \cdot x1 $$ 最终输出 $$ Y = \left[ w0 x0, \; w0 x1 + w1 x0, \; w0 x2 + w1 x1 + w2 x0, \; w0 x3 + w1 x2 + w2 x1 \right] $$ 2. 扩张卷积（Dilated Convolution）通过膨胀因子 $d$在卷积核元素之间插入空洞（间隔），从而在不增加参数量的情况下扩大感受野。传统卷积（$d=1$）：连续覆盖 $k$ 个时间步（如 $X_t, X_{t-1}, X_{t-2}$）。扩张卷积（$d>1$）：跳跃式覆盖，跳过中间部分时间步（如 $X_t, X_{t-d}, X_{t-2d}$）。公式定义： $$ Y_t = \sum_{i=0}^{k-1} W_i \cdot X_{t-d\cdot i} \quad $$ 3. 残差连接（Residual Connection） TCN借鉴ResNet，通过残差块缓解梯度消失问题。公式定义： $$ \text{Output} = \sigma\bigl(F(x) + W_{1\times1} x \bigr) $$ $F(x)$：卷积层的输出 $\sigma$：激活函数（通常为ReLU） $W_{1\times1}$：1×1卷积核，用于调整输入$x$的维度 $x$：原始输入

论文

zy123 1年前
0 9 0
2025-03-21
图神经网络图神经网络图表示学习的本质是把节点映射成低维连续稠密的向量。这些向量通常被称为嵌入（Embedding），它们能够捕捉节点在图中的结构信息和属性信息，从而用于下游任务（如节点分类、链接预测、图分类等）。低维：将高维的原始数据（如邻接矩阵或节点特征）压缩为低维向量，减少计算和存储开销。连续：将离散的节点或图结构映射为连续的向量空间，便于数学运算和捕捉相似性。稠密：将稀疏的原始数据转换为稠密的向量，每个维度都包含有意义的信息。对图数据进行深度学习的“朴素做法” 把图的邻接矩阵和节点特征“直接拼接”成固定维度的输入，然后将其送入一个深度神经网络（全连接层）进行学习。这种做法面临重大问题，导致其并不可行： $O(|V|^2)$ 参数量，参数量庞大无法适应不同大小的图，需要固定输入维度对节点顺序敏感，节点编号顺序一变，输入就完全变样，但其实图的拓扑并没变（仅节点编号/排列方式不同）。 A —— B | | D —— C 矩阵 1（顺序 $[A,B,C,D]$）： $$ M_1 = \begin{pmatrix} 0 & 1 & 0 & 1\ 1 & 0 & 1 & 0\ 0 & 1 & 0 & 1\ 1 & 0 & 1 & 0 \end{pmatrix}. $$ 矩阵 2（顺序 $[C,A,D,B]$）： $$ M_2 = \begin{pmatrix} 0 & 0 & 1 & 1 \ 0 & 0 & 1 & 1 \ 1 & 1 & 0 & 0 \ 1 & 1 & 0 & 0 \end{pmatrix}. $$ 两个矩阵完全不同，但它们对应的图是相同的（只不过节点的顺序改了）。计算图在图神经网络里，通常每个节点$v$ 都有一个局部计算图，用来表示该节点在聚合信息时所需的所有邻居（及邻居的邻居……）的依赖关系。直观理解以节点 $v$ 为根； 1-hop 邻居在第一层，2-hop 邻居在第二层…… 逐层展开直到一定深度（例如 k 层）。这样形成一棵“邻域树”或“展开图”，其中每个节点都需要从其子节点（邻居）获取特征进行聚合。例子在图神经网络中，每一层的计算通常包括以下步骤：聚合（Aggregation）：将邻居节点的特征聚合起来（如求和、均值、最大值等）。变换（Transformation）：将聚合后的特征通过一个神经网络（如 MLP）进行非线性变换。 A | B / \ C D 假设每个节点的特征是一个二维向量：节点 $ A $ 的特征：$ h_A = [1.0, 0.5] $ 节点 $ B $ 的特征：$ h_B = [0.8, 1.2] $ 节点 $ C $ 的特征：$ h_C = [0.3, 0.7] $ 节点 $ D $ 的特征：$ h_D = [1.5, 0.9] $ 第 1 层更新：$A^{(0)} \to A^{(1)}$ 节点 $A$ 的 1-hop 邻居：只有 $B$。聚合（示例：自+邻居取平均）： $$ z_A^{(1)} = \frac{A^{(0)} + B^{(0)}}{2} = \frac{[1.0,,0.5] + [0.8,,1.2]}{2} = \frac{[1.8,,1.7]}{2} = [0.9,,0.85]. $$ MLP 变换：用一个MLP映射 $z_A^{(1)}$ 到 2 维输出： $$ A^{(1)} ;=; \mathrm{MLP_1}\bigl(z_A^{(1)}\bigr). $$ （数值略，可想象 $\mathrm{MLP}([0.9,0.85]) \approx [1.0,0.6]$ 之类。）结果：$A^{(1)}$ 包含了 A 的初始特征 + B 的初始特征信息。第 2 层更新：$A^{(1)} \to A^{(2)}$ 为了让 A 获得 2-hop 范围（$C, D$）的信息，需要先让 $B$ 在第 1 层就吸收了 $C, D$ 的特征，从而 $B^{(1)}$ 蕴含 $C, D$ 信息。然后 A 在第 2 层再从 $B^{(1)}$ 聚合。节点 B 在第 1 层（简要说明）邻居：${A,C,D}$ 聚合：$z_B^{(1)} = \frac{B^{(0)} + A^{(0)} + C^{(0)} + D^{(0)}}{4} = \frac{[0.8,,1.2] + [1.0,,0.5] + [0.3,,0.7] + [1.5,,0.9]}{4} = \frac{[3.6,,3.3]}{4} = [0.9,,0.825].$ MLP 变换：$B^{(1)} = \mathrm{MLP}\bigl(z_B^{(1)}\bigr)$。此时 $B^{(1)}$ 已经包含了 $C, D$ 的信息。节点 $A$ 的第 2 层聚合邻居：$B$，但此时要用 $B^{(1)}$（它已吸收 C、D）聚合： $$ z_A^{(2)} = A^{(1)} + B^{(1)}. $$ MLP 变换： $$ A^{(2)} = \mathrm{MLP_2}\bigl(z_A^{(2)}\bigr). $$ 结果：$A^{(2)}$ 就包含了 2-hop 范围的信息，因为 $B^{(1)}$ 中有 $C, D$ 的贡献。 GNN 的层数就是节点聚合邻居信息的迭代次数（也是计算图的层数）。同一层里，所有节点共享一组参数（同一个 MLP 或全连接神经网络）矩阵运算符号波浪号用于表示经过自环增强的矩阵。 $\tilde D^{-1},\tilde A,\tilde D^{-1}H$ $H'=\tilde D^{-1},\tilde A,H$ A | B / \ C D 1.构造矩阵含自环邻接矩阵 $\tilde A=A+I$ $$ \tilde A = \begin{bmatrix} 1 & 1 & 0 & 0\\ 1 & 1 & 1 & 1\\ 0 & 1 & 1 & 0\\ 0 & 1 & 0 & 1 \end{bmatrix} $$ 度矩阵 $\tilde D$（对角＝自身＋邻居数量） $$ \tilde D = \mathrm{diag}(2,\,4,\,2,\,2) $$ 特征矩阵 $H$（每行为一个节点的特征向量） $$ H = \begin{bmatrix} 1.0 & 0.5\\ 0.8 & 1.2\\ 0.3 & 0.7\\ 1.5 & 0.9 \end{bmatrix} $$ **2.计算** 求和： $\tilde A,H$ $$ \tilde A H = \begin{bmatrix} 1.8 & 1.7\\ 3.6 & 3.3\\ 1.1 & 1.9\\ 2.3 & 2.1 \end{bmatrix} $$ 平均： $\tilde D^{-1}(\tilde A H)$ $$ \tilde D^{-1}\tilde A H = \begin{bmatrix} 0.90 & 0.85\\ 0.90 & 0.825\\ 0.55 & 0.95\\ 1.15 & 1.05 \end{bmatrix} $$ GCN 在 GCN 里，归一化（normalization）的核心目的就是平衡不同节点在信息传播（message‑passing）中的影响力，避免「高连通度节点（high‑degree nodes）」主导了所有邻居的特征聚合。 $H' = \tilde D^{-1},\tilde A,\tilde D^{-1}H$ 对节点 $i$ 来说： $$ H'_i = \frac1{d_i}\sum_{j\in \mathcal N(i)}\frac1{d_j}\,H_j $$ 先用源节点 $j$ 的度 $d_j$ 缩小它的特征贡献，再用目标节点 $i$ 的度 $d_i$ 归一化总和。 GCN中实际的公式： $$ H^{(l+1)} = \sigma\Big(\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}H^{(l)}W^{(l)}\Big) $$ 其中： $H^{(l)}$ 是第 $l$ 层的输入特征（对第 $0$ 层来说就是节点的初始特征）， $W^{(l)}$ 是第 $l$ 层的可训练权重矩阵，相当于一个简单的线性变换（类似于 MLP 中的全连接层）， $\sigma(\cdot)$ 是非线性激活函数（例如 ReLU）， $\tilde{A}$ 是包含自连接的邻接矩阵， $\tilde{D}$ 是 $\tilde{A}$ 的度矩阵。 $\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}$的优势 1.对称归一化：$\tilde D^{-\frac{1}{2}},\tilde A,\tilde D^{-\frac{1}{2}}$ 是一个对称矩阵，这意味着信息在节点之间的传播是双向一致的。这种对称性特别适合无向图，因为无向图的邻接矩阵 $\tilde A$ 本身就是对称的。 2.适度抑制高连通度节点：对称平方根归一化通过 $\tilde D^{-\frac{1}{2}}$ 对源节点和目标节点同时进行归一化，能够适度抑制高连通度节点的特征贡献，而不会过度削弱其影响力。 3.谱半径控制：对称平方根归一化后的传播矩阵 $\tilde D^{-\frac{1}{2}},\tilde A,\tilde D^{-\frac{1}{2}}$ 的谱半径（最大特征值）被控制在 $[0, 1]$ 范围内，这有助于保证模型的数值稳定性。 4.归一化拉普拉斯矩阵：对称平方根归一化的传播矩阵 $\tilde D^{-\frac{1}{2}},\tilde A,\tilde D^{-\frac{1}{2}}$ 与归一化拉普拉斯矩阵 $L = I - \tilde D^{-\frac{1}{2}},\tilde A,\tilde D^{-\frac{1}{2}}$ 有直接联系。归一化拉普拉斯矩阵在图信号处理中具有重要的理论意义，能够更好地描述图的频谱特性。 GraphSAGE优化 $$ h_v^{(k+1)} = \sigma \Big( \mathbf{W}_{\text{self}}^{(k)} \cdot h_v^{(k)} \;+\; \mathbf{W}_{\text{neigh}}^{(k)} \cdot \mathrm{MEAN}_{u\in N(v)}\bigl(h_u^{(k)}\bigr) \Big), $$ GAT 以下例子只汇聚了一阶邻居信息！图注意力网络（GAT）中最核心的运算：图注意力层。它的基本思想是：线性变换：先对每个节点的特征 $\mathbf{h}_i$ 乘上一个可学习的权重矩阵 $W$，得到变换后的特征 $W \mathbf{h}_i$。自注意力机制：通过一个可学习的函数 $a$，对节点 $i$ 和其邻居节点 $j$ 的特征进行计算，得到注意力系数 $e_{ij}$。这里会对邻居进行遮蔽（masked attention），即只计算图中有边连接的节点对。归一化：将注意力系数 $e_{ij}$ 通过 softmax 进行归一化，得到 $\alpha_{ij}$，表示节点 $j$ 对节点 $i$ 的重要性权重。聚合：最后利用注意力系数加权邻居节点的特征向量，并经过激活函数得到新的节点表示 $\mathbf{h}_i'$。多头注意力：为增强表示能力，可并行地执行多个独立的注意力头（multi-head attention），再将它们的结果进行拼接（或在最后一层进行平均），从而得到最终的节点表示。输入：节点特征矩阵（Node Features）形状：[num_nodes, num_features] 每个节点的初始特征向量，例如社交网络中用户的属性或分子图中原子的特征。图的边结构（Edge Index）形状：**[2, num_edges]（稀疏邻接表格式）**或稠密邻接矩阵 [num_nodes, num_nodes]（最好是将邻接矩阵转为邻接表）定义图中节点的连接关系（有向/无向边）。预训练的GAT模型参数包括注意力层的权重矩阵、注意力机制参数等（通过model.load_state_dict()加载）线性变换（特征投影）目的：将原始特征映射到更高维/更有表达力的空间。操作：对每个节点的特征向量 $\mathbf{h}_i$ 左乘可学习权重矩阵 $W$（维度为 $d' \times d$，$d$ 是输入特征维度，$d'$ 是输出维度）： $$ \mathbf{z}_i = W \mathbf{h}_i, \quad \mathbf{z}_j = W \mathbf{h}_j $$ 自注意力系数计算（关键步骤）目标：计算节点 $i$ 和邻居 $j$ 之间的未归一化注意力得分 $e_{ij}$。实现方式：步骤1：将两个节点的投影特征 $\mathbf{z}_i$ 和 $\mathbf{z}_j$ 拼接（$|$），得到一个联合表示。步骤2：通过一个可学习的参数向量 $\mathbf{a}$（维度 $2d'$）和激活函数（如LeakyReLU）计算得分： $$ e_{ij} = \text{LeakyReLU}\Bigl(\mathbf{a}^\top [\mathbf{z}_i | \mathbf{z}_j]\Bigr) $$ 直观理解：$\mathbf{a}$ 像一个"问题"，询问两个节点的联合特征有多匹配。公式拆分：拼接：$[\mathbf{z}_i | \mathbf{z}_j]$（长度 $2d'$）点积：$\mathbf{a}^\top [\mathbf{z}_i | \mathbf{z}_j]$（标量）非线性激活：LeakyReLU（引入稀疏性，避免负值被完全抑制）归一化注意力权重目的：让注意力系数在邻居间具有可比性（总和为1）。方法：对 $e_{ij}$ 应用 softmax，仅对节点 $i$ 的邻居 $\mathcal{N}i$ 归一化： $$ \alpha{ij} = \text{softmax}j(e{ij}) = \frac{\exp(e_{ij})}{\sum_{k \in \mathcal{N}i} \exp(e{ik})} $$ 关键点：分母只包含节点 $i$ 的直接邻居（包括自己，如果图含自环）。注意力系数计算示例（带数值模拟）假设：输入特征 $\mathbf{h}_i = [1.0, 2.0]$, $\mathbf{h}_j = [0.5, 1.5]$（维度 $d=2$）权重矩阵 $W = \begin{bmatrix}0.1 & 0.2 \ 0.3 & 0.4\end{bmatrix}$（$d'=2$）参数向量 $\mathbf{a} = [0.5, -0.1, 0.3, 0.2]$（长度 $2d'=4$）计算步骤：线性变换： $$ \mathbf{z}_i = W \mathbf{h}_i = [0.1 \times 1.0 + 0.2 \times 2.0,\ 0.3 \times 1.0 + 0.4 \times 2.0] = [0.5, 1.1] $$ $$ \mathbf{z}_j = W \mathbf{h}_j = [0.1 \times 0.5 + 0.2 \times 1.5,\ 0.3 \times 0.5 + 0.4 \times 1.5] = [0.35, 0.75] $$ 拼接特征： $$ [\mathbf{z}_i | \mathbf{z}_j] = [0.5, 1.1, 0.35, 0.75]\ [\mathbf{z}_i | \mathbf{z}_i] = [0.5, 1.1, 0.5, 1.1] $$ 计算未归一化得分： $$ e_{ij} = \text{LeakyReLU}(0.5 \times 0.5 + (-0.1) \times 1.1 + 0.3 \times 0.35 + 0.2 \times 0.75) = \text{LeakyReLU}(0.25 - 0.11 + 0.105 + 0.15) = \text{LeakyReLU}(0.395) = 0.395 $$ $$ e_{ii} = \text{LeakyReLU}(0.5 \times 0.5 + (-0.1) \times 1.1 + 0.3 \times 0.5 + 0.2 \times 1.1)=0.51 $$ （假设LeakyReLU斜率为0.2，正输入不变）归一化（假设邻居只有 $j$ 和自身 $i$）： $$ \alpha_{ij} = \frac{\exp(0.395)}{\exp(0.395) + \exp(0.51)}\approx 0.529 $$ 特征聚合单头注意力聚合（得到新的节点特征） $$ \mathbf{h}_i' = \sigma\Bigl(\sum_{j \in \mathcal{N}_i} \alpha_{ij} \,W \mathbf{h}_j\Bigr)=\sigma\left(\sum_{j \in \mathcal{N}_i} \alpha_{ij} \mathbf{z}_j\right) $$ 对$i$ 的邻居节点加权求和，再经过非线性激活函数得到新的特征表示多头注意力(隐藏层时拼接) 每个头都有自己的一组可学习参数，并独立计算注意力系数和输出特征。以捕捉邻居节点的多种不同关系或特征。如果有 $K$ 个独立的注意力头，每个头输出 $\mathbf{h}_i'^{(k)}$，则拼接后的输出为： $$ \begin{align*} \mathbf{h}_i' = \Bigg\Vert_{\substack{k=1 \\ ~}}^{K} \mathbf{h}_i^{(k)} \end{align*} $$ 其中，$\big\Vert$ 表示向量拼接操作，$\alpha_{ij}^{(k)}$、$W^{(k)}$ 分别为第 $k$ 个注意力头对应的注意力系数和线性变换。例假如： $$ \mathbf{h}_i'^{(1)} = \sigma\left(\begin{bmatrix} 0.6 \\ 0.4 \end{bmatrix}\right) = \begin{bmatrix} 0.6 \\ 0.4 \end{bmatrix}. \\ \mathbf{h}_i'^{(2)} = \sigma\left(\begin{bmatrix} 0.6 \\ 1.4 \end{bmatrix}\right) = \begin{bmatrix} 0.6 \\ 1.4 \end{bmatrix}. $$ 将两个头的输出在特征维度上进行拼接，得到最终节点 $i$ 的新特征表示： $$ \mathbf{h}_i' = \mathbf{h}_i'^{(1)} \,\Vert\, \mathbf{h}_i'^{(2)} = \begin{bmatrix} 0.6 \\ 0.4 \end{bmatrix} \,\Vert\, \begin{bmatrix} 0.6 \\ 1.4 \end{bmatrix} = \begin{bmatrix} 0.6 \\ 0.4 \\ 0.6 \\ 1.4 \end{bmatrix}. $$ 意义：不同注意力头可以学习到节点之间不同类型的依赖关系。例如：一个头可能关注局部邻居（如一阶邻居的拓扑结构），另一个头可能关注全局特征相似性（如节点特征的余弦相似性）。多头注意力（输出层时平均）在最终的输出层（例如分类层）通常会将多个头的结果做平均，而不是拼接： $$ \begin{align*} \mathbf{h}_i' = \sigma\left(\frac{1}{K}\sum_{k=1}^K \mathbf{h}_i^{(k)}\right) \end{align*} $$ 多头注意力比喻：盲人摸象 + 团队合作场景：大象 = 图中的目标节点及其邻居（待分析的复杂结构）盲人 = 多个注意力头（每个头独立"观察"）团队指挥 = 损失函数（指导所有盲人协作） 1. 初始摸象（前向传播）盲人A（头1）：摸到腿（关注局部结构邻居），心想："柱子！这动物像房子。"（生成表示 $\mathbf{h}_i^{(1)}$）初始偏好：腿的粗细、纹理（权重 $W^{(1)}$ 和 $\mathbf{a}^{(1)}$ 的初始化倾向）盲人B（头2）：摸到鼻子（关注特征相似的邻居），心想："软管！这动物能喷水。"（生成表示 $\mathbf{h}_i^{(2)}$）初始偏好：鼻子的长度、灵活性（权重 $W^{(2)}$ 和 $\mathbf{a}^{(2)}$ 不同）盲人C（头3）：摸到尾巴（关注远距离邻居），心想："绳子！这动物有附件。"（生成表示 $\mathbf{h}_i^{(3)}$） 2. 团队汇报（多头聚合）综合报告：将三人的描述拼接："柱子+软管+绳子"（$\mathbf{h}_i' = \text{concat}(\mathbf{h}_i^{(1)}, \mathbf{h}_i^{(2)}, \mathbf{h}_i^{(3)})$）指挥者（分类器）猜测："这可能是大象。"（预测结果 $\hat{y}_i$） 3. 指挥者反馈（损失函数）真实答案：是大象（标签 $y_i$）损失计算：当前综合报告遗漏了"大耳朵"（交叉熵损失 $\mathcal{L}$ 较高）指挥者说："接近答案，但还缺关键特征！"（反向传播梯度） 4. 盲人调整（梯度更新）盲人A（头1）：听到反馈："需要更多特征，但你的柱子描述还行。" 调整：更精确测量腿的直径和硬度（更新 $W^{(1)}$），而非改摸鼻子结果：下次报告"粗柱子上有横向褶皱"（更接近象腿的真实特征）盲人B（头2）：听到反馈："软管描述不够独特。" 调整：更仔细感受鼻子的褶皱和肌肉运动（更新 $W^{(2)}$）结果：下次报告"可弯曲的软管，表面有环形纹路" 盲人C（头3）：听到反馈："绳子太模糊。" 调整：注意尾巴的末端毛发（更新 $W^{(3)}$）结果：下次报告"短绳末端有硬毛刷" 5. 最终协作新一轮综合报告："褶皱粗柱 + 环形软管 + 带毛刷短绳" → 指挥者确认："是大象！"（损失 $\mathcal{L}$ 降低） GIN 1. 背景与动机 GCN / GraphSAGE 的聚合（mean / max）并不是注入函数（injective function），因此可能会把不同的邻居多重集（multiset）映射成同一个表示。这导致它们在表达能力上不如 Weisfeiler-Lehman (WL) 图同构测试。 GIN 的目标是：设计一种邻居聚合方式，使得 GNN 的判别能力与 WL 测试等价，达到目前已知的最强表达力 2. 什么是 WL 测试？ WL（Weisfeiler–Lehman）测试，也叫颜色精炼（color refinement），是一个图同构判别算法。目标：判断两个图是否同构（结构上完全相同）。核心思想：迭代地更新节点“标签”，直到稳定：初始：每个节点有一个标签（例如节点特征，或者都相同）。更新：每个节点的新标签 = 自身标签 + 邻居标签的集合（哈希成一个新颜色）。重复：不同的邻居结构会得到不同的标签。结论：如果在某一轮，两个图的节点标签分布不同，就判定它们不是同构的。否则（如果一直相同），可能同构，也可能 WL 分不出来（WL 并不是完美算法）。 👉 直观理解：WL 就是通过邻居聚合来区分节点/图结构。这和 GNN 的消息传递（message passing）几乎是一样的！ GIN 就是用 sum + MLP 精确模拟了 WL 的“注入式聚合”，因此它能达到和 WL 一样强的区分力。举例 A / \ B C 初始节点特征： A: red B: blue C: blue 1）WL 测试开始时，每个节点用自己的初始特征（颜色）作为标签。 2）第 1 轮更新规则：新标签 = 节点自己的颜色 + 邻居颜色的集合（然后哈希成一个新的颜色/编码） A 的邻居是 {B, C} = {blue, blue} → 新标签 = (red, {blue, blue}) B 的邻居是 {A} = {red} → 新标签 = (blue, {red}) C 的邻居是 {A} = {red} → 新标签 = (blue, {red}) 更新后： A: 新颜色 α B: 新颜色 β C: 新颜色 β 3）第 2 轮更新继续相同规则： A 的邻居是 {B, C} = {β, β} → 新标签 = (α, {β, β}) B 的邻居是 {A} = {α} → 新标签 = (β, {α}) C 的邻居是 {A} = {α} → 新标签 = (β, {α}) 更新后： A: 新颜色 γ B: 新颜色 δ C: 新颜色 δ WL 的作用：它让节点的标签逐步编码了“以自己为根的邻居子树结构”。 A 的标签区分了“自己 + 两个相同邻居”。 B 和 C 的标签相同，因为它们对称，结构一样。 3. GIN 的核心公式节点更新： $h_v^{(k)} = \text{MLP}^{(k)} \Big( (1 + \epsilon^{(k)}) \cdot h_v^{(k-1)} + \sum_{u \in \mathcal{N}(v)} h_u^{(k-1)} \Big) \tag{4.1}$ $h_v^{(k)}$：节点 $v$ 在第 $k$ 层的表示。 $\epsilon^{(k)}$：可学习或固定的标量（常见取 0）。 $\sum$：对邻居特征求和 → sum aggregator，是注入函数。 $\text{MLP}^{(k)}$：多层感知机，用来提升非线性表达能力。图级读出（graph-level readout）： $h_G = \text{CONCAT}\Big(\text{READOUT}\big({ h_v^{(k)} ,|, v \in G}\big) ;|; k=0,1,\dots,K \Big) \tag{4.2}$ 将不同层的节点表示分别做 READOUT（一般是 sum），再拼接。这样能保留从局部到全局的多尺度子结构信息。 4. 关键思想解析 (1) 为什么用 Sum Aggregator？ Sum 是注入的（injective）：不同的邻居 multiset，会得到不同的和。 Mean 只能捕捉分布（比例），区分不了节点数。 Max 只保留去重后的集合，丢失了重复性。 (2) ε 的作用 $(1 + \epsilon)$ 用于控制中心节点自身特征在聚合中的权重。如果固定 $\epsilon=0$ → 模型称为 GIN-0。如果 $\epsilon$ 可学习 → 称为 GIN-ε。实验表明：GIN-0 泛化能力稍微更好，但两者训练拟合力差不多。 (3) 与 WL 测试的关系 WL 测试迭代地“哈希邻居标签”。 GIN 用 MLP + sum 聚合模拟了这个注入映射，因此理论上等价于 WL 测试，即：GIN 是目前表达能力最强的消息传递型 GNN。直推式学习与归纳式学习直推式学习（Transductive Learning）模型直接在固定的训练图上学习节点的表示或标签，结果只能应用于这张图中的节点，无法直接推广到新的、未见过的节点或图。例如：DeepWalk ，它通过对固定图的随机游走生成节点序列来学习节点嵌入，因此只能得到训练图中已有节点的表示，一旦遇到新节点，需要重新训练或进行特殊处理。注意：GCN是直推式的，因为它依赖于整个图的归一化邻接矩阵进行卷积操作，需要在固定图上训练。归纳式学习（Inductive Learning）模型学习的是一个映射函数或规则，可以将这种规则推广到未见过的新节点或新图上。这种方法能够处理动态变化的图结构或新的数据。例如：图神经网络的变体（GAT）都是归纳式的，因为它们在聚合邻居信息时学习一个共享的函数，该函数能够应用于任意新节点。局部计算：GAT 的注意力机制仅在每个节点的局部邻域内计算，不依赖于全局图结构。参数共享：模型中每一层的参数（如 $W$ 和注意力参数 $\mathbf{a}$）是共享的，可以直接应用于新的、未见过的图。泛化到新节点：在许多推荐系统中，如果有新用户加入（新节点），我们需要给他们做个性化推荐，这就要求系统能够在不重新训练整个模型的情况下，为新用户生成表示（Embedding），并且完成推荐预测。泛化到新图：分子图预测。我们会用一批训练分子（每个分子是一张图）来训练一个 GNN 模型，让它学会如何根据图结构与原子特征来预测分子的某些性质（如毒性、溶解度、活性等）。训练完成后，让它在新的分子上做预测。总结：直推式要求图的邻接矩阵不能变化，归纳式要求现有的邻接关系尽量不变化，支持少量节点新加入，直接复用已有W和a聚合特征。 GNN的优点：参数共享浅层嵌入(如Deepwalk)为每个节点单独学习一个向量，参数量随节点数线性增长。 GNN 使用统一的消息传递/聚合函数，所有节点共享同一套模型参数，大幅减少参数量。归纳式学习浅层方法通常无法直接处理训练时未见过的新节点。 GNN 能通过邻居特征和结构来生成新节点的表示，实现对新节点/新图的泛化。利用节点特征浅层方法多半只基于连接关系（图结构）。 GNN 可以直接整合节点的属性（文本、图像特征等），生成更具语义信息的嵌入。更强的表达能力 GNN 通过多层聚合邻居信息，可学习到更丰富的高阶结构和特征交互，往往在多种任务上表现更优。

论文

zy123 1年前
0 19 0