一颗鼠儿果的博客

Pre-Training in NLP

2021-01-14T07:36:33.000Z

This blog briefly reviews the pre-training embeddings and models in NLP.

Pre-Trained Embeddings

Word2Vec

1
2
3

T. Mikolov, et al., 2013. Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
T. Mikolov, et al., 2013. Distributed representations of words and phrases and their compositionality. NIPS 2013. 
X. Rong, 2014. Word2vec parameter learning explained. arXiv preprint arXiv:1411.2738.

Continuous Bag-of-Words Model

Given a sequence of words $w_1, w_2, w_3, \cdots, w_T$, maximize the average log probability:

$\frac{1}{T} \sum_{t=1}^{T} \log p \left( w_t | w_{t-c}, \dots, w_{t-1}, w_{t+1}, \dots, w_{t+c} \right)$

where

$\begin{aligned}p \left( w_t | w_{t-c}, \dots, w_{t-1}, w_{t+1}, \dots, w_{t+c} \right) &= \frac{\exp \left( v'_t \cdot \bar{v}_{t,c} \right)}{\sum_{k=1}^W \exp \left( v'_k \cdot \bar{v}_{t,c} \right)} \\\bar{v}_{t,c} &= \frac{1}{2C} \sum_{-c \le j \le c, j \neq 0} v_{t+j}\end{aligned}$

where $v_i$ and $v’_i$ are “input” and “output” vector representations of word $i$, and $W$ is the vocabulary size.

Continuous Skip-Gram Model

Given a sequence of words $w_1, w_2, w_3, \cdots, w_T$, maximize the average log probability:

$\frac{1}{T} \sum_{t=1}^{T} \sum_{-c \le j \le c, j \neq 0} \log p \left( w_{t+j} | w_t \right)$

where the basic formula of $p \left( w_{t+j} | w_t \right)$ can be:

$p \left( w_{t+j} | w_t \right) = \frac{\exp \left( v'_{t+j} \cdot v_t \right)}{\sum_{k=1}^W \exp \left( v'_k \cdot v_t \right)}$

Hierarchical Softmax

Negative Sampling

GloVe: Global Vectors for Word Representation

1	J. Pennington, R. Socher, C. D. Manning, 2014. GloVe: Global vectors for word representation. EMNLP 2014.

The embeddings are trained only on the non-zero elements in a word-word co-occurrence matrix.

Let the word-word co-occurrence matrix be denoted by $X$, whose entries $X_{ij}$ tabulate the number of times word $j$ occurs in the context of word $i$.
Let $X_i = \sum_k X_{ik}$ be the number of times any word appears in the context of word $i$.
Let $P_{ij} = P(j|i) = X_{ij} / X_{i}$ be the probability that word $j$ appear in the context of word $i$.

How certain aspects of meaning can be extracted from co-occurance probabilities?

Take $i = ice$ and $j = steam$, then:

For words $k$ related to $ice$ but not $steam$ (e.g., $k = solid$), the ratio $P_{ik}/P_{jk}$ should be large;
For words $k$ related to $steam$ but not $ice$ (e.g., $k = gas$), the ratio $P_{ik}/P_{jk}$ should be small;
For words $k$ related to both (e.g., $k = water$) or neither (e.g., $k = fashion$), the ratio $P_{ik}/P_{jk}$ should be close to one.

Hence, compared to the raw probabilities, the ratio is better able to distinguish relevant words ($solid$ and $gas$) from irrelevant words ($water$ and $fashion$).

The GloVe Model

Note that the ratio $P_{ik}/P_{jk}$ depends on three words $i$, $j$ and $k$, so the most general model takes the form:

$F \left( w_i, w_j, \tilde{w}_k \right) = \frac{P_{ik}}{P_{jk}}$

where $w \in \mathbb{R}^d$ are word vectors, and $\tilde{w} \in \mathbb{R}^d$ are separate context word vectors.

To only consider vector differences, the equation becomes:
$F \left( w_i - w_j, \tilde{w}_k \right) = \frac{P_{ik}}{P_{jk}}$
To keep the linear structure of vector space, the equation becomes:
$F \left( (w_i - w_j)^T \tilde{w}_k \right) = \frac{P_{ik}}{P_{jk}}$
Require that $F = \exp$, then:
$\exp \left( (w_i - w_j)^T \tilde{w}_k \right) = \frac{\exp \left( w_i^T \tilde{w}_k \right)}{\exp \left( w_j^T \tilde{w}_k \right)} = \frac{P_{ik}}{P_{jk}}$
Then:
$\exp \left( w_i^T \tilde{w}_k \right) = P_{ik} = \frac{X_{ik}}{X_i}$
Then:
$w_i^T \tilde{w}_k = \log \left( P_{ik} \right) = \log \left( X_{ik} \right) - \log \left( X_i \right)$
Absorb $\log \left( X_i \right)$ to a bias $b_i$, and add another bias $\tilde{b}_k$ for symmetry:
$w_i^T \tilde{w}_k + b_i + \tilde{b}_k = \log \left( X_{ik} \right)$

A weighted least squares regression model to estimate the parameters:

$J = \sum_{i,j=1}^{V} f(X_{ij}) \left( w_i^T \tilde{w}_k + b_i + \tilde{b}_k - \log \left( X_{ik} \right) \right)^2$

where $V$ is the vocabulary size and $f$ is the weighting function.

Training Details

Train the model using AdaGrad, stochastically sampling nonzero elements from $X$.

FastText

1	P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, 2016. Enriching word vectors with subword information. ACL 2017.

Each word is represented as a bag of character n-grams.
Each character n-gram is associated to a vector representation, and a word is represented as the sum of the vector representations of its character n-grams.

Pre-Trained Models

CoVe: Learned in Translation: Contextualized Word Vectors

1	B. McCann, et al., 2017. Learned in Translation: ContextualizedWord Vectors. NIPS 2017.

Train an encoder for a large NLP task, and transfer the trained encoder to other NLP tasks.
Specifically, McCann et al. (2017) train an attentional seq2seq model for machine translation, and use the LSTM-based encoder (which is a common component in NLP tasks) to transfer to other tasks.

The largest machine translation dataset is WMT 2017, consisting roughly 7M sentence pairs.

ELMo

1	M. E. Peters, et al., 2018. Deep contextualized word representations. ACL 2018.

Bidirectional language models

Given a sequence of words $(w_1, w_2, w_3, \cdots, w_T)$, a forward language model (forward LM) computes the probability of the sequence by modeling the word $w_k$ given the history $(w_1, w_2, \cdots, w_{k-1})$:

$p \left( w_1, w_2, \dots, w_T \right) = \prod_{k=1}^T p \left( w_k | w_1, w_2, \cdots, w_{k-1} \right)$

And a backward LM computes:

$p \left( w_1, w_2, \dots, w_T \right) = \prod_{k=1}^T p \left( w_k | w_{k+1}, w_{k+2}, \cdots, w_T \right)$

With a bidirectional LSTM, the log likelihood is:

$\begin{aligned}\sum_{k=1}^T &\log p \left( w_k | w_1, w_2, \cdots, w_{k-1}; \Theta_x, \overrightarrow{\Theta}_{LSTM}, \Theta_s \right) + \\&\log p \left( w_k | w_{k+1}, w_{k+2}, \cdots, w_T; \Theta_x, \overleftarrow{\Theta}_{LSTM}, \Theta_s \right) \end{aligned}$

where $\Theta_x$ is the token representation layer, and $\Theta_s$ is the softmax layer.

ELMo representations

Combine the outputs of different LSTM layers (including the token representation layer) as ELMo representations.

Flair

1	A. Akbik, et al., 2018. Contextual String Embeddings for Sequence Labeling. COLING 2018.

Character-level language modeling: An bidirectional LSTM, each LSTM is trained to predict the next character given the history characters.

BERT

1	J. Devlin, et al., 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT 2019.

Model Architecture

Transformer encoder: Transformer blocks attend to both left and right contexts.

Input Representation

WordPiece Embeddings: Split word pieces are denoted with ##.
Trainable positional embeddings with supported sequence lengths up to 512 tokens.
The first token of every sequence is always [CLS], which is used as the aggregate sequence representation
for classification tasks.
Sentence pairs are packed into single sequence.
- The two sentences are seperated with [SEP].
- Add a trainable sentence A embedding to every token of the first sentence.
- Add a trainable sentence B embedding to every token of the second sentence.
- For single-sentence inputs, only use the sentence A embeddings.

Pre-Training Task #1: Masked LM (MLM)

Masked LM: Randomly mask some percentage of the input tokens, and use other tokens to predict the masked tokens. Or referred as Cloze Task.
Specifically, 15% tokens are masked, being replaced with a [MASK] token. However, this creates a mismatch between pre-training and fine-tuning, since the [MASK] token is never seen during fine-tuning. Hence, the data generator chooses 15% random tokens and performs:

80% of the time: Replace with [MASK] token;
10% of the time: Replace with a random word;
10% of the time: Keep the word unchanged.

Pre-Training Task #2: Next Sentence Prediction (NSP)

Many downstream tasks such as Question Answering (QA) and Natural Language Inference (NLI) are based on understanding the relationship between two text sentences.
Next Sentence Prediction: Choose the sentences A and B for each pretraining example

50% of the time: B is the actual next sentence that follows A;
50% of the time: B is a random sentence from the corpus.

The objective is to predict whether B is actually following A.

Pre-Training Procedure

Batch size: 256 sequences (256 * 512 = 128,000 tokens)
Training steps: 1,000,000
Optimization
- Adam with learning rate of 1e-4, L2 weight decay of 0.01
- Learning rate warmup over the first 10,000 steps, and linear decay of the learning rate
Dropout: 0.1 on all layers

Fine-Tuning Procedure

Batch size: 16, 32
Learning rate (Adam): 5e-5, 3e-5, 2e-5
Number of epochs: 3, 4

GPT (Generative Pre-Training)

1	A. Radford, et al., 2018. Improving Language Understanding by Generative Pre-Training.

Model Architecture

Transformer decoder: Transformer blocks attend to only left contexts.

Unsupervised Pre-Training

Given an unlabeled sequence of tokens $\mathcal{U} = (u_1, u_2, u_3, \cdots, u_T)$, use a standard language modeling objective to maximize the following likelihood:

$L_1(\mathcal{U}) = \sum_{k} \log p \left( u_k | u_{k-1}, u_{k-2}, \dots, u_{k-c}; \Theta \right)$

where $c$ is the context window size, $\Theta$ represents the model parameters.

Specifically,

$\begin{aligned}h_0 &= U W_e + W_p \\h_l &= \mathrm{transformer\_decoder\_block} (h_{l-1}), \forall i \in [1, n] \\p(u) &= \mathrm{softmax} (h_n W_e^T)\end{aligned}$

where $U = (u_{-k}, \dots, u_{-1})$ is the context vector of tokens, $n$ is the number of layers, $W_e$ is the token embedding matrix, and $W_p$ is the position embedding matrix.

Supervised Fine-Tuning

Given a labeled dataset $\mathcal{C}$, consisting sequences of input tokens $(x^1, x^2, x^3, \cdots, x^T)$, along with labels $y$, maximize:

$L_2(\mathcal{C}) = \sum_{(x, y)} \log p \left( y | x^1, x^2, x^3, \cdots, x^T \right)$

Include language modeling as an auxiliary objective:

$L_3(\mathcal{C}) = L_2(\mathcal{C}) = \lambda \cdot L_1(\mathcal{C})$

Task-Specific Input Transformations

Introduce special tokens for downstream tasks with structured inputs like textual entailment or QA.

Randomly initialized start token ~~and end token .~~
~~Delimiter token $.~~

Zero-Shot Behaviors

Zero-Shot Evaluation: Use the pre-trained generative model to perform tasks without supervised finetuning:

~~CoLA (Linguistic acceptability): Scored as the average token log-probability the generative model assigns and predictions are made by thresholding.~~
SST-2 (Sentiment analysis): Append the token very to each example, restrict the language model’s output distribution to only the words positive and negative, and guess the token it assigns higher probability to as the prediction.
~~RACE (Question answering): Pick the answer the generative model assigns the highest average token log-probability when conditioned on the document and question.~~
DPRD (Winograd schemas): Replace the definite pronoun with the two possible referrents and predict the resolution that the generative model assigns higher average token log-probability to the rest of the sequence after the substitution.

GPT-2

1 2	A. Radford, et al., 2019. Language Models are Unsupervised Multitask Learners. B. McCann, et al., 2018. The Natural Language Decathlon: Multitask Learning as Question Answering.

~~Language models can learn multiple NLP tasks without any explicit supervision.~~

When conditioned on a document plus questions, the answers generated by GPT-2 reach 55 F1 on the CoQA dataset - matching or exceeding the performance of baseline systems without using the 127,000+ training examples.

Task Conditioning

A single-task model: estimating a conditional distribution $p (output | input)$
A multi-task model: conditioning on both input and task, i.e., modeling $p (output | input, task)$

~~Task conditioning implemented at architectural level~~
~~Task conditioning implemented at algorithmic level~~
Specify task, input and output as sequence of symbols
Machine translation: (translate to french, english text, french text)
Reading comprehension: (answer the question, document, question, answer)

Training Dataset

Common Crawl results in significant data quality issues.
Scrape all outbound links from Reddit, which can be thought of as a heuristic indicator for whether other users found the link interesting, educational, or just funny.

Input Representation

Byte Pair Encoding (BPE): Byte-level version of BPE.

Experiments

~~Children’s Book Test (Cloze): Compute the probability of each choice in the sentence, and predict the one with the highest probability.~~
~~CoQA (Reading comprehension): Greedy decode from GPT-2 when conditioned on the document, the history of conversation (such as “Why?“), and a final token A.~~
~~Summarization: Add the text TL;DR.~~
Translation: Condition the language model on a context of example pairs of the formart english sentence = french sentence and then after the final prompt of english sentence =, sample from the model with greedy decoding.
Do good at French-English translation, while bad at English-French translation.

GPT-3

1	T. B. Brown, et al., 2020. Language Models are Few-Shot Learners.

In-Context Learning

~~Fine-Tuning: Update the weights of LM by training on a supervised dataset specific to the desired task.~~
~~Few-Shot: No weights are updated; The LM is given a few demonstrations of the desired task at inference time as conditioning.~~
~~One-Shot: No weights are updated; The LM is given ONE demonstration.~~
~~Zero-Shot: No weights are updated; The LM is given a natural language description of the desired task.~~

WSL 使用笔记

2021-01-14T07:24:58.000Z

这篇博客记录如何使用 WSL 在 Windows 上本地运行 Linux 服务。
安装 WSL
参考 Windows 安装和配置 WSL
启用 适用于Linux的Windows子系统
首先在 Win10 搜索栏中搜索并打开 启用或关闭Windows功能，勾选 适用于Linux的Windows子系统 项。
只有开启这项设置才能正常安装 WSL。
安装 WSL
在微软应用商店搜索 Linux，可以看到一系列 Linux 发行版，根据自己需要选择适合自己的发行版（如 Ubuntu 18.04 LTS），下载。
下载完成后启动，等待安装完成，输入账户和密码，便得到一个 Linux 环境。
WSL 文件位置
C:\Users\\AppData\Local\Packages\CanonicalGroupLimited.Ubuntu18.04onWindows_79rhkp1fndgsc\LocalState\rootfs
使用国内 Ubuntu 镜像
参考清华大学开源软件镜像站 - Ubuntu 镜像使用帮助。

Brat 标注工具使用笔记

2021-01-14T07:21:38.000Z

这篇博客记录如何使用 Brat 标注工具。
Brat 的服务必须置于 UNIX-like 系统，如果是 Windows，建议使用虚拟机或者 WSL。
Brat 标注平台安装（官网版本 / Python2）
参考 Brat 官网教程 - Installation。
在 Brat 官网下载 brat-v1.3_Crunchy_Frog.tar.gz 安装包，解压：
1
$ tar xzf brat-v1.3_Crunchy_Frog.tar.gz
进入解压后的目录进行安装：
1
2
$ cd brat-v1.3_Crunchy_Frog
$ ./install.sh
然后，运行服务：
1
$ python2 standalone.py
Brat 标注平台安装（Github版本 / Python3）
Clone Brat - Github 仓库。
进入目录后进行安装：
1
2
$ cd brat-v1.3_Crunchy_Frog
$ ./install.sh
然后，运行服务：
1
$ python3 standalone.py
Brat 标注平台配置
参考 Brat 官网教程 - Configuration。
配置文件包括四个文件：
annotation.conf: 定义实体、关系、属性类型
visual.conf: 定义标注结果的显示效果
tools.conf: 定义 Normalization 等工具
kb_shortcuts.conf: 定义快捷键
数据文件放置在 data 目录下。
Normalization 标注配置
参考 Brat 官网教程 - Normalization。
根据格式要求准备好 Brat Normalization DB 文件，生成数据库：
1
$ python tools/norm_db_init.py .txt

可以在 work 目录下查看生成的名为数据库文件。
修改配置文件 tools.conf，在 [normalization] 下添加数据库信息：
1
DBNAME :HOMEURL, :ENTRYURL
修改配置文件 annotation.conf，在 [entities] 定义实体时指明对应的标准化数据库，如：
1
2
3
ORG :
LOC :
MISC :
安装 SimString
SimString 用于 normalization 标注时关键词匹配，仅测试通 Python2 版本。
参考 SimString 官网。
在 SimString 官网下载源码包 simstring-1.0.tar.gz，解压。
如系统没有 gcc / g++ / python-dev 包，则需要安装：
1
2
3
$ sudo apt install gcc
$ sudo apt install g++
$ sudo apt install python-dev
进入解压后的目录，在 include/simstring/memory_mapped_file_posix.h 添加一行：
1
#include
进行编译安装：
1
2
3
4
$ ./configure
$ make
# To install the SimString header files
$ make install
封装成 Python2 模块
1
2
3
4
5
$ ./configure
$ cd swig/python
$ ./prepare.sh
$ python setup.py build_ext
$ python setup.py install
然后，可在 Python2 中调用 simstring 包。

LeetCode 笔记

2021-01-14T05:48:20.240Z

这是我 2019 年秋招过程中刷 LeetCode 做的笔记。
双指针法
适用于这样一种情形：需要确定一个范围作为解，使得目标函数取值最大。
用左右两端两个指针代表该范围，则：
如果在任意时刻，一定可以有至少一端，只要调整这一段就会使得目标函数取值变小；且如果只调整这一端的话，目标函数永远不会超过当前时刻的目标函数取值。那么，如果存在优于当前情况的解，迟早要调整另一端。所以，调整另一端一定不会错过最优解。
排序
快速排序
归并排序
递归和回溯
遍历二叉树
动态规划
举行重叠
判断角点
拓扑排序
LeetCode-207. 课程表
参考：https://www.jianshu.com/p/3347f54a3187
如果一个有向图为有向无环图（Directed Acyclic Graph, DAG），就能得到对应该图的拓扑排序，满足这样的条件：对于图中任意两个节点 u 和 v，若从 u 到 v 存在一条边，则拓扑排序中 u 一定排在 v 前面。
对于一个有向图，找到其一个拓扑排序的算法：
初始化一个数组 in_degree 用于保存每个结点的入度；
对图中每一个结点的子结点，使其入度加 1；
选取入度为 0 的结点加入输出（拓扑排序）；若无法找到入度为 0 的结点，则说明原有向图存在环，不存在对应的拓扑排序；
对输出结点，遍历其子结点，每个子结点的入度减 1；
重复步骤 3-4，直至遍历完所有结点。
其他 Tips
对数组进行操作时，试试排序后能否简化思路。
当考虑用 Hashmap 来判别对象的唯一性时，尝试采用其他 Coding 方案，比如当 Hashmap 的 Keys 在一个固定范围内时（如小写字母），就可以采用固定长度的数组来实现 Coding。

使用 Hexo 搭建博客并部署到 Github

2021-01-14T05:48:20.160Z

一份使用 Hexo 搭建博客并部署到 Github 的简要指南。
网上不少博客使用的 NexT 主题还是 v5.1.x 的版本（官网，Github），但事实上这个版本已经不再维护。最新版本已经更新到 v7.6.0 （官网，Github）。
我在使用 v5.1.x 版本时就遇到了 Bug，菜单栏和侧边栏的链接解析一直是错误的，网上教程很多是删除主题配置文件对应位置的空格，但这仅能修复菜单栏的问题，侧边栏的问题无法修复。最好的方案是把 NexT 更新到最新版本。
这里有一份 NexT 官网给的指南：Update from NexT v5.1.x
下载安装和环境配置
参考 Hexo 文档
安装 Git 和 Node.js
安装 Git
安装 Node.js
安装 Hexo
使用 npm 命令安装
1
$ npm install -g hexo-cli

安装完毕后，使用 npx hexo 执行 Hexo 命令。
新建博客的本地目录
1
2
3
$ npx hexo init
$ cd
$ npm install
安装并启用 NexT 主题
进入博客的本地目录后
1
$ git clone https://github.com/theme-next/hexo-theme-next themes/next

注意，不要使用这个不再维护的项目地址：https://github.com/iissnan/hexo-theme-next
然后，在站点配置文件（博客本地目录下的 _config.yml）中修改
1
theme: next
使用 VS Code 作为 Markdown 编辑器
安装 Markdown Preview Enhanced 插件即可。
Hexo 的基本使用
新建页面
1
$ npx hexo new "My New Post"
More info: Writing
运行服务
1
$ npx hexo server
More info: Server
根据 Markdown 文件生成静态 html 文件
1
$ npx hexo generate
More info: Generating
部署
1
$ npx hexo deploy
More info: Deployment
一般，在部署前需要重新生成静态页面，即需要运行
1
2
3
$ npx hexo clean
$ npx hexo generate
$ npx hexo deploy
部署到 Github
参考这篇博客：使用Github搭建Hexo技术博客托管在GitHub Pages上
创建 Github Pages 并 SHH 授权
在 Github 上创建以 .github.io 为名的 Repo。
创建 SHH 密钥，在 Git Bash 中输入
1
$ ssh-keygen -t rsa -C ""

然后，查看目录 C:/Users//.ssh 下是否有两个文件：私钥文件 id_rsa 和公钥文件 id_rsa.pub。
打开 id_rsa.pub 并复制其内容，访问 https://github.com/settings/ssh 新建密钥后粘贴 id_rsa.pub 中的内容。
安装部署相关的 Hexo 插件
在本地博客目录下
1
2
$ npm install hexo -server --save
$ npm install hexo-deployer-git --save

然后，编辑站点配置文件
1
2
3
4
5
6
7
# Deployment
## Docs: https://hexo.io/docs/deployment.html
deploy:
type: git
repo:
github: git@github.com:/.github.io.git,master
coding: git@git.coding.net:/.git,master

注意：密钥文件在原来的目录 C:/Users//.ssh 下时，系统会自动识别。
部署
在检查本地站点无误后，运行
1
$ npx hexo deploy
站点配置
添加菜单
创建 About 菜单
1
$ npx hexo new page about
生成 source/about 目录，修改其中 index.md 文件内容即可。
创建 Categories 菜单
1
$ npx hexo new page categories
生成 source/categories 目录，修改其中 index.md 文件标题：
1
2
3
title: 分类
date: xxxx-xx-xx xx:xx:xx
type: "categories"
创建 Tags 菜单
1
$ npx hexo new page tags
生成 source/tags 目录，修改其中 index.md 文件标题：
1
2
3
title: 标签
date: xxxx-xx-xx xx:xx:xx
type: "tags"
启用菜单
在主题配置文件（themes/next 下的 _config.yml）启用
1
2
3
4
5
6
menu:
home: / || home
about: /about/ || user
tags: /tags/ || tags
categories: /categories/ || th
archives: /archives/ || archive
添加站内搜索功能
首先，在本地博客目录下安装搜索插件包
1
2
$ npm install hexo-generator-search --save
$ npm install hexo-generator-searchdb --save
然后，打开站点配置文件，增加以下内容
1
2
3
4
5
search:
path: search.xml
field: post
format: html
limit: 10000
最后，打开主题配置文件，启用搜索功能
1
2
local_search:
enable: true
添加动态背景
以 canvas-nest 为例，在本地博客目录下进入 themes/next 目录后安装至其下的 source/lib 目录
1
2
$ cd themes/next
$ git clone https://github.com/theme-next/theme-next-canvas-nest source/lib/canvas-nest
然后，修改主题配置文件
1
2
3
4
5
6
7
8
9
10
# Canvas-nest
# Dependencies: https://github.com/theme-next/theme-next-canvas-nest
# For more information: https://github.com/hustcc/canvas-nest.js
canvas_nest:
enable: true
onmobile: true # Display on mobile or not
color: "0,0,0" # RGB values, use `,` to separate
opacity: 0.5 # The opacity of line: 0~1
zIndex: -1 # z-index property of the background
count: 99 # The number of lines
添加评论系统
参考 NexT 官网的说明：Comment Systems
以 Valine 为例，先去 LeanCloud 注册帐号并创建项目，获得 App ID 和 App Key，然后修改主题配置文件 valine 下的内容。
启用 Latex 公式渲染
参考 NexT 官网的说明：Math Equations
首先，在本地博客目录下卸载原来的 hexo-renderer-marked 渲染工具，然后安装新的 hexo-renderer-kramed 渲染工具
1
2
$ npm uninstall hexo-renderer-marked
$ npm install hexo-renderer-kramed
然后，修改主题配置文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# Math Formulas Render Support
math:
# Default (true) will load mathjax / katex script on demand.
# That is it only render those page which has `mathjax: true` in Front-matter.
# If you set it to false, it will load mathjax / katex srcipt EVERY PAGE.
per_page: true

# hexo-renderer-pandoc (or hexo-renderer-kramed) required for full MathJax support.
mathjax:
enable: true
# See: https://mhchem.github.io/MathJax-mhchem/
mhchem: false

# hexo-renderer-markdown-it-plus (or hexo-renderer-markdown-it with markdown-it-katex plugin) required for full Katex support.
katex:
enable: false
# See: https://github.com/KaTeX/KaTeX/tree/master/contrib/copy-tex
copy_tex: false
这里的 per_page 设置为 true 时，需要在（需要公式渲染的）页面标题处设置 mathjax: true 才会开启公式渲染，如
1
2
3
4
---
title: A Post with Math Equations
mathjax: true
---
行内公式渲染问题
在行内公式中，下划线（_）会被解析成 Markdown 语法中斜体字体的开始标记，这种时候可以使用 \_。更好的处理方案是，到博客根目录下，找到 node_modules/kramed/lib/rules/inline.js，把第 11 行的 escape 变量的值做相应的修改：
1
2
// escape: /^\\([\\`*{}\[\]()#$+\-.!_>])/,
escape: /^\\([`*\[\]()#$+\-.!_>])/,

再把第 20 行的 em 变量的值也做相应的修改：
1
2
// em: /^\b_((?:__|[\s\S])+?)_\b|^\*((?:\*\*|[\s\S])+?)\*(?!\*)/,
em: /^\*((?:\*\*|[\s\S])+?)\*(?!\*)/,

然后重新渲染所有页面即可。
博客项目迁移
参考这篇博客：hexo：更换电脑，如何继续写博客
安装 Git 和 Node.js
安装 Hexo
拷贝以下几个文件和目录
1
2
3
4
5
_config.yml
package.json
scaffolds/
source/
themes/
安装模块
进入博客的本地目录后
1
2
3
4
$ npm install
$ npm install hexo-deployer-git --save
$ npm install hexo-generator-feed --save
$ npm install hexo-generator-sitemap --save

Linux 常用 bash 命令

2020-06-04T10:10:32.000Z

Linux 常用 bash 命令。
在 root 权限下新建用户
1
2
3
$ useradd -d /home/ -m
$ usermod -s /bin/bash
$ passwd
在 root 权限下修改文件夹权限
1
$ chmod 777
复制和移动文件
本地复制和移动单个文件
1
2
$ cp
$ mv
本地复制和移动文件夹
1
2
$ cp -r
$ mv -r
远程复制文件
1
$ scp @:
远程复制文件夹
1
$ scp -r @:
解压 tar.gz 文件
1
$ tar -zxvf .tar.gz -C
发布 pip 包（wheel 文件）
1
$ python setup.py bdist_wheel
离线安装 pip 包（wheel 或 tar.gz 文件，参考：https://docs.conda.io/projects/conda-build/en/latest/user-guide/wheel-files.html）
1
$ pip install . --no-deps
离线安装 conda 包（conda 或 tar.bz2 文件）
1
$ conda install . --offline
离线安装 deb 软件
1
$ sudo apt install ./.deb
离线安装 VS Code 的 Extension
先从 https://marketplace.visualstudio.com/vscode 下载 vsix 文件
1
$ code --install-extension .vsix
查看 CPU 和内存状态
1
$ top -u
查看 Nvidia 显卡状态
1
2
3
$ nvidia-smi
$ watch -n 1 -d nvidia-smi
$ fuser -v /dev/nvidia*
虚拟命令行会话
新建会话
1
$ screen -S
暂时离开会话（Detach）：Ctrl + A + D
显示当前所有存在的会话
1
$ screen -ls
重新连接会话（Attach）
1
$ screen -r
杀死进程
1
$ kill
查看和改变进程被 OOM killer 杀死的优先度
1
2
$ sudo cat /proc//oom_score
$ sudo echo -1000 > /proc//oom_score_adj
软链接
创建软链接：一个名为 real 的文件（夹）链接会出现在 /path/to/link 路径下，可以通过 /path/to/link/real 访问
1
$ ln -s /path/to/real /path/to/link
删除软链接：只会删除链接，不会影响原 /path/to/real
1
$ rm /path/to/link/real
使用代理
服务器代理
1
2
$ export http_proxy="http://:@:"
$ export https_proxy="https://:@:"
本地代理
1
2
$ export http_proxy="http://127.0.0.1:"
$ export https_proxy="https://127.0.0.1:"

Attention is All You Need

2020-06-03T06:36:09.000Z

Notes on Attention is All You Need, i.e., the Transformer.
Encoder-Decoder Stacks
Encoder
A stack of $N=6$ identical layers; each layer has two sub-layers:
A multi-head self-attention layer
A simple, position-wise fully-connected feed-forward network (FC-FFN)
Decoder
A stack of $N=6$ identical layers; each layer has three sub-layers:
A multi-head self-attention layer
Mask out subsequent positions
A multi-head encoder-decoder attention layer
A simple, position-wise fully connected feed-forward network (FC-FFN)
Residual Connection and Layer Norm
Empoly a residual connection around each of the sub-layers, followed by layer normalization. That is, the final output of each sub-layer is $\mathrm{LayerNorm} (x + \mathrm{SubLayer}(x))$, where $\mathrm{SubLayer}(x)$ is the output of a multi-head or FC-FFN layer.
Attention
Scaled dot-product attention, multi-head attention, self-attention.
See Attention in NLP.
Position-Wise Fully-Connected Feed-Forward Network
Apply a FC-FFN to each position separately and identically:
$\mathrm{FFN}(x) = \mathrm{ReLU}\left( x W_1 + b_1 \right) W_2 + b_2$
where $x \in \Bbb{R}^{d_{model}}$ is the vector on a certain position, $W_1 \in \Bbb{R}^{d_{model} \times d_{ff}}$ and $W_2 \in \Bbb{R}^{d_{ff} \times d_{model}}$ are trainable parameter matrices.
Embeddings and Softmax
Use learned embeddings to convert the source tokens and target tokens to vectors of dimension $d_{model}$.
Use learned transformation and softmax function to convert the decoder output to predicted next-token probabilities.
Positional Encodings
To make use of the order of sequence, add positional encodings to the input embeddings at the bottoms of the encoder and decoder stacks. The positional encodings have the same dimensions $d_{model}$ as the embeddings, so that they can be summed.
$\begin{aligned}\mathrm{PE}(pos, 2i) &= \sin \left( \frac{pos}{10000^{2i/d_{model}}} \right) \\\mathrm{PE}(pos, 2i+1) &= \cos \left( \frac{pos}{10000^{2i/d_{model}}} \right)\end{aligned}$
where $pos$ is the position and $i$ is the dimension. That is, each dimension of the positional encoding corresponds to a sinusoid. The wavelengths form a geometric progression from $2\pi$ to $10000 \cdot 2\pi$.
This positional encoding would allow the model to learn to attend by relative positions, since for any fixed offset $k$, $\mathrm{PE}_{pos+k}$ can be represented as a linear function of $\mathrm{PE}_{pos}$.
$\begin{aligned}\mathrm{PE}(pos+k, 2i) &= \sin \left( \frac{pos+k}{10000^{2i/d_{model}}} \right) \\&= \sin \left( \frac{pos}{10000^{2i/d_{model}}} \right) \cos \left( \frac{k}{10000^{2i/d_{model}}} \right) + \cos \left( \frac{pos}{10000^{2i/d_{model}}} \right) \sin \left( \frac{k}{10000^{2i/d_{model}}} \right) \\&= \mathrm{PE}(pos, 2i) \cos \left( \frac{k}{10000^{2i/d_{model}}} \right) + \mathrm{PE}(pos, 2i+1) \sin \left( \frac{k}{10000^{2i/d_{model}}} \right)\end{aligned}$

Attention in NLP

2020-06-02T08:25:43.000Z

This blog briefly reviews the attention mechanisms in NLP.
The Encoder-Decoder Framework
In the Encoder-Decoder framework, an encoder reads the source sentence, a sequence of vectors $x=\left( x_1, \cdots, x_{T_x} \right)$, into a fixed-length context vector $c$.
$\begin{aligned}\bar{h}_s &= f \left( x_s, \bar{h}_{s-1} \right) \\c &= q \left( \bar{h}_1, \cdots, \bar{h}_{T_x} \right)\end{aligned}$
where $\bar{h}_s$ is the encoder’s hidden state at time $s$. $f$ and $q$ are some nonlinear functions. For example, one may use:
$\begin{aligned}f &= \mathrm{LSTM} \\ q \left( \bar{h}_1, \cdots, \bar{h}_{T_x} \right) &= \bar{h}_{T_x}\end{aligned}$
The decoder is often trained to predict the next word $y_t$ given the context vector $c$ and all the previous predicted words $\left\{ y_1, \cdots, y_{t-1} \right\}$. In other words, the decoder defines a probability over the translation $y=\left( y_1, \cdots, y_{T_y} \right)$ by decomposing the joint probability into the ordered conditional probabilities.
$p(y) = \prod_{t=1}^{T_y} p\left( y_t | y_1, \cdots, y_{t-1}, c \right)$
With an RNN, each conditional probability is modeled as
$p\left( y_t | y_1, \cdots, y_{t-1}, c \right) = g\left( y_{t-1}, h_t, c \right)$
where $g$ is a nonlinear function. $h_t$ is the decoder’s hidden state at time $t$.
Learning to Align and Translate
1
Bahdanau, D., Cho, K. and Bengio, Y., 2014. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
Define each conditional probability as
$p\left( y_t | y_1, \cdots, y_{t-1}, x \right) = g\left( y_{t-1}, h_t, c_t \right)$
where $h_t$ is the decoder’s hidden state at time $t$, computed by
$h_t = f\left( h_{t-1}, y_{t-1}, c_t \right)$
Note that here the probability is conditioned on a distinct context vector $c_t$ for each target word $y_t$.
The context vector $c_t$ depends on a sequence of annotations $\left( \bar{h}_1, \cdots, \bar{h}_{T_x} \right)$ to which the encoder maps the source sentence. Each annotation $\bar{h}_s$ contains information about the whole source sequence with a strong focus on the parts surrounding the $s$-th word. For example, the annotations can be hidden states from a bidirectional RNN.
The context vector $c_t$ is computed as a weighted sum of these annotations:
$c_t = \sum_{s=1}^{T_x} \alpha_{st} \bar{h}_s$
The weight $\alpha_{st}$ of each annotation $\bar{h}_s$ is computed by:
$\alpha_{st} = \frac{\exp(e_{st})}{\sum_{s'=1}^{T_x} \exp(e_{s't})}$
where
$e_{st} = \mathrm{score} \left( \bar{h}_s, h_{t-1} \right)$
is an alignment model which scores how well the source words around position $s$ and the target word at position $t$ match. The score is based on the decoder’s hidden state $h_{t-1}$ and the encoder’s annotation $\bar{h}_s$.
The probability $\alpha_{st}$, or its associated energy $e_{st}$, reflects the importance of the annotation $\bar{h}_s$ with respect to the previous hidden state $h_{t-1}$ in deciding the next state $h_t$ and generating $y_t$. Intuitively, this implements an attention mechanism in the decoder.
The implement of the alignment model is
$\mathrm{score} \left( \bar{h}_s, h_{t-1} \right) = v_a^\top \tanh \left( W_a \left[ \bar{h}_s; h_{t-1} \right] \right)$
where $W_a$ and $v_a$ are trainable weights.
Global and Local Attetions
1
Luong, M.T., Pham, H. and Manning, C.D., 2015. Effective approaches to attention-based neural machine translation. arXiv preprint arXiv:1508.04025.
Global Attention
Very similar to Bahdanau et al. (2015).
The idea of global attention is to consider all the encoder’s hidden states when deriving the context vector $c_t$. The alignment vector $\alpha_t$, whose size equals the length on the source side, is:
$\begin{aligned}\alpha_{st} &= \mathrm{align} \left( \bar{h}_s, h_t \right) \\&= \frac{\exp \left( \mathrm{score} \left( \bar{h}_s, h_t \right) \right)}{\sum_{s'=1}^{T_x} \exp \left( \mathrm{score} \left( \bar{h}_{s'}, h_t \right) \right)}\end{aligned}$
where $\mathrm{score}$ is the alignment function, which may have four alternatives:
$\mathrm{score} \left( \bar{h}_s, h_t \right) = \begin{cases}\bar{h}_s^\top h_t, &\text{Dot product} \\\bar{h}_s^\top W_a h_t, &\text{General product} \\v_a^\top \tanh \left( W_a \left[ \bar{h}_s; h_t \right] \right), &\text{Concat} \\\text{The } s\text{-th element of } W_a h_t, &\text{Location based}\end{cases}$
where the location-based attention is computed sorely from the target hidden states, so it is fixed-length. Practically, For short sentences, only use the top part of $\alpha_t$; while for long sentences, ignore words near the end.
Local Attention
Local attention choose to focus on only a small subset of the source positions, for each target word. The model first generates an alignment position $p_t$ for target word at time $t$. The context vector $c_t$, thus, is derived as a weighted average over the source hidden states within the window $\left[p_t-D, p_t+D \right]$. Hence, the alignment vector $\alpha_t$ is fixed-length now.
$p_t = \begin{cases}t, &\text{Monotonic alignment} \\S \cdot \mathrm{sigmoid} \left( v_p^\top \tanh \left( W_p h_t \right) \right), &\text{Predictive alignment} \end{cases}$
where $W_p$ and $v_p$ are trainable parameters, and $S$ is the source length.
To favor alignment points near $p_t$, place a Gaussian distribution centered around $p_t$. Then, the alignment weights are:
$a_{st} = \mathrm{align} \left( \bar{h}_s, h_t \right) \cdot \exp \left( -\frac{(s-p_t)^2}{2\sigma^2} \right)$
The standard deviation is empirically set as $\sigma = \frac{D}{2}$.
Neural Turing Machines
1
Graves, A., Wayne, G., & Danihelka, I. 2014. Neural Turing machines. arXiv preprint arXiv:1410.5401.
An alternative of alignment function named content-based addressing:
$\mathrm{score} \left( \bar{h}_s, h_t \right) = \mathrm{cosine} \left( \bar{h}_s, h_t \right)$
An Survey on Attention in NLP
1
Hu, D. 2019. An introductory survey on attention mechanisms in NLP problems. In Proceedings of SAI Intelligent Systems Conference (pp. 432-448). Springer, Cham.
An alternative of alignment function based on MLP:
$\mathrm{score} \left( \bar{h}_s, h_t \right) = \sigma \left( v_a^\top \tanh \left( W_a \left[ \bar{h}_s; h_t \right] + b_{a1} \right) + b_{a2} \right)$
Memory-Based Attention
What are Qurey and Key-Value Pairs?
Given a list of key-value vector pairs $\left\{ \left( k_i, v_i \right) \right\}$ stored in memory and a query vector $q$, the attention computation follows three steps:
$\begin{aligned}e_i &= \mathrm{score} (q, k_i), &\text{Address Memory} \\\alpha_i &= \frac{\exp(e_i)}{\sum_k \exp(e_k)}, &\text{Normalize} \\c &= \sum_i \alpha_i v_i, &\text{Read Contents}\end{aligned}$
Typically, memory is simply a synonym for the source sequence. In other words, each key-value pair is aligned to a step in the source sequence. Further, the key and value are typically equal within each pair (e.g., both are the encoder’s hidden state), and this reduces to the basic attention mechanism.
The query vector is distinct in different NLP tasks. For example, in language translation, the query is the decoder’s last hidden state; in question-answering system, the query is the embedding of question.
Attention is All You Need
1
Vaswani, A., Shazeer, N., Parmar, N., et al. 2017. Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).
Scaled Dot-Product Attention
An attention function can be described as mapping a query and a set of key-value pairs to an output (i.e., context vector). The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function (i.e., normalized alighment function) of the query with the corresponding key.
Assume the queries and keys are of dimension $d_k$, and values are of dimension $d_v$, the alighment function is:
$\mathrm{score} (q, k) = \frac{q^\top k}{\sqrt{d_k}}$
where $q$ and $k$ are query and key vectors. It is idential to the dot-product attention, expect for the scaling factor $\frac{1}{\sqrt{d_k}}$.
In practice, pack the queries, keys and values into matrices:
Quries: A matrix $Q \in \Bbb{R}^{N_q \times d_k}$;
Keys: A matrix $K \in \Bbb{R}^{N_k \times d_k}$;
Values: A matrix $V \in \Bbb{R}^{N_k \times d_v}$.
And the full attentioned values (context vectors) are computed by:
$\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left( \frac{QK^\top}{\sqrt{d_k}} \right) V$
Multi-Head Attention
In the single-head scenario, the attention function is performed with $d_{model}$-dimensional queries, keys and values. (e.g., the queries, keys and values are all $d_{model}$-dimensional embeddings).
In the multi-head scenario:
Project the $d_{model}$-dimensional queries, keys and values to $d_k$, $d_k$ and $d_v$ dimensions, for $h$ times, resulting in $h$ versions of projected queries, keys and values.
For each version, perform attention function on the projected queries, keys and values, yielding $h$ versions of $d_v$-dimensional attentioned values.
Concatenate the $h$ versions of attentioned values and then futher project the concatenated attentioned values to $d_{model}$ dimension.
Formerly,
$\begin{aligned}\mathrm{MultiHead}(Q, K, V) &= \mathrm{Concat}(head_1, \dots, head_h) W^O \\\text{where } head_i &= \mathrm{Attention} \left( Q W_i^Q, K W_i^K, V W_i^V \right)\end{aligned}$
where $W_i^Q \in \Bbb{R}^{d_{model} \times d_k}$, $W_i^K \in \Bbb{R}^{d_{model} \times d_k}$, $W_i^V \in \Bbb{R}^{d_{model} \times d_v}$ and $W^O \in \Bbb{R}^{hd_v \times d_{model}}$ are trainable parameter matrices.
Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions. While with a single attention head, averaging inhibits this.
Application of Attention in Transformer
The Transformer uses multi-head attention in three different ways:
Encoder-Decoder Attention layers
Queries come from the output of the previous decoder layer
Memory keys and values come from the output of the encoder
This mimics the typical Encoder-Decoder attention mechanisms in Seq2Seq models
Self-Attention layers in the encoder
All the queries, keys and values come from the output of the previous encoder layer
Each position can attend to all positions in the previous layer
Self-Attention layers in the decoder
All the queries, keys and values come from the output of the previous decoder layer
Each position attends to positions up to and including that position in the previous layer (The target sequence is right shifted by one position)
Mask out (setting to $-\infty$) all values in the input of the softmax which correspond to illegal connections
Self-Attention
Self-attention is a new scheme, other than RNN and CNN, used for mapping a variable-length sequence of representations $\left(x_1, x_2, \dots, x_n\right)$ to another sequence of equal length $\left(z_1, z_2, \dots, z_n\right)$, with $x_i, z_i \in \Bbb{R}^d$.
Layer Type Complexity per Layer Sequential Operations Max Path Length
Self-Attention $O(n^2 \cdot d)$ $O(1)$ $O(1)$
RNN $O(n \cdot d^2)$ $O(n)$ $O(n)$
CNN $O(k \cdot n \cdot d^2)$ $O(1)$ $O(\log_k(n))$
Self-Attention (Restricted) $O(r \cdot n \cdot d)$ $O(1)$ $O(n/r)$

重装 Python 包

2020-05-01T06:09:11.000Z

重装了一遍 Python，记录一下需要重装的包。
1
2
3
4
5
6
7
$ conda install pyshp
$ conda install shapely

$ pip install jieba
$ pip install hanziconv
$ pip install splinter
$ pip install filterpy

《医学统计学》笔记

2020-04-20T11:43:56.000Z

《医学统计学》（第二版，颜虹主编，人民卫生出版社）读书笔记。
第3章：统计描述
3.1 频数分布
直方图（Histogram）
3.2 计量资料的统计描述
集中趋势
算术均值（Arithmetic Mean）
几何均值（Geometric Mean）
中位数（Median）
离散趋势
全距（Range）
分位数（Quantile）
方差（Variance）
标准差（Standard Deviation）
3.3 分类资料的统计描述
常用相对数指标
比（Ratio）：一个指标是另一个指标的几倍或百分之几
比例（Proportion）：一个集合的内部各组成部分的占比
率（Rate）：某个 时间段 内事件发生的频率或强度
生存率、发病率、死亡率、复发率 $率 = \frac{某时期内发生事件的观察单位数}{该时期开始时暴露的观察单位数}$ $率 = \frac{发生事件的观察单位数}{\Sigma 观察单位 \times 观察时间}$
相对危险度（Relative Risk, RR）：同一事件在两种不同情况下的 发生率 之比
$RR = \frac{P_1}{P_2}$
暴露和未暴露于危险因素两种情况下的患病率之比（Prevalence Risk Ratio, PRR）
比数比（Odds Ratio, OR）
设 $P$ 为某事件的发生率，则比数 $Odds = P / (1 - P)$
比数比就是两个比数之比 $OR = \frac{Odds_1}{Odds_2} = \frac{P_1 / (1 - P_1)}{P_2 / (1 - P_2)}$
两种随机抽样方式
按因素的暴露和未暴露进行抽样，分别得到暴露样本和未暴露样本的发病 Odds
按是否发病进行抽样，分别得到发病样本和不发病样本的暴露 Odds
动态数列
增长量
发展速度和增长速度
平均发展速度和平均增长速度
率的标准化
3.4 统计图表
第4章：常见的概率分布
4.1 随机事件与概率
4.2 二项分布
Bernoulli 实验每次成功的概率为 $\pi$，那么 $n$ 次独立重复的成功次数 $X$ 服从二项分布。
$P(X=k) = C_n^k \cdot \pi^k (1-\pi)^{(n-k)}$
成功次数 $X$ 的
总体均值：$n \pi$
总体方差：$n \pi (1 - \pi)$
总体标准差：$\sqrt{n \pi (1 - \pi)}$
成功率 $X / n$ 的
总体均值：$\pi$
总体方差：$\pi (1 - \pi) / n$
总体标准差：$\sqrt{\pi (1 - \pi) / n}$
4.3 Poisson 分布
单位时间内发生某事件的次数 $X$，服从 Poisson 分布。
$P(X=k) = \frac{\lambda^k}{k!} e^{-\lambda}$
4.3 正态分布
$f(X) = \frac{1}{\sqrt{2\pi} \sigma} e^{\frac{-(x-\mu)^2}{2 \sigma^2}}$
第5章：参数估计
5.1 抽样分布与抽样误差
样本均值
从一个均值为 $\mu$、标准差为 $\sigma$ 的总体分布中随机抽取样本量为 $n$ 的样本，其样本均值 $\bar{X}$ 的期望为
$\mu_{\bar{X}} = \mu$
其标准误为
$\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}$
在实际中，由于总体标准差 $\sigma$ 常常是未知的，用样本标准差 $S$ 来估计，因此样本均值 $\bar{X}$ 标准误的估计值为
$S_{\bar{X}} = \frac{S}{\sqrt{n}}$
中心极限定理：
从正态分布 $N(\mu, \sigma^2)$ 的总体中随机抽取样本量为 $n$ 的样本，其样本均值 $\bar{X}$ 服从正态分布 $N(\mu, \sigma^2 / n)$。
从非正态分布中抽样，当样本量较大（$n \ge 30$），样本均值的分布接近正态分布。
样本率
从一个总体分布（成功率为 $\pi$ 的 Bernoulli 分布）中随机抽取样本量为 $n$ 的样本，其成功率为 $p$，则其期望为
$\mu_{p} = \pi$
样本率的标准误为
$\sigma_p = \sqrt{\frac{\pi (1 - \pi)}{n}}$
在实际中，由于总体率 $\pi$ 常常是未知的，用样本率 $p$ 来估计，因此样本率 $p$ 标准误的估计值为
$S_p = \sqrt{\frac{p (1 - p)}{n}}$
5.2 总体均值的估计
t 分布
标准正态分布 $N(0, 1)$ 也被称为 z 分布，对样本均值 $\bar{X}$ 进行 z 变换得到 $\frac{\bar{X} - \mu}{\sigma_{\bar{X}}}$，服从 z 分布。但是，实际中 $\sigma_{\bar{X}}$ 常常未知，用 $S_{\bar{X}}$ 代替，得到的 $\frac{\bar{X} - \mu}{S_{\bar{X}}}$ 服从 t 分布。
点估计和区间估计
两总体均数之差的区间估计
5.3 总体率的估计
点估计和区间估计
区间估计
查表法：二项分布的计算结果。
正态近似法：当 $n$ 较大，且 $np$ 和 $n(1-p)$ 均大于 5 时，样本率 $p$ 的分布近似正态分布。
两总体率之差的区间估计
正态近似法
5.4 Poisson 分布总体均数的区间估计
查表法
正太近似法
5.5 RR 值和 OR 值的估计
相对危险度 RR 是暴露组的发病率与非暴露组的发病率之比。
当 RR 大于 1 时，该因素为危险因素
当 RR 小于 1 时，该因素为保护因素
队列研究（Cohort Study）
又称前瞻性研究（Prospective Study）、随访研究（Follow-Up Study）
对不同暴露水平的对象跟踪调查其疾病发生情况
可以计算不同暴露水平组的发病率，可以直接估计相对危险度
情况1：随访期间研究对象因为失访、死亡等原因而变化，以“观察人-时”为分母计算发病率，又称为 发病密度。
组别发病人数观察人时数发病密度
暴露组 $a$ $L_1$ $a / L_1$
非暴露组 $b$ $L_0$ $b / L_0$
合计 $m$ $L$ $m / L$
$\hat{RR} = \frac{a / L_1}{b / L_0}$
区间估计为
$\begin{aligned}& \hat{RR}^{\left( 1 \pm z_{\alpha/2} / \sqrt{\chi^2} \right)} \\& \chi^2 = \frac{(aL-mL_1)^2}{mL_1L_0}\end{aligned}$
情况2：随访期间研究对象没有变化，以观察人数为分母计算发病率，又称为 累计发病率。
组别发病人数未发病人数合计累计发病率
暴露组 $a$ $b$ $n_1$ $a / n_1$
非暴露组 $c$ $d$ $n_0$ $c / n_0$
合计 $m_1$ $m_0$ $n$ $m_1 / n$
$\hat{RR} = \frac{a / n_1}{b / n_0}$
区间估计为
$\begin{aligned}& \hat{RR}^{\left( 1 \pm z_{\alpha/2} / \sqrt{\chi^2} \right)} \\& \chi^2 = \frac{(n-1)(ad-bc)^2}{n_1n_0m_1m_0}\end{aligned}$
病例-对照研究
根据研究对象的目前发病状态划分到病例组或对照组，然后回顾性地询问过去的危险因素暴露情况，比较病例组和对照组的暴露水平差异
不能计算不同暴露水平组的发病率，通常使用优势比或比数比来近似估计相对危险度
设计1：成组设计 的病例对照研究
组别暴露未暴露合计
病例组 $a$ $b$ $n_1$
对照组 $c$ $d$ $n_0$
合计 $m_1$ $m_0$ $n$
在病例组，暴露事件的 Odds 为
$Odds_1 = \frac{a/n_1}{b/n_1} = \frac{a}{b}$
在对照组，暴露事件的 Odds 为
$Odds_0 = \frac{c/n_0}{d/n_0} = \frac{c}{d}$
所以，病例组相比对照组，暴露事件的优势比为
$\hat{OR} = \frac{Odds_1}{Odds_0} = \frac{a / b}{c / d} = \frac{ad}{bc}$
当发病率很低（如小于 1% 时），OR 近似等于 RR。
Miettinen 法区间估计为
$\begin{aligned}& \hat{OR}^{\left( 1 \pm z_{\alpha/2} / \sqrt{\chi^2} \right)} \\& \chi^2 = \frac{(n-1)(ad-bc)^2}{n_1n_0m_1m_0}\end{aligned}$
设计2：配对设计 的病例对照研究
在 1:1 配对设计病例对照研究中，每一个病例都有对应的一个对照。一对病例与对照的暴露情况可能有四种：
病例与对照都暴露（a）
病例暴露，对照未暴露（b）
病例未暴露，对照暴露（c）
病例与对照都未暴露（d）
对照暴露对照未暴露合计
病例暴露 $a$ $b$ $a+b$
病例未暴露 $c$ $d$ $c+d$
合计 $a+c$ $b+d$ $n$
注：上表中 $a$、$b$、$c$、$d$ 每个数字都代表双份的样本，一份是病例，一份是对照。
如果整理成 成组设计 的表格
组别暴露未暴露合计
病例组 $a+b$ $c+d$ $a+b+c+d$
对照组 $a+c$ $b+d$ $a+b+c+d$
合计 $2a+b+c$ $b+c+2d$ $2(a+b+c+d)$
可以发现，病例和对照暴露水平一致的情况（$a$ 和 $d$）没有提供暴露和发病之间的相关信息，因此估计优势比 $OR$ 只需要使用 $b$ 和 $c$。
$\begin{aligned}& \hat{OR} = \frac{b}{c} \\& \chi^2 = \frac{(\vert b-c \vert -1)^2}{b + c}\end{aligned}$
第6章：假设检验
6.3 z 检验
6.7 检验效能
第7章：两样本均数比较的假设检验
7.1 单样本均数的 t 检验
7.2 配对样本均数的 t 检验
7.3 两独立样本均数的 t 检验
7.4 正态性检验
7.5 两样本的方差的齐性检验
7.6 两总体方差不等时均数比较的 t’ 检验
第8章：多个样本均数比较的假设检验
8.1 方差分析的基本思想与应用条件
判断多个处理组之间，处理效应是否有差异。
第9章：行列表资料的假设检验
9.1 四格表资料的 $\chi^2$ 检验
有疗效无疗效合计有效率
A 药物 $a$ $b$ $a+b$ $a/(a+b)$
B 药物 $c$ $d$ $c+d$ $c/(c+d)$
合计 $a+c$ $b+d$ $n$ $(a+c)/n$
$\chi^2$ 检验的基本思想
如果零假设成立，则各格子的实际观察频数（Observed Frequency, O）与相应的理论期望频数（Expected Frequency, E）相差不会太大，即
$\chi^2 = \sum \frac{(O-E)^2}{E}$
的值不会太大。
四格表的 $\chi^2$ 检验
组别 A、B 和总体的有效率分别是 $\pi_1$、$\pi_2$、$\pi$，其估计值分别是
$\begin{aligned}\hat{\pi_1} & = \frac{a}{a+b} \\ \hat{\pi_2} & = \frac{c}{c+d} \\\hat{\pi} & = \frac{a+c}{a+b+c+d} \\\end{aligned}$
$\chi^2$ 检验的基本步骤是：
建立假设
H0：$\pi_1 = \pi_2 = \pi$
H1：$\pi_1 \neq \pi_2$
计算期望频数和检验统计量
以 总体有效率 和 周边合计 计算各格子的期望频数 $\begin{aligned}E[a] & = (a+b) \cdot \frac{a+c}{a+b+c+d} \\E[b] & = (a+b) \cdot \frac{b+d}{a+b+c+d} \\E[c] & = (c+d) \cdot \frac{a+c}{a+b+c+d} \\E[d] & = (c+d) \cdot \frac{b+d}{a+b+c+d} \\\end{aligned}$
计算 $\chi^2$ 统计量 $\chi^2 = \frac{(a-E[a])^2}{E[a]} + \frac{(b-E[b])^2}{E[b]} + \frac{(c-E[c])^2}{E[c]} + \frac{(d-E[d])^2}{E[d]}$
交叉分类 2×2 表关联性分析
两变量相关分析
通过 $\chi^2$ 检验判断两 定性变量 之间是否相关。
通过 Pearson 相关系数或 Spearman 秩相关系数来描述两 定量变量 之间的相关关系。
9.2 配对四格表资料的 $\chi^2$ 检验
乙法治疗有效乙法治疗无效合计
甲法治疗有效 $a$ $b$ $a+b$
甲法治疗无效 $c$ $d$ $c+d$
合计 $a+c$ $b+d$ $n$
注：上表中 $a$、$b$、$c$、$d$ 每个数字都代表双份的样本，一份进行甲法治疗，一份进行乙法治疗。
显然，$a$ 和 $d$ 的治疗结果一致，不影响两种治疗方法效果的差异；所以只需要比较 $b$ 和 $c$ 是否相同即可。$b$ 和 $c$ 的期望频数为 $(b+c)/2$，所以
$\chi^2 = \frac{\left( b-\frac{b+c}{2} \right)^2}{\frac{b+c}{2}} + \frac{\left( c-\frac{b+c}{2} \right)^2}{\frac{b+c}{2}} = \frac{(b-c)^2}{b+c}$
9.3 行×列表资料的 $\chi^2$ 检验
对 R 行 C 列表资料，第 i 行第 j 列的频数记作 $a_{ij}$，代表第 i 种情况（如治疗方法、暴露情况）下第 j 中结果（如疗效、发病）的频数。
那么，先计算期望频数：
$E[a_{ij}] = \left( \sum_l a_{il} \right) \cdot \frac{\sum_k a_{kj}}{\sum_{k, l} a_{kl}}$
然后，再计算 $\chi^2$ 统计量
$\chi^2 = \sum \frac{(O-E)^2}{E} = \sum_{ij} \frac{\left( a_{ij} - E[a_{ij}] \right)^2}{E[a_{ij}]}$
9.4 多个样本率的多重比较
对多个样本率进行比较时，如果拒绝零假设，则说明至少有某两个率之间存在显著差异，则需要进行多个率之间的两两比较。
Bonferroni 法：
对行×列表资料进行分割，变成多个四格表
对每个四格表进行 $\chi^2$ 检验
采用 $\alpha’ = \alpha / 比较次数$ 调整显著性水平
以 $\alpha’$ 作为检验水准，下有无统计学意义的结论
9.5 行×列表资料的 $\chi^2$ 检验的注意事项
样本含量应足够大
80% 以上格子的期望频数大于 5，且不存在期望频数小于 1 的格子。
否则，补充样本、合并行或列、删除行或列、采用 Fisher 确切概率检验。
行×列表资料经 $\chi^2$ 检验后，如果假设检验结果拒绝 H0，意味着各组总体率或构成比之间整体上存在显著差异，并不一定两两之间均有显著差异。
当结果变量为等级资料时，不采用 $\chi^2$ 检验。
组别和结果变量双向无序：采用 $\chi^2$ 检验
组别变量有序、结果变量无序：采用 $\chi^2$ 检验
组别变量无序、结果变量有序：采用秩和检验
组别和结果变量均有序、且属性相同：采用一致性检验（如 Kappa 检验）
例如用两种检测方法检测样品的等级，检验两种检测方法的一致性
组别和结果变量均有序、但属性不同
研究不同组别的结果是否存在差异：采用秩和检验
研究两个有序变量是否相关：采用 Spearman 秩相关分析
研究两个有序变量是否存在线性变化趋势：采用线性趋势检验
各分类间彼此互斥
9.6 频数分布拟合优度的 $\chi^2$ 检验
9.7 确切概率法
当样本量较少（如四格表资料总例数小于 40），采用 Fisher 确切概率检验。
在表格周围合计数不变的条件下，表格中各格子的频数有多种可能组合，其概率分布是超几何分布。那么，可以求出所有组合的概率，再将所有小于等于原组合（观察到的实际组合）概率的所有概率相加，作为双侧检验的 p 值。
9.8 OR 值的 $\chi^2$ 检验
参考 5.5 内容。
第10章：基于秩次的假设检验方法
秩和检验的应用场景
当计量资料不服从正态分布，或者所比较的样本间方差不齐是，不适宜采用 t 检验和方差分析
对于结果变量为等级资料（有序分类资料），不适宜采用 $\chi^2$ 检验
10.1 配对设计资料的符号秩和检验
对于计量配对资料，有观察值 $(x_i, y_i)$，有差值 $d_i = x_i - y_i$。
如果 $d$ 服从正态分布，则采用配对 t 检验即可。
如果 $d$ 不服从正态分布，则采用 Wilcoxon 符号秩和检验（Wilcoxon Signed Rank Test）。
Wilcoxon 符号秩和检验步骤
求差值
建立假设
H0：$M_d = 0$，即差值的总体中位数等于零
H1：$M_d \neq 0$，即差值的总体中位数不等于零
编秩：按差值的绝对值有小到大编秩，并按照差值的正负号给秩次加上正负号
差值为零，舍去不计
多个差值绝对值相等，取平均秩次
求秩和：分别求出正负秩次之和，将其绝对值记作 $T_+$ 和 $T_-$
计算统计量 T，有 $T = \min(T_+, T_-)$；有效的秩次数记作 $n$
计算 p 值，做出推断
若 $5 < n \leq 50$，查表
若 $n > 50$，正态近似法 $\begin{aligned}T & \sim N \left(\mu_T, \sigma_T^2 \right) \\\mu_T & = \frac{n(n+4)}{4} \\\sigma_T & = \sqrt{\frac{n(n+1)(2n+1)}{24}}\end{aligned}$
10.2 单样本资料的符号秩和检验
将每个样本取值与已知总体值（理论值、标准值或大量样本观察值）比较。
10.3 完全随机设计两独立样本的秩和检验
两组计量资料的秩和检验
两独立样本的 Wilcoxon 秩和检验步骤
建立假设
H0：两总体分布相同
H1：两总体分布不同
编秩：将两组数据混合、有小到大统一编秩
相同数据取平均秩次
求秩和：将两组样本的秩次分别相加
计算统计量 T
若两组样本数相等，任取一组秩和作为统计量 T
若两组样本数不等，以样本数较小的那组对应的秩和作为统计量 T
计算 p 值，做出推断
查表法
正态近似法
两组等级资料的秩和检验
同一等级的数据取平均秩次
10.4 完全随机设计多独立样本的秩和检验
多组计量资料的秩和检验
Kruskal-Wallis 秩和检验步骤
建立假设
H0：多个总体分布相同
H1：多个总体分布不同
编秩
求秩和：第 $i$ 组的秩和记作 $R_i$
计算统计量 H $H = \frac{12}{N(N+1)} \sum \frac{R_i^2}{n_i} - 3(N+1)$
计算 p 值，做出推断
当组数 $k = 3$，每组样本数 $n_i \leq 5$，查表
当组数 $k > 3$，或每组样本数 $n_i > 5$，H 近似服从 $\chi^2$ 分布
多组等级资料的秩和检验
同一等级的数据取平均秩次
多重比较
Bonferroni 法校正检验水平 $\alpha’$
10.5 随机化区组设计资料的秩和检验
第11章：简单线性回归
11.1 简单线性回归
11.2 线性回归的应用
11.3 残差分析
线性回归模型成立的四个条件
线性（Linear）
独立（Independence）
正态（Normal）
等方差（Equal Variance）
首字母相连为 LINE。
第12章：线性相关
12.1 直线相关
Pearson 相关系数
$r = \frac{\sum \left( x_i-\bar{x} \right) \left( y_i-\bar{y} \right)}{\sqrt{\sum \left( x_i-\bar{x} \right)^2} \sqrt{\sum \left( y_i-\bar{y} \right)^2}}$
12.2 Spearman 相关
Spearman 相关系数
先对变量 $x$ 与 $y$ 各自编秩，得到 $R_x$ 和 $R_y$，再代入 Pearson 相关系数的计算公式
$r_s = \frac{\sum \left( R_{xi}-\bar{R_x} \right) \left( R_{yi}-\bar{R_y} \right)}{\sqrt{\sum \left( R_{xi}-\bar{R_x} \right)^2} \sqrt{\sum \left( R_{yi}-\bar{R_y} \right)^2}}$
第13章：多因素线性回归
13.1 多因素线性回归
13.2 回归分析中的自变量选择
13.3 注意事项
一般情况，应当校正基线、年龄、性别等常规的可能混杂因素。
对实验性研究的统计分析，一般不应采用逐步回归。
将名义变量、等级变量进行数量化（转换为哑元）；连续变量也可以先离散化再哑元化。
第21章：Logistic回归分析
21.1 回归
$\rm{logit}(P) = \ln \left( \frac{P}{1-P} \right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n$
参数的流行病学意义
$\beta_0$ 的意义：当所有 $\beta_i = 0$，有
$\ln \left( \frac{P}{1-P} \right) = \beta_0$
所以，$\beta_0$ 代表所有因素均不起作用时，发病与不发病的概率之比（Odds）的对数。
$\beta_i$ 的意义：如果 $x_i$ 取 0 和 1，有
$\ln OR_i = \ln \left[ \frac{P_1/(1-P_1)}{P_0/(1-P_0)} \right] = \beta_i$
因此，
$OR_i = \exp(\beta_i)$
所以，$\beta_i$ 代表 $x_i$ 增加一个单位前后发病的比数比（Odds Ratio）。
21.2 条件 Logitstic 回归
按照 1:M 的比例匹配了病例和对照。

《线性代数的本质》笔记

2020-03-14T06:11:06.000Z

3Blue1Brown 视频《线性代数的本质》（bilibili, YouTube）的笔记。用于构建线性代数的几何直觉。
向量
不同学科视角下的向量
物理学视角：箭头（长度 + 方向）决定一个向量，向量平移不变
计算机学视角：向量等同于有序的数字列表
数学视角：向量是任意支持符合向量计算规则（加法和乘法）的对象
如果把向量的起点默认为原点，就能将箭头和列表两种视角相统一
向量加法
箭头视角：把向量依次首尾相连
列表视角：把向量各元素分别加总
向量乘以标量（Scalar）
箭头视角：缩放（Scaling）
列表视角：把向量各元素分别乘以标量，分别缩放
定义基向量（Basis Vectors）
${\pmb i} = \begin{bmatrix} 1 \\ 0 \end{bmatrix}, \;{\pmb j} = \begin{bmatrix} 0 \\ 1 \end{bmatrix}$
把向量看成是基向量的 缩放后相加 的结果，例如
$\begin{bmatrix} 3 \\ -2 \end{bmatrix} = 3 {\pmb i} -2 {\pmb j}$
我们完全可以使用不同的基向量。因此，当我们使用数字列表表示向量时，实际的向量总是依赖于我们所采用的基向量。
这种向量的 缩放后相加 实际上就是 线性组合（Linear Combination）。也就是说，向量可以理解成基向量的线性组合。
一组基向量的线性组合所能到达的点的集合就是该组基向量张成的空间（Span）。在二维情况下，只要基向量不共线，它们张成的空间就覆盖平面上所有的点；如果基向量共线，它们张成的空间就只有一条线；如果基向量都是零向量，它们张成的空间就只有一个点。
如果能从基向量中移除一个向量，而不影响它们张成的空间，就说这组基向量是 线性相关（Linearly Dependent）；否则就是 线性无关（Linearly Independent）。
矩阵乘以向量
线性变换（Linear Transformation）：变换就是函数的另一种说法，线性变换就是向量到向量的映射；变换一词暗示了是输入向量移动到输出向量的位置。
在 线性变换 中，只要确定基向量的变换后位置，就能确定其他所有向量的变换后位置。如果
${\pmb v} = \begin{bmatrix} x \\ y \end{bmatrix} = x \left( {\pmb i} \right) + y \left( {\pmb j} \right)$
那么，在变换后有
${\pmb v'} = x \left( {\pmb i'} \right) + y \left( {\pmb j'} \right)$
举个例子，假设在变换后有
${\pmb i'} = \begin{bmatrix} 1 \\ -2 \end{bmatrix}, \;{\pmb j'} = \begin{bmatrix} 3 \\ 0 \end{bmatrix}$
就有
$\begin{aligned}{\pmb v'} =& x \left( {\pmb i'} \right) + y \left( {\pmb j'} \right) \\=& x \begin{bmatrix} 1 \\ -2 \end{bmatrix} + y \begin{bmatrix} 3 \\ 0 \end{bmatrix} \\=& \begin{bmatrix} x+3y \\ -2x \end{bmatrix}\end{aligned}$
把基向量变换后的向量作为列排成 2*2 的矩阵 $\begin{bmatrix} 1 & 3 \\\\ -2 & 0 \end{bmatrix}$，此时矩阵乘以向量 ${\pmb v} = \begin{bmatrix} x \\\\ y \end{bmatrix}$，就是
$\begin{bmatrix} 1 & 3 \\ -2 & 0 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} x+3y \\ -2x \end{bmatrix} = {\pmb v'}$
也就是在求变换后的 ${\pmb v}$。
所以，矩阵中的各列依次代表线性变换中，各基向量在变换后的结果（位置），也就是 列向量。如果说，向量是基向量的线性组合，那么，矩阵乘以向量的结果可以理解成，线性变换之后的基向量的线性组合。
整体上，矩阵对应的线性变换将 原基向量张成的空间 映射到 变换后基向量张成的空间。如果矩阵的各列是线性相关的，说明在线性变换后，基向量是共线的。在二维的情况下，就是将平面压缩成一维直线。
矩阵乘以矩阵
依次两个线性变换称为 复合变换（Composition of Transformations）。
一个向量依次经历两个矩阵的线性变换得到的结果，等价于其经过一个复合变换的结果，例如
$\underbrace{\begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix}}_{\text{Shear}} \left( \underbrace{\begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix}}_{\text{Rotation}} \begin{bmatrix} x \\ y \end{bmatrix} \right) = \underbrace{\begin{bmatrix} 1 & -1 \\ 1 & 0 \end{bmatrix}}_{\text{Composition}} \begin{bmatrix} x \\ y \end{bmatrix}$
那么，可以定义矩阵的乘法
$\underbrace{\begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix}}_{\text{Shear}} \underbrace{\begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix}}_{\text{Rotation}} = \underbrace{\begin{bmatrix} 1 & -1 \\ 1 & 0 \end{bmatrix}}_{\text{Composition}}$
注意，如果将矩阵的乘法看成是两个相继的线性变换，则需要 从右往左 阅读，即被作用的向量是先经历靠右矩阵的变换，然后经历靠左矩阵的变换。这类似函数的嵌套，即 $f \left( g(x) \right)$。
我们来追踪一下基向量的变换过程，以 ${\pmb i}$ 为例。经历第一个矩阵的变换后，该基向量变成 $\begin{bmatrix} 0 \\\\ 1 \end{bmatrix}$ （即右侧矩阵的第一列）。经历第二个矩阵的变换后，该基向量进一步变成 $\begin{bmatrix} 1 & 1 \\\\ 0 & 1 \end{bmatrix} \begin{bmatrix} 0 \\\\ 1 \end{bmatrix} = \begin{bmatrix} 1 \\\\ 1 \end{bmatrix}$，正好是复合矩阵的第一列。
行列式
行列式（Determinant）是线性变换后相比变换前空间中体积（二维情况下的面积）的缩放比例（Scaling Factor）。
如果变换改变了空间的定向（Orientation），那么行列式就是负值。对二维平面而言，改变定向类似“翻转平面”；对三维空间而言，改变定向意味着是否符合“右手定则”。
行列式的计算：
$\det \left( \begin{bmatrix} a & b \\ c & d \end{bmatrix} \right) = ad - bc$
如果矩阵的行列式等于零，则意味着原空间经过该线性变换后，被压缩到一个低维空间里，使得“体积”变为零。同时，这也意味着变换后的基向量是 线性相关 的。
线性方程组
线性方程组（Linear System of Equations）
$\overbrace{\begin{bmatrix} 2 & 5 & 3 \\ 4 & 0 & 8 \\ 1 & 3 & 0 \end{bmatrix}}^{\pmb A} \overbrace{\begin{bmatrix} x \\ y \\ z \end{bmatrix}}^{\pmb x} = \overbrace{\begin{bmatrix} -3 \\ 0 \\ 2 \end{bmatrix}}^{\pmb v}$
这相当于在问：什么向量 ${\pmb x}$ 经过变换 ${\pmb A}$ 后，能得到向量 ${\pmb v}$？
从几何直观出发，如果 ${\pmb A}$ 的行列式不为零，则有一个 逆变换（Inverse Transformation） ${\pmb A}^{-1}$，有
${\pmb x} = {\pmb A}^{-1} {\pmb v}$
如果 ${\pmb A}$ 的行列式为零，该矩阵将原空间压缩到一个低维空间里，则不存在逆变换，因为不存在一个“函数”，可以将一个值映射到多个值。
如果 ${\pmb A}$ 的行列式为零，只有当 ${\pmb v}$ 恰好处在那个被压缩后的低维空间里，原方程组才有解（且有无穷多个解），否则没有解。
秩（Rank）是矩阵对应的 线性变换的输出空间的维度。这里，输出空间其实就是矩阵的每一列作为向量所张成的空间，被称为 列空间（Column Space）。一个矩阵的秩的最大可能取值就是其列数，只有取到该最大值时，行列式才不为零，此时被称为满秩（Full Rank）；当秩小于列数时，行列式为零。
当矩阵满秩时，只有零向量会被映射为零向量。当矩阵不满秩时，意味着有些非零向量被映射成零向量，这些原空间中的非零向量张成的空间被称为 零空间（Null Space）或者核（Kernel）。当 ${\pmb v}$ 正好是零向量时，零空间中的所有向量构成原方程组的解集。
非方阵
非方阵（Non-Square Matrix）是不同维度的空间之间的线性变换，从 列数维度 的空间映射到 行数维度 的空间（但不一定能够“充满”、“张成”该空间），矩阵中的各 列向量 依然代表线性变换后的基向量，张成 列空间。
一个3*2（3行2列）的矩阵，就是从一个2维空间映射到3维空间，但显然不能张成该3维空间；通常只能张成一个平面，也可能压缩成直线或原点。
一个2*3（2行3列）的矩阵，就是从一个3维空间映射到2维空间，通常能够张成该2维空间，也可能压缩成直线或原点。
点积
${\pmb v}$ 和 ${\pmb w}$ 的点积，在几何上等价于先将 ${\pmb w}$ 投影（Project）到 ${\pmb v}$ 的方向上，然后投影得到的长度乘以 ${\pmb v}$ 的长度。
${\pmb v} \cdot {\pmb w} = \Vert {\pmb v} \Vert \Vert {\pmb w} \Vert \cos \theta$
代数的计算方法：
${\pmb v} \cdot {\pmb w} = \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} \cdot \begin{bmatrix} w_1 \\ w_2 \end{bmatrix} = v_1 w_1 + v_2 w_2 = \begin{bmatrix} v_1 & v_2 \end{bmatrix} \begin{bmatrix} w_1 \\ w_2 \end{bmatrix}$
可以把向量 ${\pmb v}$ 看成一个1*2的矩阵，该矩阵代表了一个线性变换，该线性变换将一个2维空间映射为1维空间，那么 $[v_1]$ 代表第一个基向量映射后的位置，$[v_2]$ 代表第二个基向量映射后的位置，向量 ${\pmb w} = \begin{bmatrix} w_1 \\\\ w_2 \end{bmatrix}$ 映射后的位置就是 $w_1 [v_1] + w_2 [v_2]$，即 $w_1 v_1 + w_2 v_2$。
在以上过程中，2维空间映射为1维空间其实就是投影的过程。
所以，向量也可以理解成一个1行多列的矩阵，对应一个线性变换。任意一个其他向量经过该线性变换得到的结果，就是两个向量的点积。
叉积
${\pmb v}$ 和 ${\pmb w}$ 的叉积，在几何上是向量张成的平行四边形的面积（并考虑定向问题决定正负号/方向）。
对于二维空间，叉积的结果是一个数（不严格定义）：
${\pmb v} \times {\pmb w} = \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} \times \begin{bmatrix} w_1 \\ w_2 \end{bmatrix} = \det \left( \begin{bmatrix} v_1 & w_1 \\ v_2 & w_2 \end{bmatrix} \right) = v_1 w_2 - v_2 w_1$
对于三维空间，叉积的结果是一个向量：
${\pmb v} \times {\pmb w} = \begin{bmatrix} v_1 \\ v_2 \\ v_3 \end{bmatrix} \times \begin{bmatrix} w_1 \\ w_2 \\ w_3 \end{bmatrix} = \det \left( \begin{bmatrix} {\pmb i} & v_1 & w_1 \\ {\pmb j} & v_2 & w_2 \\ {\pmb k} & v_3 & w_3 \end{bmatrix} \right)$
该向量垂直于 ${\pmb v}$ 和 ${\pmb w}$ 张成的平面，方向根据右手定则确定，长度等于 ${\pmb v}$ 和 ${\pmb w}$ 张成的面积。
在几何上，叉积的含义是：如果一个向量 ${\pmb p} = \begin{bmatrix} p_1 \\\\ p_2 \\\\ p_3 \end{bmatrix}$ 与任意向量 ${\pmb x} = \begin{bmatrix} x \\\\ y \\\\ z \end{bmatrix}$ 的点积等于由 ${\pmb x}$、${\pmb v}$ 和 ${\pmb w}$ 排成的矩阵的行列式，那么这个向量 ${\pmb p}$ 是多少？即
$\begin{bmatrix} p_1 \\ p_2 \\ p_3 \end{bmatrix} \cdot \begin{bmatrix} x \\ y \\ z \end{bmatrix} = \det \left( \begin{bmatrix} x & v_1 & w_1 \\ y & v_2 & w_2 \\ z & v_3 & w_3 \end{bmatrix} \right)$
向量 ${\pmb p}$ 就是 ${\pmb v}$ 和 ${\pmb w}$ 的叉积。
实际上，由 ${\pmb x}$、${\pmb v}$ 和 ${\pmb w}$ 排成的矩阵的行列式是一个将 ${\pmb x}$ 从3维空间映射到1维空间的线性变换；既然是线性变换，就一定存在一个向量 ${\pmb p}$ 与之对应。
基变换
当我们采用 ${\pmb i}$ 和 ${\pmb j}$ 作为基向量，意味着在对应的 坐标系（Coordinate System）下定义它们的坐标（Coordinates）依次为 $\begin{bmatrix} 1 \\\\ 0 \end{bmatrix}$ 和 $\begin{bmatrix} 0 \\\\ 1 \end{bmatrix}$。
如果我们换一组向量作为基向量呢？比如，我们把向量 $2{\pmb i}+{\pmb j}$ 和 $-{\pmb i}+{\pmb j}$ 分别作为新的基向量，由此定义了一个 新坐标系，在这一 新坐标系 下，$2{\pmb i}+{\pmb j}$ 和 $-{\pmb i}+{\pmb j}$ 的坐标也依次定义为 $\begin{bmatrix} 1 \\\\ 0 \end{bmatrix}$ 和 $\begin{bmatrix} 0 \\\\ 1 \end{bmatrix}$。但显然，这两个向量在 原坐标系 中的坐标为 $\begin{bmatrix} 2 \\\\ 1 \end{bmatrix}$ 和 $\begin{bmatrix} -1 \\\\ 1 \end{bmatrix}$。
不同的基向量意味着不同的坐标系，不同的坐标系下，我们描述同一个向量（Vector）所采用的坐标（Coordinates）是不同的。事实上，空间本身并没有内蕴的（Intrinsic）坐标系，并不存在绝对的基向量选择；一开始的 ${\pmb i}$ 和 ${\pmb j}$ 其实也是任意选取的。
如何在不同坐标系下进行变换（Translate）？例如，在新坐标系下的坐标 $\begin{bmatrix} x \\\\ y \end{bmatrix}$ 对应的向量，在原坐标系下的坐标是多少？
$\begin{bmatrix} 2 & -1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = x \begin{bmatrix} 2 \\ 1 \end{bmatrix} + y \begin{bmatrix} -1 \\ 1 \end{bmatrix} = \begin{bmatrix} 2x-y \\ x+y \end{bmatrix}$
矩阵 $\begin{bmatrix} 2 & -1 \\\\ 1 & 1 \end{bmatrix}$ 是用 原坐标系的基向量 下的坐标来描述 新坐标系的基向量，却可以用来将 新坐标系下的坐标 转换为 原坐标系下的坐标。类似地，逆矩阵的定义和作用完全相反。
基变换与线性变换
此时，再回头看矩阵所代表的线性变换，之前的描述是 矩阵的各列依次代表变换后的各基向量。但更为精确的描述可以是，矩阵的各列依次代表变换后的各基向量的坐标。
区分线性变换和基变换
线性变换中，基向量（坐标系）只有一组，变化的是向量。
基变换中，向量不变，但需要在不同的基向量（坐标系）下描述该向量的坐标。
如果在 原坐标系 下发生了线性变换 $\begin{bmatrix} 0 & -1 \\\\ 1 & 0 \end{bmatrix}$，那么这个变换在 新坐标系 下该如何描述？
首先，对于 新坐标系 下的任意向量 ${\pmb v}$，先“翻译”到 原坐标系，即
$\begin{bmatrix} 2 & -1 \\ 1 & 1 \end{bmatrix} {\pmb v}$
然后，经过 原坐标系 下发生的线性变换，即
$\begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} \begin{bmatrix} 2 & -1 \\ 1 & 1 \end{bmatrix} {\pmb v}$
最后，将结果“翻译”回 新坐标系，即
$\begin{bmatrix} 2 & -1 \\ 1 & 1 \end{bmatrix}^{-1} \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} \begin{bmatrix} 2 & -1 \\ 1 & 1 \end{bmatrix} {\pmb v}$
所以，新坐标系 下描述该线性变换的矩阵就是 $\begin{bmatrix} 2 & -1 \\\\ 1 & 1 \end{bmatrix}^{-1} \begin{bmatrix} 0 & -1 \\\\ 1 & 0 \end{bmatrix} \begin{bmatrix} 2 & -1 \\\\ 1 & 1 \end{bmatrix}$。
在看到类似 ${\pmb A}^{-1} {\pmb M} {\pmb A}$ 的矩阵结构时，通常中间的矩阵 ${\pmb M}$ 代表一种变换，而两侧的矩阵 ${\pmb A}$ 代表一种转移作用。其结果是，变换仍然是 ${\pmb M}$ 所代表的变换，只是切换了一种视角来看待这种变换。
特征向量与特征值
要理解 特征向量（Eigenvectors）和 特征值（Eigenvalues），需要建立在理解众多预备知识的基础上，包括线性变换、行列式、线性方程组和基变换。
在线性变换中，绝大部分向量都偏离了原来的方向，只有少部分向量仍然保留在原来的方向。对这部分向量而言，线性变换的效果相当于缩放（乘以一个标量）。这样的向量被称为 特征向量，缩放的比例就是 特征值。
$\begin{aligned}{\pmb A} {\pmb v} =& \lambda {\pmb v} \\{\pmb A} {\pmb v} =& \lambda I {\pmb v} \\\left( {\pmb A} - \lambda I \right) {\pmb v} =& 0\end{aligned}$
由于我们希望 ${\pmb v}$ 是非零解，就意味着矩阵 $\left( {\pmb A} - \lambda I \right)$ 是不满秩的（行列式为零），即
$\det \left( {\pmb A} - \lambda I \right) = 0$
如果我们采用特征向量作为基向量，会怎么样？这种情况下，线性变换的效果是，每个基向量仍然保留在原来的方向上进行缩放。所以，对应的矩阵就是一个 对角矩阵（Diagnal Matrix），其对角元素就是特征值。
所以，在给定基向量（和对应的坐标系）的情况下，可以先“翻译”到特征向量作为基向量的坐标系中，进行线性变换（此时退化为每个基向量方向上的缩放变换），然后再“翻译”回原坐标系下。
假设原线性变换的矩阵是 ${\pmb M}$，存在特征向量 ${\pmb v_1}$、${\pmb v_2}$、……、${\pmb v_n}$，作为列向量排成矩阵 ${\pmb V} = \begin{bmatrix} {\pmb v_1} & {\pmb v_2} & \cdots & {\pmb v_n} \end{bmatrix}$；对应特征根 $\lambda_1$、$\lambda_2$、……、$\lambda_n$，排成对角阵 ${\pmb \Lambda} = \begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\\\ 0 & \lambda_2 & \cdots & 0 \\\\ \vdots & \vdots & \ddots & \vdots \\\\ 0 & 0 & \cdots & \lambda_n \end{bmatrix}$。由上一节结论可知，从特征向量作为基向量的坐标系中看这个线性变换，对应的矩阵是 ${\pmb V}^{-1} {\pmb M} {\pmb V}$，该矩阵必然等于 ${\pmb \Lambda}$，即
$\begin{aligned}{\pmb V}^{-1} {\pmb M} {\pmb V} =& {\pmb \Lambda} \\{\pmb M} =& {\pmb V} {\pmb \Lambda} {\pmb V}^{-1}\end{aligned}$
抽象向量空间
线性代数中最为本质的概念，行列式和特征向量等，与所选取的坐标系（基向量）是无关的。
对某种对象，如果存在某种运算，该运算满足 可加性（Additivity）和 成比例（Scaling）这两个特性，都可以被看做向量。
可加性：$L\left( {\pmb v} + {\pmb w} \right) = L\left( {\pmb v} \right) + L\left( {\pmb w} \right)$
成比例：$L\left( c {\pmb v} \right) = c L\left( {\pmb v} \right)$
对向量而言，线性变换 这一运算就满足可加性和成比例两个特性。
特别地，函数也可以被看成是向量，求导运算对函数就满足可加性和成比例两个特性。
线性代数中的概念应用于函数时的别名
线性变换线性算子
点积内积
特征向量特征函数

《失落的学艺》笔记

2020-02-11T04:16:40.000Z

2020年初寒假，《失落的学艺》笔记
一些令人不安的问题
学生在校时间不断延长
需要学习的知识增多了，但真的懂得更多了吗？
令人担忧的现象
人们越来越容易受到大众传媒的影响
辩论时，无法抓住问题关键
讨论时，提出无关议题
写作时，没有正确使用字词
离开学校后，忘记所学的内容，也没有学习新知识的能力
查阅资料时，无法辨别与所关注问题相关的内容
知识局限在固定的领域
学习的艺术
学生什么都学，但却不学习 学习的技艺
中世纪的教育大纲
三艺（Trivium） vs. 四艺（Quadrivium）
三艺就是处理不同科目的必经办法
文法（语言的结构）：语言是如何组织起来的
逻辑（语言的应用）：如何论述、组织逻辑、与人辩论
修辞（用语言表达自己）：优雅、有说服力
完成一篇论文并答辩
四艺是具体的学科
没有装备的人
将没有受到良好训练的人置于印刷品的摆布下，就像没有装备的人上战场
归回中世纪
三艺的教育开展对孩子越早越好
三个阶段
鹦鹉学舌阶段
擅长记忆、对推理不感兴趣，单纯地在积累材料
对应“文法”的学习：学习曲折语，尤其建议是 拉丁文文法
莽撞阶段
喜欢争辩、顶嘴、纠正别人、提出难以回答的问题
对应“逻辑”的学习：以 形式逻辑 作为统领性训练
诗意阶段
以自己为中心，渴望表达自己，想要独立，开始有创造力
对应“修辞”的学习
文法学习阶段：记忆的功能
英语：背诵诗歌和散文，为辩论和演讲打基础
历史：以时代服装、建筑照片构建视觉印象
历史的文法包括时间、事件、轶事和人物
地理：以地图、自然特征、风俗、动植物图片构建视觉印象
科学：从博物学开始
数学：乘法表、辨认几何图形和数字组
神学：应该去熟悉上帝和人的故事大纲，背诵主祷文、信经和十诫
学生在掌握三艺后，能自己处理神学内容
这些具体学科都应该作为三艺学习的材料
逻辑学习阶段
何时从文法学习转入逻辑学习？
当孩子出现争辩的倾向时，表现出抽象思维能力时
阅读：从叙事类和抒情类转向散文、论说和批评类
数学：代数、几何、高阶算术
作为逻辑学的分支被教授，因为数学基本就是在不断应用三段论
历史：讨论如“政治家的行为合理吗？”、“这样的政策会产生什么影响？”等问题，从而进入宪政历史
神学：为辩论行为与道德提供材料，教义与伦理
地理和科学：也可以为逻辑辩论提供材料
周围的世界：也能为逻辑推理提供素材
如何在教育中批评？
重点在论证的优美和精简上
错误、推理不严谨、论证模糊、论题无关和冗长
锻炼概要写作，然后精简到四分之一或一半的篇幅
修辞学习阶段
何时从逻辑学习转入修辞学习？
孩子发现自己的知识和经验不足，无法提供材料进行逻辑辩论；同时开始怀疑逻辑和理性的局限性
文学：欣赏先于批评
写作：练习个性的表达
允许专业化的发展，但也要求学习辅修科目
神学：万般知识终归于一
掌握了三艺，就已经预备好学习任何具体学科的能力，在后续学习中将明显更高效；换言之，可以直接上大学
挥霍教育老本 & 被忽视的根源
拓展后的四艺并不能取代三艺

《宗教情感》读后感

2020-02-08T06:53:26.000Z

2020年初寒假，《宗教情感》读后感
从信心到情感，再到行为
我们似乎一直在谈论信心与行为，圣经中也常将信心与行为对比分析。《宗教情感》单独把情感拿出来强调，才让我发现圣经中对情感的描述并不少，只是很少单独作为一个概念来强调，以至于我们常常忽略其作用。
在我的理解里，情感似乎是介于信心与行为之间的。情感有类似信心的特质，就是当人有了信心或情感，然后出于信心或情感去做某件事时，是自愿自发的；而行为可能是自愿的，也可能是受律法辖制、不得已而为之。人顺应自己的信心或情感而行，通常是喜乐的。情感与信心的区别在于，信心本身是外源性的、纯粹的，而情感可能建立在外源性的信心上，也可以是从自己的血气而来。
情感也和行为有共性，就是两者都可以是自己努力伪造出来的。甚至，人可以先伪造自己的情感，然后顺应这样的情感行出行为，以至于行为好像也是自愿的。
我们可以很轻易地断定（合理定义下的）信心是好的，也可以很轻易地分辨行为的好坏（因为行为是外显的）。然而，情感内藏在人的心中，可以如同行为一样被伪造，也可以建立在信心上，所以分辨自己的情感是否属灵才显得如此之难。
在属灵上，情感在某种程度上也是信心与行为之间的桥梁。从信心激发属灵情感，然后情感驱动好的行为。反之，行为也能不断巩固情感，进而使得信心长进。
《宗教情感》所批判的“属灵”境界，都常常是自己所不能及的
在读《宗教情感》时，最直观的感觉是作者对属灵情感界定之严格，以至于很多我们常常以为的属灵认知或表现，在他笔下都是批判的对象。
例如，在第二部分第八节，作者对谦卑的讨论中指出：
有时候人们以为他们谦卑，其实那不过是灰心丧气而已，因为他们曾经依赖的东西证明是靠不住的。这种所谓的顺服上帝并不是绝对顺服，其中还隐藏着讨价还价，只是难以察觉。
我常以为，如果一个人发现世上万事都不可倚赖，最后回转投靠上帝，这是是属灵的。有些经文也似乎在表达类似的意思，如经典的经文：
耶稣回答说，凡喝这水的，还要再渴。人若喝我所赐的水就永远不渴。我所赐的水，要在他里头成为泉源，直涌到永生。（约 4:13-14）
似乎就在对比世界和上帝，并指出上帝才是可倚靠的。
再如，在第三部分第二节，作者说人完全因为上帝爱自己而爱上帝，也是不可取的：
只要他们首先认定基督，宇宙的主宰，做了他们的俘虏，非爱他们不可，他的心肠因他们而消化，看他们的价值远远超过别人，在永恒当中预先爱了他们，且为他们而死，将来还要他们和他一同在天上掌权，同享永恒的荣耀。
我也常以为，上帝就是通过先爱人，让人受感动而“回应”上帝的爱，也是没错的。例如，作者自己举出的经文：
我们爱，因为上帝先爱我们。（约一 4:19）
我原来甚至以为，也曾在门训中提出这样的观点，就是如果人觉得自己能够单单因为神的圣洁荣耀而爱上帝，不依赖任何上帝对其应许的利益（无论是今世的祝福，还是永生的盼望），似乎显得特别自高自大。这样美好的描述用在原本是罪人、且如今还常常受试探而软弱的我们身上，真的合适吗？
不过，其中需要分辨的是，作者对真宗教情感描述的对象是真圣徒，他们因圣灵感动而有了“属灵器官”，能感受到神圣事物的圣洁，所以能够通过认识上帝的圣洁荣耀而爱上帝。可是，这仅仅是理论上可行，实际上真的做起来又是何等的难。甚至，我常常连上帝爱自己这一点也需要刻意自我提醒才能认知到，面临困境时还可能会抱怨“上帝不爱我、不帮助我”。
某种意义上，作者仿佛在讨论一个逻辑上允许存在矛盾的虚拟世界。在那个世界里，世界是可以倚靠的、上帝是可能不爱世人的（当然，这些违背上帝圣洁或慈爱的属性，因此说是矛盾的），但是，作者要求人在这种情况下依然单单因为上帝的荣耀而爱上帝。
更让人灰心的是，作者在第三部分第一节中还指出：
真圣徒所有的情感和体验都是属灵的，其他人的情感则完全没有属灵的本质。
如果这句话是定义的话，那就真让人绝望了。因为这意味着，但凡心中有不属灵的情感，就不是真圣徒。在我自己读《宗教情感》之前，门训班里有姊妹说，读这本书的时候就感觉自己好像还没信耶稣。这感觉，在我心中也是强烈的。
不过，作者说这句话的语境是，强调圣灵使得圣徒产生全新的“生命原则”。或许作者本意并不是给出真圣徒的定义，正如作者在第一部分第二节最后，也指出：
真圣徒的情感里面也有许多不属灵的情感，他们的宗教情感常常是混合的，多数不是来自上帝的恩典，而是来自人属血气的本性。
然而无论如何，我自己省察自己，可以明显感觉自己离作者所描述的真宗教情感真的太远，甚至不能达到他所批判的境界。虽然不乏灰心，但也正如作者所说，自我省察虽然有益，但不能真的培养自己的宗教情感；我们应该去行动，做该做的事，也就是更殷勤地操练属灵生活并且服事教会。读《宗教情感》，至少让我明白了我该向着什么方向去努力，好过在黑暗中行走，不知目的地为何处，以至于找了赝品当做真品。愿主帮助我操练我的宗教情感，阿们。
第三部分门训
第一章圣灵特殊的感动
因圣灵的工作，为信徒创造了一种全新的感官，这感官能使人感受到神圣事物的美好。这感官既是“全新的”，就与其他一切人本来所有的感官不同，正如视觉、味觉、嗅觉之间完全不同。尽管视觉感受到的悦目、味觉感受到的甜、嗅觉感受到的香之间存在共性，即都是正面的情感，因此也可以互相描述，但本质上是不同的。属灵感官 也是一样，它能体验到神圣事物的美好，和属血气的感官感受到的美好（甚至可能也是神圣事物的美好），有共性，但本质上不同。
第二章上帝美善的本质
人首先要以上帝本身的美好而爱上帝，其次才发现上帝为信徒预备的救赎计划竟然是对信徒有益的。两者的主次关系不可颠倒。
第三章宗教的道德之美
在神圣事物各样美好属性中，圣洁是首要的。能否感受到圣洁（或者说圣洁在感受中所占的比重），可以帮助判断是否出于属灵感官。毫无恩典的人也能感受到上帝的威严、伟大、全能，即使魔鬼也是如此，但他们对上帝的圣洁则毫无感觉。
第四章圣灵的光照
第四章强调的是理性和感性在信仰中的关系，提出了 属灵的理解力 这一概念。属灵的理解力，非常类似第一章所描述的 属灵感官，但是属灵理解力相对更强调 理性之光 在我们对属灵事物感受中所发挥的作用。理性之光是属灵情感的必要基础，没有理性的情感绝不可能是真属灵情感；当然，理性之光也不必然导向属灵情感（圣灵有普遍恩典）。但即便如此，作者依然强调在属灵的理解力中，对属灵之美的 感受能力 是要优先于对属灵事物的 推断能力 的。
然后，作者论述这种理解力与前三章内容的关系。具体地，强调了
理解力的对象是道德美和圣洁，并因此而爱上帝。
明白神圣事物的荣耀是一切知识的基础。
（仅有）理性光照和救赎启示的区别。
将属灵感官和理解力引申为 属灵品味，一种类似直觉但符合属灵理性的判断能力。
总的来说，合乎圣经地去追求属灵知识是非常重要的，单纯依赖感性是靠不住的。但是，我们还是需要明白，理性的建立还是为了服务属灵情感，一切都是为了更多地去认识神，并以神为乐。
第五章属灵的确信
如果有属灵的确信，那它必然对我们的生命产生统管的作用。属灵确信必须是合理的，不能单纯来自文化思潮或者理性论证，而必须采用一种“内证”的方式。
上帝也迫切地想要通过属灵事物的圣洁之美让我们认出他，并预备了充分的证据，也就是属灵的内证；这样的证据在可靠性上远超过从历史、文献、研究中得来的证据。
属灵的确信，很大程度上依赖于属灵感官对圣洁之美的感受、属灵判断力对圣洁之美的理解。
其实，如果真的有确信，我们一切的行为都将有本质改变。毕竟，属灵事物与我们的关系过于重大，以至于地上的一切利益都算不得什么。很多时候，我省察自己，其实都觉得自己的信心都称不上确信，还不如对明天太阳照常升起的信心，这似乎说明我对太阳升起的体验不如属灵体验的程度？如果说上帝预备的证据是极其充分的，那我却常常看不见，真如瞎眼的。
第六章福音的谦卑
其实我感觉自己最容易犯的罪就是骄傲的罪，因为总是习惯让自己处在一个自我感觉良好的状态中，也希望在人面前获得称赞，甚至为此去“表演”谦卑。今天分享的律法主义精神、看重自己属灵知识和体验、热衷于宣告自己的义等，我都有过。
真的谦卑是要认识自己的罪是何等的大，罪本身是何等的可恶，以至于自己无论遭受什么，都算不得什么（照着我们配受的，我们的担子是轻省的），所以甘心乐意处于任何环境。
恩典情感在人里面的工作原理：为什么会导致行为上的果实？
在《宗教情感》第三部分中，可能有这样一条脉络：
圣灵通过感动人心，为信徒建立 属灵感官（第一章）。
这种属灵感官也是符合圣经的理性检验的，在这一层面上也被称为 属灵判断力（第四章）。
这种属灵感官能够感受属灵事物，尤其是属灵事物的道德之美，并且集中体现为 圣洁之美（第三章）。
借由这种属灵感官，人可以因 上帝的美好本质，也就是圣洁而爱上帝；而不是因上帝赐给人的好处（无论是普遍护理还是特殊救恩）而爱上帝（第二章）。
借由属灵感官与上帝建立关系，从而用圣灵内证的方式建立 属灵的确信（第五章），弃绝律法主义、操练 福音的谦卑（第六章）；进而持久性地 改变本性（第七章），有份于 基督的性情（第八章），为罪忧伤并有 温柔的心灵（第九章）；最终表现出比例和谐、具有美感的属灵情感（第十章）。
至此，圣徒也不会感到满足而停止追求，而是 不断渴慕更加属灵，因为圣徒真爱圣洁事物（第十一章）。
总结来说，圣徒因圣灵感动建立起属灵感官，从而感受到属灵事物的圣洁之美，并因此爱上帝；然后在与上帝和属灵事物相交的过程中培养起圣洁的属灵情感，并不断追求。这些圣灵工作的外在表现就是，圣徒愿意有 圣洁行为，结出果实来（第十二章）。
可以说，行为是最外在的，而圣灵在人心里的工作是最内在的，由内而外依次是：圣灵工作 -> 属灵感官/判断力 -> 圣洁情感 -> 圣洁行为。
《宗教情感》中所描述的恩典情感的标志成为新的律法？
《宗教情感》中批判了很多看似属灵但虚假的情感模式，也就是其第二部分所讨论的。这其中很多表现可能是我们以往所竭力追求的，比如热烈的情感、有丰富的宗教知识、经文忽然进入头脑、确信自己得救，以及因知道上帝救赎自己离开地狱、上天堂而爱上帝等。现在，读完《宗教情感》，我们知道这一切都不是恩典情感的可靠标志。
此时，我们是否会转而追求第三部分中的恩典情感的标志呢？当然，爱德华兹所描述的这些标志其实是非常严苛的，如果不是真的出于恩典，其情感是很难符合这些标志的。但问题在于，我们已经知晓了这些标志，会不会以一种律法的心态去追求这些标志呢？比如，我们是否会特意去想象上帝本身的美善，不断自我强化这种印象，然后宣称自己因上帝的美善而爱上帝呢？并且，我们还可能批判那些不这样行的信徒……如果这样，那么《宗教情感》这本书就成了一部新的律法。
然而，我们知道，律法虽是好的，但律法主义却常常绊倒人。《宗教情感》给出的恩典情感标志，只是让我们自我省察用的，而不是以律法的心态去遵守。一方面是确实无法完全遵守（就像无法遵守律法一样），另一方面遵守律法永远无法使得我们得救。我们要得救，终究只有一条道路，就是基督。
所以，如果我们达不到《宗教情感》的标准，其实也不必太过沮丧（？）。毕竟，我们得救只在乎恩典，而不是是否达到这些标准。人都是软弱的，无法遵行律法，也无法遵行这些恩典情感的标准；然而，基督已经为我们成就了这一切我们无法成就的。我们当仰望基督，将他为我们成就的义批戴在自己身上。
《宗教情感》最后对圣洁行为的强调是律法主义吗？
爱德华兹在书的最后其实已经直接回答了这个问题，他强调：圣洁行为是上帝恩典的标志，是上帝白白赐下信心的同时，白白附赠给我们的。反之，如果把行为当做赚取上帝恩典的工价，才违背因信称义，这种情况下的信徒突出表现就是自夸。恩典的本质（白白的恩典）和圣洁行为的必要性，在圣经中并行不悖；后者绝不会降低前者的地位。
然而，爱德华兹阐释的是理论上的逻辑关系，确实没有问题。但在实践中，我们
是不是会为了证明自己有这样的标志，而勉励自己去遵行律法呢？（爱德华兹也这样鼓励）
是不是发现自己无法遵行时，又深感气馁呢？（人在地上的时候几乎不可能完全成圣，甚至按爱德华兹所说，真信徒会不断深入地认识自己的罪）
如果行为是最主要证据，那是不是会怀疑自己没信心、没得救呢？（爱德华兹也鼓励这样自我省察）
上述心态在我们使用律法主义时，几乎一模一样。那么，当我们看重行为时，就会“在直观上”觉得恩典不是白白的。虽然我们可以在理性上认识到恩典是白白的，但感性上却完全不是这个样子。爱德华兹所强调的“属灵行为是恩典的标志，而不是工价”，看起来不过是调换了行为和恩典的顺序：
律法主义：行为在前，恩典在后
因信称义：恩典在前，行为在后
现在，上帝固然不是因我们的行为而把恩典赏赐给我们，而是“借”给我们恩典好叫我们“还”行为。这其实就是我小时候未清晰认识因信称义之前的感觉：恩典是白白的，但我没有好行为（严格的定义是存在坏行为），所以我在恩典之外。
所以，对因信称义的认识永远是需要最先被建立起来的，但在建立起来之后，也需要进一步认识行为的意义。明显，《宗教情感》是写给那些对因信称义有认识的信徒的。无论我们的属灵实践成功与否（在初期可能更多的是失败），我们都应该常常使用因信称义，至少不让我们自暴自弃。
另一方面，还需要特别操练谦卑。要知道无论怎么样的行为，都既不足以“换取”，也不足以“偿还”恩典——人在上帝面前就是毫无价值的，人的行为也毫无价值，怎么能“换取”或“偿还”上帝独生子为我们舍弃生命呢？因此，关键问题绝不是行为和恩典在这场人心所臆想“交易”中的交割顺序，而在于根本不存在这样的“交易”，因为世界上没有比这更不等价的交易了。从价值上看，毫无疑问恩典就是白白的。
然而，读完这本书的直观感受还是气馁，仿佛自己根本没信……愿主帮助我。

《宗教情感》读书笔记

2020-01-28T12:49:01.000Z

2020年初寒假，《宗教情感》读书笔记。
第一遍阅读从1月28日开始，到3月27日结束，历时正好两个月。读这本书的过程中，无时无刻不感灰心气馁，仿佛自己从来没信耶稣一般；也更新了自己好多对信仰的认识。我愿意相信这是个去芜存菁的过程——剔除那些盲目的“信心”，虽然在感觉上很糟糕，但终究好过永远陷在那些虚妄的认知里还感觉良好。
在这段时间里，还遇见了上帝为我预备的另一半，原来她早就出现在我的生命中。倘若我在四年之前悬崖勒马，也不至于“在好些医生手里受了许多的苦”。感谢上帝管教我、带领我回来，也在这个过程中建立我的生命，以至于如今我能清楚地认识她就是上帝为我预备的；也感谢上帝，她竟然一直等候到如今。
顺便完成了令人头秃的学位论文的理论部分，完成了初稿和预答辩，目前期待毕业中。
愿荣耀归于至高神！
第一部分　情感的本质及其在宗教中的重要性
一　关于情感的开场白
你们虽然没有见过他，却是爱他；如今虽不得看见，却因信他就有说不出来、满有荣光的大喜乐。（彼前 1:8）
试炼的三重好处：
凸显宗教的真实性、区别真假宗教
彰显宗教的美（美德、荣耀）
净化并加强宗教
两种情感使得上述益处得以显明：
爱（爱基督）：基督徒爱那看不见的，并舍弃可见之物
喜乐（以基督为乐）
来自基督
不同于世俗之乐，满有荣光的
因此，真宗教很大部分在于圣洁的情感。
二　真宗教很大部分在于圣洁的情感
情感是什么？
情感就是人心中意向（Inclination）和意志（Will）较活跃而明显的活动。在看待事物时，不作为旁观者，而能有态度（喜欢/不喜欢、愉悦/厌恶、赞成/反对）。
情感有倾向和程度之分；程度高时会引起身体和血气的反应。
情感所居在于心灵，而非身体。
真宗教很大部分在于情感
情感的定义和本质就决定如此
圣经要求我们尽心爱主
宗教重要性极高，因此如果情感不强烈，两者就不相称
也只有在宗教中，不冷不热才显得特别可憎
宗教的情感当胜过肉体和情欲
情感是人行为的泉源
人宗教活动的泉源也是宗教情感
宗教掌管人心的程度不超过其感动人心的程度
如果宗教不感动人心，人对宗教就是无动于衷的
圣经用情感描述宗教
敬畏、盼望、爱、恨、渴慕、忧伤、感恩、怜悯和热心
圣经把真宗教总结为爱
耶稣对他说：“你要尽心、尽性、尽意，爱主你的　神。这是诫命中的第一，且是最大的。其次也相仿，就是要爱人如己。这两条诫命是律法和先知一切道理的总纲。”（太22:37-40）
爱人的就完全了律法。（罗13:8）
圣经中圣徒的信仰很大部分是圣洁的情感
大卫的诗篇
保罗的书信
约翰的书信
耶稣表达的圣洁情感
天上的宗教很大部分在于情感
圣洁而强烈的爱和喜乐
教会礼仪和信徒的宗教责任是情感的表达
祷告是为了感动自己的心
诗歌是为了打动我们的情感
圣餐礼是为了我们受到感动
讲道（而非神学书籍）来打动人心
罪主要在于人的心硬（不受感动的心）
宗教的在圣徒心中的真实性不一定与情绪的热烈程度成正比
真圣徒也有属血气的情感
不能看当前情感的强烈程度，而要看情感习惯的固定强度（不一定与外在表现或内在效果成正比）
三　教义推论
完全摒弃一切宗教情感，或完全依赖强烈的情感，都不可取
理性上对教义的认识（光）和宗教情感（热），两者都不可或缺
如果对宗教中那些大事有正确认识，人心必然受到感动
情感丰富不一定有真宗教，但毫无情感则必定没有
使得人心感动的蒙恩之道是正确的
光靠宗教书籍是不够的
认识到自己在上帝面前的羞耻和恐惧
我们常常对世俗之事情感过于敏感，却对宗教之事情感麻木
情感就应当尽可能地被用于宗教（而非世俗之事），这也是上帝赋予人情感的目的
第二部分　无法证明宗教情感是否出于恩典的一些现象
并非一切受宗教事务的感动都是真的宗教情感。因此，需要分辨宗教情感的真伪。
一　宗教情感热烈
真宗教情感应该是热烈的
没道理限制自己受到宗教感动的程度
圣经中对宗教情感热烈程度的描述
天上圣徒的宗教情感是热烈的
有些高涨的情感并非属灵情感
有些情感热烈，但转眼就忘记
加拉太基督徒
以色列人出埃及时，见神迹时情感热烈，但转眼就拜金牛犊
犹太人在耶稣进入耶路撒冷时欢呼
二　身体的生理反应强烈
情感越强烈，就可能引起越强烈的生理反应，但这无法判断出自哪一类情感
属血气的情感也能引起强烈的生理反应
强烈的生理反应也可能是属灵情感引起的
圣经的描述：发抖、叹息、成病、呼吁、切慕、渴想等
血肉之躯太软弱，尤其不适合属灵情感和属天情感剧烈运行（太26:41; 林前15:43,50）。
三　善于谈论宗教
善于谈论宗教，无法判断是健谈浮夸（法利赛人的作风）、还是为圣灵感动
善于谈论，说明人深受感动，但不能判断是否出于恩典
受施洗约翰洗礼而感动的，有并未领受恩典的
有渴慕耶稣讲道的，也并未悔改
四　情感源于外界
恩典本身来自上帝外源性的运行，而不是人自己的努力，所以真宗教情感的产生来自外界才是合理的
上帝要显明人的软弱，叫人无可自夸；显明人无法自救，唯独倚靠上帝
上帝救以色列人出埃及
上帝帮助基甸击败米甸人（士师记第7章）
上帝帮助大卫击败歌利亚人
圣灵的工作是人能察觉的
人能够分辨圣灵的感动和属血气的感动之间的不同
圣灵没有必要“不让人察觉地”工作
情感不是自己营造出来的，无法证明一定来自恩典
不能依赖超自然的外源性感动，尤其是在蒙恩之道以外的
邪灵也能感动人，并且冒充圣灵感动人
圣灵有普遍性的感动，但不一定都是救赎性的
有些人身体软弱喜欢幻想
五　情感伴随经文进入头脑
宗教情感伴随着经文进入头脑，不足以判断是否属灵
要分辨经文及其教导的内容，而不能以经文进入头脑这一方式作为判断依据
经文是纯全无缪的，但从经文联想得到的情感并不一定正确应用了经文，可能是滥用经文的结果
魔鬼可能使用经文欺骗我们
魔鬼曾经用经文试探耶稣（此处，魔鬼对经文的应用就是错误的应用）
异端的教师也会曲解经文，用来败坏人心
六　情感包含爱意
情感里包含爱，不一定能证明其出于救恩
魔鬼虽然没有爱，但是可以伪装出爱
只因不法的事增多，许多人的爱心才渐渐冷淡了。惟有忍耐到底的，必然得救。（太 24:12-13）
基督徒对于主内弟兄姊妹的爱也可能掺假
七　多种情感交织
多种宗教情感交织，不一定能证明其包含恩典
假宗教也有情感，在表面上与恩典情感并无二致
既然人在属血气的状态下能表现出每一种宗教情感，那么也能同时表现出多种宗教情感
耶稣荣入耶路撒冷时，百姓的情感
爱是一切情感的泉源
爱从基督而来，则一切情感都是真的
爱从血气而来，也能衍生出各种情感，但都不是真宗教情感
八　宗教体验顺序
上帝拯救罪人时，会首先使人认识自己的罪、并且需要拯救，此时人会痛苦；然后大施拯救，使人感到安慰和喜乐
以色列人在埃及、旷野的受苦
血漏妇人在医生手里受苦
迦南妇人完全自卑
保罗遭遇的危险
上帝向圣徒显现，也常常先令人恐惧，然后显出安慰
这也是上帝对付人的最普遍方式
圣经中有很多例子是，人先认罪痛苦，然后得到安慰
耶路撒冷众人“觉得扎心”
认罪、安慰、喜乐按照顺序而来，无法证明情感的真伪
恐惧感不等于认罪
有的人仅仅害怕地狱和魔鬼，但没有看到自己的罪
魔鬼也能使人感到恐惧
某些人的身体和性格上的特质导致其容易恐惧
真的受圣灵感动而认罪之后，也不一定导致真的安慰
人心可以消灭圣灵的感动
魔鬼能伪造人领受恩典后的谦卑，就是假谦卑
扫罗在大卫面前认罪，是假谦卑
有些人自以为谦卑，其实不过是灰心丧气，因为他们曾经依赖的东西证明是靠不住的；这种顺服不是绝对顺服，还隐藏着讨价还价，只是难以察觉。
魔鬼能伪造一切情感，当然也能按顺序伪造情感来欺骗人
最终不得救得人经历的种种情感和悔罪都不是属灵的
情感及其顺序都与得救与否没有必然联系
按作者的经验，按顺序出现的情感不是恩典的确据，尽管其常见于真信徒
一个人表面上缺乏步骤，也不能证明其不信主
圣灵的工作是神秘莫测的
圣灵在圣徒里面所做的改变一开始的时候更像是一种混乱，叫圣徒不知如何是好。（谢泼德）
人决不能试图“引导”圣灵按步骤工作
真信徒在回忆自己得救的过程中，常常会甄选出那些符合步骤的，并反复强调和讲述；而忽视那些不符合步骤的
圣灵工作的关键在于圣灵果子的本质，而不是结果子的方式
九　参加宗教活动
宗教情感能促使人长期、乐意参加宗教活动、履行敬拜责任
先知亚拿昼夜侍奉上帝
初代基督徒同心合意、恒切在殿里
但以理一天三次认真祷告
大卫作诗篇
大量参与宗教活动，不能证明是否是真宗教情感
旧约以色列人、新约法利赛人的敬拜
假宗教也能使人热心参与宗教活动，甚至离群索居，献上所有时间来灵修祷告
希律王喜欢听施洗约翰的讲道，众人也“暂时喜欢他的光”
十　开口赞美上帝
宗教情感使人开口赞美上帝，但这也无法确认情感的本质
福音书里，众人看见耶稣的神迹后，都“归荣耀于上帝”
他们的口多显爱情，心却追随财利。（以西结书 33:31）
你们因耶和华言语战兢的人当听他的话：你们的弟兄，就是恨恶你们、因我名赶出你们的，曾说：“愿耶和华得荣耀，使我们得见你们的喜乐”，但蒙羞的究竟是他们！（以赛亚书 66:5）
十一　确信自己得救
圣徒可以有完全、绝对的得救确据
上帝将特殊恩宠清楚地启示给圣徒
挪亚、亚伯拉罕、以撒、雅各、摩西、但以理
约伯、大卫、希西家对自己信心的宣告
耶稣明白地指示门徒（约 15:11, 16:33, 17:13）
保罗在书信中宣告自己将得到天上的赏赐
上帝愿意圣徒还在地上生活的时候就确信自己必将承受永生
并非极端情况下（如殉道）才可以确信自己得救
多数基督徒都应该有这样的确信
确信自己得救，这样的情感不一定就是出于恩典
法利赛人会高调地宣告自己是圣徒
良知被蒙蔽，认罪的信就死了，假情感却高涨起来
没有真圣徒的谨慎感
不知道自己的盲目和内心诡诈
魔鬼攻击真圣徒的真盼望，却不攻击假盼望
不像真圣徒那样看到自己的败坏
两种假冒伪善
律法主义的假冒伪善：外在道德和宗教生活
福音派的假冒伪善：批评功德和自义，讲论白白的恩典，但却以这样的神学知识和“谦卑”为义
后者比前者更危险、更难以察觉、更难以醒悟
部分福音派的假冒伪善者可以一边犯罪，一边保持大无畏的盼望
凭信心 vs. 凭眼见
凭信心不是说，信靠上帝不需要先具备正确的属灵知识和体验
人相信上帝的程度不可能超过他认识上帝的程度
凭信心是指，在身处黑暗时，环境中看不见上帝应许实现的可能时，依然保持盼望
信心绝不是“相信自己已经得救”
怀疑自己得救，并不等于不信
缺乏得救的证据 -> 应当更多操练信息、运用恩典
怀疑自己是否配得领受恩典
上帝对付人的方式特别奇妙，人无法理解，以至于觉得应许无法实现
怀疑自己得救可能也是上帝的安排
人在跌倒时，怀疑自己得救是好事；因为这使得人反省，并且因为恐惧而约束自己不犯罪，更关注属灵的事，最后通过爱来去除这样的恐惧。
爱里没有惧怕；爱既完全，就把惧怕除去。（约一 4:18）
十二　人际关系良好
上帝没有给人辨明谁是真信徒、谁是假信徒的能力
尤其不要在人的灵魂这件事上论断人
只要人又敬虔的表现，就应该接纳并把他看做主内弟兄
圣灵向众教会所说的话，凡有耳的，就应当听！得胜的，我必将那隐藏的吗哪赐给他，并赐他一块白石，石上写着新名，除了那领受的以外，没有人能认识。（启 2:17）
所以，时候未到，什么都不要论断，只等主来，他要照出暗中的隐情，显明人心的意念。那时，各人要从上帝那里得着称赞。（林前 4:5）
假信徒可以赢得教会中良好的人际关系
假信徒的假情感，可以非常热烈，有各种貌似属灵的表现
假信徒的“圣洁”表现和经历，可以激发真信徒的共鸣
人不应该以自己是否喜欢对方，来判断对方的属灵状况
大卫因亚希多弗背叛他而不敢相信（诗 55:12-14）
耶稣教导我们用最终的果子来判断树木的好坏，而不是花朵
区分麦子和稗子很难，但区分特殊恩典和普遍恩典更难
基督徒可以误判别人是否真正得救，并不影响上帝借这样的错误运行恩典
第三部分　恩典情感和圣洁情感的明显标志
借助哪些现象或标志可以识别属灵和恩典情感？
这些标志绝不是让人来辨别别人的情感真假
有些人几乎没有恩典，不应该指望借助这些标志得救
信徒不知道自己得救，可能有两种缺乏
考察对象的缺乏：恩典过于低迷、软弱，以至于和假信心无法区分
考察能力的缺乏：人对属灵的事不明感
反复自我审视并不能使自己得救
人需要通过行动（蒙恩之道、敬拜服事）来获取得救的确据
作者也不鼓励使用这些标志来与假冒伪善者辩论
一　圣灵特殊的感动
属灵情感来源于圣灵的感动和运行，是超自然的
属灵 vs. 属血气/肉体/情欲
属灵：恩典、圣灵
属血气：不敬虔、不圣洁
属灵一词并非在讨论是否与人的灵魂相关，而是是否与圣灵有关；并且，受到圣灵 普遍的感动 并非属灵，受到圣灵 特殊的、恩典的、救赎性感动 才是属灵的
只有在特殊感动中，圣灵才住在圣徒心中，与圣徒的灵 合而为一，成为他们 生命的原则
只有在特殊感动中，圣灵才传递自己的本质、属神的性情给信徒
特殊感动是圣灵最崇高的工作，因为祂使受造物与上帝有份（彼后 1:4; 来 12:10）
真圣徒所有的情感和体验都是属灵的，其他人的情感则完全没有属灵的本质
属灵是全新的感受和感官（感受到属灵之事的能力），是不能靠改善、混合其他情感所能达到的
属灵意味着全新的生命原则，而圣灵的普遍感动可能改善人属血气的生命原则
属灵情感与属血气的情感可能有相似的部分，但本质不同
人可以分别通过味觉和视觉获得积极或消极的情感，但两种感觉的本质不同
属血气的人也能有全新的情感体验，但不一定就是属灵的
例如，旧的情感原则运行到新的高度
通过想象来看见意象
想象的印象：想象的意象非常强烈，仿佛真的感受到一样
圣经用意象和比喻描述圣灵，因为圣灵不可见
光：属灵事物
看见：拥有属灵事物有清晰的认识
听见呼召：相信福音、相信基督
这些用于比喻的意象并非说，人在生动的想象中“看见”“光”，“听见呼召”，就是属灵的
无论是经文还是意象，出现方式的特殊性（通过想象看见意象，或经文忽然进入头脑）都和是否属灵没有必然关系
想象得到的意象，即使进入头脑的方式特殊，但本质上和直接看到、听到没有高下之分；换言之，相当于教皇派信徒在教堂中看基督的画像。另外，魔鬼或者生理病痛也能引发人想象出意象
头脑中联想圣经话语，本身也无属灵之处；和直接阅读圣经，没有本质区别
巴兰也知道上帝启示的话语来自上帝
真正属灵的事，不在于它们的出现方式，而在于圣灵在信徒心中的运行效果本身是神圣的
圣灵的见证/圣灵的印/圣灵的凭据：圣灵在圣徒心中动工产生的特殊效果，是属血气的人在仍属血气时所不可能体会的情感
圣徒在地上因圣灵而体会到的光明、生命、圣洁、完美、喜乐和天上的圣徒是一样的，但程度不同
圣灵与我们的心同证我们是上帝的儿女（罗 8:16）
二　上帝美善的本质
恩典情感首要的是神圣事物的美好本质，其次才可能伴随着这些事物与信徒自身的关系或利益，两者顺序不能颠倒
人爱上帝并以此为乐，所以人还是为了自己的喜乐？为了爱自己？
不对。因为人首先得爱上帝，这件事成为人的喜乐是衍生的结果，而非起初的目的。
人爱上帝的体现可以是：连他自爱或追求自己的幸福也会使他渴慕上帝并以上帝为乐。
这不同于：以对方对自己的利益为基础而爱对方。
你们若单爱那爱你们的人，有什么可酬谢的呢？就是罪人也爱那爱他们的人。（路 6:32）
两者的区别在于究竟谁是因？谁是果？
血气和自爱，通过激发感激之情，也能使人爱上帝
扫罗一再因大卫饶自己性命而感激，但其中没有真正的爱；当然，不懂感恩就是更邪恶的。
当自爱成为爱上帝的基础，就是不承认上帝的自由和主权（似乎上帝非爱人不可），相当于臆造了一个“上帝”。
自爱甚至能驱使人因上帝对群体（而非其个人）显明的慈爱而感动
属灵的感激之情 vs. 属血气的感激之情
真感恩之情存在一个根基，就是因上帝本身的伟大而爱上帝
真感恩并不完全排除自爱，但自爱绝不是根基
人应该因为上帝良善的属性、白白的恩典而感动，不在于这恩典关乎自己的利益，而在于这恩典是上帝荣耀的一部分
白白施与的恩典是神性完美道德的重要部分
不排除自爱在其中所发挥的辅助作用，但它服从更高的原则
我们爱，因为上帝先爱我们。（约一 4:19）
这经文的重点不在于先后关系，而在于凸显上帝的爱的伟大
圣徒内心的爱也是上帝的恩赐
上帝的爱藉着基督的救赎之功得以显明，尤其彰显了其荣耀
上帝将荣耀启示给罪人，激发人心中的爱
对真正的圣徒而言，上帝本身的完美、荣耀、可爱就是他们爱上帝的充分理由；然后，他们才发现这教义于他们有利。
他们专注于上帝本身，看不见自己和自己的属灵成就，并觉得花时间筹算如何炫耀成就时，是无法容忍的。
假冒伪善者在喜乐之时，一贯地关注自己，谈论时也集中在自己的体验和成就，而缺乏对上帝、上帝的工作、基督的美好的谈论。
他们的其他宗教情感，包括为罪忧伤、谦卑顺服也都出于自爱。
三　宗教的道德之美
真正圣洁情感的首要基础是神圣事物的 道德之美，即因这道德之美而产生的热爱之情
出于上帝的道德 vs. 自然的道德
出于上帝的道德善恶：是否犯罪、悖逆上帝
自然的道德善恶：是否违背自然状态（如苦难）
上帝的道德属性 vs. 自然属性
道德属性：公义、慈爱、良善、信实，总结为圣洁
自然属性：全知、全能、永恒、无处不在，构成上帝的威严
真宗教情感的根基在于神圣事物本身的美好本质，其中最首要的是圣洁
圣徒爱上帝的每个属性，每个属性也都是美好而荣耀的，但圣洁是基础与核心
一切智慧生命/神圣事物的美好，首先在于其道德美好，也就是圣洁
没有圣洁，能力和知识反而显得丑恶；圣洁使其他一切属性变得更加美好
爱上帝必须从爱慕上帝的圣洁开始，而不是其他属性
圣洁必须通过属灵感官才能感受到
从反面来说，罪性仇视神圣事物，首先就是仇视其圣洁
光照在黑暗里，黑暗却不接受光。（约 1:5）
毫无恩典的人和魔鬼都可以认识到上帝的能力、威严，但由于没有属灵认知，对上帝的完美道德（尤其是圣洁）毫无感觉
毫无恩典的人也能因看见上帝的能力和威严而赞美上帝
四　圣灵的光照
恩典情感来自圣灵正确的光照，内心得到属灵光照才能正确理解神圣事物
圣洁情感更出自 理智和知识
两种情况：接受的属灵教训，受光照或实践知识
若情感并非源于理性之光，无论多热烈也不是属灵的
源于个人想象的情感、经文忽然进入头脑、忽然的情绪高涨、身体出现生理变化，这些特殊形式均不能带来新知识
即使确实是源于理性教导，也可能不是出于恩典的
来源于圣灵的普遍光照，人借此提高了对宗教事物的理解能力
圣徒会有一种针对属灵事物的 理解力，而其他人则完全没有这种能力
然而，属血气的人不领会上帝圣灵的事，反倒以为愚拙，并且不能知道，因为这些事惟有属灵的人才能看透。（林前 2:14）
这种新的感官能使人认识神圣事物的可爱之处（道德之美），从而成为人爱神圣事物的基础
这种理解力不仅涉及 推理能力，更重要的是对属灵之美的 感受能力
只有认识到神圣事物的道德美，特别是基督身上和救赎计划里彰显出来的道德美，人才能理解基督作为中保的充分性；信徒对基督的认识才能超过魔鬼对基督的认识
不明白神圣事物的荣耀，那一切知识都是知识的影子，没有意义；正如没有圣洁，能力和知识就反而显得丑恶。
获得属灵感官会使人内心产生剧变，其强烈程度要远远胜于天生瞎眼的人获得视觉
圣灵为人建立属灵的品味：人通过属灵感官来感受圣洁事物的美好，不需要通过任何推理。
就像欣赏外在美貌，不需要分析外貌特征的精确比例；欣赏音乐，不需要分析每个音符的比例；欣赏美食，不需要分析食物的构成。
来自品味的判断是迅速而又准确的。具有属灵品味的人做出谦卑、温柔、仁爱等行为，效果远远好过一个没有属灵品味而依赖刻苦学习、推理的人。
来自属灵品味的判断，在事后也经得起规则和理性的检验，即符合圣经的标准
这完全不同于“上帝直接通过隐秘的启示直接命令”人如何去行。反面例子就是巴兰和扫罗。
魔鬼无法直接知晓人的内心想法（这能力唯独属于上帝），所以常借助人身体血气的运行、头脑的幻想来攻击人。
（对属血气之人）理性的光照 vs. 救赎的启示
解释教义 vs. 品尝救恩
我若有先知讲道之能，也明白各样的奥秘、各样的知识，而且有全备的信，叫我能够移山，却没有爱，我就算不得什么。（林前 13:2）
上帝多次直接给巴兰/扫罗启示其旨意，但巴兰/扫罗没有属灵光照
对经文属灵的理解，就是理解 经文本来的含义，而不是为其新造一个意思。
例如，当一个人想要去国外宣教，忽然想起耶和华对雅各下埃及的应许，并将这应许应用在自己身上。这就是自欺。
五　属灵的确信
真恩典情感伴随着属灵的确信：神圣事物完全属实、不容置疑
对真信徒而言，看不见的属灵事物就像看得见的事物一样发挥作用；并且，由于属灵事物本身的重要性，它们统治信徒的情感、管理其一生。
信就是所望之事的实底，是未见之事的确据。（来 11:1）
受到感动、情绪高涨 vs. 对 福音真理 的确信
合理的确信
基于真实证据、符合理性，而不是受到文化思潮影响下的确信
单纯因周围的基督教文化而确信福音，和因周围的伊斯兰文化而确信伊斯兰教，本质上并无区别，只是前者的内容碰巧是真的。
即使确信来自理性，也可能仍然不属灵
因理性和论证而赞同基督教，但内心仍然属血气，如卖耶稣的犹大
属灵确信不仅在果子上（人的行为）上与属血气的不同，而且仅属于圣徒，属血气的人则根本没有
符合理性的判断，源于对事物本质的正确把握；而事物的本质正是上帝亲自揭示的
心灵被圣灵光照后，会看见福音的神圣荣耀，并通过直接和间接的两种方式使人相信所看见的是神圣的
荣耀本身作为证据，直接使人相信事物的神圣性
上帝的荣耀远超属世的一切美好，本身就促使人产生确信
上帝也愿意让神圣事物显现荣耀，使人认出来是出于上帝的
人若无法认出，是因为他们在属灵上是瞎眼的
属灵的品味（及其所品尝到的恩典的甘甜、罪的苦涩、救恩计划的完美），也使人产生确信
福音必须通过这种“内证”的方式使人产生确信，否则福音就无法使那些缺乏教育背景的人产生确信
如果没有“内证”，他们就只能听信权威，但这就像跟随文化潮流的信仰一样，是不合理的
福音不是写给学者的。
上帝为我们预备了充分的证据，而不是“可能成立的证据”，使我们相信恩典；这证据比从考古、历史、文献研究中得来的可靠得多。
历史上，绝大多数殉道的基督徒都不是通过推理和研究的方式相信福音的；采用推理和研究的方式护教后，教会的属灵光景也没有得到明显复兴
做基督的见证人，必须有“第一手资料”才能作证，所以必须通过圣灵“内证”的方式先使人产生确信。
我们所说的，是我们知道的；我们所见证的，是我们见过的。（约 3:11）
外在的论证也是有价值的，可以用来唤醒不信的人，使他们认真思考。
看见荣耀会间接影响人心，使人信服真理
消除人内心的偏见（人在原始状态中对福音的敌意）
积极地帮助理性，使人更好地理解神圣事物
真恩典情感会伴随着属灵确信，但也有一些与此相关的假信心
圣灵的普遍光照下，有些人会明显感受到宗教中属血气的内容，包括他们畏惧上帝的威严（但体会不到上帝的圣洁），以致于产生“确信”
基于奇特想象的，使人相信圣经启示的道理
教皇派捏造神迹欺骗人，使人相信新约里的事情
信心的根基在于人以为在教会里能获得好处（天堂）
六　福音的谦卑
真恩典情感伴随着出于福音的谦卑：基督徒感到自己必须向上帝交差，从而认识到自己彻底匮乏、可鄙、可憎
出于律法的谦卑 vs. 出于福音的谦卑
出于律法的谦卑
圣灵的普遍感动、促进属血气的良知
不认识、不恨恶罪，而只恨恶罪带来的惩罚
人被迫低声下气，心有不甘
没有生命的改变
出于福音的谦卑
圣灵的特殊感动、构建超自然的原则
上帝启示其道德之美，使人认识罪本身的可憎
人甘心顺服，内心自由、喜乐
律法的谦卑并非无益，它是获得福音谦卑的渠道；正如宗教知识能帮助人走属灵真道。
整个救赎计划的目的（之一）就是使人产生真正的谦卑
虚心的人有福了，因为天国是他们的。（太 5:3）
我实在告诉你们，你们若不回转，变成小孩子的样式，断不得进天国。所以，凡自己谦卑像这小孩子的，他在天国里就是最大的。（太 18:3-4）
凡自高的，必降为卑；自卑的，必升为高。（路 18:14）
基督徒舍己的责任（真谦卑）
两点舍己的责任
弃绝世俗的喜好，排斥属世的物质和娱乐
隐士和修士也能靠着血气做到，但仍然是为了荣耀自己
弃绝属血气的自高自大，放弃自己的尊严和荣耀，甘心情愿地倒空自己、放弃自己、忘记自己。
真谦卑，正是一切假冒伪善者跌倒之处；他们往往热衷于在人面前宣告自己的卑微，但无法接受别人真的指出他们的不是。
律法主义的灵 是极其诡诈的：人在批判他人律法主义时，往往自己就已经被律法主义胜过了。
人在堕落前，律法主义的灵可能不是骄傲；但在堕落后，律法主义的灵一定是骄傲。
以因信称义之名批判律法主义，并沾沾自喜，也是一种极其危险的律法主义。
人心比万物都诡诈，坏到极处，谁能识透呢？（耶 17:9）
属灵体验只能作为蒙恩的证据，而决不能以此接近上帝、期望上帝回报
属灵骄傲的两个标志
第一个标志：骄傲的人喜欢居首位、指教人、当师傅。真谦卑则觉得自己不配教导人，而愿意接受别人的教导，看别人比自己强；并且在说的时候，也谨慎战兢，不喜欢用教训人的口气。
只要存心谦卑，各人看别人比自己强。（腓 2:3）
你们各人要快快地听，慢慢地说。（雅 1:19）
不要做多人的师傅。（雅 3:1）
真圣徒即使有超乎他人的宗教经历，也依然看别人更强，看自己的恩典和良善为小，看自己的罪为大
真的恩典使人明白自己离本应有的圣洁样式（上帝的标准）还差得远；愈发发现上帝的爱如此之多，自己的爱如此之少，以至于自己是一个“特例”，众人都应该强于自己（他只能看其他信徒的外表，却省察自己的内心）。
圣徒内心的爱是随着其认识上帝的程度而增加，但和上帝本身的爱比起来，永远是极其渺小的
当圣徒认识到自己离上帝的标准如此之远，就认识到自己的败坏有多严重。
信徒最小的罪里的病态扭曲，也显得很大，远远超过信徒最大的圣洁。
最小的罪，得罪的也是无限的上帝，所以是无限的；最大的圣洁，因为人本身的有限，圣洁也是有限的
真正的救赎性认识，使人不仅勇于承认过往的过犯，也承认当下内心的邪恶。救赎性认识可以遏制人犯罪的欲望（恶毒、嫉妒、贪婪、淫荡等），但显露人隐藏和亏欠的罪（缺乏爱、谦卑和感恩）。
真正的圣徒可能认识到自己比他人强，但这对他而言并不是显然的（需要谨慎推理），而且也绝不会占据他的主要想法。
一个人越有属灵的知识，就越感到自己的无知。
若有人以为自己知道什么，按他所当知道的，他仍是不知道。（林前 8:2）
第二个标志：人高估自己的谦卑。
虚假的宗教情感常使人注意、赞美自己的谦卑；而真正的宗教情感使人认识自己为什么应该谦卑，并且自己的谦卑如何微不足道。
人应该根据自己的身份来判断自己是否谦卑。在上帝面前，人本身就毫无价值，所以俯伏在上帝面前并不能算谦卑（而是理所应当）。因此，在上帝面前宣称自己的谦卑，就是再抬举自己的地位，就是骄傲。
真正的认罪，不是因为自己行为上穷凶极恶而痛悔（这是理所应当的），而是能深刻地鉴查出自己隐藏的罪，并且把自己的认罪归结于自己罪孽深重（而非敏于思过）。
考虑到谦卑的理由（自己本身的污秽），对比自己谦卑的程度，圣徒会发现谦卑就是理所当然，自己谦卑的程度也不值一提。
圣徒鉴查自己骄傲的敏锐度远高于看见自己谦卑，也积极看待别人的行为，多看到别人的谦卑而少看到别人的骄傲。假冒伪善的人完全相反。
高估自己谦卑的习气，引出喜欢炫耀谦卑的毛病
你们禁食的时候，不可像那假冒为善的人，脸上带着愁容，因为他们把脸弄得难看，故意叫人看出他们是禁食。我实在告诉你们：他们已经得了他们的赏赐。（太 6:16）
你禁食的时候，要梳头洗脸。（太 6:17）
自我评价的时候，不要盲目相信自己不会骄傲。很多时候，看到自己的罪而谦卑，然后心满意足（觉得自己比人强），就是骄傲；进一步，认识到上述情况是骄傲，并且自卑，然后又心满意足（觉得自己比人强），也是骄傲。
真正谦卑的人，在很多方面就和穷人一样，在上帝面前穷困潦倒，乞求恩典。
信徒在人面前也当谨慎谦卑
我们留心行光明的事，不但在主面前，就在人面前，也是这样。（林后 8:21）
务要尊敬众人，亲爱教中的弟兄，敬畏神，尊敬君王。（彼前 2:17）
七　人改变本性
恩典情感的另一个明显标志是人的本性被改变。
我们众人既然敞着脸得以看见主的荣光，好像从镜子里返照，就变成主的形状，荣上加荣，如同从主的灵变成的。（林后 3:18）
上帝赋予人全新的性情，将人从喜爱犯罪转向渴慕上帝和圣洁；并且，这种改变是持久的，因为改变的是本性。
信主之后难免仍然有血气，信主之前容易犯的罪依然会成为试探，但这些罪不再能支配信徒。
圣徒的良善确实完全来自上帝，但因着圣灵的工作，圣徒的性情与上帝有份，自己也能发出光来（尽管程度上完全不能与上帝相比）。
基督的生命传递给人的灵魂，活在人心里；圣灵藉此成为人真实而活泼的性情。
从他腹中要流出活水的江河来。（约 7:38）
人的性情因属灵光照而不断被改造，不止在信主之初，而且直到生命的尽头（那时圣徒的荣耀就得以完全）。
不要效法这个世界，只要心意更新而变化，叫你们察验何为神的善良、纯全、可喜悦的旨意。（罗 12:2）
八　基督的性情
真情感伴随着羔羊的心、鸽子的灵和基督的性情；自然生出慈爱、温柔、安静、饶恕和怜悯的心肠，也就是基督的心肠。
这种心灵（核心是圣洁）成为信徒的真正品格。
这些美德也是基督自己的品格；如果我们没有这些品格，就不配称为基督徒。
我心里柔和谦卑，你们当负我的轭，学我的样式。（太 11:29）
温柔：温柔与圣洁在圣经里是同义词（？），要像小孩子
基督徒也当刚强壮胆，为主争战；但最主要的争战在于克制自己的情欲
不轻易发怒的，胜过勇士。治服己心的，强如取城。（箴 16:32）
他被欺压、在受苦的时候却不开口。他像羊羔被牵到宰杀之地，又像羊在剪毛的人手下无声，他也是这样不开口。（赛 53:7）
暴躁的情绪往往显明人的软弱而非刚强
骄傲也能使人伪装成刚强的样式
饶恕：愿意忽略和赦免别人给我们的伤害
免我们的债，如同我们免了人的债。（太 6:12）
仁爱：驯良、乐善好施；爱使人认出我们是耶稣的门徒
我赐给你们一条新命令，乃是叫你们彼此相爱；我怎样爱你们，你们也要怎样相爱。（约 13:34）
怜悯：只有真心怜悯并帮扶穷困、劳苦、病患同胞的才是真圣徒
怜恤人的人有福了，因为他们必蒙怜恤。（太 5:7）
凡有世上财物的，看见弟兄穷乏，却塞住怜恤的心，爱上帝的心怎能存在他里面呢？（约一 3:17）
这些美德是基督徒各样情感（惧怕、希望、忧伤、喜乐）的 固有倾向。基督徒可能在软弱时违背这些品德，但总有这种倾向。
我们信主之后难免仍然有血气，但信主导致的变化也是明显的，尤其体现在治死从前喜欢犯的罪方面。
九　温柔的心灵
恩典情感使人心柔软，使基督徒有温柔的心灵。
假情感在开始时似乎能融化人心，但最终会使人心刚硬
这样的人恃恩犯罪，光景甚至不如悔改之前的
他们用基督的恩典反对上帝的律法
将我们上帝的恩变作放纵情欲的机会。（犹 1:4）
恩典情感使石心变得柔软，成为肉心
虽然是肉心，但坚决憎恶一切冒犯上帝的事，并保持警醒自律，效果远胜过奴性的恐惧感。
出于上帝恩典的 圣洁忧伤 比出于自私原则的 律法忧伤 更加能软化人心。
具有这样温柔性情的人就像小孩子
小孩子容易感动、受教、顺从，基督徒在属灵的事上也是如此。
小孩子有同情心、害怕危险、敬畏长辈……
神圣的勇气 也存在，但主要存在于大圣徒心中
神圣的勇气主要在于消除奴性和纷争，大圣徒反而比一般信徒在上帝面前更为敬虔。
恩典会促进良心认罪，从而使人心柔软
恩典使人停止犯罪，但不使人停止认罪，反而使人更深地认罪
恩典使人更深地认识罪，超过律法使人认罪的功效
除了圣洁的忧伤，感恩的喜乐、确凿信息和盼望也能使人温柔。
十　圣洁情感具有美感
真恩典情感 比例平衡，具有美感。
基督徒在今生，因为恩典不完全、属血气的缺陷，情感也可能在具体的事情上显得不足，但不会出现极端的比例失衡。
成圣时，信徒的各个部分和肢体都脱去旧人，穿上新人。
假冒伪善者在情感种类上有很强的偏好，某些情感很强烈，某些情感很冷淡；比例明显失调。
以法莲是没有翻过的饼。（何 7:8）（一面烤糊了，一面还是生的）
不同情感之间不平衡。例如，只有喜乐，没有敬畏。
同种情感在不同对象上也不平衡。例如，宣告自己爱上帝，却不爱弟兄；或者特别爱某些人，却不爱另一些人。
你们若单爱那爱你们的人，有什么赏赐呢？（太 5:45）
对同一个人，情感也不平衡。例如，只关心外在需求、却不关心属灵需求，或者只关心属灵需求、却不在乎外在需求。
耶稣也关心人的身体需要，如五饼二鱼。
恨恶其他基督徒的缺点，却对自己的缺点视而不见。
如果人看似取得较高的宗教成就（如撇弃世界、单单盼望神的国），却没有达到较低的标准（如交奉献），就是在装假。
猛烈地、缺乏耐心地追求次要的东西，却忽视更要紧的事；例如，特别关心别人、却不愿意独自面对上帝。
只恨恶特定的某些罪（自己不犯的），却纵容另一些罪（自己常犯的）。
在不同的时间也不平衡，忽冷忽热；如在旷野的以色列人。
在不同的地点也不平衡；例如，在公众场合很热情，但缺乏独自面对上帝的时间。
恩典情感更喜欢安静和私密，圣徒各自为自己的罪忧伤。
圣经里的圣徒得到最大恩宠时，往往是独处的时候。例如，亚伯拉罕、以撒、雅各、摩西、以利亚和以利沙。
圣徒有许多恩典和情感，彼此都成比例。
喜乐、盼望 和 为罪忧伤、哀恸 并重；圣徒在蒙受安慰、得到喜乐之后，仍然为罪忧伤。
我领你们进入以色列地……你们在那里要追念玷污自己的行动作为、又要因所作的一切恶事厌恶自己。（结 20:42-43）
恩典里的喜乐不妨碍我们继续为罪忧伤。
凡是属灵事物，圣徒都有渴慕之情，并且渴慕的程度与这些事物的美好程度、重要程度相符。
恨恶和反对一切的罪。
我恨一切的假道。（诗 119:104）
虽然在不同时间情感有起伏，但为此忧伤，并愿意持守正道。
然而义人要持守所行的道、手洁的人要力上加力。（伯 17:9）
十一　圣徒渴望更加属灵
恩典情感驱使人想要取得更高的属灵成就，但假情感使人自满且安于现状。
真基督徒越爱上帝，就渴望更爱祂；越恨恶罪，就越希望自己能更恨恶罪；越渴慕圣洁，就愿意自己更渴慕圣洁。
人拥有的圣洁情感越多，就越具有属灵的品味，能感觉到圣洁的美好和自己的匮乏；因此就越急切地乞求恩典和灵粮，好让自己成长。
属灵喜乐可以满足人心
属灵喜乐是完全符合人心本质的，因此使人不再追求其他种类的欢乐。
世俗欢乐都是有极限的，无法满足人不断提高的期待；但属灵喜乐没有极限，可以回应人最深的期望。
世俗欢乐中的满足感是短暂的，人得到满足后，就开始厌烦；但属灵喜乐中的满足感是持久的
属灵喜乐满足人心的程度是最高的
人在体验过属灵喜乐后，就知道属灵喜乐的美好，就越渴望更多；反之，如果人不愿意渴望更多，就说明其体验到的并不是真正的属灵喜乐。
如果一个人相信自己的罪被赦免，将进天堂，就满足了，并拒绝更多的恩典；显得好像已经完成了工作，并以过去的工作为荣；这样就是没认识到自己的缺乏，情感是有问题的。
基督徒的寻求、努力、工作是信主之后，信主是一生辛勤工作的起点。
真圣徒追求圣洁本身，并且是自然的；但假冒伪善者另有所图，如追求神学知识可能是为了感觉自己得救、为了在人前显荣耀、为了证明上帝爱他。
十二　一生追求圣洁行为
恩典情感结出行为的果实，规范和指导信徒的行为，使得圣洁行为成为信徒一生的实践和追求。
完全顺服基督徒的道统
离弃一切的罪，尤其是自己最喜爱的罪，并且恪守那些最难以遵守、最反感的责任。
不仅仅是消极地不犯罪，还要积极地爱神爱人、活出美好的品质。
立志成圣，把圣洁生活作为人生最重要的工作。
一个人不能侍奉两个主。我们当殷勤服事，为主做工。
矢志不渝，在人生起伏的各个阶段均竭力追求信仰。
经历各种试炼和试探，使自己明确自己得救的地位，并让世界认出基督徒的与众不同。
真圣徒可以在某些事上有退步，陷入试探而犯罪，但不至于持续不断地厌弃信仰、违逆上帝，不至于堕落到与信主之前毫无二致的地步。
倘若真的完全堕落，只能说明该“信徒”并未与基督一同复活。
那人末后的景况比先前更不好了。（太 12:45）
恩典情感使人的行为产生变化（实践性）
因为这是圣灵的（上帝的）工作，具有大能力的；恩典情感深入人心，成为生命的泉源，掌管人的一切行为。
真敬虔的能力在于有实际的行为。
恩典情感的首要客观基础是圣洁事物本身的美好，而不是对信徒有利；因此，圣洁事物会持续产生作用，而不是让人得到满足就停止追求。
类似爱钱的人永远不会嫌钱太多，我们如果真爱上帝，也永远不会觉得自己对上帝的追求过多。
属灵事物本身的圣洁之美使人爱圣洁，并践行一切圣洁之事；属灵知识使人认识基督的宝贵胜过一切，并愿意跟从他。
属灵情感伴随着确信，使信徒坚信神圣事物的真实性；既然确信，信徒的生活就必然被其掌管。
属灵情感使人的本性被改变，并体现在实际行为上。
属灵情感伴随着真正的谦卑，使人严格地、整体地、持续地顺服，愿意去遵行律法。
圣经看重 诚恳的态度 和 坚定的意志
为了爱基督，就恨恶地上的一切享乐，厌弃自己和自己的生命
恩典在圣徒心中直接导致圣洁行为；恩典是最活跃的（因它是生命本身），激发出人的行为
我们原是他的工作，在基督耶稣里造成的，为要叫我们行善。（弗 2:10）
金灯台有球（果实）有花，预表信仰告白和圣洁行为，都是恩典的内在原则的外在表现
信徒实践的果实在经历试炼的时候愈发显明出来
部分人被上帝对付的时候，都是迫于压力临时离弃罪；但只要压力一缓，就又食言；就像埃及的法老一样。
基督徒实践是向 邻居和弟兄 证明信仰真实性的最明显标志
要凭着果子认出树来，而不是凭着叶子和花认出树来
凭着他们的果子，就可以认出他们来。（太 7:16）
基督让我们通过好的行为，让别人看见我们的圣洁。
我的弟兄们，若有人说自己有信心，却没有行为，有什么益处呢？这信心能救他吗？（雅 2:14）
你将你没有行为的信心指给我看，我便藉着我的行为，将我的信心指给你看。（雅 2:18）
天然的理性也教导，人的行为比宣告更能证明人的内心
行为的代价是高昂的；假冒伪善者容易学会基督徒的话语，却很难活出基督徒的样式
需要注意的点：
信仰告白是预设和前提；根据人的行为判断人的信仰，前提是他必须公开宣告自己的基督教信仰。
信仰告白必须包括基督教的必要内容（耶稣是弥撒亚、救赎计划、悔改、舍己等），并且宣告的人必须正确理解信仰告白的内容。
不一定需要描述圣灵的具体工作方式，如体验的顺序等。
需要正确理解基督徒实践的含义，以及行为在多大程度上被人看见；不同的人用行为证明信仰的力度不同，但至少好过言语的描述。
当人判断别人时，任何外在行为都算不上恩典的 绝对确据。
基督徒实践是向 自己的良心 证明恩典真实性的最佳明证
小子们哪，我们相爱，不要只在言语和舌头上。总要在行为和诚实上。（约一 3:18）
把“基督徒行为、实践、行善或遵守诫命”作为向良心证明自己是真基督徒的确据
人的行为不仅仅是外在的表现，还有驱动行为的内在意志
恩典的两种运行方式：内在活动 vs. 外在实践
恩典的内在运行指导身体的外在行为
好的行为必须伴随着内心对上帝的顺服和服侍，否则就不算基督徒实践
基督徒实践是向自己证明具有真敬虔的首要证据
该证据胜过认罪、光照、蒙受安慰、内在认识等其他证据
理性清楚地说明：最能证明一个人内心真实倾向的，就是当他可以自由选择时，他的实际选择。
在上帝和其他事物相争时，以实际行动选择上帝。
伪装有善心，却没有善行，就是荒谬的、欺哄上帝的。
圣经描述的试炼，正是检查信徒是否爱上帝胜过一切。
试炼帮助我们自己判断自己对上帝的爱是否彻底，向自己的良心显出证据
基督徒美德经过试炼更显宝贵，试炼的结果就是信仰真实性的最佳证据
上帝设立试炼，不是为了让他自己明白我们的信心，而是为了让我们自己明白
圣经说，恩典藉着行为得以完全或长成
可见信心是与他的行为并行，而且信心因着行为才得成全。（雅 2:22）
树木藉着果子（而不是叶子或花）得以完全
恩典在实践中运行是恩典的 最完美运行，所以恩典行为是恩典的最高明证
圣经强调行为上的证据（圣洁实践）超过其他一切证据
检验宣信者敬虔的标志和特征（沙土 vs. 磐石）
弟兄相爱首先表现在实践中；第二块法版上的具体责任（而非单单的内在情感）才是彼此相爱的真意
圣洁实践是上帝选择的、最合适我们的敬虔标志，因此在圣经中反复强调；故意忽视这一点是很危险的
圣经清楚地说道：基督徒实践不仅是向他人证明而且是向基督徒自己的良心证明基督徒内心真恩典的主要证据。
反过来，圣经也说明：不圣洁行为是假冒伪善和内心邪恶的明证
我们的行为是在审判台前最重要的呈堂证供
审判的目的不是为了上帝自己形成判断，而是为了向我们的良心和世人宣告并显明他的公义
上帝为了为了显明公义，在审判中使用的证据正是人在世的行为（而不是人内在体验的步骤、信主的方式等）
死了的人都凭着这些案卷所记载的，照他们所行的受审判。（启 20:12）
上帝用以判断我们的首要证据，当然应该成为我们用以判断自己的首要证据
除了基督徒实践，不排除还有其他说明真恩典运行的证据，但基督徒实践是 最首要的证据。正如可以有很多辅助证据证明一棵树是无花果树，但首要证据永远是它的果子是否是无花果。
基督徒实践是 记号中的记号，是印证其他一切敬虔记号的最大证据
上帝给我们恩典就是为了让我们在实践中运用，从而加以验证
实践是证明我们 认识上帝 的最佳证据
实践是悔改的最好证据
你们要结出果子来，与悔改的心相称。（太 3:8）
实践是信徒具有 得救信心 的证据
实践是说明信徒内心 相信真理并因此得救 的最佳明证
实践是证明信徒真正 跟从基督 的证据
在实际行动中撇下一切跟从耶稣，跟从耶稣的心就得以完全
实践是证明信徒 相信基督以至得救 的最好证据
“信”本身就包含着愿意为所信之事承担风险的意思；如果不愿意冒任何风险，那就与不信毫无二致。
只有因相信福音而牺牲世俗利益的人，才配说是为福音摆上自己
实践是说明信徒 对上帝和对人的爱 的证据
实践是 真谦卑 的证据
实践是检验信徒是否 真敬畏上帝 的证据
以实际行动回报所领受的恩惠是 真感恩 的证据
实践是 真渴慕 的证据
欢喜地实践宗教责任和遵行上帝旨意是 真圣洁喜乐 的证据
实践是 基督徒勇气 的正确标志
属灵体验对基督徒实践的影响程度，也最能说明其体验的属灵程度
反对意见1：判断基督徒应该主要依据内在体验，属灵体验才是判断真恩典的主要证据
基督徒的圣洁实践本身就是属灵的实践，也是 身心一致 的活动
内在活动（爱上帝）直接产生和影响外在行为（舍己和牺牲），才能荣耀上帝
基督徒的体验和实践不应该是割裂的；实践是体验的最重要和最明显的部分
不是所有基督徒体验都是实践，但所有基督徒实践都是体验
由实践而来的属灵体验，也是在圣经中反复强调的
属灵实践作为恩典运行的本质，使得基督教成为“实验性宗教”
用真实经历检验自己信心的真实性
只有实践没有体验，是没有价值的，但也没有害处；但只有体验却没有实践，（有些情况下）可能比没有体验还糟糕。
圣灵的见证（圣灵的印）在于基督徒体验，而上帝在人的实践中用最明显的方式为基督徒作见证，并打下印记
反对意见2：过于强调基督徒实践作为恩典的证据，会导致律法主义，使人过于关注外在行为，引起人自夸，以至于违反了因信称义的教义
圣洁行为是上帝恩典的标志，所以行为也是上帝白白馈赠的；圣洁行为是与信心伴随的，白白赐给我们的。
如果把行为当做赚取上帝恩典的工价，才违背因信称义；突出表现为自夸。
恩典的本质（白白的恩典）和圣洁行为的必要性，在圣经中并行不悖；后者绝不会降低前者的地位。
只强调个人知识、良心和恩典的内在运行，而轻视恩典的外在作用，会对基督教造成极大破坏。
圣经已经指出属灵实践是最好的证据，也是上帝预备的最适合我们的证据；妄图另寻证据的都是徒劳。
看重属灵实践有很多直接的好处：督促假冒伪善者认罪；帮助我们摆脱（关于体验的方法和步骤的）疑惑、免去随之而来的纷争；防止宣信者放任自流；鼓励我们用好行为宣告信仰，而不是炫耀个人体验

西瓜书笔记：支持向量机（第 6 章）

2019-12-20T02:51:07.000Z

支持向量机，核方法等。
最大化间隔
给定训练集
$D=\{ ({\pmb{x_1}}, y_1), ({\pmb{x_2}}, y_2), \ldots, ({\pmb{x_m}}, y_m) \}, y_i \in \{ -1, +1 \}$
寻找 划分超平面 将样本集按不同类别分开。其中，划分超平面 可以用如下方程表示：
${\pmb w}^{\mathrm T} {\pmb x} + b = 0$
其中 ${\pmb w}^{\mathrm T}$ 为法向量，$b$ 为位移项。则样本空间中任意点 ${\pmb x}$ 到该平面的距离为
$r = \frac{\vert {\pmb w}^{\mathrm T} {\pmb x} + b \vert}{\Vert {\pmb w} \Vert}$
缩放 ${\pmb w}$ 与 $b$ 使得训练集中所有点到到超平面的最小距离为 $\frac{1}{\Vert {\pmb w} \Vert}$，则有
$\begin{cases}{\pmb w}^{\mathrm T} {\pmb{x_i}} + b \geq 1, \; & \mathrm{if} \; y_i = +1 \\{\pmb w}^{\mathrm T} {\pmb{x_i}} + b \leq -1, \; & \mathrm{if} \; y_i = -1\end{cases}$
上式等价于
$y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) \geq 1$
支持向量机 的目标是最大化间隔，即
$\begin{aligned}\max_{\pmb w, b} \quad & \frac{2}{\Vert {\pmb w} \Vert} \\\mathrm{s.t.} \quad & y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) \geq 1\end{aligned}$
上式等价于
$\begin{aligned}\min_{\pmb w, b} \quad & \frac{1}{2} \Vert {\pmb w} \Vert^2 \\\mathrm{s.t.} \quad & y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) \geq 1\end{aligned}$
这就是 支持向量机 的 基本型。该问题本身是一个 凸二次规划 问题，可以直接用优化计算包求解。
对偶问题
对 基本型 的每一条约束添加朗格朗日乘子 $\alpha_i \geq 0$，则该问题的拉格朗日函数可以写为
$L({\pmb w}, b, {\pmb \alpha}) = \frac{1}{2} \Vert {\pmb w} \Vert^2 + \sum_{i=1}^{m} \alpha_i \left( 1 - y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) \right)$
令 $L({\pmb w}, b, {\pmb \alpha})$ 对 ${\pmb w}$ 与 $b$ 求偏导，得到
$\begin{cases}{\pmb w} = \sum_{i=1}^{m} \alpha_i y_i {\pmb{x_i}} \\0 = \sum_{i=1}^{m} \alpha_i y_i\end{cases}$
将上式代回 $L({\pmb w}, b, {\pmb \alpha})$，得到
$\begin{aligned}\max_{\pmb \alpha} \quad & \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \underbrace{\sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j {\pmb{x_i}}^{\mathrm T} {\pmb{x_j}}}_{=\Vert \sum_{i=1}^{m} \alpha_i y_i {\pmb{x_i}} \Vert^2} \\\mathrm{s.t.} \quad & \sum_{i=1}^{m} \alpha_i y_i = 0, \, \alpha_i \geq 0\end{aligned}$
这就是 支持向量机 的 对偶型。该问题也是一个 凸二次规划 问题，可以直接用优化计算包求解。
注意到
对偶问题约束有 $\alpha_i \geq 0$
原问题约束有 $y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) - 1 \geq 0$
拉格朗日函数中，若 $\alpha_i > 0$，则必有 $ 1 - y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) = 0$，因此 $\alpha_i \left( y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) - 1 \right) = 0$ 以上三条构成 KKT （Karush-Kuhn-Tucker）条件，即 $\begin{cases}\alpha_i \geq 0 \\y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) - 1 \geq 0 \\\alpha_i \left( y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) - 1 \right) = 0\end{cases}$ 其中，$\alpha_i > 0$ 对应的点 ${\pmb{x_i}}$ 满足 $ y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) - 1 = 0$，也就是 支持向量。一般，绝大多数点对应的 $\alpha_i = 0$，是 非支持向量。
SMO 算法
每次选取一对 $( \alpha_i, \alpha_j)$，确保 $( \alpha_i, \alpha_j)$ 中至少有一个违背 KKT 条件；然后，固定 ${\pmb \alpha}$ 向量中所有其他元素，更新 $( \alpha_i, \alpha_j)$ 的值。这样每次更新后目标函数的值都能变大。
核函数
若训练集线性不可分，则可以将样本 ${\pmb x}$ 从 原始空间 映射到一个 高维空间，记映射后得到的 特征向量 为 $\phi({\pmb x})$。在映射后特征空间中的 划分超平面 为
$f({\pmb x}) = {\pmb w}^{\mathrm T} \phi({\pmb x}) + b$
映射后特征空间中的 基本型 为
$\begin{aligned}\min_{\pmb w, b} \quad & \frac{1}{2} \Vert {\pmb w} \Vert^2 \\\mathrm{s.t.} \quad & y_i \left({\pmb w}^{\mathrm T} {\phi(\pmb{x_i})} + b \right) \geq 1\end{aligned}$
其 对偶型 为
$\begin{aligned}\max_{\pmb \alpha} \quad & \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j {\phi(\pmb{x_i})}^{\mathrm T} {\phi(\pmb{x_j})} \\\mathrm{s.t.} \quad & \sum_{i=1}^{m} \alpha_i y_i = 0, \, \alpha_i \geq 0\end{aligned}$
在实践中，只需要知道任意 ${\pmb{x_i}}$ 与 ${\pmb{x_j}}$ 在映射后的内积 $\phi({\pmb{x_i}})^{\mathrm T} \phi({\pmb{x_j}})$ 即可，不必知道映射 $\phi$ 的具体形式。所以，定义核函数：
$\kappa({\pmb{x_i}}, {\pmb{x_j}}) = \phi({\pmb{x_i}})^{\mathrm T} \phi({\pmb{x_j}})$
常用核函数有
核函数表达式参数说明
线性核 $\kappa({\pmb{x_i}}, {\pmb{x_j}}) = \pmb{x_i}^{\mathrm T} \pmb{x_j}$
多项式核 $\kappa({\pmb{x_i}}, {\pmb{x_j}}) = \left( \pmb{x_i}^{\mathrm T} \pmb{x_j} \right)^d$ $d \ge 1$，为多项式次数
高斯核 $\kappa({\pmb{x_i}}, {\pmb{x_j}}) = \exp \left( -\frac{\Vert \pmb{x_i} - \pmb{x_j} \Vert^2}{2 \sigma^2} \right)$ $\sigma > 0$，为带宽
软间隔
允许一些样本不满足约束 $y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) \geq 1$，但需要施加惩罚。所以，优化目标可以写为
$\min_{\pmb w, b} \quad \frac{1}{2} \Vert {\pmb w} \Vert^2 + C \cdot \sum_{i=1}^{m} {\mathcal L}_{0/1} \left( y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) - 1 \right)$
其中，$C$ 是惩罚力度，${\mathcal L}_{0/1}(\cdot)$ 是 0/1 损失函数，即
${\mathcal L}_{0/1}(z) = \begin{cases} 1, \; \mathrm{if} \; z < 0 \\0, \; \mathrm{if} \; z \ge 0\end{cases}$
注意该损失函数中，约束违背的程度不影响惩罚项的大小。其他损失函数形式有：
损失函数表达式
Hinge 损失函数 ${\mathcal L}_{hinge}(z) = \max(0, 1-z)$
指数损失函数 ${\mathcal L}_{exp}(z) = \exp(-z) $
对数损失函数 ${\mathcal L}_{log}(z) = \log(1 + \exp(-z))$
若采用 Hinge 损失函数，引入 松弛变量 （Slack Variables） $\xi_i \ge 0$，可以将 原问题 重写为
$\begin{aligned}\min_{\pmb w, b, \pmb \xi} \quad & \frac{1}{2} \Vert {\pmb w} \Vert^2 + C \cdot \sum_{i=1}^m \xi_i \\\mathrm{s.t.} \quad & y_i \left({\pmb w}^{\mathrm T} {\pmb{x_i}} + b \right) \geq 1 - \xi_i, \; \xi_i \ge 0\end{aligned}$
则其 对偶问题 为
$\begin{aligned}\max_{\pmb \alpha} \quad & \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j {\pmb{x_i}}^{\mathrm T} {\pmb{x_j}} \\\mathrm{s.t.} \quad & \sum_{i=1}^{m} \alpha_i y_i = 0, \, 0 \le \alpha_i \le C\end{aligned}$
若采用对数损失函数，则模型很接近 Logit 回归。
结构风险与经验风险
更一般地，可以将优化目标写成
$\min_{f} \quad \Omega(f) + C \sum_{i=1}^m \mathcal{L}(f(\pmb{x_i}), y_i)$
其中，$\Omega(f)$ 代表 结构风险，如 $\frac{1}{2} \Vert {\pmb w} \Vert^2$，也被称为 正则化项，这里是 $\mathrm{L}_2$ 范数。
$\sum_{i=1}^m \mathcal{L}(f(\pmb{x_i}), y_i)$ 代表 经验风险，用于描述模型与数据的契合程度，如似然函数。
支持向量回归
支持向量回归（Support Vector Regression, SVR）是指，在回归中容忍 $f({\pmb x})$ 与 $y$ 存在 $\varepsilon$ 的偏差，当实际偏差大于 $\varepsilon$ 才开始计算损失。
支持向量回归问题可以写为
$\min_{\pmb w, b} \quad \frac{1}{2} \Vert {\pmb w} \Vert^2 + C \cdot \sum_{i=1}^m \mathcal{L}_{\varepsilon} \left( f({\pmb{x_i}}) - y_i \right)$
其中损失函数为
$\mathcal{L}_{\varepsilon}(z) = \begin{cases} 0, \; & \mathrm{if} \; \vert z \vert \le \varepsilon \\\vert z \vert - \varepsilon, \; & \mathrm{if} \; \vert z \vert > \varepsilon\end{cases}$
如果损失函数是均方误差，则 SVR 等价于 Ridge 回归。
如果 $\varepsilon = 0$，即损失函数是误差的绝对值，则 SVR 等价于带有 $\mathrm{L}_2$ 范数的中位数回归。

西瓜书笔记：神经网络（第 5 章）

2019-12-19T13:48:34.000Z

神经网络，反向传播等。
神经元模型
$\operatorname{logistic}(x) = \operatorname{sigmoid}(x) = \frac{1}{1+\exp(-x)}$
单层感知机（Perception）模型，只能处理线性可分问题
$y = f\left( \sum_{i=1}^{n} w_i x_i - \theta \right)$
多层网络
多层前馈神经网络（Multi-Layer Feedforward Neural Networks）
反向传播算法（Back Propagation）
损失函数（Loss Function）
均方误差 $\mathcal{E}(y_i, \hat{y}_i) = \frac{1}{2} \cdot (y_i - \hat{y}_i)^2$
交叉熵（Cross Entropy） $\begin{aligned}\mathcal{L}(y_i, \hat{y}_i) =& \begin{cases} \log(P(y_i=1 \mid \hat{y}_i)) = \log(\hat{y}_i), & {\mathrm{if}} \; y_i=1 \\\log(P(y_i=0 \mid \hat{y}_i)) = 1 - \log(\hat{y}_i), & {\mathrm{if}} \; y_i=0 \end{cases} \\=& y_i \cdot \log(\hat{y}_i) + (1 - y_i) \cdot \log(1 - \hat{y}_i)\end{aligned}$
反向传播
对特定的一层神经元，其输出为
${\pmb y} = f({\pmb W}{\pmb x} + {\pmb b})$
其中，${\pmb x}$ 为上一层的输出，${\pmb W}$ 和 ${\pmb b}$ 为上一层与当前层之间的权重矩阵和偏置向量，$f$ 为激活函数。已知 $\frac{\partial \mathcal{L}}{\partial {\pmb y}}$，那么
$\begin{aligned}\frac{\partial \mathcal{L}}{\partial {\pmb W}} =& \frac{\partial \mathcal{L}}{\partial {\pmb y}} \cdot \frac{\partial {\pmb y}}{\partial ({\pmb W}{\pmb x}+{\pmb b})} \cdot \frac{\partial ({\pmb W}{\pmb x}+{\pmb b})}{\partial {\pmb W}} \\\frac{\partial \mathcal{L}}{\partial {\pmb b}} =& \frac{\partial \mathcal{L}}{\partial {\pmb y}} \cdot \frac{\partial {\pmb y}}{\partial ({\pmb W}{\pmb x}+{\pmb b})} \cdot \frac{\partial ({\pmb W}{\pmb x}+{\pmb b})}{\partial {\pmb b}} \\\frac{\partial \mathcal{L}}{\partial {\pmb x}} =& \frac{\partial \mathcal{L}}{\partial {\pmb y}} \cdot \frac{\partial {\pmb y}}{\partial ({\pmb W}{\pmb x}+{\pmb b})} \cdot \frac{\partial ({\pmb W}{\pmb x}+{\pmb b})}{\partial {\pmb x}}\end{aligned}$
其中，$\frac{\partial \mathcal{L}}{\partial {\pmb W}}$ 和 $\frac{\partial \mathcal{L}}{\partial {\pmb b}}$ 可以用于更新 ${\pmb W}$ 和 ${\pmb b}$。以 $\eta$ 为学习速率，则
$\begin{aligned}\Delta {\pmb W} =& -\eta \cdot \frac{\partial \mathcal{L}}{\partial {\pmb W}} \\\Delta {\pmb b} =& -\eta \cdot \frac{\partial \mathcal{L}}{\partial {\pmb b}}\end{aligned}$
$\frac{\partial \mathcal{L}}{\partial {\pmb x}}$ 则用于进一步反向传播。
全局最小与局部最小
防止过拟合的策略
Early Stopping
正则化
防止局部最小的策略
多组不同参数初始化网络
模拟退火（Simulated Annealing）：以一定概率接受比当前解更差的结果
随即梯度下降（SGD）
深度学习
增加隐藏层的层数比增加隐藏层的神经元数目更有效。
防止梯度发散/消失策略
Pre-Training + Fine-Tuning
深度信念网络（Deep Belief Network, DBN），每层都是受限玻尔兹曼机（Restricted Boltzmann Machine, RBM）
节省训练开销
权值共享，如 CNN

西瓜书笔记：决策树（第 4 章）

2019-12-19T12:24:52.000Z

决策树，信息熵等。
基本流程
决策树的生成过程是一个 分治递归 算法
递归：在当前结点找到 最优属性 进行划分/展开，划分得到的各部分生成子结点
递归边界：
当前结点均为同一类别：将当前结点标记为该类别
当前结点样本所有属性的取值均相同：将当前结点标记为样本数最多的类别
当前结点样本为空：将当前结点标记为其父结点中样本数最多的类别
划分选择
信息增益
假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k$ （$k=1,2,…,\vert y \vert$），则 $D$ 的 信息熵 为
$Ent(D) = -\sum_{k=1}^{\vert y \vert} p_k \log_2 p_k$
假设属性 $a$ 有 $V$ 个可能的取值 $\{a^1, a^2,…, a^V\}$，则给定属性 $a$ 后的 条件熵 为
$Ent(D \mid a) = \sum_{v=1}^V \frac{\vert D^v \vert}{\vert D \vert} Ent(D^v)$
则，使用属性 $a$ 对样本集 $D$ 进行划分得到的 信息增益 为
$Gain(D,a) = Ent(D) - Ent(D \mid a)$
可以证明，信息增益 一定大于等于 0。
ID3 决策树学习算法
最优属性 的选择使得 信息增益 最大化，即
$a^\star = \underset{a \in A}{\mathrm{argmax}} \, Gain(D, a)$
C4.5 决策树学习算法
最优属性 的选择使得 信息增益率 最大化，其中 信息增益率 为 $\frac{Gain(D,a)}{Ent(a)}$，其中 $Ent(a)$ 是把属性 $a$ 当作数据集 $D$ 上的目标变量后计算的信息熵。
CART 决策树学习算法
基尼系数
$\begin{aligned}Gini(D) = \sum_{k=1}^{\vert y \vert} \sum_{k' \neq k} p_k p'_k = 1 - \sum_{k=1}^{\vert y \vert} p_k^2 \\GiniIndex(D, a) = \sum_{v=1}^V \frac{\vert D^v \vert}{\vert D \vert} Gini(D^v)\end{aligned}$
剪枝处理
采用 留出法 预先保留一部分作为验证集，评估模型 泛化性能
预剪枝：展开每个结点时，评估泛化性能是否提升；若不提升则停止展开。因此，模型存在欠拟合风险。
后剪枝：将树完全展开后，依次评估每个结点剪枝后泛化性能是否提升；若提升则进行剪枝。训练时间一般较长。
连续值处理：二分法
假设连续属性 $a$ 在数据集 $D$ 上出现的取值从小到大排序为 $\{a^1, a^2,…, a^n\}$，则存在 $n-1$ 个潜在划分点 $t_i = \frac{a^i+a^{i+1}}{2}, \, 1 \leq i \leq n-1$。
此时，可以将 $a$ 作为 $n-1$ 个离散属性 $(a, t_i)$ 考虑并计算信息增益 $Gain(D, a, t_i)$ ，则 $a$ 的信息增益为
$Gain(D,a) = \max_{t_i} Gain(D, a, t_i)$
即选出信息增益最大的那个划分点。
缺失值处理
如何选择最优属性？
假设在当前结点中样本 $x$ 的权重为 $w_x$。令 $\tilde{D}$ 代表 $D$ 中属性 $a$ 没有缺失的样本，则
$Gain(D, a) = Gain(\tilde{D}, a) \times \frac{\sum_{x \in \tilde{D}}{w_x}}{\sum_{x \in D}{w_x}}$
如何进行样本划分？
若样本 $x$ 的属性 $a$ 缺失，则 分别同时 划入所有子结点，权重调整为
$w_x \cdot \frac{\sum_{x \in \tilde{D}^v}{w_x}}{\sum_{x \in \tilde{D}}{w_x}}$
回归树
CART 算法
对属性 $a$ 的切分点 $t$，求解
$(a^\star, t^\star) = \underset{(a, t)}{\mathrm{argmin}} \left[ \min_{c_1} \sum_{x_i \in R_1(a, t)} (y_i-c_1)^2 + \min_{c_2} \sum_{x_i \in R_2(a, t)} (y_i-c_2)^2 \right]$
其中，$R_1(a, t)$ 与 $R_2(a, t)$ 是 $(a, t)$ 划分得到的两个子集。显然，$c_1$ 和 $c_2$ 分别是这两个子集上 $y_i$ 的均值，即
$\begin{aligned}c_1 =& \frac{1}{\vert R_1(a, t) \vert} \cdot \sum_{x_i \in R_1(a, t)} y_i \\c_2 =& \frac{1}{\vert R_2(a, t) \vert} \cdot \sum_{x_i \in R_2(a, t)} y_i\end{aligned}$

西瓜书笔记：线性模型（第 3 章）

2019-12-19T08:02:07.000Z

线性回归，二值选择等。
基本形式
线性模型的基本形式
$f({\pmb x}) = {\pmb w}^{\mathrm T} {\pmb x} + b$
线性回归
估计方法是最小二乘，即最小化均方误差（MSE）
$\begin{aligned}({\pmb w}^\star, b^\star) =& \underset{({\pmb w},b)}{\mathrm{argmin}} \sum_{i=1}^{m} (f({\pmb{x_i}}) - y_i)^2 \\=& \underset{({\pmb w},b)}{\mathrm{argmin}} \sum_{i=1}^{m} ({\pmb w}^{\mathrm T} {\pmb{x_i}} + b - y_i)^2\end{aligned}$
令 $\hat{\pmb w} = ({\pmb w}; b)$，则有闭式解
$\hat{\pmb w}^\star = ({\pmb X}^{\mathrm T} {\pmb X})^{-1} {\pmb X}^{\mathrm T} {\pmb y}$
引入正则
Lasso
Ridge
对数几率回归
模型为
$P(y=1 \mid {\pmb x}) = \begin{cases} \Phi({\pmb w}^{\mathrm T} {\pmb x}) = \int_{-\infty}^{w^{\mathrm T} x} \phi({\pmb x}) {\mathrm d}x, & \text{若使用正态分布累计函数，即 Probit 回归} \\ \Lambda({\pmb w}^{\mathrm T} {\pmb x}) = \frac{\exp({\pmb w}^{\mathrm T} {\pmb x})}{1+\exp({\pmb w}^{\mathrm T} {\pmb x})} = \frac{1}{1+\exp(-{\pmb w}^{\mathrm T} {\pmb x})}, & \text{若使用逻辑分布累计函数，即 Logit 回归} \end{cases}$
Logit 回归即对数几率回归
$y = \frac{1}{1+\exp(-{\pmb w}^{\mathrm T} {\pmb x})} \implies \log(\frac{y}{1-y}) = {\pmb w}^{\mathrm T} {\pmb x}$
使用 MLE 估计，对数似然函数为
$\begin{aligned}\mathcal{L}({\pmb w}) =& \log \left[\prod_i P(y_i \mid {\pmb{x_i}}; {\pmb w}) \right] \\=& \sum_{y_i=1} \log \left[ P(y=1 \mid {\pmb{x_i}}; {\pmb w}) \right] + \sum_{y_i=0} \log \left[ P(y=0 \mid {\pmb{x_i}}; {\pmb w}) \right] \\=& \sum_{y_i=1} \log \left[ \frac{\exp({\pmb w}^{\mathrm T} {\pmb{x_i}})}{1+\exp({\pmb w}^{\mathrm T} {\pmb{x_i}})} \right] + \sum_{y_i=0} \log \left[ \frac{1}{1+\exp({\pmb w}^{\mathrm T} {\pmb{x_i}})} \right] \\=& \sum_i y_i({\pmb w}^{\mathrm T} {\pmb{x_i}}) - \log(1+\exp({\pmb w}^{\mathrm T} {\pmb{x_i}}))\end{aligned}$
线性判别分析
线性判别分析（Linear Discriminant Analysis, LDA）是将样本投影到直线（或低维空间）上，使得组内距离尽可能小、组间距离尽可能大。
线性判别分析也被用于监督降维。
多分类学习
二分类模型推广至多分类的方案：
One vs. One
One vs. Many
Many vs. Many
类别不平衡问题
再缩放（Rescaling）
原本， $\frac{y}{1 - y} > 1$ 时，预测为正例
现在，$\frac{y}{1 - y} > \frac{m^+}{m^-}$ 时，预测为正例；其中 ${m^+}$ 与 ${m^-}$ 分别为正例与负例的数目。
重采样
欠采样/下采样：训练多个模型并集成
过采样/上采样：对数目少的那一类样本进行插值
阈值移动：将再缩放的公式嵌入决策过程

西瓜书笔记：模型评估与选择（第 2 章）

2019-12-19T01:46:27.000Z

过拟合，经验误差，评估方法，性能度量等。
经验误差与过拟合
经验误差
过拟合
评估方法
留出法
Cross-Validation
自助法（Bootstrapping）：平均 36.8% 的样本在采样集外，可用于包外估计（Out-of-Bag Estimate）。
性能度量
回归任务：Mean Square Error
分类任务：Accuracy
Precision 和 Recall
Precision 和 Recall 的定义
$\begin{aligned}Precision =& \frac {N_{TruePos}} {N_{PredPos}} = \frac {N_{TruePos}} {N_{TruePos} + N_{FalsePos}} \\Recall =& \frac {N_{TruePos}} {N_{OriPos}} = \frac {N_{TruePos}} {N_{TruePos} + N_{FalseNeg}}\end{aligned}$
F1-score 是 Precision 和 Recall 的调和平均数
$F1 = \left( \frac {P^{-1} + R^{-1}} {2} \right)^{-1} = \frac {2}{1/P + 1/R}$
P-R 曲线
当判别为正例的标准最严格（仅有极少数最明显的被判别为正例），此时 $Recall \to 0$，$Precision \to 1$。
当判别为正例的标准最宽松（所有样本均判别为正例），此时 $Recall \to 1$，$Precision \to N_{OriPos} / N$。
Precision 应该不会趋近于 0 吧？
ROC 和 AUC
ROC 曲线
ROC 全称受试者工作特征（Receiver Operating Characteristics），该曲线横轴为假正例率（False Positive Rate, FPR），纵轴为真正例率（True Positive Rate,TPR），定义为
$\begin{aligned}{\it FPR} =& \frac {N_{FalsePos}} {N_{OriNeg}} \\{\it TPR} =& \frac {N_{TruePos}} {N_{OriPos}} = Recall\end{aligned}$
当判别为正例的标准最严格（仅有极少数最明显的被判别为正例），此时 ${\it TPR} \to 0$，${\it FPR} \to 0$。
当判别为正例的标准最宽松（所有样本均判别为正例），此时 ${\it TPR} \to 1$，${\it FPR} \to 1$。
AUC （Area under ROC Curve）就是 ROC 曲线下的面积，可以作为模型性能指标。
K-S 指标：${\it KS} = \max {\it TPR} - {\it FPR}$
在风险管理中，假正例的成本远高于假反例，因此需要更关注提高 Precision （或者说降低 FPR），而 Recall （或者 TPR）的权重更小。
方差与偏差
模型的 泛化误差 可以分解为偏差、方差、噪声之和。
以回归任务为例，对测试样本 ${\pmb x}$，令 $y_D$ 为 ${\pmb x}$ 在整个数据集中的标记，$y$ 为 ${\pmb x}$ 的真实标记，则噪声为
$\varepsilon^2 = \mathbb{E}_D [(y_D-y)^2]$
$f({\pmb x}; D)$ 为训练集 $D$ 上学得的模型 $f$ 在 ${\pmb x}$ 上的预测输出。在潜在的不同训练集 $D$ 上训练得到的学习算法的 期望预测 为
$\bar{f}({\pmb x}) = \mathbb{E}_D [f({\pmb x}; D)]$
因此，使用不同训练集产生的方差为
$var({\pmb x}) = \mathbb{E}_D [(f({\pmb x}; D) - \bar{f}({\pmb x}))^2]$
期望预测 与真实标记的差别偏差为
$bias^2({\pmb x}) = (\bar{f}({\pmb x}) - y)^2$
对算法的 期望泛化误差 进行分解
$\begin{aligned}\mathbb{E}_D [(f({\pmb x}; D) - y_D)^2] =& \mathbb{E}_D [(f({\pmb x}; D) - \bar{f}({\pmb x}) + \bar{f}({\pmb x}) - y_D)^2] \\=& \mathbb{E}_D [(f({\pmb x}; D) - \bar{f}({\pmb x}))^2] + \mathbb{E}_D [(\bar{f}({\pmb x}) - y_D)^2] + \underbrace{ \mathbb{E}_D [ 2 (f({\pmb x}; D) - \bar{f}({\pmb x}))(\bar{f}({\pmb x}) - y_D) ]}_{=0, \, \text{because of independence}} \\=& var({\pmb x}) + \mathbb{E}_D [(\bar{f}({\pmb x}) - y + y - y_D)^2] \\=& var({\pmb x}) + (\bar{f}({\pmb x}) - y)^2 + \mathbb{E}_D [(y - y_D)^2] + \underbrace{ \mathbb{E}_D [ 2 (\bar{f}({\pmb x}) - y)(y - y_D) ]}_{=0, \, \text{because of independence}} \\=& var({\pmb x}) + bias^2({\pmb x}) + \varepsilon^2\end{aligned}$
对方差与偏差的理解：
过拟合：不同训练集 $D$ 产生的预测 $f({\pmb x}; D)$ 之间差异大，也就是 方差大。
欠拟合：训练集未能使得模型 $f({\pmb x}; D)$ 显著变化，也就是 偏差大。
相关概念：第一类错误和第二类错误
第一类错误是拒真错误，显著性 $\alpha$ 就是拒真的概率。
第二类错误时纳伪错误。

Python 和 C++ 字符串比较

2019-12-18T02:25:09.000Z

从本科大三学了 Python 之后，基本就一直在用 Python，除了部分课程作业用 Java 完成项目以及研一暑假时学了一小段时间的 R。
尤其是研二初学会了 Python 的 numpy 和 pandas 库之后，基本也没有再遇到过性能问题。因为我写代码主要是为了科研数据处理，多数情况都可以把问题向量化。
2019 年秋招开始后，也用着 Python 刷了 LeetCode 的前 70 多道题，遇到一些无法向量化的问题，这时候 Python 的性能劣势就体现出来了。其中，最主要的一点是，Python 的封装实在太高级了，在使用时用户对很多内建函数的复杂度都没有概念。所以，花了一周多时间复习完 C++ 语法后，我开始用 C++ 刷 LeetCode。
这篇博文是比较 Python 和 C++ 在字符串处理中的不同。
定义字符串
Python
不区分字符与字符串，单引号与双引号可以替换使用
1
2
char0 = "A"
str0 = "Hello World!"
C++
区分字符与字符串，字符用单引号，字符串用双引号
1
2
3
4
5
6
char c0 = 'A';
char str0[] = "Hello World!";

string str1 = "Hello World!";
string str2(str0);
string str3(5, c0);
截取字符串
Python
字符串可以用切片截取；字符串是 Immutable，不可修改的
1
2
3
4
5
str0 = "Hello World!"
print(str0[1]) # 输出 "e"
print(str0[1:4]) # 输出 "ell"

str0[1] = "A" # 会报错
C++
字符串可以用下标访问或修改对应位置字符
1
2
3
4
string str1 = "Hello World!";
cout << str1[3] << endl; // 输出字符 'l'
str1[3] = 'U';
cout << str1 << endl; // 输出字符串 "HelUo World!"
使用 string 类自带的函数 substr 来截取字符；具体地，substr(pos, n) 返回 pos 开始的 n 个字符组成的字符串
1
cout << str1.substr(3, 5) << endl; // 输出 "Uo Wo"
连接字符串
Python
1
2
str0 = "Hello World!"
print(str0 + str0) # 输出 "Hello World!Hello World!"
C++
1
2
3
4
5
cout << str1 + str2 << endl; // 输出 "HelUo World!Hello World!"
str1 += str2;
cout << str1 << endl; // 输出 "HelUo World!Hello World!"
str1.append(str2);
cout << str1 << endl; // 输出 "HelUo World!Hello World!Hello World!"
字符串长度
Python
1
2
str0 = "Hello World!"
print(len(str0)) # 输出 12
C++
1
2
cout << str1.size() << " " << str1.length() << endl; // 输出 36 36
cout << str1.empty() << endl; // 输出 false
字符串查找
Python
使用 str 类的 find 和 index 函数进行查找；其中，find 在查找失败时返回 -1，而 index 查找失败时报错
1
2
3
4
5
6
7
str0 = "Hello World!"
print("A" in str0) # 输出 False
print(str0.find("W")) # 输出 6
print(str0.find("A")) # 输出 -1

print(str0.index("W")) # 输出 6
print(str0.index("A")) # 报错
C++
使用 string 类的查找成功时返回所在位置，失败返回 string::npos 的值
1
2
3
cout << str1.find('o') << endl; // 输出 4
cout << str1.find("llo") << endl; // 输出 14
cout << str1.find('A') << " " << str1.npos << endl; // 输出 18446744073709551615 18446744073709551615
字符串替换、插入
Python
1
2
str0 = "Hello World!"
print(str0.replace("l", "L")) # 输出 "HeLLo WorLd!"
C++
从下标为 2 的位置开始，删除 4 个字符，并替换为 “ZEW”
1
str1.replace(2, 4, "ZEW");

把 “SYUONI” 插入，并使得其开始位置下标为 2
1
str1.insert(2, "SYUONI");
统计子串出现次数
Python
1
2
str0 = "Hello World!"
print(str0.count("l")) # 输出 3
补齐长度
Python
1
2
3
str0 = "Hello World!"
print(str0.ljust(20, "-")) # 输出 "Hello World!--------"
print(str0.rjust(20, "-")) # 输出 "--------Hello World!"

Layer Type	Complexity per Layer	Sequential Operations	Max Path Length
Self-Attention	$O(n^2 \cdot d)$	$O(1)$	$O(1)$
RNN	$O(n \cdot d^2)$	$O(n)$	$O(n)$
CNN	$O(k \cdot n \cdot d^2)$	$O(1)$	$O(\log_k(n))$
Self-Attention (Restricted)	$O(r \cdot n \cdot d)$	$O(1)$	$O(n/r)$

组别	发病人数	观察人时数	发病密度
暴露组	$a$	$L_1$	$a / L_1$
非暴露组	$b$	$L_0$	$b / L_0$
合计	$m$	$L$	$m / L$

组别	发病人数	未发病人数	合计	累计发病率
暴露组	$a$	$b$	$n_1$	$a / n_1$
非暴露组	$c$	$d$	$n_0$	$c / n_0$
合计	$m_1$	$m_0$	$n$	$m_1 / n$

	对照暴露	对照未暴露	合计
病例暴露	$a$	$b$	$a+b$
病例未暴露	$c$	$d$	$c+d$
合计	$a+c$	$b+d$	$n$

组别	暴露	未暴露	合计
病例组	$a+b$	$c+d$	$a+b+c+d$
对照组	$a+c$	$b+d$	$a+b+c+d$
合计	$2a+b+c$	$b+c+2d$	$2(a+b+c+d)$

	有疗效	无疗效	合计	有效率
A 药物	$a$	$b$	$a+b$	$a/(a+b)$
B 药物	$c$	$d$	$c+d$	$c/(c+d)$
合计	$a+c$	$b+d$	$n$	$(a+c)/n$

	乙法治疗有效	乙法治疗无效	合计
甲法治疗有效	$a$	$b$	$a+b$
甲法治疗无效	$c$	$d$	$c+d$
合计	$a+c$	$b+d$	$n$

线性代数中的概念	应用于函数时的别名
线性变换	线性算子
点积	内积
特征向量	特征函数

核函数	表达式	参数说明
线性核	$\kappa({\pmb{x_i}}, {\pmb{x_j}}) = \pmb{x_i}^{\mathrm T} \pmb{x_j}$
多项式核	$\kappa({\pmb{x_i}}, {\pmb{x_j}}) = \left( \pmb{x_i}^{\mathrm T} \pmb{x_j} \right)^d$	$d \ge 1$，为多项式次数
高斯核	$\kappa({\pmb{x_i}}, {\pmb{x_j}}) = \exp \left( -\frac{\Vert \pmb{x_i} - \pmb{x_j} \Vert^2}{2 \sigma^2} \right)$	$\sigma > 0$，为带宽

损失函数	表达式
Hinge 损失函数	${\mathcal L}_{hinge}(z) = \max(0, 1-z)$
指数损失函数	${\mathcal L}_{exp}(z) = \exp(-z) $
对数损失函数	${\mathcal L}_{log}(z) = \log(1 + \exp(-z))$

一颗鼠儿果的博客

Pre-Training in NLP

Pre-Trained Embeddings

Word2Vec

Continuous Bag-of-Words Model

Continuous Skip-Gram Model

Hierarchical Softmax

Negative Sampling

GloVe: Global Vectors for Word Representation

How certain aspects of meaning can be extracted from co-occurance probabilities?

The GloVe Model

Training Details

FastText

Pre-Trained Models

CoVe: Learned in Translation: Contextualized Word Vectors

ELMo

Bidirectional language models

ELMo representations

Flair

BERT

Model Architecture

Input Representation

Pre-Training Task #1: Masked LM (MLM)

Pre-Training Task #2: Next Sentence Prediction (NSP)

Pre-Training Procedure

Fine-Tuning Procedure

GPT (Generative Pre-Training)

Model Architecture

Unsupervised Pre-Training

Supervised Fine-Tuning

Task-Specific Input Transformations

Zero-Shot Behaviors

GPT-2

Task Conditioning

Training Dataset

Input Representation

Experiments

GPT-3

In-Context Learning

WSL 使用笔记

安装 WSL

启用 适用于Linux的Windows子系统

安装 WSL

WSL 文件位置

使用国内 Ubuntu 镜像

Brat 标注工具使用笔记

Brat 标注平台安装 （官网版本 / Python2）

Brat 标注平台安装 （Github版本 / Python3）

Brat 标注平台配置

Normalization 标注配置

安装 SimString

LeetCode 笔记

双指针法

排序

递归和回溯

动态规划

举行重叠

拓扑排序

其他 Tips

使用 Hexo 搭建博客并部署到 Github

下载安装和环境配置

安装 Git 和 Node.js

安装 Hexo

新建博客的本地目录

安装并启用 NexT 主题

使用 VS Code 作为 Markdown 编辑器

Hexo 的基本使用

新建页面

运行服务

根据 Markdown 文件生成静态 html 文件

部署

部署到 Github

创建 Github Pages 并 SHH 授权

安装部署相关的 Hexo 插件

部署

站点配置

添加菜单

创建 About 菜单

创建 Categories 菜单

创建 Tags 菜单

启用 `适用于Linux的Windows子系统`

Brat 标注平台安装（官网版本 / Python2）

Brat 标注平台安装（Github版本 / Python3）