Home on wrong.wang

OmniGen -- Unified Image Generation

Sun, 27 Oct 2024 16:35:32 +0800

OmniGen: Unified Image Generation 旨在统一常见生成任务比如文生图、图片编辑、图片复原、可控生成，甚至姿态估计等理解任务到同一个模型中。相比于最近很火的理解生成一体化，OmniGen更关心生成，它将以上任务，统一地放在了一个“图文交叉序列输入 + 图片输出”的框架中，训练一个模型实现了上面所说的所有任务，而且还后续微调新增新的功能还很容易。该工作来自于智源，开源了权重和训练代码： VectorSpaceLab/OmniGen。

EMMA

Sun, 12 May 2024 22:50:26 +0800

在完成 ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment 这个工作后，我的目标变成了轻量廉价地将 Stable Diffusion 系列模型改造成图文交叉序列作为控制条件的图片生成模型。我尝试了多种 MLLM 领域的图文信息融合的思路，最终有了第一版 work 的方案，我将其命名为 EMMA（Efficient Multi Modal Adapter）。

What is EMMA

Sun, 12 May 2024 22:50:26 +0800

After completing the work on ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, my objective shifted towards the lightweight and cost-effective transformation of the Stable Diffusion series models into image generation models that are conditioned on cross-modal sequences of text and images. I explored various approaches for integrating text and image information in the field of Multimodal Large Language Models (MLLM), and ultimately developed the first version of my solution, which I have named EMMA (Efficient Multi Modal Adapter).

Scaling Up to Excellence - Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

Sat, 27 Jan 2024 10:16:57 +0800

SUPIR (Scaling-UP Image Restoration) 目标是基于预训练的文生图模型先验，20M 高质量图片数据， MLLM captioner 等技术，实现一个 scaling-up 的图片复原网络。

SUPIR 训练时，整体的大思路是用高质量图片与其对应的降质图片形成 pair 对，降质图片对应的 MLLM 合成 caption 作为文本控制信号。这里的“降质”复用了王鑫涛的 RealESRGAN 中提出的模拟真实低质量图片的降质策略。

StyleDrop - Text-to-Image Generation in Any Style

Sat, 06 Jan 2024 11:34:43 +0800

StyleDrop 尝试解决图片生成领域一个非常经典的问题：给定一张图片作为风格参考，生成一张该风格的新内容图片。其效果相比之前一众 style transfer 算法有了飞跃。

Paragraph-to-Image Generation with Information-Enriched Diffusion Model

Sat, 09 Dec 2023 23:17:33 +0800

ParaDiffusion 尝试解决paragraph-to-image generation任务，即给定一个长达 400 词甚至更多的 prompt，生成对应的图片。 T2I 模型要先能理解这么长的图片描述，然后把描述中涉及的关键物体都以一个合理的方式展示在图片中，难度很大。ParaDiffusion 认为之前的文生图模型做不了这样的任务既有数据上的原因，也有架构上的原因。之前的文生图模型基本上是基于 alt-text（平均甚至只有11 词）训练的，图片 caption 信息太少；提取文本 embedding 的网络要么是只接受 77token 的 CLIP，要么是只接受 128token 的 T5 Encoder。因此，ParaDiffusion 用 CogVLM 标注了4M LAION 子集，人工标注了600K 高质量图片，构建了两个 caption 长达 400 词的高质量数据集；使用 LLaMA 2 作为 text encoder。

Consistency is All You Need

Sat, 11 Nov 2023 01:12:34 +0800

最近一周内，Consistency 突然成了文生图领域的热点词： Latent Consistency Model、 Latent Consistency Model LoRA (LCM-LoRA) 、 Consistency Decoder 接连出现。

我先画了一个简单的示意图说明这些新东西和之前算法之间的关系：

De-Diffusion Makes Text a Strong Cross-Modal Interface

Sat, 04 Nov 2023 02:01:31 +0800

De-Diffusion 把一幅图片编码为一段描述非常精准全面的 caption，这段 caption 送入预训练的 T2I 模型后可以解码重建原图。De-Diffusion 试图证明，除了把图片转换成 CLIP embedding，直接把图片转换为一段有意义的纯文本，然后送入 NLP 大模型也能完成很多多模态任务，甚至取得了比用 embedding 当做图片表示更好的效果。

Improving Image Generation with Better Captions

Fri, 20 Oct 2023 15:20:31 +0800

DALLE3的效果有多牛自不用说。OpenAI最终还是出了一篇简单的介绍DALLE3的论文，涉及到的模型细节很少，重点是讲如何构造训练数据。

Kosmos-G - Generating Images in Context with Multimodal Large Language Models

Tue, 10 Oct 2023 19:06:32 +0800

KOSMOS-G的目标是实现zero-shot personalized text to image。能够实现多Object组合文本的保ID生成。

KOSMOS-G的训练流程分为三个阶段：

DiffBlender - Scalable and Composable Multimodal Text-to-Image Diffusion Models

Mon, 09 Oct 2023 19:05:40 +0800

DiffBlender目标是能同时结合文本、图片、不带空间信息的token序列、带空间信息的token序列等多种不同模态的控制信号，通过高效地训练Adapter或者HyperNetwork之类的外挂组件，实现可扩展的多模态信号控制图片生成。其主要对标的是Composer、ControlNet这一类的算法：

PixArt-alpha - Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

Tue, 03 Oct 2023 19:01:00 +0800

这篇论文把训练过程拆分成了3个阶段：

Capturing Pixel Dependency：这个阶段模型进行类指导的图片生成，目标是能生成合理的图片。这个阶段模型在ImageNet上预训练了一个class guided的图片生成模型。然后用这个模型当做预训练权重，接着后续的训练。(估计就是直接挑选了一个模型，懒得从头训练了)

Emu - Enhancing Image Generation Models Using Photogenic Needles in a Haystack

Thu, 28 Sep 2023 18:12:19 +0800

核心观点是用一小批（2000）张极高质量的图片finetune基础文生图模型就可以让模型输出质量极大提升，同时生成图片的语义贴合描述，过拟合不严重。

Common Diffusion Noise Schedules and Sample Steps are Flawed

Wed, 02 Aug 2023 14:43:15 +0800

这篇文章认为现有的diffusion noise schedules和sample steps有两个比较大的问题：

noise scheduler没有保证在最后一个timestep时，信噪比为0。这样会导致模型在训练时sample的均值等低频信息被泄露给网络，但在推理时指定均值为0的高斯噪声，导致推理时无法生成很亮或很暗的图。
DDIM等采样的step没有从最后一个timestep开始，进一步加剧了上述问题。

推理#

Diffusion基础#

预先定义扩散率\(\beta_t\)，令\(\alpha_t=1-\beta_t\)，\(\bar{\alpha}_t = \prod_{i=1}^T \alpha_i\)

生成周刊·第五期

Fri, 24 Mar 2023 00:58:36 +0800

本文由工具自动收集我在 Memos上记录的内容，汇总后得到。 Cursor帮忙实现了从API加载数据、解析时间字符串、内容处理正则等函数。

cleanlab/cleanvision: Automatically find issues in image datasets and practice data-centric computer vision (github.com) 能筛选数据集里的图片，找出有包括Low Information、Blurry在内的异常图片。
On the De-duplication of LAION-2B 也是一个给LAION去重的工作。不过这篇文章的思路不像Meta那篇，不是先聚类再两两求相似度，而是直接压缩CLIP特征，在压缩后的特征上批量求相似度。 ryanwebster90/snip-dedup (github.com)这里是代码。据说可以很快地搜索整个LAION2B的数据。

生成周刊·第四期

Sat, 25 Feb 2023 23:00:27 +0800

论文#

Constitutional AI: Harmlessness from AI Feedback#

Anthropic AI由OpenAI前任领导人（包括兄弟姐妹Daniela 和Dario Amodei）创立，于2023年1月发布了对名为Claude的新聊天机器人的有限测试，以与ChatGPT竞争。这篇文章是Anthropic AI发表的关于Claude的一篇论文。不知道为什么，感觉社区好像没太在意的样子。

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Thu, 09 Feb 2023 00:08:41 +0800

{width=“4.955489938757656in” height=“2.3220111548556432in”}

BLIP2 是BLIP团队的新作，核心共享是教给大家如何同时利用预训练视觉和语言模型实现多模态任务。BLIP2的同时利用了预训练的图片Encoder和LLM，可以复用LLM中存储的知识和Image Encoder的特征提取能力。为了建立Image Encoder和LLM两个单模态大模型的之间的关联，BLIP2设计了一个相对轻量的Q-Former结构，

生成周刊·第三期

Thu, 09 Feb 2023 00:00:27 +0800

论文#

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models#

详细内容单独整理为了一篇博客，请阅读：论文分享 - BLIP2。

只言片语#

Midjourney背后的技术猜测#

Reddit上有个帖子介绍了一些他很久以前了解的Midjourney背后的技术。他说MJ曾有段时间用 v-diffusion finetune了一下SD，最开始finetune用的数据是LAION-2B中的子集，这说明LAION-2B里面还是有很多宝藏的，因为LAION2B数据量太大，大家都没怎么好好分析过这个数据集，难道说我们想要的高质量动漫、艺术画这类数据，LAION都有，关键是怎么采样出来？

生成周刊·第二期

Tue, 17 Jan 2023 10:18:27 +0800

论文#

Mid-U Guidance: Fast Classifier Guidance for Latent Diffusion Models#

Sketch-Guided Text-to-Image Diffusion Models#

虽然目前SOTA的Text2Image模型主要都使用CFG（Classifier Free Guidance），但是Classifier Guidance本身其实能提供更为Flexible的Guidance，毕竟Classifier其实可以是预训练的任何能提供梯度的网络，能构造一个loss就可以了。但是用Classifier做Guidance天然地存在两个问题：

生成周刊·第一期

Sat, 07 Jan 2023 15:40:27 +0800

有趣的论文#

MaskGIT: Masked Generative Image Transformer#

Google新的文生图大模型Muse所依赖的生成模型。介绍了一种新的"Masked Visual Token Modeling"训练策略。

什么是Diffusion模型？

Sun, 05 Jun 2022 17:12:07 +0800

Diffusion过程#

扩散（Diffusion）在热力学中指细小颗粒从高密度区域扩散至低密度区域，在统计领域，扩散则指将复杂的分布转换为一个简单的分布的过程。 Diffusion模型定义了一个概率分布转换模型\(\mathcal{T}\)，能将原始数据\(x_0\)构成的复杂分布\(p_{\mathrm{complex}}\)转换为一个简单的已知参数的先验分布\(p_{\mathrm{prior}}\)：

利用torch.fx提取PyTorch网络结构信息绘制网络结构图

Fri, 20 May 2022 12:54:20 +0800

torch.fx是一个用于转换（transform）PyTorch模型（即nn.Module）的工具包。从torch 1.10开始，工具包不再处于beta阶段，torch.fx成为了PyTorch的稳定功能。

最近我比较闲，按照文档随便试了一下torch.fx的功能，立马意识到，这玩意真的挺有用！torch.fx能将nn.Module转换为一个图结构，图的节点保存着当前网络节点前向时的输入，输出和参数，以及网络结构本身。这个图结构保存的信息足够多，api丰富。我一直苦于看不懂使用Tensorboard的add_graph方法得到的网络结构图，就尝试用graphviz可视化torch.fx得到的图，发现效果确实不错，比Tensorboard的结果清晰不少。

初始化Svelte+TailwindCSS网站

Mon, 20 Dec 2021 13:36:06 +0800

Svelte是一个为构建Web APP设计的javescript框架，类似于Vue或者React。TailwindCSS是一个用于网页设计的CSS框架。这两个框架在各自领域都是独树一帜的存在，本文介绍一下怎么同时使用这两个框架。

一行命令查看ZeroTier网络中设备IP和在线情况

Sun, 05 Dec 2021 21:19:23 +0800

最近我经常需要查看ZeroTier中某个网络的设备在线情况和网络中每个设备的公网IP。由于ZeroTier的Web管理端做的不是很易用，每次都登录my.zerotier.com查看信息特别不方便。调研了一下，发现ZeroTier官方提供的API接口 Returns a list of Members on the network正好能提供我所需要的信息。所以写了一个one-line shell命令在终端用表格展示一下结果。

我的2022年秋招

Tue, 30 Nov 2021 15:11:56 +0800

我的秋招自7月初投递米哈游开始，到11月中旬最终确定接腾讯的offer结束。从去年年底，我就一直在腾讯实习。到了七月份，我一边实习一边投递了米哈游、商汤、网易、华为、快手、阿里、字节这些公司的算法岗。最终除了米哈游一面挂和阿里没有给我正经的面试机会以外，其它公司的offer都拿到了，都是SP以上，网易、商汤、腾讯还给我开了比SSP还高一些的offer。秋招期间，我总是因为各种失误和遗憾而痛苦，但现在再回顾，做为一个普通人，自己能拿到现在这些offer，已经非常非常幸运了。似乎自己在秋招阶段还是做对了很多事情的。现在，我想和你分享一下我的秋招，我的感悟。

About

Mon, 29 Nov 2021 09:47:56 +0800

我是谁#

自拍正在加载…

我叫Ray，行走江湖也常用不对(Wrong Wang)这个绰号，出生于上个世纪，在本世纪初长大。

我享受创造。小时候想造机器人造飞机，初中时就决定学自动化这个似乎与机器人最相关的专业；到了大学便选了自动化专业，却逐渐沉迷于代码；后面读研时兜兜转转选了 GAN 做研究方向，开始做图片生成；第一份工作在腾讯，作为螺丝钉，给 QQ 做乱七八糟的图片生成活动。我能创造得越来越多, 想创造得却越来越小。

Ubuntu关闭GUI

Sat, 25 Jul 2020 10:45:31 +0800

一、持久关闭#

执行以下命令，持久关闭Ubuntu桌面版的GUI环境（通过Ctrl+Alt+F1-F6快捷键进入命令行界面）：

sudo systemctl set-default multi-user.target

执行以下命令，持久开启Ubuntu桌面版的GUI环境（通过Ctrl+Alt+F7快捷键进入GUI界面）：

输出shell脚本头部的注释做帮助信息

Fri, 17 Jul 2020 12:47:47 +0800

博主 @reconquestio发了一篇文章 Help message for shell scripts展示一个技巧，将帮助信息写在 Bash 脚本脚本的头部，然后只要执行"脚本名 + help"，就能输出这段帮助信息。我翻译了一下，权做参考。

使用官方库在golang中表示json的三种方法

Sat, 23 May 2020 07:53:54 +0800

以下方法均只使用了encoding/json这个库，但事实上业界还有很多很优秀的JSON解析库，也对应着有不同表示JSON的方法。本文只描述使用官方库时可用的3种方式。

两个有趣的AI动作迁移(Motion Transfer)项目: Pose Animator，avatarify

Sat, 16 May 2020 21:20:37 +0800

疫情肆虐期间大家被限制在家中，只能远程工作，远程会议。散落在各地的程序员也同样如此，整天面对笔记本的摄像头工作，催生出两个利用笔记本摄像头和AI实现的小项目。这俩项目很有趣，同时和我研究生在做的课题比较接近，于是我粗略地研究了一下他们的方案，和大家分享一下这两个Motion Transfer项目。

相爱千日碎碎念

Fri, 14 Feb 2020 00:05:20 +0800

如果在2017年5月20日在一起，那么2017年8月28日（七夕）是在一起的第100天，今天（2020年2月14日）则是在一起的第1000天。我和我的女朋友就是17年5月20号在一起的。

Cheatsheet

Mon, 27 Jan 2020 21:45:37 +0800

pip如何使用清华源

临时使用#

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

注意，simple 不能少, 是 https 而不是 http

新建空git分支

Sat, 16 Nov 2019 09:23:12 +0800

偶尔有这么一个奇怪的需求：新建一个不包含任何commit的git分支。比如你使用GitHub Pages，需要新增一个gh-pages分支，由于这个分支只需要一些HTML/CSS/JS，就需要新建一个不包含任何commit的新分支。

更改Windows中文版默认英文字体

Wed, 13 Nov 2019 16:18:40 +0800

Windows中文版默认英文字体为宋体，导致一些软件如Mendeley界面非常丑。

替换Windows下默认字体的方法如下：

按下windows+R组合键打开运行；
输入regedit并回车打开注册表管理器；
打开注册表中的[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\GRE_Initialize]项；
将GUIFont.Facename项更改为你喜欢的字体，如Tahoma或Arial;
重启电脑

抵制or不抵制notepad++?

Wed, 30 Oct 2019 17:20:03 +0800

今年“政治”的存在感非常高，这不，Notepad++作者又发表了一些反华言论，接着v2ex.com上就出现很多个帖子讨论这件事情，部分帖子号召大家抵制这个软件，但我QQ空间里也有人开始暗搓搓地表达对这种抵制来抵制去的不满。

安装标准的caffe和opencv

Wed, 16 Oct 2019 16:09:16 +0800

如果只是使用最标准的caffe，没有自定义layer的话，使用conda安装caffe很简单：

# 创建一个虚拟环境，使用python2
conda create -n caffe-python2 python=2.7
# 激活这个环境
conda activate caffe-python2
# 安装GPU版本的caffe，如果需要，CUDNN等等依赖conda也会帮你装好
conda install -c defaults caffe-gpu
# 安装2.4版本的OpenCV
conda install -c https://conda.binstar.org/menpo opencv

远离UGC

Fri, 11 Oct 2019 10:34:30 +0800

我现在非常认同一个我之前嗤之以鼻的观点：经常在deadline之前摸鱼反而不会快乐，会很抑郁。

今天又一次在电脑前思考我该干啥，由于事情太多，deadline太赶，我被压垮了，啥都不想做，直接翻身上了床睡了一觉。起来下来照常先刷一波知乎、微博、v2ex、煎蛋、虎嗅、RSS，刷完后又面临同样问题：我该先干啥？

Manjaro I3连接蓝牙耳机

Tue, 01 Oct 2019 11:07:58 +0800

manjaro i3版本默认安装了 blueman 系列软件。其中：

blueman-manager 可以选择连接蓝牙设备
blueman-adapters 可以修改蓝牙名等本机蓝牙设置

但是，刚装好系统时，我尝试连接蓝牙耳机，一直提示错误：

关于“混合虚实”

Wed, 25 Sep 2019 23:27:33 +0800

混合虚实，想了一段时间，决定把音视频制作，3D影像建构和老照片、老视频基于AI混合在一起的技术统称为混合虚实。混合虚实技术的发展在5G大规模部署后将会成为视频中的主流。这将进一步降低门槛，未来我们都不需要拍摄即可获得自己的任意指定场景的影像。这一天很快会到来。摘自微博新媒沈阳

新闻致人郁闷

Sun, 01 Sep 2019 18:57:28 +0800

不瞒各位，最近我做事效率奇低，很大一个原因是我总是抱着手机刷各种关于香港的新闻。

从观察者网开始，到微博，到多维，到Twitter，到BBC，到Matters.news，到Hacker News，到Telegram中的国外新闻网站聚合频道。从光谱的一端走到另一端后，我每天总是打开这些网站翻来覆去地刷新，仿佛是笼子里的猴子，时不时在投喂口看看有没有新的食物落下。这种刷新的快感很是让我沉迷，但心中郁闷之情也集聚甚多，以至于不吐不快。

第四次换域名感言

Thu, 22 Aug 2019 21:14:41 +0800

本站目前域名是rayhy.com，这已经是我第四次换域名了。前两次只是在玩票，暂不说它。

由于我的本名太过泯然众人，与名字相关的域名早就被注册一空（当然我还不是最惨的，相信我哥哥魏bo也是这么认为），所以我注册域名的原则一直是网名优先。但网名优先法的达摩克斯之剑就是：网名不稳定，所谓喜新厌旧是也。所以去年毅然决然地以志趣做域名：低熵(Low Entropy)。熵这个概念一谈起来就高大上。低熵，就是Bring Order to Chaos呀，我的小网站也算是世界朝着高熵发展到终局前绝望的挣扎了。正是世界的终局，个人的挣扎。lowentropy.me这个域名很优秀，我非常喜欢。

如何方便地同时使用命令行参数和配置文件指定程序参数

Fri, 16 Aug 2019 14:45:07 +0800

最近在写深度学习代码，很头疼的一个问题是：代码中有很多需要经常调整的超参数，要能通过配置修改这些超参数，不能直接写死。

参数较少时，直接使用命令行参数指定就行了，灵活方便。但是，当参数量比较多时，命令行参数就不太合适了，主要有三个问题：

查看linux服务器的开放端口

Tue, 30 Jul 2019 12:56:38 +0800

很多命令都可以查看当前开发的端口

netstat#

sudo netstat -tulpn | grep LISTEN

-t: 所有TCP端口
-u: 所有UDP端口
-l: 显示正在监听中的socket
-p: 显示socket对应的程序名字、PID
-n: 不需要解析名字

ss#

sudo ss -tulpn

lsof#

sudo lsof -i -P -n | grep LISTEN

nmap#

sudo nmap -sT -O localhost

实际用起来，感觉ss输出信息比较直观。

ssh内网穿透

Sun, 21 Jul 2019 18:48:36 +0800

这种方法需要有一台公网中的VPS。

将三台机器描述如下：

机器代号	网络位置描述	地址	账户	端口	运行程序
server	内网或者防火墙后，只能主动连外网	localhost	user	22	autossh
VPS	有一个公网IP，公网双向可用	lowentropy.me	rp	2201, 2200	sshd
PC	自己的电脑，能访问到VPS				ssh

我们的目标很简单：在PC端使用ssh，以VPS作为跳板，连接内网中的服务器server。

还与韶光共憔悴，不堪看

Sat, 20 Jul 2019 15:01:14 +0800

我关注了谢益辉的博客。他博客的RSS源很有意思，不知道什么原因，总是隔几个月才将他这几个月的所有博客一起加入RSS中。导致我每次注意到他的博客更新，都有几十篇未看。今天就是这样，我一下子看了他上半年的几十篇博客。

经常看到有人问，除了程序员的技术博客，现在还有人认认真真地写博客吗？谢益辉就是一个认认真真写博客的人。第一次进入他的博客是因为他关于电子排版的文章，看了他很多关于网页排版、字体的文章后，我很认同他的理念，我的博客主题就是在他设计的主题基础上修修补补得来的。

交换ctrl与Caps lock键

Thu, 18 Jul 2019 19:18:03 +0800

最近准备尝试下交换CTRL与Caps lock键。已经有很多交换这两个按键的方式。但大都不太满足我的要求：最好不装软件，最好很容易恢复到原来的样子。

docker container新增开放端口

Thu, 18 Jul 2019 16:23:42 +0800

实验室最近在拿docker当虚拟机用。这当然完全违逆了docker的使用准则，但是考虑到docker配合nvidia-docker能同时使用不同的深度学习环境，而且管理较为简单，所以最终我们还是决定拿docker的容器当作虚拟机来使用。

可能是目前最简单方便的管理dotfiles的方法：使用裸Git仓库

Mon, 08 Jul 2019 14:12:18 +0800

标题略有夸张，很多人都有独特的、适合自己的管理dotfiles的方案。本文无意诋毁其它方法，只是介绍一种仅仅依靠git就能优雅地管理dotfiles的方案。

175天

Fri, 15 Mar 2019 16:20:53 +0800

去年9月18号我保研了。今年3月12号晚上6点50，女朋友考研成功上岸。我比较弱，就留在本学院了；我女朋友强一些，最后去了浙大。

结局是快乐的，但过程却波折。她初试成绩刚出来时，虽然蛮低于预期，但也有380+，我觉得也就差不多了吧，能上浙大。

本站引用图片的“顺滑”流程

Fri, 01 Mar 2019 23:07:39 +0800

对我来说，静态博客的图片管理需要满足以下几个需求：

方便引用，插入图片时怎么简单怎么来；
方便备份，图片最好存在多处，防止图片丢失；
方便管理，可以用程序自动上传到多个地方；
保证速度，图片最好有CDN，加载不要太慢。

文件组织#

我的网站使用的生成器是hugo。为了方便地引用，保存图片，我现在采用如下的文件组织形式：

ReID任务中的CMC和mAP

Sat, 23 Feb 2019 16:33:24 +0800

ReID#

ReID指Re-identification，常翻译为重识别。ReID任务本身分类很多，本文只讨论基于图片的ReID任务中single-gallery-shot这一最简单的情况。

Windows下获取连接过的WiFi的密码

Mon, 21 Jan 2019 20:18:03 +0800

打开cmd(win+r输入cmd)
输入以下命令：netsh wlan show profile WiFi名字 key=clear，注意把WiFi名字部分替换为你想知道密码的WiFi名。
输出的内容中，安全设置->关键内容 就是WiFi密码。

当然，当你因为记性不好，需要查看已经连过的WiFi的密码时，你可能同时因为记性，记不起正确的WiFi名字。你可以通过netsh wlan show profile这条命令查看本机连接过的所有WiFi。

你我和互联网(一)：自由与控制

Sun, 16 Dec 2018 15:58:31 +0800

本文写在读胡泳（公众号：beingdigital）的《中国互联网二十年：自由的向往，信任的呼唤》之后, 文章深意尚无理解, 已略有所感，故有此文。

这篇文章10月27号就开始写了，后来攒了很久，一直写不完。太大的命题了，我究竟懂多少呢？文中按主题拆成了3个部分，就先把第一个部分的东西放上来。（仅仅过了1个月，这篇文章我就有些看不下去了，想法自大，行文幼稚。但毕竟是我自己当时认真思考后的产物，舍不得删掉。）

Golang 中 http.Get 过慢原因

Thu, 06 Dec 2018 17:22:07 +0800

背景#

我最近打算好好学一下Golang。翻开《The Go Programming Language》第一章fetch(page 16)单元，我拷贝了书上的代码执行。发现下载百度首页都需要10s+，用curl下载则只需要不到1s，很奇怪。

使用Pandoc和KaTeX为HUGO添加LaTeX支持

Fri, 30 Nov 2018 09:18:03 +0800

最近在扫论文。写阅读笔记的时候，需要在Markdown中写公式。

我一般用 Visual Studio Code写Markdown文件，插件 Markdown All in One可以给VScode添加LaTeX公式支持，在本地写作很方便。然而到了要生成网页展示的时候，却发现因为Markdown标识符(如_)和LaTeX标识符含义冲突，hugo对公式的支持有很多问题。

穷折腾的无头苍蝇

Mon, 26 Nov 2018 16:54:27 +0800

虽然明天晚上就要考试，但今天我还¹是在刷v2ex，刷到一个帖子。内容大概是一位专科辍学生描述了下自己会做什么以求一份工作，可惜他简历的内容却是：会翻墙，会刷机，会装系统之类的东西。这当然受到了v友们的围攻²，槽点无非就是以电脑（折腾）爱好者的水平谋求一份程序员的工作，没有搞清楚什么是竞争力。

帖主的简历活生生一个穷折腾典范，配置不是编程。这里我想同时批判一下某个自翊为了解Python/Go/C++的程序员：

什么是embedding features？

Fri, 23 Nov 2018 14:22:07 +0800

你也许会感到惊奇，我开始读论文时，花了很长时间才搞明白embedding features这个概念。尽管到最后我也没搞懂如何信达雅地翻译“embedding”这个词，但还是分享下现在¹我对embedding的理解吧。

怎么做到行文通顺？

Sat, 20 Oct 2018 11:34:29 +0800

首先说明，这不是什么教程博客，而是一篇描述问题的博客。

最近发现我写博客的时候，连行文通顺都不能很好地做到。经常会有病句，缺少主语，读起来不自然。本来这篇博客标题准备用“怎么才能做到文笔好”，后来读了两篇自己的文章，觉得还是提出“怎么做到行文通顺？”这个问题更符合我现在的水平。

GO Web后端项目如何组织？

Wed, 03 Oct 2018 15:36:29 +0800

本文翻译自 Mat Ryer的博文： How I write Go HTTP services after seven years. 有足够英语阅读能力的读者请直接阅读原文。看完后可以再看下本文最后的补充部分。

我一直在改进我写HTTP服务的方法，在写了7年Go程序后，我是怎么设计Go Web后端程序的呢？

Golang http库路由机制

Mon, 01 Oct 2018 14:40:53 +0800

自带路由的使用#

首先我们来研究下net/http库自带的路由。只要用HandleFunc将请求URL模式和回调函数注册成一条路由，然后调用http.ListenAndServe，当请求路径匹配路由表的某一项时，就调用这一项对应的回调函数(这里的“调用”并不指直接调用，具体如何，接着往下看)。举个例子：

读研前的展望

Wed, 26 Sep 2018 08:47:43 +0800

毫无疑问，我是非常幸运的。在我复习很久开始倦怠的时候，保研名单里突然有了我的名字。十几号的时候我提交了保研材料做最后一搏，等了一周，保研结果才出来。在这一周里，我依然在自习室从早坐到晚，没有放弃考研复习。显而易见，我这一周里没学多少东西。有个词能概况我那几天的心态：患得患失。一会儿安慰自己肯定在保研名额里，一会告诫自己保研多半没希望而现在进度已经很慢了，再不加快复习肯定考不上的。

c语言宏中的字符串化和合并操作符

Sat, 25 Aug 2018 14:20:45 +0000

C语言中的宏是一个很简单粗暴的设计，主要功能就是replace。为了更方便地替换，引入了宏函数这一概念。宏函数用参数替换预先定义的标识符在宏定义中的每一次出现。配合#和##，可以用宏简单高效地完成一些复杂的操作。

FIFO存储器件空满标志产生探究

Mon, 28 May 2018 10:00:00 +0000

设计难点#

在探究如何产生FIFO的空满标志前,先来解决一个问题 : FIFO存储器件的空满标志产生有什么难点?

亚稳态问题

在数字集成电路中，触发器要满足setup/hold的时间要求。当一个信号被寄存器锁存时，如果信号和时钟之间不满足这个要求，Q端的值是不确定的，并且在未知的时刻会固定到高电平或低电平，这个过程称为亚稳态. 对于我们主要关注的异步FIFO器件, 读写操作分别在两个时钟域中进行, 自然, 亚稳态问题对FIFO的空满标志产生有很大影响.