Lowin Li

IQuest-Coder-V1调研，NanobananaPro + Gemini3Pro生成

2026-01-02T16:00:00.000Z

Vibecoding 时代，程序员会消失吗？——从“全自动”到“半自动”的冷思考

2025-12-17T16:00:00.000Z

今年，“Vibecoding” 的概念席卷了技术圈。像 ClaudeCode、Lovable 这类产品，号称只需一句自然语言就能生成整套应用；CodingAgent 更是通过不断的 Action-Observation

AzureOpenAI vs OpenAI

2023-02-17T07:00:00.000Z

OpenAI是一家人工智能研究机构，最近几个月发布的ChatGPT火遍全球。OpenAI官方提供了API接口，可以帮助开发者轻松地介入Ada、Babbage、Curie、Davinci等模型，尤其是OpenAI发布的text-davinci-003模型，它的通用能力，让大家

ChatGPT出圈的秘诀

2023-01-29T07:00:00.000Z

通篇翻译自
Rajani et al., “What Makes a Dialog Agent Useful?”, Hugging Face Blog,

人工反馈的强化学习

2023-01-02T11:00:00.000Z

人工反馈的强化学习

翻译自

Stable Diffusion的模型量化，降低内存75%、Streamlit的在线生成图片调试、docker服务部署

2022-10-09T14:00:00.000Z

摘要
最近几个月开源的Stable

训练一个SentenceTransformer模型

2022-09-12T12:00:00.000Z

原 博客
完整notebook代码

8位混合精度矩阵乘法，小硬件跑大模型

2022-09-04T07:00:00.000Z

原论文：https://arxiv.org/pdf/2208.07339.pdf

原博客：

Constrained Beam Search

2022-07-03T14:00:00.000Z

盘点开源“Copilot”，do it yourself

2022-06-27T15:00:00.000Z

目录

使用fastgpt提速huggingface的GPT文本生成模型

2022-06-25T04:00:00.000Z

docker启devpi服务

2022-03-04T16:00:00.000Z

相关链接：

github

dockerhub
简要

devpi工具相比其他pypi源工具，有如下特点：

节省硬盘：不必完全同步下来公开源的所有包，仅在第一次pip安装时从公开源下载和缓存。

支持上传接口文档：上传自己开发pip库时，可以把接口文档也上传到devpi。

本项目旨在用docker容器启动devpi服务。

DataMeasurementsTool介绍

2022-02-04T16:00:00.000Z

资源

翻译自 Huggingface Blog

在线工具

GitHub

引子
随着机器学习数据集统一平台的快速发展(Lhoest et al. 2021)，HuggingFace团队开始探索如何管理数据集文档(McMillan-Major et al., 2021)。文档是认识数据集必要的第一步，通过文档我们知道如何统计和查看这份数据集，动态观察数据集的不同角度。

在这里，我们介绍一个开源Python库和零代码界面，名为Data Measurements Tool。通过Dataset和Spaces社区，搭配Streamlit tool工具，它可以用来帮助理解、构建、洞察和比较数据集。

bigbird长文本预训练模型介绍

2021-12-11T16:00:00.000Z

本博客翻译自huggingface blog。

文末有惊喜

前言
基于Transformer的模型已经被证明了在许多NLP任务中的价值，但这类模型的时间复杂度、内存使用复杂度都是$n^2$（n为序列长度），因此当序列长度超过常规的512时，模型对算力的要求将会大幅提高。最近的一些文章`Longformer`, `Performer`, `Reformer`, `Clustered attention`都试图通过近似全主力机制改善该问题。例如这个帖子就是介绍这些模型的。
`BigBird`论文是处理这类问题最新模型的其中之一，它使用`block sparse attention`替换了原类似Bert一样的全注意力机制，在与BERT一样的计算力情况下，可以处理的序列长度达到4096。它已经在很多长文本序列的任务上达到SOTA效果，例如长文本摘要、长文本问答。
BigBird RoBERTa模型现在已经可以在Transformers仓库中使用。这篇博客的目的是为了让读者深入理解big bird的运行机制，快速使用Transformers仓库上手BigBird模型。但在开始之前，我们需要知道，BigBird的注意力机制是一个近似BERT的全注意力机制，因此它不是说比BERT的注意力机制效果更好，而是运行效率更高。BERT的注意力机制的存储与序列长度是二次方关系，在长文本情况下的存储需求就已经开始令人难以忍受，而BigBird的`block sparse attention`就是为了解决这个问题。也就是说，在$\infty$长度序列上，计算$&\ \infty$次时，我们应该把BERT的全注意力机制换成block sparse attention。
如果你想知道，为什么在计算长序列时，我们需要更多的算力，这篇博客正好适合你。

Transformers仓库做语言生成的解码方法介绍

2021-11-08T13:00:00.000Z

本博客翻译自huggingface blog

简介
最近几年，以OpenAI公司的GPT3为代表，基于transformer结构的大模型都已经开始在上百万级别的网页上面训练。因此大家对开放领域语言生成的期待值也越来越高。开放领域的条件语言生成效果也日新月异，例如GPT2、XLNet、CTRL。除了transformers结构和海量的无监督预训练数据，更好的解码方法也在其中扮演了重要角色。

这篇博客简要回顾了多种解码策略，帮助你用transformers库实现他们。

谁说torchtext不能做多标签任务

2021-10-24T14:00:00.000Z

背景
最近刷到一篇博客，吐槽`torchtext`不能做多标签任务，特来为`torchtext`鸣不平，看好，我要用`torchtext`做多标签任务了。

简要

解读

torchtext库，做多标签任务

实践

textcnn模型，跑百度事件多标签比赛，验证集准确率accuracy达到`86%`

运行

`github`的`action`中，完成全程训练、批测，结果报告通过`cml工具`发送至commit评论

转载：人工智能能否实现？

2021-10-17T16:00:00.000Z

以下通篇转载自
http://fancyerii.github.io/2019/03/14/philosophy/

本文讨论人工智能是否可以实现这个哲学问题。本文是《深度学习理论与实战：提高篇》的一章，更多内容请点击深度学习理论与实战：提高篇。
转载请联系作者(fancyerii at gmail dot com)！

分享CML工具在github上的一个原创例子

2021-10-15T14:00:00.000Z

标签
MLOPS,CML,ONNX,textcnn,CLUE,Continuous

简要

开源一个使用`CML`工具的原创例子。

在github的`actions`中，训练和批测`iflytek`数据集，批测准确率`55%`，onnx加速后，在github的action分配的资源中，单核cpu单条预测`2-4ms`。

开源地址

.li域名注册教程

2021-09-25T10:25:17.000Z

简要
本文记录了在列支敦士登公国注册.li域名，用于个人博客的踩坑过程，仅供参考。

Transformers仓库解读之一DataCollator

2021-09-24T16:00:00.000Z

简要
上接Transformers仓库解读之序,对transformers库中的DataCollator的子类进行调用介绍