Lowin Li
大浪淘沙,风起帆扬
2026-01-02T16:52:28.009Z
https://lowin.li/
Lowin Li
Hexo
IQuest-Coder-V1调研,NanobananaPro + Gemini3Pro生成
https://lowin.li/2026/01/03/iquest-coder-v1-diao-yan/
2026-01-02T16:00:00.000Z
2026-01-02T16:52:28.009Z
<h2 id=""><a href="#" class="headerlink" title=""></a><img src="/image/iq-coder/1.svg"></h2><h2 id="-1"><a href="#-1" class="headerlink"
Vibecoding 时代,程序员会消失吗?——从“全自动”到“半自动”的冷思考
https://lowin.li/2025/12/18/vibecoding-shi-dai-cheng-xu-yuan-hui-xiao-shi-ma-cong-quan-zi-dong-dao-ban-zi-dong-de-leng-si-kao/
2025-12-17T16:00:00.000Z
2025-12-18T07:45:25.547Z
<p>今年,“Vibecoding” 的概念席卷了技术圈。像 ClaudeCode、Lovable 这类产品,号称只需一句自然语言就能生成整套应用;CodingAgent 更是通过不断的 Action-Observation
AzureOpenAI vs OpenAI
https://lowin.li/2023/02/17/azureopenaivsopenai/
2023-02-17T07:00:00.000Z
2023-10-06T11:29:49.000Z
<p>OpenAI是一家人工智能研究机构,最近几个月发布的ChatGPT火遍全球。OpenAI官方提供了API接口,可以帮助开发者轻松地介入Ada、Babbage、Curie、Davinci等模型,尤其是OpenAI发布的text-davinci-003模型,它的通用能力,让大家
ChatGPT出圈的秘诀
https://lowin.li/2023/01/29/chatgpt-chu-quan-de-mi-jue/
2023-01-29T07:00:00.000Z
2023-10-06T11:29:49.000Z
<p>通篇翻译自<br><a href="https://huggingface.co/blog/dialog-agents">Rajani et al., “What Makes a Dialog Agent Useful?”, Hugging Face Blog,
人工反馈的强化学习
https://lowin.li/2023/01/02/ren-gong-fan-kui-de-qiang-hua-xue-xi/
2023-01-02T11:00:00.000Z
2023-10-06T11:29:49.000Z
<h1 id="人工反馈的强化学习"><a href="#人工反馈的强化学习" class="headerlink" title="人工反馈的强化学习"></a>人工反馈的强化学习</h1><ul>
<li>翻译自<a
Stable Diffusion的模型量化,降低内存75%、Streamlit的在线生成图片调试、docker服务部署
https://lowin.li/2022/10/09/stable-diffusion/
2022-10-09T14:00:00.000Z
2023-10-06T11:29:49.000Z
<h2 id="摘要"><a href="#摘要" class="headerlink" title="摘要"></a>摘要</h2><p>最近几个月开源的<a href="https://github.com/CompVis/stable-diffusion">Stable
训练一个SentenceTransformer模型
https://lowin.li/2022/09/12/xun-lian-yi-ge-sentencetransformer-mo-xing/
2022-09-12T12:00:00.000Z
2022-09-13T02:44:10.000Z
<p>原<a href="https://huggingface.co/blog/how-to-train-sentence-transformers">博客</a><br>完整notebook代码</p>
<p><a
8位混合精度矩阵乘法,小硬件跑大模型
https://lowin.li/2022/09/04/8-wei-hun-he-jing-du-ju-zhen-cheng-fa-xiao-ying-jian-pao-da-mo-xing/
2022-09-04T07:00:00.000Z
2022-09-04T06:02:10.000Z
<ul>
<li>原论文:<a href="https://arxiv.org/pdf/2208.07339.pdf">https://arxiv.org/pdf/2208.07339.pdf</a></li>
<li>原博客:<a
Constrained Beam Search
https://lowin.li/2022/07/03/shi-yong-transformers-zuo-xian-zhi-ji-shu-sou-suo-constrained-beam-search-de-wen-ben-sheng-cheng/
2022-07-03T14:00:00.000Z
2022-07-03T22:42:12.000Z
<h1 id="使用Transformers做限制集束搜索(Constrained-Beam-Search)的文本生成"><a href="#使用Transformers做限制集束搜索(Constrained-Beam-Search)的文本生成"
盘点开源“Copilot”,do it yourself
https://lowin.li/2022/06/27/pan-dian-kai-yuan-copilot/
2022-06-27T15:00:00.000Z
2022-06-28T04:52:57.000Z
<h2 id="目录"><a href="#目录" class="headerlink" title="目录"></a>目录</h2><ul>
<li><a
使用fastgpt提速huggingface的GPT文本生成模型
https://lowin.li/2022/06/25/shi-yong-fastgpt-ti-su-huggingface-de-gpt-wen-ben-sheng-cheng-mo-xing/
2022-06-25T04:00:00.000Z
2022-06-25T05:47:52.000Z
<h1 id="使用fastgpt提速huggingface的GPT文本生成模型"><a href="#使用fastgpt提速huggingface的GPT文本生成模型" class="headerlink"
docker启devpi服务
https://lowin.li/2022/03/05/devpi/
2022-03-04T16:00:00.000Z
2023-10-06T11:29:49.000Z
<h2 id="相关链接:"><a href="#相关链接:" class="headerlink" title="相关链接:"></a>相关链接:</h2><ul>
<li><a href="https://github.com/LowinLi/devpi-docker">github</a></li>
<li><a href="https://hub.docker.com/repository/docker/lowinli98/devpi">dockerhub</a><h2 id="简要"><a href="#简要" class="headerlink" title="简要"></a>简要</h2></li>
<li><a href="https://devpi.net/docs/devpi/devpi/stable/%2Bd/index.html">devpi工具</a>相比其他pypi源工具,有如下特点:<ol>
<li><strong>节省硬盘</strong>:不必完全同步下来公开源的所有包,仅在第一次pip安装时从公开源下载和缓存。</li>
<li><strong>支持上传接口文档</strong>:上传自己开发pip库时,可以把接口文档也上传到devpi。</li>
</ol>
</li>
<li>本项目旨在用docker容器启动devpi服务。</li></ul>
DataMeasurementsTool介绍
https://lowin.li/2022/02/05/data-measurements-tool-jie-shao/
2022-02-04T16:00:00.000Z
2023-10-06T11:29:49.000Z
<h2 id="资源"><a href="#资源" class="headerlink" title="资源"></a>资源</h2><ul>
<li>翻译自 <a href="https://huggingface.co/blog/data-measurements-tool">Huggingface Blog</a></li>
<li><a href="https://huggingface.co/spaces/huggingface/data-measurements-tool">在线工具</a></li>
<li><a href="https://github.com/huggingface/data-measurements-tool">GitHub</a></li>
</ul>
<h2 id="引子"><a href="#引子" class="headerlink" title="引子"></a>引子</h2><p>随着机器学习数据集统一平台的快速发展(<a href="https://arxiv.org/abs/2109.02846">Lhoest et al. 2021</a>),HuggingFace<a href="https://huggingface.co/huggingface">团队</a>开始探索如何管理数据集文档(<a href="https://arxiv.org/abs/2108.07374">McMillan-Major et al., 2021</a>)。文档是认识数据集必要的第一步,通过文档我们知道如何统计和查看这份数据集,动态观察数据集的不同角度。</p>
<p>在这里,我们介绍一个开源Python库和零代码界面,名为<a href="https://huggingface.co/spaces/huggingface/data-measurements-tool">Data Measurements Tool</a>。通过<a href="https://huggingface.co/datasets">Dataset</a>和<a href="https://huggingface.co/spaces/launch">Spaces</a>社区,搭配<a href="https://streamlit.io/">Streamlit tool</a>工具,它可以用来帮助理解、构建、洞察和比较数据集。</p>
bigbird长文本预训练模型介绍
https://lowin.li/2021/12/12/bigbird-chang-wen-ben-yu-xun-lian-mo-xing-jie-shao/
2021-12-11T16:00:00.000Z
2023-10-06T11:29:49.000Z
<ul>
<li>本博客翻译自<a href="https://huggingface.co/blog/big-bird">huggingface blog</a>。</li>
<li>文末有惊喜</li>
</ul>
<h3 id="前言"><a href="#前言" class="headerlink" title="前言"></a>前言</h3><p>基于Transformer的模型已经被证明了在许多NLP任务中的价值,但这类模型的时间复杂度、内存使用复杂度都是$n^2$(n为序列长度),因此当序列长度超过常规的512时,模型对算力的要求将会大幅提高。最近的一些文章<code>Longformer</code>, <code>Performer</code>, <code>Reformer</code>, <code>Clustered attention</code>都试图通过近似全主力机制改善该问题。例如这个<a href="https://huggingface.co/blog/long-range-transformers">帖子</a>就是介绍这些模型的。<br><code>BigBird</code><a href="https://arxiv.org/abs/2007.14062">论文</a>是处理这类问题最新模型的其中之一,它使用<code>block sparse attention</code>替换了原类似Bert一样的全注意力机制,在与BERT一样的计算力情况下,可以处理的序列长度达到4096。它已经在很多长文本序列的任务上达到SOTA效果,例如长文本摘要、长文本问答。<br>BigBird RoBERTa模型现在已经可以在Transformers仓库中使用。这篇博客的目的是为了让读者深入理解big bird的运行机制,快速使用Transformers仓库上手BigBird模型。但在开始之前,我们需要知道,<strong>BigBird</strong>的注意力机制是一个近似<strong>BERT</strong>的全注意力机制,因此它不是说比<strong>BERT</strong>的注意力机制效果更好,而是运行效率更高。<strong>BERT</strong>的注意力机制的存储与序列长度是二次方关系,在长文本情况下的存储需求就已经开始令人难以忍受,而<strong>BigBird</strong>的<code>block sparse attention</code>就是为了解决这个问题。也就是说,在$\infty$长度序列上,计算$&\ \infty$次时,我们应该把BERT的全注意力机制换成<strong>block sparse attention</strong>。<br>如果你想知道,为什么在计算长序列时,我们需要更多的算力,这篇博客正好适合你。</p>
Transformers仓库做语言生成的解码方法介绍
https://lowin.li/2021/11/08/transformers-cang-ku-zuo-yu-yan-sheng-cheng-de-jie-ma-fang-fa-jie-shao/
2021-11-08T13:00:00.000Z
2023-10-06T11:29:49.000Z
<ul>
<li>本博客翻译自<a href="https://huggingface.co/blog/how-to-generate">huggingface blog</a></li>
</ul>
<h2 id="简介"><a href="#简介" class="headerlink" title="简介"></a>简介</h2><p>最近几年,以OpenAI公司的GPT3为代表,基于transformer结构的大模型都已经开始在上百万级别的网页上面训练。因此大家对开放领域语言生成的期待值也越来越高。开放领域的条件语言生成效果也日新月异,例如<a href="https://openai.com/blog/better-language-models/#samples">GPT2</a>、<a href="https://amanrusia.medium.com/xlnet-speaks-comparison-to-gpt-2-ea1a4e9ba39e">XLNet</a>、<a href="https://blog.einstein.ai/introducing-a-conditional-transformer-language-model-for-controllable-generation/">CTRL</a>。除了transformers结构和海量的无监督预训练数据,更好的解码方法也在其中扮演了重要角色。</p>
<p>这篇博客简要回顾了多种解码策略,帮助你用transformers库实现他们。</p>
谁说torchtext不能做多标签任务
https://lowin.li/2021/10/24/shui-shuo-torchtext-bu-neng-zuo-duo-biao-qian-ren-wu/
2021-10-24T14:00:00.000Z
2022-05-04T02:28:04.000Z
<h2 id="背景"><a href="#背景" class="headerlink" title="背景"></a>背景</h2><p>最近刷到一篇<a href="https://blog.csdn.net/weixin_33626609/article/details/112503080">博客</a>,吐槽<code>torchtext</code>不能做多标签任务,特来为<code>torchtext</code>鸣不平,看好,我要用<code>torchtext</code>做多标签任务了。</p>
<h2 id="简要"><a href="#简要" class="headerlink" title="简要"></a>简要</h2><ul>
<li><a href="#%E8%A7%A3%E8%AF%BB">解读</a><ul>
<li>torchtext库,做多标签任务</li>
</ul>
</li>
<li><a href="#%E5%AE%9E%E8%B7%B5">实践</a><ul>
<li>textcnn模型,跑<a href="https://aistudio.baidu.com/aistudio/competition/detail/32/0/introduction">百度事件多标签比赛</a>,验证集准确率accuracy达到<code>86%</code></li>
</ul>
</li>
<li><a href="#%E8%BF%90%E8%A1%8C">运行</a><ul>
<li><code>github</code>的<code>action</code>中,完成全程训练、批测,结果报告通过<code>cml工具</code>发送至commit评论</li>
</ul>
</li>
</ul>
转载:人工智能能否实现?
https://lowin.li/2021/10/18/zhuan-zai-ren-gong-zhi-neng-neng-fou-shi-xian/
2021-10-17T16:00:00.000Z
2021-10-19T02:28:00.000Z
<ul>
<li>以下通篇转载自<br><a href="http://fancyerii.github.io/2019/03/14/philosophy/">http://fancyerii.github.io/2019/03/14/philosophy/</a></li>
</ul>
<hr>
<p>本文讨论人工智能是否可以实现这个哲学问题。本文是《深度学习理论与实战:提高篇》的一章,更多内容请点击深度学习理论与实战:提高篇。<br>转载请联系作者(fancyerii at gmail dot com)!</p>
分享CML工具在github上的一个原创例子
https://lowin.li/2021/10/15/fen-xiang-cml-gong-ju-zai-github-shang-de-yi-ge-yuan-chuang-li-zi/
2021-10-15T14:00:00.000Z
2022-05-04T02:29:58.000Z
<h2 id="标签"><a href="#标签" class="headerlink" title="标签"></a>标签</h2><p><strong>MLOPS</strong>,<strong>CML</strong>,<strong>ONNX</strong>,<strong>textcnn</strong>,<strong>CLUE</strong>,<strong>Continuous</strong></p>
<h2 id="简要"><a href="#简要" class="headerlink" title="简要"></a>简要</h2><ul>
<li>开源一个使用<code>CML</code>工具的原创例子。</li>
<li>在github的<code>actions</code>中,训练和批测<code>iflytek</code>数据集,批测准确率<code>55%</code>,onnx加速后,在github的action分配的资源中,单核cpu单条预测<code>2-4ms</code>。</li>
</ul>
<p><strong><a href="https://github.com/LowinLi/cml4textcnn">开源地址</a></strong></p>
.li域名注册教程
https://lowin.li/2021/09/25/li-yu-ming-zhu-ce-jiao-cheng/
2021-09-25T10:25:17.000Z
2023-10-06T11:29:49.000Z
<h3 id="简要"><a href="#简要" class="headerlink" title="简要"></a>简要</h3><p>本文记录了在列支敦士登公国注册.li域名,用于个人博客的踩坑过程,仅供参考。</p>
Transformers仓库解读之一DataCollator
https://lowin.li/2021/09/25/transformers-yi-datacollator/
2021-09-24T16:00:00.000Z
2023-10-06T11:29:49.000Z
<h3 id="简要"><a href="#简要" class="headerlink" title="简要"></a>简要</h3><p>上接<a href="https://lowin.li/2021/09/18/transformers%E5%BA%8F/">Transformers仓库解读之序</a>,对transformers库中的DataCollator的子类进行调用介绍</p>