mzh/blog

GopherCon EU 2025 (Berlin) 参会小计

mzh — Fri, 23 Jan 2026 08:08:32 +0000

今年终于参加了GopherCon，之前主要是疫情期间不太想参加大型集会，又因为GopherChina今年继续开天窗了，美签也有风险，所以选了GopherCon EU。

主要先感谢一下主办方的Bill Kennedy，Natielie，我在最后1个月的时候才提交的GoBridge申请，没想到他们给了我一张门票，还帮我搞签证，在这真的非常感谢。还要感谢欧博士，他怕咱人生地不熟，一起陪我逛柏林，教授一些生存小技巧。

签证因为公司的缘故被电话，补了些材料。起飞那天正好南宁刮台风，我幸好买的是联程票，海航给我自动免费改签到了第二天：）

入境德国很顺利，边检看了看我的邀请函，随便聊了两句就让我过了。随后坐上地铁，没安检，没检票（全靠自觉，不过还是有人会随机抽查，我就碰到一个被罚款60欧的美国佬跟我们要现金，然后用paypal转）

Alexander plaza（柏林的宇宙中心，咋跟国内三线城市差不多）

修整了一下，跟欧博逛了逛地标建筑冷战一条街，晚上，对晚上，柏林夏天9点才天黑，蹭了讲师团队的小手工晚宴，吃了点披萨什么的。

这个Gopher Show 真好玩

演讲的主题从简单到复杂都有，难度是相当适中的。饮料、吃的管够，这是这些年来开得最舒服的一次会了，还有演讲的讲台离观众很近，真的很有现场感。就是纯英文的演讲让我的大脑需要花额外的算力来思考，整体参加下来比较累人。现场有个环节让10年以上的Gopher举手，咱也举了，还讲自己来自中国，就是不知道现场有没有录到。

跟Go团队的座谈，但绕不开的一个大话题就是AI，看来整个行业都在Go没办法在AI时代蹭到热度而在找出路……

第三天就是开发者峰会啦~

峰会上讨论了些话题，我关注社区发展的问题，因为Go中国这2年直接关门了，啥东西都没有留下给社区，所以在会上问了问Google的Neil Damon 的态度，他表示问题不大，只要开会Google肯定派人来的。中间还有个插曲，因为Kennedy经常戴帽子，所以我把他和Neil 搞混了，把礼物送给了他（T T），他在会上还笑说当年Austin讲你这样戴跟Kennedy一样的帽子，铁定会被人认错，果然我就是第一个那个倒霉蛋。
其他就是给pkg.go.dev团队提了些建议和bug修复，随便侃了侃，还跟Mark Ryan一起聊了下Risv Go 的维护问题，他也是第一次参加GopherCon：）

周边环境和一些碎碎念照片

Go RISC-V runtime去掉 Duff’s Device 性能提升最大225%

mzh — Tue, 09 Sep 2025 04:34:13 +0000

上游Google团队的 Keith Randell 6月时抛出一个有趣的话题，由于近年的CPU预测技术的发展，如果Go runtime去掉Duff device，性能反而会达到一定的提升。
原帖：https://groups.google.com/g/golang-dev/c/bVoLyx0s3tg

我摘出来有趣的部分并翻译了下：

达夫设备(Duff's Device) 通过在运行时部署一个大规模展开的清零/复制循环来优化内存清零和内存复制操作。编译器会合成一个跳转指令，直接跳转到这个展开循环的特定中间位置，以精确执行所需次数的循环操作。
在Go语言中，其实现形式类似于：
s[0] = 0; s = s[1:]
s[0] = 0; s = s[1:]
s[0] = 0; s = s[1:]
...大量重复指令...
s[0] = 0; s = s[1:]
s[0] = 0; s = s[1:]
s[0] = 0; s = s[1:]
return
当编译器需要清零7个字节时，它会计算从末尾倒数第7条指令的地址并直接跳转执行。
这听起来很巧妙，但每次调用都会产生额外开销。况且现代分支预测器已非常高效，消除调用点的循环开销并不再那么重要。

Keith 还提供了几个CL，不过ARM64/AMD64 的实现是不管对齐的问题的，这就意味着 RISC-V 不能这样用（因为 RISC-V 的 unalignement access 是臭名昭著的软件实现/内核 trap/性能损失大）我决定自己实现 type alignment 的版本。

Keith 版 SSA 非常简洁

(Zero [s] ptr mem) && s > 16 && s < 192 => (LoweredZero [s] ptr mem)
(Zero [s] ptr mem) && s >= 192 => (LoweredZeroLoop [s] ptr mem)

然后编写对应的 code gen 就可以了，但……RISCV就麻烦了，因为要传入一个type alignment进去

(Zero [s] {t} ptr mem) =>
        (LoweredZero [t.Alignment()]
                ptr
                (ADD  ptr (MOVDconst [s-moveSize(t.Alignment(), config)]))
                mem)

如果直接塞多一个参数，变成

(Zero [s] {t} ptr mem) =>
        (LoweredZero [s]
                ptr
                (MOVconst [t.Alignment()])
                mem)

这样在materialize的时候就会多一个MOV const, reg的指令，这样不优雅！

然后想到bit shift，把LoweredZero [s<<32|t.Alignment()]，但这样在SSA优化的时候，mem size就非常恐怖了……怎么样优雅的把这个值塞进 AuxInt，就成了头大的问题。

只好看看 SSA compiler 的实现，然后在 AuxInt 的 type list (cmd/compile/internal/ssa/op.go)发现了“auxARM64BitField”

 // architecture specific aux types
 auxARM64BitField     // aux is an arm64 bitfield lsb and width packed into auxInt

给 RISC-V 直接套上，就会造成程序的文不对题。

改成auxRISCVBitFields，还要加几个前置CL来实现。这不优雅！

于是我全部类型都看了遍，终于发现一个合理的："SymValAndOff"，代价就是……Lowered(Zero|Move)需要添加一个 symEffect 说明这个指令有啥副作用（当然都是Write啦），这下就优雅多了

(Zero [s] {t} ptr mem) && s <= 24*moveSize(t.Alignment(), config) =>
    (LoweredZero [makeValAndOff(int32(s),int32(t.Alignment()))] ptr mem)

完美！

然后测试性能发现，咦，Zero竟然没有任何改进？

MemclrKnownSize112-4             5.602Gi ± 0%    5.601Gi ± 0%         ~ (p=0.363 n=10)
MemclrKnownSize128-4             6.933Gi ± 1%    6.545Gi ± 1%    -5.59% (p=0.000 n=10)
MemclrKnownSize192-4             8.055Gi ± 1%    7.804Gi ± 0%    -3.12% (p=0.000 n=10)
MemclrKnownSize248-4             8.489Gi ± 0%    8.718Gi ± 0%    +2.69% (p=0.000 n=10)
MemclrKnownSize256-4             8.762Gi ± 0%    8.763Gi ± 0%         ~ (p=0.494 n=10)
MemclrKnownSize512-4             9.514Gi ± 1%    9.514Gi ± 0%         ~ (p=0.529 n=10)
MemclrKnownSize1024-4            9.940Gi ± 0%    9.939Gi ± 1%         ~ (p=0.989 n=10)

再次祭出SSA debuger，发现，原来runtime的memclr都跑去调用memNoPtrClr了……那自然不会用咱们这个LoweredZeroOp。

然后改用了基于SSA Zero的ClearFat，才有下面的测试结果（删掉了部分不重要的）

ClearFat3-4                   1.300Gi ± 0%    1.301Gi ±  0%         ~ (p=0.447 n=10)
ClearFat4-4                   3.902Gi ± 0%    3.902Gi ±  0%         ~ (p=0.971 n=10)
……
ClearFat16-4                  1.600Gi ± 0%    5.202Gi ±  0%  +225.10% (p=0.000 n=10)
ClearFat18-4                  1.018Gi ± 0%    1.300Gi ±  0%   +27.77% (p=0.000 n=10)
ClearFat20-4                  2.601Gi ± 0%    4.938Gi ± 12%   +89.87% (p=0.000 n=10)
ClearFat24-4                  2.601Gi ± 0%    5.201Gi ±  0%   +99.96% (p=0.000 n=10)
ClearFat32-4                  1.982Gi ± 0%    5.203Gi ±  0%  +162.55% (p=0.000 n=10)
ClearFat56-4                  3.640Gi ± 0%    5.201Gi ±  0%   +42.88% (p=0.000 n=10)
ClearFat64-4                  2.250Gi ± 0%    5.202Gi ±  0%  +131.25% (p=0.000 n=10)
……
geomean                       2.005Gi         3.020Gi         +50.58%

可以看到原来的小byte的实现不变（没改，当然没变），到了16 bytes 就突然涨起来，我看了下原版的是有优化的，理论上应该不变啊

(Zero [16] {t} ptr mem) && t.Alignment()%8 == 0 =>
    (MOVDstore [8] ptr (MOVDconst [0])
        (MOVDstore ptr (MOVDconst [0]) mem))

原来ClearFat的type alignment是 uint32 (也就是4 bytes)，所以没有优化，就落到了循环实现（连TM duff也要求 8 bytes alignment）

func BenchmarkClearFat16(b *testing.B) {
        p := new([16 / 4]uint32)        
        Escape(p)                       
        b.ResetTimer()                  
        for i := 0; i < b.N; i++ {      
                *p = [16 / 4]uint32{}   
        }                               
}

既然如此，那我就白捡个性能优化225%吧：）

优化开源NTP Pool监控节点：基于RISC-V平台的实践

mzh — Wed, 06 Aug 2025 10:13:30 +0000

开源 NTP Pool 现状：严峻的服务缺口

当前开源 NTP Pool（pool.ntp.org）在中国区面临显著的服务缺口（Under-Served）：
以下就简称开源的公共 NTP Pool 为 NTP Pool。

服务节点/人口比例失衡：全球 NTP Pool 约90%的服务节点位于等欧美发达国家，中国仅占不足3%（数据来源：NTP Pool Project 2024报告），却承载全球21%的互联网流量。
服务延迟差异：境内用户访问境外NTP节点延迟普遍≥150ms，而本土节点因数量不足导致部分区域延迟波动超300ms。
监控盲区：原有监控节点多部署于海外，无法真实反映国内网络环境质量（如防火墙策略、骨干网路由抖动），进一步放大服务不稳定性。

如图所示，NTP pool中国区5千万人才拥有一个NTP Pool服务节点，这一地理与网络拓扑的错配，使国内用户难以享受低延迟、高可靠的公共授时服务。

服务缺口的核心问题：本土监控节点缺失

NTP Pool的服务节点调度机制依赖监控节点（Monitor） 实时评估节点健康度。然而：
监控节点国内为0个：2025年前健康检测数据均来自境外，这导致了

误判率高：网络波动被标记为“节点故障”
调度失衡：健康节点因跨境延迟被降权
扩容停滞：缺乏数据支撑中国区服务器准入，服务节点数常年处于50个以下

没有本土监控，NTP Pool的中国服务优化如同“无源之水”。

如图是针对腾讯 NTP 服务器的监控结果，最右边的一列就是监控节点到服务节点的延迟（RTT），越低越好。
大家可以注意到没有中国大陆的监控节点（CN开头的）。
其中的cncan1就是本博客添加的监控节点，可见如果没有cncan1，所有节点都是超过200ms以上的延迟，对于 NTP 准确性会有严重影响。

破局：基于RISC-V监控终端

这次，我选用OrangePi RV2 构建低成本、低功耗监控节点，售价才200出头，加上天线等其他硬件总成本控制在300元左右，还可以通过GPIO添加PPS功能。

相对的，某宝上一般 NTP 服务器都要600以上，还没有算天线等其他设备。

硬件架构

开发板：OrangePi RV2
GNSS模块：Wheeltech GNSS模块 + PPS输出
GNSS天线：北斗+GPS 双模蘑菇头 + 8米 SMA 馈线

开发板添加对应的DTS overlay

/dts-v1/;
/plugin/;
/ {
        compatible = "ky,orangepi-rv2\0ky,x1";
        fragment@0 {
                target-path = "/";
                __overlay__ {
                        pps_gpio: pps {
                                compatible = "pps-gpio";
                                gpios = <&gpio 91 0>;
                                assert-rising-edge;
                        };
                };
        };
};

软件栈

Chrony：维护PPS同步，NTP时间服务
GPSD：接收北斗卫星信号→PPS硬件时钟同步（精度±200ns）
ntppool-agent: 负责监控进程（重新编译，Go语言已支持RISC-V）

效果如图，这样就可以获得一个精度在±500ns以下的Stratum 1 NTP 服务器

获得NTP Pool官方破例支持

向NTP Pool上游持续贡献代码

add riscv64 binary release https://github.com/ntppool/monitor/pull/6
https://github.com/abh/ntppool/pull/255
https://github.com/abh/ntppool/pull/262

1年来，在跟上游管理团队来来回回好十几封邮件后，这块RISC-V开发板，获得了豁免监控节点准入限制：常规要求NTP服务节点稳定运行18个月方可成为监控节点，这次为中国区首开绿色通道。

结语：从服务缺口到技术领先

国产RISC-V开发板+北斗GNSS的组合，不仅填补了中国区NTP Pool监控节点空白，更证明了：RISC-V可承担关键基础设施角色

本博客运行平台迁移至RISC-V

mzh — Tue, 29 Jul 2025 09:25:58 +0000

RISC-V powered!

好消息：迁移非常顺利，跟x86平台迁移一样，原平台就叫server，rv板子就叫board吧:
在自己的机器上：

mysqldump database > db.sql 备份mysql数据库
rsync -azv -R server:/home/mzh ./ 转移家目录
rsync -azv -R mzh board:/home
scp db.sql board:/home/mzh

在rv板子上

apt install php-fpm caddy mariadb-server
配置好caddy （其实就官方文档就好）
导入数据库 mysql -u mzh < db.sql
最关键的一步，把板子的80、443暴露给服务器

设置反向代理，添加以下文件/lib/systemd/system/reverse-tunnel\@.service

[Unit]
Description=Reverse SSH Tunnel
After=network-online.target
[Service]
EnvironmentFile=/etc/default/remote-tunnel@%i
ExecStart=/usr/bin/ssh -i ${ID_KEY} -o ServerAliveInterval=60 -o ExitOnForwardFailure=yes -nNT -R 0.0.0.0
:${REMOTE_PORT}:localhost:${LOCAL_PORT} ${REMOTE_SERVER}
RestartSec=5
Restart=always
KillMode=mixed
[Install]
WantedBy=multi-user.target

每个端口一个进程

systemctl daemon-reload && systemctl start reverse-tunnel@https

搞定，这速度杠杠的。

mzh@muse-card-1:/etc/default$ wp --info                                                                  
OS:     Linux 6.6.63 #2.2.4.2 SMP PREEMPT Thu Jun 26 05:06:32 UTC 2025 riscv64                           
Shell:  /bin/sh                                                                                          
PHP binary:     /usr/bin/php8.3                                                                          
PHP version:    8.3.6                                                                                    
php.ini used:   /etc/php/8.3/cli/php.ini                                                                 
MySQL binary:   /usr/bin/mariadb                                                                         
MySQL version:  mariadb  Ver 15.1 Distrib 10.11.8-MariaDB, for debian-linux-gnu (riscv64) using  EditLine
 wrapper                                                                                                 
SQL modes:                                                                                               
WP-CLI root dir:        phar://wp-cli.phar/vendor/wp-cli/wp-cli                                          
WP-CLI vendor dir:      phar://wp-cli.phar/vendor                                                        
WP_CLI phar path:       phar:///usr/local/bin/wp                                                         
WP-CLI packages dir:                                                                                     
WP-CLI cache dir:       /home/mzh/.wp-cli/cache                                                          
WP-CLI global config:                                                                                    
WP-CLI project config:                                                                                   
WP-CLI version: 2.12.0

KubeCon China 2025参会小记

mzh — Thu, 19 Jun 2025 20:27:10 +0000

战利品

注册

会议的个人门票755港币，包午饭，总体来说还是比较划算的
香港的个人通行证要在福田地铁附近的公安机器上刷新，我是深圳户口，所以15块一次.
地铁可以直接到会场，所以很方便，就是香港的酒店怪怪的，入口不显眼（可能因为山多?）

会议感想
现场没有翻译字幕（参会的老外和中国人各种懵逼）
大公司都是老样子，复杂的解决方案，底下的人哪里用得上
小公司讲得大部分题目又过于琐碎，记得有个演示多云部署还失败了（crossplane的你们就不会录好视频直接放么）
很多人英语口语不好也让硬讲（对，说的就是华为）何苦呢……
演讲不要双人讲的时候，感觉特别明显，两人口音不一样，节奏不同的话，千万不要分开讲！听众会晕的
开篇的keynote不错，分析了整个CNCF生态的状态，还cue到了riscv，看得出中美的技术竞争真的是方方面面的
AI，AI，到处是AI，喂，这里是CNCF啊！跟AI相关的基本不记得是啥玩意了。

maintainer meetup

这个才是重头戏，本来是闭门会议的，我悄咪咪的溜进去了
CNCF有专门的3人doc team，其实也做技术辅导，文章辅导还有promotion
ToC有个理论是，首次贡献者的贡献必须要一周内反馈
CNCF有完整的项目孵化流程，每个都是要符合特定标准的，如果不符合，可以找专门的team来帮助完成，而且CNCF人会定期检查是不是真的落实了，而不是停留在纸上
重要的是“供应商中立性”，比如一个社区不能超过50%的贡献者是同一家公司，amd64 和 arm64都要支持（riscv讨论的时候说到的）
CNCF 有专门的 https://clomonitor.io 来监控各个项目的健壮性之类的指标，666

活动

刷各种二维码回答问卷才能抽奖得奖品，有点小气。
CNCF会议方有发衬衫，但是就一件，有些贴纸啥得

偶遇
午饭时偶遇了个老外，humanlogio的Antoine Grondin，E人就是E人，直接隔壁吃着饭就能跟你握手say hi，我两交换了Github账号（没名片就是痛）
Maintainer meetup后，因为太冷跑去喝茶，听到隔壁两日本人教个法国人认识汉字，竖起耳朵旁听才知道，日本人是苹果的，法国人叫Sara，竟然是联合国的，对，联合国也在搞上云CNCF，后来聊到迁移联合国的系统也是极度痛苦，又老又旧没文档那种哈哈哈
另一个日本人是游戏公司的tech leader，kahirokunn 特喜欢用Go写代码，聊了不少Go的贡献和底层实现的趣事
碰到个上交的研究生maintainer，聊了一通，不得不感慨东部发达城市的孩子就是有想法，敏锐的感知到了知道云原生行业发展已经不行，要好好顺应潮流搞AI，还要去最好的地方学（啊，老美）

餐食
一直有咖啡饮料供应，还是不错的
午饭是高档盒饭，味道不错

OpenWRT 防火墙开启IPv6 端口转发的方法

mzh — Fri, 28 Feb 2025 03:33:38 +0000

前言

OpenWRT当启用IPv6时，默认情况下流量会经过主路由防火墙。在外部网络环境中，若想访问家庭局域网内的服务（如SSH、Proxy、NAS等），默认请求将被防火墙拦截，因此需在主路由防火墙中添加允许规则。
这里并不推荐禁用IPv6防火墙：虽然IPv6地址和端口扫描难度较大，但仍存在被扫描风险。所有局域网服务可能暴露于外网，即使未受攻击，家庭宽带提供公网服务也可能被ISP警告。

LUCI网页界面配置

打开OpenWRT路由管理页面，进入网络 - 防火墙 - 流量规则。

点击添加创建新规则。流量规则区的规则优先级高于默认规则，无需担心与默认规则冲突，但需注意同页其他规则的优先级。可通过拖拽调整规则顺序。

规则配置示例：

名称：清晰标识规则用途（例如如 NAS IPv6）。
协议：按需选择协议，不确定时可同时选TCP和UDP。
源区域：选择 WAN（外网流量入口）。
源地址/源端口：留空。
目标区域：选择 LAN（内网目标区域）。
目标地址：链路本地IPv6地址（通常以 fe80:: 开头）。

移除链路本地前缀（如 fe80::20c:29ff:fed7:fbf 改为 ::20c:29ff:fed7:fbf）。

追加掩码 /::ffff:ffff:ffff:ffff，最终填入 ::20c:29ff:fed7:fbf/::ffff:ffff:ffff:ffff。此配置确保客户端即使因ISP分配的前缀变化仍能被匹配。

目标端口：指定允许的端口（如 80-443）。留空将放行所有端口，存在重大安全风险，不建议。

动作：选择接受(Accept)。

高级设置：地址族改为 IPv6，其他保持默认。

保存后，可测试外网访问内网服务。若在状态 - 防火墙的 forward_wan 链中看到规则及计数器，则规则已生效。

凑了台DL20Gen9

mzh — Wed, 30 Oct 2024 04:12:03 +0000

最近攒了台DL20Gen9垃圾服务器，准备做成All-in-one（路由、NAS、监控）。
为了节省磁盘的电，就买了2块硬盘的版本。

配置清单：

某宝淘的准系统（￥700）
Intel(R) Xeon(R) CPU E3-1270 v5 @ 3.60GHz （￥113）
4 x 16GB 2133 ECC Unbuffered 三星内存（￥600）
2 x 12 TB 氦气盘（￥1180）
256G 长城nvme （￥113）
HP Ethernet 10Gb 2-port 560SFP+ Adapter （￥99）

总记：￥2777

坑

DL20gen9 支持最大64G 2133/2400 ECC内存（Unbuffered，某宝上一般叫纯ECC，别买错了）。
想用最大的内存，2133只能配v5的CPU，2400只能配v6，如果混着了，就只能识别一半出来。
如果你买到了坏的CPU，可能会出现DIMM cann't train的错误提示（我就因此换了所有硬件，最后只能是归到CPU上了）
各种固件需要自己更新，要不然一些v5的CPU是无法识别的。

方便链接

iLo4 更新，主要是为了HTML5 的remote console
https://pingtool.org/latest-hp-ilo-firmwares/

System ROM（BIOS）
https://www.chiphell.com/forum.php?mod=viewthread&tid=2643119&extra=page%3D1&ordertype=2&mobile=no

HP这iLo还要许可证，坑爹到家了，贴一个在这了。
iLO 4 高级许可证密钥：
35DPH-SVSXJ-HGBJN-C7N5R-2SS4W
35SCR-RYLML-CBK7N-TD3B9-GGBW2

FreeBSD ports初体验

mzh — Tue, 08 Oct 2024 14:18:50 +0000

在开源操作系统的世界里，FreeBSD凭借其稳定性和强大的功能，赢得了不少技术爱好者的青睐。
而FreeBSD中的Ports系统，更是为这款操作系统增添了不少色彩。今天我就分享下我的初次ports体验。

Ports的背景和优势

Ports是FreeBSD中的一个软件包管理系统，它类似于其他操作系统中的包管理器（如Linux中的apt、yum等）。apt，yum更类似FreeBSD中的pkg程序，分发的是二进制包，而Ports系统是为用户提供了一个集中的地方来存储、分发和更新各种开源软件源码编译方式。

Ports系统具有以下几个显著优势：

统一管理：Ports提供了一个集中的地方来管理所有的软件包，软件的安装和维护更加方便。
易于更新：Ports会自动处理依赖关系，确保软件包之间的兼容性，提供自动或手动更新选项。
可定制性：用户可以根据自己的需求对软件包进行定制，例如添加额外的功能或修改配置，针对宿主机的CPU类型和使用方法优化。

构建使用的命令行

下面来实战一下，使用Ports系统构建和安装软件包主要依赖于命令行工具。以下是一些常用的命令及其功能，Ports有意思的点就是，全部功能都是用Makefile实现的：

如果你安装的时候就选择了Ports，就跳过第1步，如果没有就更新Ports
```
cd /usr/ports && make fetchindex
```

克隆Ports Tree：

git clone --depth=1 --branch <你的版本号> https://github.com/freebsd/freebsd-ports /usr/ports

安装软件，例如vim

cd /usr/ports/editor/vim && make BATCH=yes install clean

如果需要搜索可用的软件包，可以用search

make search key=^vim- | grep -E "Port:|Path:|Info:|^$"

卸载软件包的话，例如，要卸载vim，可以执行以下命令
```
cd /usr/ports/editor/vim
make deinstall
```
使用make clean命令可以清理编译过程中产生的临时文件。
使用make distclean命令可以清理软件包及其临时文件

参考文章：

RISCV 64 高性能浮点rounding Go实现

mzh — Wed, 25 Sep 2024 06:58:13 +0000

引言

RISC-V（下简称RV），作为一种开源的CPU架构，其灵活的指令集和可扩展性为开发者提供了丰富的设计选项。在数值计算中，浮点数的处理尤为重要，而浮点数舍入（rounding）机制则是确保计算精确性和效率的关键一环。本文将聚焦于RV64架构下浮点数的舍入（浮点到浮点）在Go语言中实现，特别是通过FCVTDL/FCVTLD指令的应用来探讨实现的原理。

想看代码的朋友，可以直接看我提交到Go官方的代码参考

golang/go/commit 90391c2

啥是舍入（rounding）

Round(2.5) = 2，就是一种舍入方法（四舍五入嘛）

实际编码中的问题

第一个问题是，既然RV64有浮点转换指令，那直接用不就行了么？

事情并没这么简单，由于RV64并不像其他架构有单独的浮点到浮点的取整指令（例如arm64的FRINTMD），因此只能用FCVT （floating point convert）先转换到整数寄存器中，再从整数寄存器中转回浮点寄存器。

例如浮点值X，在寄存器FA0中，需要以下指令（注：Go的Asm，从左到右）：

FCVTLD FA0, A0
FCVTDL A0, FA0

坑就在此出现了！

IEEE 754 中 -Inf （负无穷大）的二进制表达是0x7fffffffffffffff，而根据RV64指令集手册，对于不合格的浮点输入，就“凑到相近的值”并复制到整数寄存器中了。

Floor(-Inf) -> int64(0x7fffffffffffffff)

这下热闹了，整数0x7ff...ff是合法的整数。当你转回浮点时……就变成了float64(9.22e+18)。这意味着

非法数值变成了合法数值

例如这个issue：https://github.com/golang/go/issues/68322

那么通过RV64的FCLASS （浮点类型）指令提前判断呢？可以是可以，但由于多重判断是否数值在取整范围内，经过测试速度不够快（性能下降60%），并不符合我们程序员对于“高效”的追求。如果要达成快捷的判断非法输入的方法，需要我们回顾一下IEEE 754的表达方式。

RV64中浮点数的表示

在RV64浮点数中的表示遵循IEEE 754标准，该标准定义了浮点数的符号位、指数和尾数部分。

IEEE 754标准定义了浮点数在计算机中的存储方式，主要包括三个部分：符号位（S）、指数（E）和尾数（M，也称为有效数字或小数部分）。对于双精度浮点数（即double类型，在大多数现代计算机中占用64位），其格式如下：

符号位（1位）：位于最高位，0表示正数，1表示负数。
指数（11位）：用于表示浮点数的指数部分，采用偏移量编码方式（对于双精度，偏移量为1023）。
尾数（52位）：表示浮点数的有效数字部分，但隐式包含了一个前导的1（除了表示0或次正规数的情况）。

例如要表达IEEE754 DP 0.375，可以拆解为：0.25*1.5

正数，符号位为0
指数需要0.25，2^-2，通过补码，即0x3FD
尾数1.5，则是1+2^-1，即0x8（1000_0000)_b

二进制即0x3FD8_0000_0000_0000

其中IEEE 754 DP非法的输入分别是：

±Inf（正负无穷大）0x7FF0_0000_0000_0000
NaN（Not a Number，压根不是个数）

NaN也有很多中表达方式，有

qNaN 0x7FF8_0000_0000_0001
sNaN 0x7FF0_0000_0000_0001
特殊NaN 0x7FFF_FFFF_FFFF_FFFF

如果仔细留意的话，你会发现，所有的非法输入都是通过指数位表示的，而且都相当大（0x7FF= 2047d - 1023，实际为1024)，那么，我们只需要通过右移52位，并加以掩码(mask)去除正负影响，就可以判断一个浮点数是不是非法输入（0x7FF)。重点来了

这个方法可以顺便判断是不是整数取整范围

因为浮点数能取整，就意味着指数小于53，即整个数小于2⁵³，如果对大于这个数取整就会出现未定义行为了，所以Go语言限制，必须在这个范围内，超过的合法输入原样输出即可。

var x float64
maskedExp := (math.Float64bits(x) >> 52) & 0x7FF
if maskedExp > 1023 + 52 {
    return x
}
// FCVTLD x, A0
// FCVTDL A0, x

这样是不是就好了？不……还有一个坑……

±0没办法处理

所以最后需要使用RV64的FSGNJD指令，将x中的符号位拷贝复制过来。

最终效果

见前面提到的golang/go/commit 90391c2，提升300%

            │ math.old.bench │           math.new.bench            │
            │     sec/op     │   sec/op     vs base                │
Ceil             54.09n ± 0%   18.72n ± 0%  -65.39% (p=0.000 n=10)
Floor            40.72n ± 0%   18.72n ± 0%  -54.03% (p=0.000 n=10)
Trunc            38.72n ± 0%   18.72n ± 0%  -51.65% (p=0.000 n=10)
geomean          33.56n        20.09n       -40.13%

Running V (Vlang) on linux-riscv64

mzh — Sat, 14 Sep 2024 12:35:20 +0000

Steps

Install dependency apt install build-essential
git clone https://github.com/vlang/v
cd v && make

And it's done!