|
79 | 79 |
|
80 | 80 |
|
81 | 81 |
|
82 | | -<meta name="description" content="使用roberta 训练,一个训练2轮,然后在2轮的基础上再训练6轮,也就是一共8轮然后在8404820个数据上去预测结果,其中label 不同的有613706个,在label为1的基础上score 大于0.8的,也就是 两次score 差了至少0.3以上的,有71404,接近1%,有趣的数字,其实根据f1_score,两次相差不过3%左右,但是就细节层面, 标签的变动差别更大,而且就预测效果而已"> |
| 82 | +<meta name="description" content="使用roberta 训练,一个训练2轮,然后在2轮的基础上再训练6轮,也就是一共8轮然后在8404820个数据上去预测结果,其中label 不同的有613706个,在label为1的基础上score 大于0.8的,也就是 两次score 差了至少0.3以上的,有71404,接近1%,有趣的数字。 其实根据f1_score,两次相差不过3%左右,但是就细节层面, 标签的变动差别更大,而且就预测效果而"> |
83 | 83 | <meta name="keywords" content="机器学习"> |
84 | 84 | <meta property="og:type" content="article"> |
85 | 85 | <meta property="og:title" content="epoch 轮数的影响"> |
86 | 86 | <meta property="og:url" content="http://unasm.com/2021/05/19/epoch-轮数的影响/index.html"> |
87 | 87 | <meta property="og:site_name" content="无所欲无所忧,无心者无所求,饱食而遨游,泛若不系之舟"> |
88 | | -<meta property="og:description" content="使用roberta 训练,一个训练2轮,然后在2轮的基础上再训练6轮,也就是一共8轮然后在8404820个数据上去预测结果,其中label 不同的有613706个,在label为1的基础上score 大于0.8的,也就是 两次score 差了至少0.3以上的,有71404,接近1%,有趣的数字,其实根据f1_score,两次相差不过3%左右,但是就细节层面, 标签的变动差别更大,而且就预测效果而已"> |
| 88 | +<meta property="og:description" content="使用roberta 训练,一个训练2轮,然后在2轮的基础上再训练6轮,也就是一共8轮然后在8404820个数据上去预测结果,其中label 不同的有613706个,在label为1的基础上score 大于0.8的,也就是 两次score 差了至少0.3以上的,有71404,接近1%,有趣的数字。 其实根据f1_score,两次相差不过3%左右,但是就细节层面, 标签的变动差别更大,而且就预测效果而"> |
89 | 89 | <meta property="og:locale" content="default"> |
90 | | -<meta property="og:updated_time" content="2021-05-19T09:58:36.208Z"> |
| 90 | +<meta property="og:updated_time" content="2021-07-08T13:59:38.230Z"> |
91 | 91 | <meta name="twitter:card" content="summary"> |
92 | 92 | <meta name="twitter:title" content="epoch 轮数的影响"> |
93 | | -<meta name="twitter:description" content="使用roberta 训练,一个训练2轮,然后在2轮的基础上再训练6轮,也就是一共8轮然后在8404820个数据上去预测结果,其中label 不同的有613706个,在label为1的基础上score 大于0.8的,也就是 两次score 差了至少0.3以上的,有71404,接近1%,有趣的数字,其实根据f1_score,两次相差不过3%左右,但是就细节层面, 标签的变动差别更大,而且就预测效果而已"> |
| 93 | +<meta name="twitter:description" content="使用roberta 训练,一个训练2轮,然后在2轮的基础上再训练6轮,也就是一共8轮然后在8404820个数据上去预测结果,其中label 不同的有613706个,在label为1的基础上score 大于0.8的,也就是 两次score 差了至少0.3以上的,有71404,接近1%,有趣的数字。 其实根据f1_score,两次相差不过3%左右,但是就细节层面, 标签的变动差别更大,而且就预测效果而"> |
94 | 94 |
|
95 | 95 |
|
96 | 96 |
|
@@ -310,7 +310,8 @@ <h1 class="post-title" itemprop="name headline">epoch 轮数的影响</h1> |
310 | 310 |
|
311 | 311 |
|
312 | 312 |
|
313 | | - <p>使用roberta 训练,一个训练2轮,然后在2轮的基础上再训练6轮,也就是一共8轮<br>然后在8404820个数据上去预测结果,其中label 不同的有613706个,在label为1的基础上score 大于0.8的,也就是 两次score 差了至少0.3以上的,有71404,接近1%,有趣的数字,其实根据f1_score,两次相差不过3%左右,但是就细节层面, 标签的变动差别更大,而且就预测效果而已,目测确实epoch8的更符合人的直觉</p> |
| 313 | + <p>使用roberta 训练,一个训练2轮,然后在2轮的基础上再训练6轮,也就是一共8轮<br>然后在8404820个数据上去预测结果,其中label 不同的有613706个,在label为1的基础上score 大于0.8的,也就是 两次score 差了至少0.3以上的,有71404,接近1%,有趣的数字。</p> |
| 314 | +<p>其实根据f1_score,两次相差不过3%左右,但是就细节层面, 标签的变动差别更大,而且就预测效果而已,目测确实epoch8的更符合人的直觉</p> |
314 | 315 |
|
315 | 316 |
|
316 | 317 | </div> |
|
0 commit comments