摘要: 目录: 简介 理解Gradient Checkpointing的基本概念 为什么我们需要存储中间结果? Gradient Checkpointing到底是怎么工作的呢? 实验部分 结论 完整内容见微信公众号文章:https://mp.weixin.qq.com/s/IwcfUP_j6JYFXH_xh 阅读全文
posted @ 2022-03-27 06:52 createMoMo 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 开头语:这一系列的笔记仍然致力于简洁 + 尽量能说清楚怎么回事。为了理解GBDT和XGBoost,从最基础的决策树开始,一步一步,手把手深入到GBDT和XGBoost。 一段发自肺腑感谢的话:非常感谢Youtube上“StatQuest with Josh Starmer”公众号,发布了很多通俗易懂 阅读全文
posted @ 2020-04-05 04:55 createMoMo 阅读(811) 评论(0) 推荐(0) 编辑
摘要: 目录: 简介 理解Gradient Checkpointing的基本概念 为什么我们需要存储中间结果? Gradient Checkpointing到底是怎么工作的呢? 实验部分 结论 完整内容见微信公众号文章:https://mp.weixin.qq.com/s/IwcfUP_j6JYFXH_xh 阅读全文
posted @ 2022-03-27 06:52 createMoMo 阅读(14) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2021-08-29 06:29 createMoMo 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 笔记总结了git常用的命令,以及对每条命令的解释。部分命令增添了一些例子帮助理解。 完整笔记可在微信公众号阅读:超级Git笔记 目录: Git vs Github How does git work? (a general introduction) git init (create a new r 阅读全文
posted @ 2021-07-26 00:08 createMoMo 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 请在微信公众号文章链接阅读: https://mp.weixin.qq.com/s/EvD9OW115XMnrxOcC2BKDA 阅读全文
posted @ 2021-05-16 07:11 createMoMo 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 这篇笔记总结了这篇论文的主要思路,Few-Shot Text Classification with Distributional Signatures - ICLR 2020。 论文链接: https://arxiv.org/abs/1908.06039论文代码链接: https://github 阅读全文
posted @ 2020-04-08 01:08 createMoMo 阅读(1929) 评论(0) 推荐(0) 编辑
摘要: 开头语:这一系列的笔记仍然致力于简洁 + 尽量能说清楚怎么回事。为了理解GBDT和XGBoost,从最基础的决策树开始,一步一步,手把手深入到GBDT和XGBoost。 一段发自肺腑感谢的话:非常感谢Youtube上“StatQuest with Josh Starmer”公众号,发布了很多通俗易懂 阅读全文
posted @ 2020-04-05 04:55 createMoMo 阅读(811) 评论(0) 推荐(0) 编辑
摘要: 阅读过一些大家公布在网上自己的机器学习笔记,向这些作者至敬,深知总结和发布文章的不易。这篇文章与其他笔记不同,目的在于快速的帮助回忆起一些概念和算法/模型的结构,基本公式。所以,不会出现有大段的公式推导,更不会有大片的PPT和公式贴图。尽力将基本细节用最少的语言和图表描述清楚。 例如:帮助一些刚刚接 阅读全文
posted @ 2018-01-28 03:00 createMoMo 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 【2020-04-03】微信公众号已经创建好了!会第一时间收到其他文章的更新!(二维码在末尾) 虽然网上的文章对BiLSTM-CRF模型介绍的文章有很多,但是一般对CRF层的解读比较少。 于是决定,写一系列专门用来解读BiLSTM-CRF模型中的CRF层的文章。 我是用英文写的,发表在了github 阅读全文
posted @ 2017-09-16 05:23 createMoMo 阅读(22295) 评论(5) 推荐(6) 编辑
摘要: 有了一个语言模型,就要判断这个模型的好坏。 现在假设: 我们有一些测试数据,test data.测试数据中有m个句子;s1,s2,s3…,sm 我们可以查看在某个模型下面的概率: 我们也知道,如果计算相乘是非常麻烦的,可以在此基础上,以另一种形式来计算模型的好坏程度。 在相乘的基础上,运用Log,来把乘法转换成加法来计算。 补充一下,在这里的p(Si)其实就等于我们前... 阅读全文
posted @ 2013-07-15 00:11 createMoMo 阅读(4606) 评论(0) 推荐(0) 编辑
摘要: 在本节中,我们会讨论序列的长度是变化的,也是一个变量 we would like the length of sequence,n,to alse be a random variable 一个简单的解决方案是,我们经常定义define Xn=STOP,STOP是一个特殊的标志(where STOP is a special symbol) 在了解了上述的定义之后,我们像上一节当中... 阅读全文
posted @ 2013-07-14 23:35 createMoMo 阅读(442) 评论(0) 推荐(0) 编辑