有半年没发博客了,最近实在太忙,之前的公开课学习也基本都搁置,马上24年了,希望有个新气象,这里先跟风写个总结,本文也发于知乎,以下为原文:

跟风写个年终总结吧,之前所有的博客都是写在自己的博客网站上,马上新的一年了,尝试一下知乎上写写。其实最近半年多已经没有更新过博客了,原因是各种事情导致太忙,实在没啥时间学习公开课,所以也一直停滞了。

发生的事情

细想一下,今年真的发生了很多事:1月孩子出生;2到4月换工作,面了几十次,同期也和合作者开发了HGRN;5月去新公司;6月对Linear Transformer结构做升级改进,加起来的ablation前后得有几百个;7月对Linear Transformer做加速,也学了triton,这期间经历过无数次3,4点睡觉;8,9月训练,测评Transnormer-LLM 7B,中间真是踩了无数的坑;10月之后做TransnormerLLM的开源,sft等工作;11月到12月初对我们之前的工作做了一些总结,测评1B, 3B level相比于Llama结构的效果,也同步测评了Mamba,具体见链接;12月之后也启动了15B模型的训练,整个过程(包括loss以及中间的ckpt)也会同步直播,具体可以见链接

除了上述主要事外,还有各种大大小小的琐事。总的来说,今年确实是最近几年比较忙碌的一年,以至于到年底确实感受到了比较明显的疲惫。

学到的事情

经过这一年的磨练,收获还是不少(主要还是技术方面),这里流水账罗列一下:

  1. 多和同行交流,不要闭门造车;
  2. 和高水平的同行聊天,会经常有各种insight,比如sonta以及苏神
  3. 大部分research都是重新发明,所以多考古之前的论文会找到灵感;
  4. 要学会去宣传自己的工作,毕竟大部分人都是关注各种大佬的工作,普通研究者只能自己宣传;
  5. LLM = 95%的数据 + 5%的结构,如果你用Llama,那后者为1%;
  6. 各种Efficient Sequence Model只有在1B level下和Llama结果相当,才有可能作为LLM的候选,否则都是玩具;
  7. 接上一条,在效果相当的情况下,越简单,速度越快越好( “Everything should be made as simple as possible, but not simpler,”);
  8. 长卷积(TNN, Hyena)暂时看不到出路;
  9. 工程很重要:cuda很难,triton也许是个折中方案;
  10. LLM让人印象深刻的落地场景还是感觉有点少;

明年的期待和规划

最后写一下明年的期待和规划吧,之所以分为两部分,是因为,期待是指不可控的,规划是指相对可控的:

期待:

  1. 训一个100B规模的非Transformer LLM;
  2. 扩大一些影响力;
  3. 找到LLM的落地方向;

规划:

  1. 把剩下两篇没开源的代码都整了;
  2. 对这两年的工作做个总结,输出20篇以上博客以及一个代码库
  3. 学一下cuda;
  4. 扩一下技能包,入门序列建模以外的领域;
  5. 建立一个讨论序列建模的社区;