每到年底事情就特别多,原本计划几天前就写好的总结,很巧的拖到了现在,岁末的最后一天。
对我来说,2023 依旧过得很快,回顾一年感慨颇多,所幸的是和往年一样,收获依旧不少。还是先从最容易展开的技术话题开始聊起。
技术相关
2023 年,当 ChatGPT 在二月引爆大家对 AI 的关注后,我的工作内容刷新出了新内容,其中有两项比较有趣的新副本内容:技术外联,以及和合作伙伴一起做技术落地相关的事情,尤其是我擅长的技术架构、性能优化、Infra、一些模型相关的事情。
这两件事和过往我做过的许多事情一样,是非标多过标准化的有趣的事情,稍有挑战,但同时也是非常有趣的事情。这些有趣的故事,我们在下文中的 “工作” 中再来展开。
先来总结下公开的代码提交数据吧。
GitHub
截止本文发出,我今年在 GitHub 上留下了 1400 多次 Commits,比去年稍多一些。玩 GitHub 的同学,最关注的数据可能莫过于“GitHub 星星的数字游戏”,相比较 2022 年,我的星星数增加了接近 5000 颗,当前粉丝数相比较去年增加了 50%,粉丝数接近两千。参考一些在线工具,目前应该排行在全球玩家榜 2000 位左右,国内 300 名内。
新的一年里,还是和往常一样:继续努力学习,继续努力创造价值,“help the public good” : D
在提交细节的图里,在 2023 年里,我发起了不少开源项目的 Pull Request,包括许多开源社区的个人项目,不过 GitHub 只能展示对于组织的贡献,在提交记录里能够看到我向 FaceBook Research、OpenAI、TencentARC、Baidu 这些大家都知道的组织,以及朋友的组织 LinkSoul 做了一些微小的开源贡献。
这里面开心的事情有很多,比如:我的项目多次登上了 GitHub 热榜、和朋友一起玩开源项目。** 不过,最开心的莫过于在上半年,我点亮了 “Nginx 贡献者” 的图标,并且是“使用 AI 编码的方式”。**
相比较往年,今年的提交组织数量是少了一些,技术贡献方向也比较少(几乎都是 AI 相关)。明年要加油调整下,不论是数量还是领域覆盖。
在 GitHub 社区,今年我很开心的事情中,有两个小项目都登陆了多次 GitHub 热榜,分别是 soulteary/docker-flare 和 soulteary/docker-prompt-generator。
前者是一个高性能的导航工具,目前还保持了非常高的性能表现水准,我曾经分享过如何针对这种极限场景做前端的性能优化。后者是在 Midjourney 发布 Describe(识图)时,我做的一个 “AI Native 小工具”,八十行代码实现的能够实现相同功能的工具。
希望明年空闲的时候,能够把之前想写和想分享的开源内容搞定,然后再顺手冲刺下 GitHub 榜单试试看。
DockerHub
作为一个 Docker 爱好者,依旧要贴一下今年内更新过的,比较受欢迎的几个项目。
登上 GitHub 热榜的 Flare 的下载量从去年的 1 万 7 千 涨到了今年的 10 万;而之前分享过的预构建 Nginx 模块的下载量相比较去年提升了一倍;去年没有多少下载量的 Cronicle 的下载量涨到了 1 万。
看着自己折腾的小软件被很多人使用,打心底也是非常开心的,:D
代码 & AI
在去年的总结里,我提到过用了很长时间的代码补全工具 TabNine,并且积累了 1.2GB 的本地代码补全模型。在今年 Copilot 、GPT-3.5 / 4、开源 Code 模型都越来越强的现在,我将它进行了彻底的替换升级,取而代之的就是我上面提到的几种方式。
其中,使用最频繁的是 Copilot,它帮助我节约了大量的时间。所以,即使作为有资格免费使用 Copilot 的 GitHub 社区开发者,我也依旧持续地缴纳了“GitHub 会费”。好产品应该被人支持和“点赞”。
说起来,我今年经历了几个阶段,代码使用 AI 来完成 30%、50%、70%。甚至,有个别项目 90% 都是使用 AI 来完成的。我的恐慌感也从最开始惊喜有多大,不安就有多少,变成了 “AI 要是再强一些就更好了”。
并且,我越来越清楚,想要在模型变强到我可以完全偷懒之前,我可以做哪些事情,来让它更强更可靠。
明年的时候,希望我能够将程序上我所想的都实现,尤其是借助 AI 时代的第一波红利。
其他
关于技术投资,之前几篇总结性文章中提到的技术栈,在今年几十篇内容依旧有被提到,我依旧在继续折腾它们。
当然,除此之外,AI 和泛 AI 相关的内容,也越来越多了。
在今年,不论是有没有公开分享,几乎折腾了市面上几乎所有的靠谱的模型。涉及了它们的微调、量化、推理性能优化、应用封装。不光是文本模型、还有文生图模型、还有音视频等等,也折腾了一些可靠性更强的传统应用的向量数据库,以及折腾了不少硬件相关的东西。当然,我个人很喜欢的编程技巧和软件架构刨析也有涉及。
除了大家都看好的内容外,年初就特别看好的 Llama.cpp 今年年中收到了投资,最近代码还被 Android Core 合并了,未来毫无疑问就是端侧运行模型,不可缺少的标准方案之一啦。这位硬核技术人的硬核又实用的技术项目,真的值得被“点赞”。
我也非常看好任何 Llama 路线或与之兼容的模型和应用,以及适合端侧运行的小参数量的大模型,在 2024 年一定会有不一样的结果。
希望在明年,上面提到的相关的领域知识能够更加扎实,也能带来更多的高价值分享。
写作
接下来,聊聊技术文章方面的分享和写作。
不算这篇文章,今年一共写了 54 篇内容。从《关于本站》中自动生成统计数据来看,今年的基础数据:
在今年新增了六十六万字,包含十五万多汉字,文章中代码纯度约占77%。
文章篇幅数量和去年差不多,汉字量相差不到一万,去年定下的扎实写作文章的 Flag,我应该算是践行了。
关于写书,是一年一度的悲伤话题,今年最后一个季度原计划拉着朋友一起“开写”,结果最后一个季度一忙起来又顾不上了,这个写书 Flag 只好记录顺延下去了。在此和一直与我联系的编辑老师再次致歉,且等待时光打磨后更好的内容,我觉得我必须要系统写出的内容。
从去年开始,我有意将文章内容互动的位置和主要流量留在社交媒体平台,实践了一年之后,感觉还是很不错的。我不再用关心 “SPAM”,这个网站的成本也得以控制。
知乎:全年增加两百四十万阅读量
知乎和去年保持了相同的水平,全年增加了 240 万阅读量,累计阅读量来到了 700 万,知乎等级也到达了 Lv10,有幸得到了优秀答主的徽章,平台上的关注者数量相比较去年增加了一万。作为受众不多,内容相对干燥的实践类作者来说,真心非常欣慰,感恩。
今年最开心的认证和知乎奖励!
今年上过两次榜单,一次是优秀答主榜单,一次是商业答主影响力榜单(我没有接过商单)。在优秀答主榜单中,和另外一位知友一起“破坏”了国内三大 AI 媒体的队形。
年末写总结的时候想到,或许明年如果有时间,可以试试写写付费内容,把收益全部用来资助救助站里的流浪动物。
新的一年里,继续保持相对干的硬核内容,继续保持只写原创的内容。
微信公众号
今年比较意外的事情是,微信公众号有了意外的收获,一篇文章阅读量接近 10万,另一篇内容的阅读量也是大几万。两篇连续比较火的内容,让公众号很快热闹了起来,时不时就会收到私信,让给我也开始思考是不是不要只做单纯在文章写好后,做“内容同步”的动作。
在微信里阅读我经常写的、带有代码解释的内容,并不会获得很好的阅读体验。但是微信公众号上之前有两千多的老读者,于是在每次发布内容后,我都会同步一篇到这里。
有了突然的读者对内容的肯定后,作为创作者,或多或少都会产生更多的分享欲。可以确定的是,我明年肯定还会保持同步这里的动作,和开始更多的对这里的数据反馈的观察。
CSDN:粉丝持续增长
今年 CSDN 一些的产品的运营动作有些奇怪,应该是单纯数字压力下的动作变形,而忽略了本来就不多的创作者用户的体感。有一些建议已经和官方反馈过了,就不在此展开了。
其实等了很久 CSDN 的年度总结,但是可惜的是,没能等到官方数据,所以今年就只放一张基础状况图。
对比去年,粉丝涨了接近一万,接近前年的五倍。暂时和之前的体感没有太大差别,CSDN 平台的粉丝数字相对比较虚。相同文章的转化和曝光和知乎差至少一个数量级,甚至交互量和微博都无法相比,即使今年 CSDN 的粉丝数量已经是微博的一倍有余了。
搜索引擎的“红利”,对于这个古老的开发者内容平台而言,不光是“馈赠”,也是 “诅咒”,去年聊起这个事情的时候,大模型还没有在开发者圈子普及。今时不同往日,接下来模型能够解决和取代传统的 BBS 提问,也一定会影响和改变技术小白在百度上搜索“程序报错”的问题。
甚至,在可预见的不远的将来,人机交互方式和构建程序范式的改变,将是不可逆的。对于这个暂时还依赖流量、依赖相对下沉用户市场的平台来说,再不转身,可能会越来越被动了。
希望,不要看到如此的情况真的发生,因为国内的内容平台真的不够多。
微博:周更博主的偶尔冒泡
之前提到过,我在微博上一向不活跃,差不多是周更或者双周更的那类,还偏偏在短内容平台上非要发长文。
微博相比较去年,增加了一千多的粉丝,虽然不多,但是也很宝贵。因为这里面除了可能的机器人账号外,大概率是喜欢阅读和折腾技术的同好。而且,相比较去年的数据,相同阅读量,我今年只发了去年不到一半数量的“微博”。不严谨的看,今年内容的平台符合度还是比去年要高一些的。
去年提到的,关于数据披露和流量水分问题,微博需要到达一万粉才能够开启一个数据分析功能。所以更详细的数据分析,等到我有一万粉,能够看到类似其他平台详细的数据统计分析后,再结合其他的平台访问效果来进行验证吧。
那么,姑且继续发着,毕竟微博上还有一些老朋友在用。
博客统计数据
今年的博客访问数量,在使用 IP 直接进行去重后得到了 101 万的结果。这是 2020 年之后,可能 “第二次” 网站访问的 IP 数量破百。
去年因为偷懒,导致上半年数据被自动删除的事情还记忆犹新。所以,在今年七月的时候,我就做了一次日志导出,所以在前几天导出下半年数据之后,我得到了相对完整的 2023 年的访问数据。
这次我特别好奇到底有多少类爬虫和阅读器的数据,于是按照请求次数,做了简单粗暴的统计:
cat compose.trimed.2023.log | cut -d ' ' -f 1 | sort | uniq -c | sort -nr >> frequency.txt
我们假设访问 1000 次以上是类似爬虫(包括阅读器),并且不考虑是学校等集体网络出口的情况。执行程序后,查看文本中的结果,得到的高频访问 IP 数量只有 1246 个 IP,远远低于想象。
在这里,感谢互联网上我可能认识、但是多数一定都是陌生人的,100万来自世界各地的、充满好奇心的读者。
Google Analytics 的统计数据依旧是比上面少不少,只有全年数据的 10% 左右。不过也可能是我没设置好统计脚本(页面最上面的提示就是了)。不过反正也不靠网站广告之类的事情盈利,就不花时间折腾它了。
从统计上的数据来看,和去年的数字差不多,或许说明我的内容质量还是比较稳定的。
前文提到,今年参与的开源项目,绝大多数都和 AI 相关。所以点亮的访客区域相比前两年少了不少,但是颜色深度重了非常多。地图上被点亮的地区,大概也有不少对 AI 和大模型技术感兴趣的爱好者吧。
百度统计第一次统计到了比谷歌还多一些的用户数据,不过统计到的浏览量,相比较谷歌采集到的百万交互,还是少了很多,只有三四成左右。不过,网站日志数据量是千万量级,差异非常大,多少看个趋势得了。
聊聊访客地区的话题,从前几年开始,我的读者就能够点亮全国包括台湾省在内的所有区域,今年也不例外。
百度在访客来源这块的数据,目前已经点亮了全国各个省份,我整理了前十五的区域,加粗的地区是对比去年顺序有提升变化的地方:广东(深圳、广州、东莞、佛山)、北京、上海、浙江(杭州)、江苏(南京、苏州、无锡、徐州)、四川(成都)、湖北(武汉)、台湾省、山东(济南、青岛)、香港、安徽(合肥)、湖南(长沙)、陕西(西安)、河南(郑州)。
今年前十五个省份的访问情况中,只有广东省内东莞排名超过了佛山,除此之外前七个省份变化都不大。但是其他的区域变化都非常大,位置几乎都是变化了的。尤其是台湾省、山东省、香港、安徽省、还有河南省。我个人推测一方面是这些地区的学校开展了相关课程,另外一方面可能是远程从业者或者 AI 领域相关的三产在这些区域有利好政策。所以,引发了这些区域读者的好奇。
去年提到过,想要为爱发电想持久一些,还是要精打细算。所以去年开始有意的引导读者去内容平台来“节约流量”。但是目前看起来结果是失败的,因为从今年最后三个月的流量数据来看:相比较去年,今年的流量成本应该至少翻了一倍,请求数据量比之前多了一倍还有余。
再次进行一个一年一度的乘法计算,来推算全年的流量,差不多需要:360GB 以上的资源来支持服务。
相比较百度的统计,CDN 的统计数据来源更扎实,因为是实打实的文件请求。在这张图中,“鸡肚子”区域的颜色更深了一些。
工作 / 事业
感谢所有帮助过我的朋友、老师父、公司组织、开源社区。
不知不觉,重新做产研相关的事情、重新住回望京熟悉的街道,加入这家认识蛮久的“创业团队”一年了。回顾一年,在这里折腾了不少事情,工作内容和方向也有了比较大的变化。
数字化领域的创业
初来乍到,得到了公司里的同学们对于内部产品是有一些挑剔的善意提醒。幸运的是:
- 今年我做过的几个小产品,在公司内部的使用量还是非常惊人的、甚至还一度被传播到了外部。
- 在三月初,就基于 RAG 做了能够准确召回的 “ChatGPT”,并且对外做了发布和体验。
- 刚刚来到时作出的基础设施的建议和一些安全建议,也被后续验证是有效和必要的。
- 之前看好的几十亿条量级的公开数据,即使是初步的信息挖掘,对内部团队也有一些微小的帮助。
这一切,让我都非常开心:在翻来覆去的折腾后,除了保持了技术的敏感、方向的把握外,还学到了一些“产品的感觉”。
但上面应该都属于热身。直到当工作内容刷新出 “E 人” (外向)该做的事情,比如技术外联、与合伙伙伴一起做技术落地,我花了一些时间来调整自己的状态,毕竟我之前只和朋友能放松的聊起来,最多只能算“ I 人中比较 E 的家伙”。
面对已知的挑战和困难,你是否依旧有勇气面对。
这句话,我曾经引用在两次年度总结中,用来质问自己。
幸运的是,一年里经历了许许多多的有趣的事情,和受到了许许多多朋友、老师父、以及组织的帮助,还真 “E 了”起来。
- 年初,新人状态参与了组织内年会的主持。
- 上半年,组织内部和合作伙伴们的 AI 相关的技术闭门会的主持,以及措手不及的实操分享。(边主持边写 PPT)
- 下半年,机器之心的两次 AI 不同领域内容,实操相关的公开分享。
- 全年,和几家合作伙伴的记不清多少次的技术交流分享、数次和 TGO 朋友们的交流分享。
- 年末,组织内部 AI 落地讨论闭门会的羞涩主持。
- 年末,在零一万物 Yi 社区和达摩院魔搭社区大号上,做技术实操直播和几位老师一起做交流分享。
回想这一年,从“写书人”慢慢变成“讲书人”的感受,还是蛮不同的,感谢。
在我入职的时候,组织内另外一位老前辈给过我一个善意的提醒和课题,关于跨组织合作,尤其是组织关系比较微妙的情况下,可能是很难的。这个课题,在今年的践行过程中,有了明确的答案:难,但是真的可解。
希望明年,能够和已经在合作的伙伴,更深入的做一些踏踏实实的技术落地、也让落地的技术得到持续的进化,能够让业务保持技术领先性,不负信任,让业务和朋友都得到长久的好处。也希望能够有更多(适量)的新的合作方,也让我能够探索和学习到不同领域的新知识,认识更多的朋友。
如果你有技术落地相关的事情,尤其是我擅长的技术架构、性能优化、Infra、一些模型相关的事情,或许可以来找我聊聊,我在北京望京,一个咖啡馆和酒吧都遍地的地方。
职业成长上的一些感悟
和之前每年、每半年一样,这里记录一些感悟,也希望能够对读到此处的同学有帮助。
时间的使用和分配是十分重要的,这点我在多次总结中都有提到。
在工作和生活中,容易出现一种状况,把时间分配给错的人和事情,占用了我们大量时间,从而导致错过了和值得合作的朋友合作、帮助该帮助朋友的事情。这是一件非常糟糕的事情,从经济学上来看你损失的是大量机会成本,从心理学上来看你和朋友都损失了彼此的情绪价值。
所以,快速识别和直接拒绝不合适的人和事情,在日常生活和工作中就显得非常必要。
我会继续加强和练习,更多的减少时间浪费,避免这些宝贵的时间出现在不可交友的人身上,把时间节约出来,投入到该干的事情,该交的朋友,值得帮助的朋友和社区上。
诚如年中和之前过往的总结所言,多和不需要顾及情感和情绪的人合作,最终的合作结果往往都是愉快的。
关于朋友相关的话题,我想放到“生活”小节中再展开,所以这里就不过多赘述啦。
此外,务必远离负面情绪爆棚的人和事情,它们只会浪费你的时间,你需要坚决拒绝和远离他们,持续的寻找那些有积极向上力量的人和事情,和他们一起向上成长。
生活
和往年一样,简略的和朋友们交代下今年生活相关的事情吧。
驾驶相关:2514 公里
今年的行车里程又有了质的突破(对我而言):今年时不时出门和朋友沟通、时不时去麻烦老友帮忙,时不时出门分享,全年里程数开了 2514 公里,平均车速也从 44 提升到了 53。
看到导航提醒我经常在“海淀”和“朝阳”之间穿梭,回想一年感慨颇多。最远的单程行车距离,从望京直接开到了通州大运河公园,其实还是蛮爽的。
不过,如果你认真看第一张图,会发现我最近应该有一两个月没怎么开车了,新年应该多开开,不然会忘了。
电影相关:泪流满面
今年在国博看过几部电影,感觉都很棒,不论是画面还是叙事内容。
前一阵做公开技术分享的时候,我还使用特别喜欢的片子,“球 2”做了案例,来演示如何低成本的、快速实现图片搜索技术。
当然,在年底的时刻,如果要说今年最爱,可能是这部“奥本海默”了。
2019 年时,在当时正式加入研究院前,我被问过一个问题:“AI必将改变世界,你想成为这一伟大进程的一份子吗?”
当时回答 “嗯” 的傻子,看到电影,难免联想和被今年 AI 的 “奥本海默时刻” 感动的泪流满面,伟大只是时间问题。
最喜爱的对外身份:答主
年底收拾今年胸卡的时候,发现门后挂了许多,每一张的身份都有些许不同。
其中最让我喜欢,和我愿意拿出来使用的,是解决具体问题的回答者身份:答主。
认真思考这个身份到底代表了什么,我觉得可能,它是我最喜欢的程序语言和代码的现实映射:中立、客观、准确、真实。
不参杂利益,兴趣和真实价值驱动,可以有外部合作,但是并不依赖也并不需要商业来供给。无欲则刚,动作不会变形,行为也不至招朋友(或可交朋友)厌烦。
我目前觉得,挺好的。
我的通讯录:只加朋友
包括微信在内的社交软件,都是很重要的和朋友保持沟通和联络的方式。但并不是所有的联系人都是朋友,相对科学的整理通讯录和分离工作 IM 和个人 IM,是能够帮助自己节约时间的。
我之前写过三篇相关的内容,《致新朋友:为生活投票,不断寻找更好的朋友》(2022 年)、《只聊感情,不聊技术(一)》(2023 年)、《只聊感情,不聊技术(二)》(2023 年)。分别聊过了交友价值观、交友习惯、时间分配和重要的线下小聚。
年中总结的时候,或许是老友的离去触动了我感性的部分,我开始弱化理性的执行部分,但是实践证明,这样做虽然能够接触到一些有趣的人,但是更多的可能是浪费和消耗宝贵时间的无效连接。
当然,除了从源头上进行“灵魂连接管理”之外,持续的维护有效的朋友连接也十分必要。这一部分说来话长,有机会的时候,我会展开一篇文章就这个话题好好聊聊。
如何确保只加朋友,以及只把时间分配给朋友,应该是我接下来的长期的时间和精力管理的研究课题。虽然很难,但是值得一试。
朋友们的社群:保持自然
今年,我将兴趣群进行的重建,将这五六年里,我手动控制进进出出一直保持 365 人的老群缩减为了 81 人:之前在群里持续的进行过分享,并且近一年保持活跃分享和互相帮助的同学。
我希望这个群里大家是可以合作的,成为朋友的,你愿意和他分享你的情绪、真实的看法和见解,你愿意分享你的资源和他进行合作,偶尔出差或旅游,路过你的城市,可以相约小聚。
不因利相聚,有相同的喜好,但是可以合作向上。
不过,这里有个乌龙,当时重新拉群的时候,突然工作上有事,以及没有想太清楚大家的喜好重合度,导致漏过报名表单领域标签是 AI 的同学到新群了。然后发现控制人数稍微少一些,其实大家聊起来更加放松,那么就先这么的吧。
下半年,持续有人加我微信,其中不乏我很想拉到老群的同学,但是考虑老群同学的感受,以及也想通过时间验证是否真的适合拉到老群,就创建了一个小小的新群,虽然目前还在试验阶段,但是已经看到了一些确定可以背书拉入老群的同学了。
当然,大家兴趣不同,或许把二群变大,把一群感兴趣的同学拉进来也是个方案。
家庭:平安喜乐
这俩头六岁兄弟的状态真的让人羡慕,尤其是今年我需要频繁外出的时候。每当看到它们没心没肺的睡觉和捣乱的时候,真的开心。
当然,捣乱的时候,也是真的生气,半夜非要爬高串低的把一些东西从高处击落,彰显一下自己虽然肥美但是也很灵巧。
也有很多让我心疼的时刻,比如我在外地的时候,小猫砸会一如既往的蹲在门口等我回家。
学习成长:继续向上
今年开始了一项新的历练,感谢我的两位 mentor 为我写推荐信。让我有了机会来完善糟糕的口语,以及相对系统的接触新领域的知识。
关于这部分内容,我想在我拿到“结果”后,再来进行分享。
游戏:没怎么玩
今年太忙了,没顾上打通新游戏,等高铁和飞机的时候打了打 Switch 版的暗黑。明年的时候,希望 AI 再给点力,让我能够腾出时间好好玩下游戏。
最后
今年总结的最后,分享两张图片。
熟悉的我的朋友,一定看过我年中时候发的智源大会现场人头攒动、满满当当、热热闹闹的照片,但其实有一张我很喜欢,但是没有发布的照片:开会前的会场。
不论是哲学视角下的存在主义,还是电影视角的象征主义,一个空荡的会场,总会给人一种“一个未被书写的空白画布或未塑造的机遇”、“隐藏了无数种未知的可能和未来的希望”,等待着人们去填充和赋予其希望和力量。
我十分期待明年年中的大会,一定会有很多有趣的进展,也期待能和朋友们在各种社区里一起建设更多的会场“空荡的会场”,让它被希望和力量填满。
在下半年去深圳的时候,偶然拍到了酒店里的锦鲤群。今年见到了好多次鱼池,这次是我最有拍摄动机的一次,可惜手机拍照效果无法还原真实场景。
无论你是否读到此处,在新的一年里,都希望你,尤其是我的好朋友们,在新年里都保持好运,“繁花似锦,鱼跃龙门”。
当然,也与诸君共勉,2024 一起继续加油。
–EOF