【Reading Notes】(6)Favorite Articles from 2023
文章目录
- 1、January
- 2、February
- 3、March
- 4、April
- 5、May
- 6、June
- 7、July
- 8、August
- 9、September
- 10、October
- 11、November
- 12、December
1、January
马斯克疯狂省钱:断供厕纸,辞退保洁,退租办公室(2023年01月01日)
回顾2022,那些令人印象深刻的AI突破(2023年01月03日)
- 一幅图胜过千言万语(虽然预训练语言模型已经取得了惊人的成就,但是它们并不像视觉图片和视频那样直观)
- “The dogs bark, and the caravan moves on”
虽然狗吠声音不止,但是商队一直前进。
这可能是中国最“恨”地铁的高校,甚至写了篇论文反对地铁经过…(2023年01月04日)
4号线开通时,北大有价值11亿元的精密仪器,其中4亿元的仪器受到影响。原因很简单——交通微振动。
最后大家采取了一个折中方案,4号线经过北大的789米轨道段,将采用世界上最先进的轨道减振技术,也就是在钢轨下铺设钢弹簧浮置板。最后北大做了妥协,这才有了后来的【北京大学东门站】。
没想到一个小小的振动,也能引起如此大的漩涡,这可能就是“地铁蝴蝶效应”吧~
奥比中光微软英伟达联合研发的新一代3D相机Femto Mega正式量产(2023-01-09)
- 量产新一代iToF相机
- 内置英伟达Jetson Nano算力平台
40+ 目标检测网络架构大盘点!从基础架构 ResNet 到最强检测器 Yolov7 再到最新部署神器 GhostNetV2(2023-01-10)
- DAMO-YOLO是阿里达摩院在2022年11月份提出的一个兼顾速度与精度的目标检测框架,其效果超越了目前的一众YOLO系列方法,在实现 SOTA 的同时,保持了很高的推理速度。
B站up主用AI分析,跨年演唱会上这些歌手假唱了(2023-01-14)
1 月 7 日,B 站 Up 主「码农高天」,一位在微软工作的程序员通过程序分析了跨年演唱会上歌手的音准,看看谁在跑调,顺便还发现了有些疑似假唱的人。
将歌曲的自然音阶划线加到图上,线对应的频率就是所谓的准确发音。
音准完美无法100%断定就是“假唱”,因为它也可能是现场真唱后经过后期修音的结果。
网传韦东奕不适合教书离职北大,学校首次回应!(2023-01-13)
- gJ0cWxYdDPot7mCM5sssRA
- 另据红星新闻报道,北京大学数学科学学院院长陈大岳称,网传韦东奕离职的消息为假,“没这回事。”
- 韦东奕1991年出生在一个高级知识分子家庭,父母都是教授, 身为数学系教授的父亲,更是对他影响深远,如今对数学的热爱,主要来自父亲对他的影响。
2、February
「深度学习中知识蒸馏」研究综述(2023-02-06)
- 应用中的挑战
- 模型问题.考虑深层模型和浅层模型之间的容量差距,选择相匹配的教师-学生模型
- 成本问题.模型训练过程对超参数较为敏感以及对损失函数依赖较大,而相关原因很难用原理去解 释,需要大量的实验,因而模型的试错成本相对较高.
- 可解释性不足.
- 知识蒸馏教师学生模型结构流程图
- 不同知识传递形式下的蒸馏方法的形式化表示
- 标签知识一般指在模型最后输出的logits概率分布中的软化目标信息;
- 中间层知识一般是在网络中间层输出的特征图中表达的高层次信息;
- 参数知识是训练好的教师模型中存储的参数信息;
- 结构化知识通常是考虑多个样本之间或单个样本上下文的相互关系;
- 图表示知识一般是将特征向量映射至图结构来表示其中的关系,以满足非结构化数据表示的学习需求
- 学生模型基于预训练好的、参数固定的教师模型进行蒸馏学习被称为离线蒸馏
- 教师和学生模型同时参与训练和参数更新的模式则称为在线蒸馏
- 如果学生模型不依赖于外在模型而是利用自身信息进行蒸馏学习,则被称为自蒸馏学习
- 有多个模型参与的蒸馏称为多模型蒸馏
- 不使用任何已知数据集的情况下实现蒸馏,这类统称为零样本蒸馏(又称为无数据蒸馏)
- 出于一些隐私保护等目的,教师模型可以享有一些特权信息而学生模型无法访问,在这种约束下,形成特权蒸馏学习
- 目前,应用知识蒸馏的视觉研究主要集中在视觉检测和视觉分类上.视觉检测主要有目标检测、人脸识别、行人检测、姿势检测;而视觉分类的研究热点主要是语义分割
- 结合知识蒸馏较为广泛的NLP任务主要有机器翻译(Neural Machine Translation, N MT),问答系统(Question Answer System, QAS)等领域.BERT 模型
- 目前关于推荐系统和知识蒸馏的工作还相对较少
- Transformer主要使用方式包括:(1)编码器(例如用于分类),(2)解码器(例如用于语言建模)和(3)编码器-解码器(例如用于机器翻译)。
AI正在让很多行业的红利消失(2023-02-07)
- 但我认为更本质的消失,是钱的消失,也就是利润空间的消失。
- (1)翻译
- 人工翻译整个行业被AI取代,和一部分人工翻译暂时屹立不倒,两者毫无矛盾。
- 实际上AI取代的方式是:先把一个行业的市场切割成10%的高端市场和90%的低端市场,然后逐步压缩低端市场的利润空间,把这个市场的从业者逼到无利可图。一开始大家少赚点还能活,到后来实在卷不动了、纷纷离场,然后AI就占领了这个市场。
- 只要AI的技术继续发展下去,剩下那10%,又会被进一步切割成10%的高端市场+90%的低端市场,然后再次循环。
- (2)画图
- 就像一部电影拍得好,我们会归功于导演,却不会归功于摄像机一样。
- 其实在我看来,diffusion模型的最大意义,不是在技术上或艺术上取代人类,而是剥夺了乙方的议价权。
- (3)编程
- 所以现在AI的代码补全的前沿,已经变成了:给AI一段描述需求的文字,让AI“补完”能实现这个需求的所有代码。
工程与产品的胜利,深度剖析ChatGPT和聪明地设计基础架构(2023-02-08)
- 计算机领域有一个短语叫做human in the loop,将一篇科研文章变成一个prototype,然后再将用户的体验、数据的回流、标注、再训练这个闭环做得非常精准,ChatGPT 在这一个领域当中体现出了高超的工程能力。
- 今天 ChatGPT 就是助手,当内容创作者能够花更少的时间做重复劳动的时候,创新会变得更多- 这是历史上多次证明的。
- The biggest lesson that can be read from 70 years of AI research is that general methods thatleverage computationare ultimately the most effective, and by a large margin.
- 短期:加入人类知识的方法可能更快见效;长期:一旦算力提升,纯靠计算+通用方法的系统会大幅超越精心设计的“聪明”系统。
深入探讨:视觉的目的是什么?(2023-02-19)
- 大家好,我是周纵苇,现在是亚利桑那州立大学的博士生,再过几个月我就毕业了,今天很高兴在这里和大家聊一聊计算机视觉。
- 预判
- Yann Lecun有一个非常经典的例子,视频中一只铅笔笔尖朝下竖直放着,预测下一时间,我们都知道铅笔会因为重力倒下,但是具体往哪个放下倒是一个随机的问题,并不能用原数据来监督学习。
- 对比学习,除了对比出不同点,也应该同时发现相似处。
- 视觉的目的是什么?刚刚总结了两大块主流任务,预判与分辨。
- 医学影像这个独特的优势和自然语言非常的类似。所以我有理由相信在医学影像处理中的自监督学习也可以得到像BERT一样很猛的预训练模型,而不依赖于人工标签。
Anchor-Free目标检测器EdgeYOLO:精度和速度完美超越YOLOX、v4、v5、v6(2023年02月20日)
- https://github.com/LSH9832/edgeyolo
- Liu S, Zha J, Sun J, et al. EdgeYOLO: an edge-real-time object detector[C]//2023 42nd Chinese Control Conference (CCC). IEEE, 2023: 7507-7512.
- https://arxiv.org/pdf/2302.07483
- 改进,数据增广方式,head(v7的),loss
不写代码,拿百万年薪!ChatGPT提示工程或造就15亿码农大军(2023年02月27日)
- ChatGPT爆火之后,带火了一项「网红」新职业——提示工程师。去年12月,一位名叫Riley Goodside的小哥瞬间红遍全网,只因他的工作太梦幻了——不用写代码,跟ChatGPT唠唠嗑,就能年入百万。
- 在Scale AI CEO看来,AI大模型可以被视为一种新型计算机,而「提示工程师」,就相当于给它编程的程序员。如果能通过提示工程找出合适的提示词,就会激发AI的最大潜力。
- 但当时,坊间不乏质疑声,比如英伟达AI科学家、李飞飞高徒范麟熙就曾表示:「提示工程师」这份职业,可能很快就会消失。因为这称不上是一份「真正的工作」,而是一个bug……
- 「我做了20年的软件工程师,20年里一直在写代码,让计算机完全按照我的指令去做。而在提示工程中,我们甚至不知道自己能得到什么,连构建语言模型的人,都无法告诉我们它要做什么。」
- 还有一些prompt创作者,在PromptBase上出售自己的prompt。买家可以看到AI生成的艺术品,然后花钱购买prompt。
- 不过,Goodside也指出,在一些AI圈子里,提示工程很快就变成了一个贬义词,也就是一种「过度依赖技巧的狡猾的修补形式」。
ChatGPT一枪打服谷歌AI人才!情人节组团加盟OpenAI(2023-02-15)
- deepmind->openAI
ChatGPT遭港大「封杀」:罪同论文剽窃抄袭,使用须报备过审(2023-02-19)
- 港大也成为国内首家对ChatGPT进行明文规定的高校。
- 而“反ChatGPT作弊神器”,无论是官方出品的鉴别器,还是斯坦佛大学的DetectGPT、华人小哥出品的GPTZeroX,都不能完全保证没有漏网之鱼。
谷歌大模型团队并入DeepMind!誓要赶上ChatGPT进度(2023-02-26)
- 为应对ChatGPT,谷歌在大模型方面的动作还在继续。其旗下专注语言大模型领域的“蓝移团队”(Blueshift Team)宣布,正式加入DeepMind,旨在共同提升LLM能力!
- 蓝移团队曾和MIT的科学家一起,通过训练大模型学会程序员debug时“打断点”的方式,就能让模型读代码的能力大幅提升。
- 总而言之,谷歌虽然在 Bard 上栽了跟头,但也没把鸡蛋放在一个篮子里。接下来它在大模型上还有哪些新动作?还很有看头。
学习ChatGPT,AI绘画引入人类反馈会怎样?(2023-02-27)
- 本文中谷歌研究院和加州伯克利的研究人员在文本到图像模型中引入人类反馈,微调后的模型生成见过和未见过对象的效果得到了显著提升。
- 显著提高了图像 - 文本对齐
没有这些,别妄谈做ChatGPT了(2023-02-28)
更何况,2018年BERT(large 3.4亿,比 ChatGPT——1750亿——小了3个数量级)发布的时候,模型参数、训练代码是全面开源的,训练数据BookCorpus和Wikipedia也非常容易获取。在这种情况下,国内各大厂训练出内部版本的BERT模型,也经历了差不多半年的摸索时间。在此期间,算力就位、训练精度优化、训练性能优化、底层框架支持、训练策略优化、数据策略优化等都有不少的坑要趟。
如今 ChatGPT 既没有公开代码,也没有公开训练数据,更没有公开模型参数,甚至都没有公开前置模型的模型参数,模型的体量还比BERT大了3个数量级。
AI的表现并非随着模型规模增加而线性增加,而是在参数规模超过特定临界值后显著提升,甚至涌现出小模型不具备的能力。 比如论文表明,模型的规模至少要达到620亿参数量后,才可能训练出来思维链(Chain-of-Thought,CoT)能力。
3、March
- 大模型111人:谷歌和OpenAI的人才战争(2023年03月06日)
The battle of AGI never ends!
