当前位置: 首页 > news >正文

强人工智能(Artificial General Intelligence,通用人工智能)论文目录

持续更新中。主要包含:大型语言模型LLM,多模态大模型MLLM,其他AGI相关的零散优秀论文,少量脑神经科学中与认知心理学方面的论文。除此之外,还会将一些相关的技术资料进行分享,包括但不限于LLM,Transformer,GNN,DRL,Diffusion Model等等,还有人脑结构,认知,记忆等。
也欢迎有实现强人工智能想法,热爱AGI的小伙伴有疑问可以私信进行探讨。
友情链接:大模型相关资料、基础技术和排行榜

强人工智能(AGI)论文

标题和时间作者来源简介
Artificial General Intelligence: Concept, State of the Art, and Future Prospects,2014GoertzelJournal of Artificial General Intelligence14年的一篇AGI综述,里面探讨了AGI的定义、分类和评估方法等,作者貌似现在是AGI大会的编辑了hh
Towards artificial general intelligence with hybrid Tianjic chip architecture,2020Pei jingNature2020年的一个讨论实现AGI硬件的论文,其实现了在同一芯片上同时运行MLP-like和SNN神经网络的硬件环境
AGI Brain II: The Upgraded Version with Increased Versatility Index,2021Mohammadreza AlidoustAGI20211.提出一个AGI指标,2.用Mamdani模糊推理联想记忆代替原本的神经网络NN表示外显记忆
Training language models to follow instructions with human feedback,2022Long Ouyang等人OpenAIInstructGPT,在大型语言模型的基础上引入人工引导和强化学习,大大提升模型性能
Yann Lecun: A Path Towards Autonomous Machine Intelligence 自主机器学习和AGI,2022Yann LecunMachine Learning提出了自主智能体的架构和训练范式,论文地址
GPT-4原论文详细解读(GPT-4 Technical Report),2023OpenAIOpenAIGPT-4,提出了多模态的大型语言模型,具备一定的常识和认知能力
ChatGLM,2023Aohan Zeng,Du等人International Conference on Learning Representations (ICLR)ChatGLM,ChatGLM-6B结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)
LLaMA: Open and Efficient Foundation Language Models,2023Hugo TouvronpreprintLLaMA是 Meta AI 发布的包含 7-65B 参数规模的LLM,其中LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B)。开源
A Survey of Large Language Models,2023Wayne Xin Zhao,preprint大型语言模型综述,非常详细,格局打开!
ChatDB: AUGMENTING LLMS WITH DATABASES AS THEIR SYMBOLIC MEMORY,2023Chenxu HupreprintChatDB清华团队针对大模型LLMs的长期记忆能力进行的改进,提出数据库与大模型结合开源
LONGNET: Scaling Transformers to1,000,000,000 Tokens,2023Jiayu DingpreprintLONGNET微软做的针对大模型的长文本学习,长期记忆进行的改进,开源
Focused Transformer: Contrastive Training for Context Scaling,2023Szymon TworkowskipreprintLongLlama谷歌DeepMind研究团队提出了一种注意力集中的transformer架构FOT
Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models,2023谭清宇,Hwee Tou Ng,邴立东ACL 2023 main conferenceLLM理解时间变迁。达摩院联合NUS提出时间推理数据集以及时间强化的训练范式
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks,2023Mustafa ShukorpreprintUnIVAL,该算法不依赖于数据集大小或具有数十亿参数的大模型,仅仅具有约0.25B的参数量,而且将文本、图像、视频和音频这4个多模态任务统一到了一个模型中
Graph of Thoughts: Solving Elaborate Problems with Large Language Models,2023Besta Maciejpreprint思维图,将LLM生成的信息建模为任意图,其中信息单位是顶点,边代表顶点之间的依赖关系
The Rise and Potential of Large Language Model Based Agents: A Survey,2023Xi Zhi hengpreprintAgent,综述
NExT-GPT: Any-to-Any Multimodal LLM,2023新加坡国立大学,吴胜琼preprintNExT-GPT,多模态大模型,实现任意模态之间的转换。NextGPT整体结构图、模型示意图和使用模型时示意图
Toolformer: Language Models Can Teach Themselves to Use Tools,2023Schick TimopreprintToolsformer,GPT与各种工具结合
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision),2023Yang ZhengyuanpreprintGPT-4V测评报告
EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS,2023Xiao Guangxuanpreprint流式LLM,无限扩展LLM长度
Improving Image Generation with Better Captions,2023Betker JamesOpen AIDaLLE3,作画大师接入chatgpt,论文中文版见这
Instruction Tuning for Large Language Models: A Survey,2023Zhang Linfengpreprint思维链综述
RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language ModelsWang Zekun Moorepreprint角色扮演大模型
A Survey on Multimodal Large Language Models,2023Yin Chaoyoupreprint多模态大模型综述
Visual Instruction Tuning,2023Liu Haotianpreprint视觉大模型llava,通过视觉调优,支持基于图片的聊天
ChatGLM3,2023ZHIPU, TinghuawebChatGLM3
AI Alignment: A Comprehensive Survey,2023Jiaming JipreprintAI对齐技术综述,怎么让AI符合人类意图和价值观
RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation,2023Yufei Wangpreprint具身智能代表性工作
A Comprehensive Overview of Large Language Models, 2023Naveed HumzaarXiv大模型的全面回顾,看透大模型
Source Code Data Augmentation for Deep Learning: A Survey蒙纳士大学、新加坡管理大学、华为诺亚方舟实验室、北京航空航天大学以及澳大利亚国立大学联合arXiv代码生成数据增强综述
COGVLM: VISUAL EXPERT FOR LARGE LANGUAGE MODELS,2023清华,Wang WeihanarXiv多模态大模型的创新代表文章
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations,2023Ding NingarXiv大模型:高质量对话数据生成
Mixture of Experts Explained,2023BlogBlog混合专家模型MOE,论文地址
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs,2023清华arXiv基于工具的代表性工作
ChemLLM: A Chemical Large Language Model,2024上海人工智能实验室arXiv标准垂直领域大模型训练构建指南,工作主要在数据处理部分
Self-Rewarding Language Models,2024Meta、纽约大学arXiv大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4
Larimar: Large Language Models with Episodic Memory ControlIBMarXiv提出具有情景记忆的大模型
When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models香港科技大学arXiv首个基于弱智吧贴文的大模型谬误理解评测基准
Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study北京智源人工智能研究院、新加坡南洋理工大学、北京大学arXiv让智能体直接控制键盘、鼠标,与一切软件交互
MemGPT: Towards LLMs as Operating Systems伯克利arXiv类似操作系统管理内存的方式,管理记忆,使得模型可以处理超长文本
多模态数学推理数据集:MATH-V和MATHVISTA前者是港中大的工作,后者是加利福尼亚大学洛杉矶分校的工作MATHVISTA已发ICLR,MATH-V在arXiv上最先进的多模态数学推理数据集
多模态多轮对话的工具模型,2024华东师范大学blog一个帮你b站点歌放视频的多模态多轮对话模型
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation,2024新加坡国立大学arXiv统一多模态理解与生成的全能Transformer,论文地址
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention,2024GooglearXiv长期记忆和超长上下文,论文地址
Qwen3: Think Deeper, Act Faster,2025QwenBlog截止2025,5月最强开源大模型技术介绍
Olmo3,2025Olmo3Reportpretrain+post-train 7B和32B全开源,代码,模型,数据细节全公开,直逼Qwen2.5性能
Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models(超长文本模型论文HSA),2025Ant蚂蚁arXivHSA-UltraLong,这是一个基于 分层稀疏注意力(Hierarchical Sparse Attention, HSA) 机制的模型。该模型能够在仅使用 32K 长度进行训练的情况下,成功将上下文窗口外推到 1600万(16M)Token
MoM (Mixture-of-Memories)新型线性序列建模架构),2025Shanghai AI LaboratoryarXiv论文旨在解决当前线性序列模型(如 Linear Attention, Mamba/SSM, Linear RNNs)存在的一个核心缺陷:记忆干扰(Memory Interference)
DeepSeek V4 的架构详解,2026DeepSeekReport稀疏注意力+mHC 的架构工作,DeepSeek V4的 OPD 的训练问题
Sora技术简单过一遍OpenAIBlogSora技术的关键要点
ARC-AGI BenchmarkFrançois Chollet(弗朗索瓦·肖莱)、Mike Knoop(迈克·克努普)、ARC Prize Foundation(ARC 奖基金会)Blog非传统 AGI Benchmark
世界模型GenieGooglearXiv世界模型代表论文
http://www.jsqmd.com/news/729662/

相关文章:

  • 从QPushButton到QAction:Qt中‘可切换’控件的统一处理模式与实战技巧
  • kodustech/cli:模块化命令行工具集的设计哲学与工程实践
  • Maxtang MTN-FP750迷你主机开箱与硬件深度解析
  • STK 11.6与Matlab 2022b互联保姆级教程:从安装到避开‘mexConnect’报错
  • 别再只用向日葵了!实测ChmlFrp内网穿透远程桌面:免费、流畅度与安全性探讨
  • ARM GICv5中断控制器与IRS模块详解
  • 新手避坑指南:Sensor Bringup时I2C不通、不出图的那些事儿(附OV02K10/SC4335P实例)
  • 多模态大语言模型的对抗性攻击与防御实践
  • 【flutter for open harmony】第三方库Flutter 鸿蒙版 OCR识别 实战指南(适配 1.0.0)✨
  • AI模型部署实战:ClawHost平台简化大语言模型服务化全流程
  • 微服务之后是什么?2026年软件架构演进风向标
  • K8s生产环境那些文档不会告诉你的坑
  • 为MCP服务器构建智能爬虫:配置驱动与无缝数据集成实践
  • 07(开源)通用大模型·开源落地优化系列 内存占用高、端侧跑不动|真实资源降低:30%–55%
  • Agent 一接浏览器上传就开始传错附件:从 File Intent Binding 到 Upload Confirmation 的工程实战
  • C#实战:用Baumer工业相机SDK搞定Raw和Bitmap互转(附完整UI源码)
  • 告别虚拟机卡顿!保姆级教程:把Ubuntu 20.04装进移动固态硬盘,打造你的随身开发环境
  • 告别手动复制粘贴:用J-Link Commander+BAT脚本实现芯片ID的自动化读取与记录
  • 2026四川米线加盟店技术指南:米线加盟联系方式/米线店加盟/米线店加盟联系方式/重庆小吃加盟店推荐/重庆小吃品牌加盟/选择指南 - 优质品牌商家
  • 可观测性:不止于监控,现代系统运维的“北斗七星”
  • 孤舟笔记 并发篇十七 BLOCKED和WAITING两种线程状态有什么区别?面试官想看你对线程生命周期理解多深
  • 宇宙学模拟中CGD建模的挑战与改进方法
  • Nmap使用详解
  • FastQ/BAM降采样深度对比:Picard三大策略 vs Samtools,你的大数据场景该选谁?
  • MTKClient刷机工具终极指南:联发科设备救砖与刷机完整解决方案
  • project_travel_advisor高级功能实现:地理位置、数据筛选和响应式设计
  • 普通人如何利用GPT赚钱之提供咨询服务
  • 2026晶圆测厚传感器哪家强:电极片测厚传感器、透明物体测厚传感器、非接触式传感器、高精度激光位移传感器、高精度激光测距仪选择指南 - 优质品牌商家
  • 基于Next.js与Chakra UI的AI聊天应用模板开发实践
  • 电子制造追溯系统:技术架构与质量管理实践