数字人文论文里,藏着AI进入文化产业的真实入口
很多人谈AI应用,喜欢从技术本身出发。
大模型能做什么,图像识别能做什么,RAG能做什么,智能体能做什么,多模态能做什么,知识图谱能做什么。于是大量产品从技术能力开始倒推场景:既然AI会总结,那就做总结工具;既然AI会问答,那就做知识库问答;既然AI会生图,那就做文生图平台;既然AI会写作,那就做写作助手。
这种路径当然没有错,但它有一个很明显的问题:技术能力很强,真实需求却不一定清晰。
很多AI产品看起来功能丰富,却很难进入某个专业场景的日常工作流。它们能演示,能试用,能让人惊叹,但不一定能被持续使用。原因并不复杂:产品解决的往往是技术想象中的问题,而不是专业群体每天真实遇到的问题。
尤其在人文社科、文化产业、出版、档案、博物馆、图书馆、地方文献整理这些领域,外部技术团队常常会误判需求。他们以为人文学者最需要的是“自动写论文”,以为图书馆最需要的是“聊天机器人”,以为博物馆最需要的是“AI讲解员”,以为出版社最需要的是“自动生成书稿”。这些方向并非完全没有价值,但它们往往停留在最表层的想象。
真正的问题不一定是“让AI替人文学者写一篇文章”,而可能是:一批地方志影印本无法准确OCR;几十万张馆藏图片缺少可检索的元数据;古籍文本异体字、繁简字、断句、标点、版本差异难以统一;口述史音频转写后仍然需要主题标注和人物关系整理;学者想做跨文献、跨时段、跨地域的比较研究,却没有合适的数据清洗和可视化工具;文化机构有大量资源,但无法把资源转化为可用、可查、可分析、可复用的数据资产。
这些需求非常具体,也非常隐蔽。它们不总是出现在产品需求文档里,也不总是被机构明确表达出来。很多时候,它们散落在论文的研究方法部分、数据来源部分、研究局限部分、附录、案例描述、工具介绍、项目总结和学术反思之中。
这就是为什么说:数字人文论文,可能是AI进入文化产业、人文社科研究和公共文化服务领域的一张需求地图。
数字人文论文会告诉你:
人文学者真正需要什么;
哪些数据很难处理;
哪些工作流重复、低效、适合自动化;
哪些学术问题可以变成工具;
哪些文化机构有真实需求。
如果你只是把数字人文论文当作论文来看,它可能只是一个交叉学科领域的研究成果。但如果你从AI应用、产品设计、文化科技创业、出版转型、知识服务的角度去读,它其实是在不断暴露一件事:人文领域并不缺问题,缺的是能够把问题转化为工具的人。
一、数字人文论文不是“冷门论文”,而是需求文档
很多人对数字人文的第一印象,是它既像人文学科,又像计算机学科,还像信息管理学科。它讨论古籍、档案、文学、历史、艺术、地图、图像、声音、空间、人物关系、知识组织,也讨论数据库、文本挖掘、可视化、GIS、语义网、知识图谱、机器学习、自然语言处理。
这使得数字人文看起来有些“夹在中间”:对纯人文学者来说,它似乎技术味太重;对纯技术人员来说,它又显得问题太碎、数据太乱、标准太复杂、商业化不够直接。
但也正因为它夹在中间,数字人文论文才特别值得阅读。因为它天然站在“问题”和“技术”之间。
一篇典型的数字人文论文,往往不会只讨论抽象理论。它通常会说明研究对象是什么,数据从哪里来,数据如何获取,如何清洗,如何标注,如何建模,如何分析,使用了什么工具,工具有什么局限,结果如何解释,以及这些方法对传统人文学术问题有什么帮助。
换句话说,它不是单纯地说“我有一个观点”,而是会说:
我面对的是一批什么材料;
这些材料为什么难处理;
我为了研究它们做了哪些数据化工作;
现有工具在哪里不好用;
我如何设计流程解决问题;
这个流程还能不能迁移到其他研究对象上;
未来还需要什么更好的平台、数据和方法。
这其实已经非常接近产品需求文档了。
只不过,产品经理写需求文档时,会说“用户痛点”“使用场景”“功能模块”“交互流程”“数据结构”“交付结果”;数字人文论文则会说“研究问题”“材料来源”“方法路径”“数据处理”“工具局限”“学术贡献”。
二者语言不同,但背后都在描述同一件事:某个群体在完成某项任务时遇到了障碍,需要新的方法和工具来提升效率、扩展能力或打开新的问题空间。
例如,一个研究明清地方志的学者,如果要分析某一类地方治理制度在不同地区的传播路径,他可能需要查阅大量地方志文本。传统方式是人工阅读、摘录、比较、归类。这种方式非常扎实,但耗时极长,而且很难处理大规模材料。
如果数字人文论文尝试用文本挖掘方法分析地方志,它就必须面对一系列问题:地方志版本复杂,版式不统一,OCR错误率高,地名有历史变迁,官职名称不稳定,事件描述缺少标准化标签,文本中同一概念可能有多种表达方式。论文在解决这些问题时,往往会暴露出一整套工具需求:更适合古籍版式的OCR工具,更好的历史地名识别工具,支持异名合并的实体识别系统,面向地方文献的主题标注平台,能够把文本、时间和空间关联起来的可视化界面。
这就不只是一个学术问题,而是一个产品机会。
再比如,一个文学研究者想研究近现代报刊中的女性写作网络。她需要的不只是把报刊扫描件变成文本,还要识别作者、笔名、栏目、发表时间、刊物、地点、主题、人物关系,甚至要处理同一个作者使用多个笔名、同一个刊物几经改名、不同数据库字段不一致的问题。这些问题在论文中可能只是方法部分的几段说明,但对AI应用来说,里面却藏着非常清晰的需求:报刊OCR、版面分析、作者消歧、笔名识别、元数据补全、关系网络生成、可视化探索、文献证据追踪。
所以,数字人文论文的价值不只是“它研究了什么”,更是“它为了研究这个问题,暴露出了哪些尚未被工具化的环节”。
如果AI团队愿意认真阅读这类论文,就会发现人文领域不是没有应用场景,而是场景太多、太细、太专业,不能用通用办公软件的思路去粗暴覆盖。它需要从具体学科问题、具体材料类型、具体机构流程中抽象出产品。
数字人文论文就是最好的入口之一。
二、人文学者真正需要的,不是替代,而是增强
外界想象AI与人文学术的关系时,很容易陷入一种替代叙事:AI会不会替学者读书?AI会不会替学者写论文?AI会不会替编辑审稿?AI会不会替研究生做文献综述?
这种想象有传播效果,但并不真正理解人文学者的工作。
人文学者当然需要写作,也需要阅读,但他们的核心工作并不是机械地阅读和机械地写作。真正重要的是:提出问题、理解语境、判断材料、辨析概念、建立解释、处理证据、形成论证。AI可以参与这些过程,但很难简单替代。
人文学者真正需要的,很多时候不是一个帮他“自动生成结论”的机器,而是一个能够降低基础劳动成本、扩大材料处理规模、改善证据组织方式、提高检索和比较效率的工具系统。
传统人文学术中,有大量工作并不浪漫,也不充满灵感,而是非常繁琐、重复和耗时的。
比如,查找一个人物在不同文献中的出现情况;整理某一时期某类政策文本的发布时间、发布主体和关键词;比较一个概念在不同时代的用法变化;从地方志中摘录某类制度条目;对一批碑刻材料进行年代、地点、人物、职官、事件的标注;把口述史访谈录音转写成文本,再按主题、人物、事件进行整理;从老照片中识别地点、建筑、人物、服饰和活动场景;把馆藏文物说明中的非结构化描述转化为规范字段。
这些工作很重要,但它们不是最终的学术解释。它们更像研究的基础设施。没有这些基础劳动,学者无法形成可靠判断;但如果这些基础劳动完全依赖人工,研究规模和问题边界就会受到很大限制。
数字人文的意义,正是在这里显现出来。
它并不是要让机器替代人文学者,而是让人文学者有能力处理过去难以处理的材料规模和关系复杂度。过去一个人可能只能读几十本文献,现在可以在机器辅助下初步筛查几千本文献;过去一个人只能凭经验判断某个词语的变化,现在可以通过大规模语料观察它在不同时段、不同地域、不同作者群体中的分布;过去一个人很难追踪复杂的人物关系网络,现在可以通过实体识别和关系抽取生成初步网络,再由学者进行解释和校正。
这里的关键不是“AI给出答案”,而是“AI帮助学者更好地接近问题”。
很多数字人文论文会反复强调“人机协同”。这不是一句客套话,而是人文学术的内在要求。因为人文材料高度依赖语境,很多判断不能只看字面。一个词在不同历史时期可能意义不同;一个地名可能发生迁移;一个人物可能有字、号、别名、笔名;一个事件可能在不同文献中被不同立场重新叙述;一段文本可能有引用、戏仿、隐喻、典故、互文。
这意味着AI工具在人文领域不能只追求“全自动”,而应该重视“可校正”“可追溯”“可解释”“可编辑”“可复核”。
如果一个工具识别出某个历史人物,它最好能告诉学者依据是什么,原文出处在哪里,置信度有多高,是否存在同名人物,是否可以手动合并或拆分。如果一个工具生成了主题分类,它最好允许学者修改标签,查看样本文本,调整分类标准。如果一个工具构建了知识图谱,它不能只是展示漂亮的网络图,还要支持回到原始文献,查看每一条关系的证据来源。
这才是人文学者真正需要的AI:不是一个高高在上的“答案生成器”,而是一个可以一起工作的“研究助手”。
从产品角度看,这一点非常重要。
很多AI产品进入专业领域失败,是因为它们过度强调生成能力,却忽视了专业用户对证据、过程和控制权的要求。对于人文学者来说,一个看似流畅但无法追溯来源的回答,价值是有限的;一个看似智能但不能修改中间过程的系统,也很难真正嵌入研究流程。
数字人文论文会不断提醒我们:人文学者需要的不是“黑箱式智能”,而是“可参与的智能”。
它需要把机器处理的结果开放出来,让学者能够检查、纠错、补充和解释。它需要尊重人文学术对证据链的重视,而不是把复杂判断压缩成一个看似确定的结论。它需要处理不确定性,而不是假装一切都可以被标准化。
这也是数字人文工具和普通AI工具最大的不同之一。
普通AI工具可以追求快速、简洁、自动化;数字人文工具则必须在效率之外,保留足够的学术严谨性。它既要节省时间,也要让使用者知道时间节省在哪里;既要生成结果,也要让使用者看见结果如何产生;既要降低门槛,也不能牺牲材料的复杂性和解释的开放性。
谁能理解这一点,谁就更有可能做出真正被人文学者持续使用的AI工具。
三、最难处理的数据,往往就是最好的产品入口
AI应用的一个基本规律是:哪里数据多、乱、难处理,哪里就可能存在工具机会。
数字人文领域恰恰充满这样的数据。
人文数据和一般商业数据不同。商业数据往往来自交易、用户行为、订单、点击、物流、财务等系统,天然带有结构化字段。即使数据质量不高,也通常有明确的表格、编号、时间戳、用户ID、商品ID。
但人文数据经常是非结构化、半结构化、历史化、异质化的。它们可能是古籍影印本、报刊扫描件、手稿、信札、碑刻拓片、地方志、族谱、档案卷宗、博物馆藏品说明、口述史录音、老照片、地图、年谱、书目、目录、展览文本、田野调查记录。
这些材料的共同特点是:它们非常有价值,但不容易直接计算。
第一类难处理的数据,是古籍和历史文献。
古籍不是简单的“老文本”。它涉及复杂的版式、字体、异体字、避讳字、繁简转换、断句标点、版本差异、缺字残页、注释夹杂、竖排排版、双行小字、批注眉批等问题。普通OCR工具面对现代印刷体已经相对成熟,但面对古籍,尤其是影印质量不一、版式复杂的古籍,错误率仍然会显著增加。
即使OCR完成,文本也未必能直接使用。古籍没有现代标点,句读本身就是解释;同一个字可能有异体写法;同一个人物可能有多种称谓;同一个地点在历史上可能多次更名;同一个制度名词在不同朝代含义不同。要让这些文本真正进入可检索、可统计、可建模的状态,还需要大量校勘、标注和规范化工作。
这背后对应的工具需求非常明确:面向古籍的OCR与版面识别,古籍自动断句与标点辅助,异体字归一化,版本比对工具,古籍实体识别,历史地名和职官知识库,支持人工校改的协同标注平台。
第二类难处理的数据,是近现代报刊和档案。
报刊的问题不完全等同于古籍。它通常是现代印刷,但版面复杂,栏目众多,图文混排,广告、新闻、评论、副刊、启事、连载小说交织在一起。研究者往往不只是需要全文OCR,而是需要知道某篇文章位于哪个栏目,作者是谁,发表日期是什么,标题和正文如何分割,是否有连载,是否转载,是否存在同一文本在不同报刊间传播。
档案材料则更加复杂。档案有层级结构,有案卷、文件、页码、附件、批注、签名、印章,也有保密、权限、来源、整理规则等制度问题。档案文本常常不是为了公开阅读而写,语言高度情境化,信息分散在多个文件之间。要把档案转化为可分析数据,不仅需要识别文字,还要理解档案结构和行政流程。
因此,报刊和档案领域的AI工具不能停留在“识别文字”,而要进一步做版面结构解析、元数据抽取、篇章切分、栏目识别、作者消歧、事件抽取、跨文献关联、档案层级管理和证据链追踪。
第三类难处理的数据,是图像和视觉文化资料。
博物馆、美术馆、档案馆、图书馆、地方文化机构都拥有大量图像资料。它们可能是文物照片、老照片、绘画、海报、地图、手稿图像、建筑图纸、展览现场照片、非遗记录影像。过去这些资料主要依靠人工编目,字段包括名称、年代、作者、材质、尺寸、来源、题材、描述等。
但随着图像数量不断增加,人工编目成本极高,且描述粒度往往不足。比如一张老照片,人工说明可能只写“某地街景”,但研究者真正想知道的是:照片中有哪些建筑,街道招牌写了什么,有哪些交通工具,人物穿着如何,是否能判断年代,是否能定位地点,是否能与其他照片构成同一空间的连续记录。
多模态AI在这里有巨大潜力,但也面临问题。普通图像识别模型擅长识别现代生活中的常见物体,却不一定理解历史服饰、传统器物、地方建筑、旧式招牌、文物纹样、宗教图像、艺术风格。它可能能说“这是一座建筑”,却不能判断是祠堂、会馆、牌坊还是民居;它可能能说“这是一个陶瓷器物”,却不能识别器型、纹饰和年代风格;它可能能读出招牌文字,却不理解旧地名和历史商业空间。
这意味着文化图像AI工具需要与专业知识库结合,需要面向特定馆藏、特定主题、特定历史时期进行训练和校正。它不能只做通用视觉识别,而要做“文化语义识别”。
第四类难处理的数据,是声音和口述史。
口述史材料近年来越来越重要。很多文化机构、高校团队、地方项目都会采集访谈音频和视频,记录个体生命史、地方记忆、行业变迁、非遗传承、社区发展、移民经历等。这类材料通常时长巨大,转写成本高,整理难度大。
语音识别可以解决第一步问题,但远远不够。口述史访谈中有方言、口音、停顿、重复、情绪、语气、未完成句、指代不明、背景噪音,还涉及大量地方性知识。自动转写后,文本仍然需要校对、分段、主题标注、人物地名识别、时间线整理、敏感信息处理、授权管理和引用格式规范。
对研究者来说,他们不只是要一份文字稿,而是要能在几十小时、几百小时的访谈中找到某个主题、某段经历、某类表达。他们需要把音频、视频、文字、标签、人物、地点、事件连接起来。AI在这里能做的,是帮助建立口述史资料的结构化入口。
第五类难处理的数据,是跨库、跨格式、跨机构的数据。
很多文化资源的问题不在于单个数据库没有,而在于数据库之间彼此割裂。图书馆有书目数据,档案馆有档案目录,博物馆有藏品数据,地方政府有公开资料,高校项目有研究数据库,出版社有图书资源,个人学者有整理表格。每个系统都有自己的字段、分类、标准和访问权限。
研究者想做一个跨机构的研究,常常需要在多个网站反复检索、下载、复制、清洗、对齐。不同数据库对同一人物、同一地点、同一作品的命名可能不同,字段粒度也不同。有的只提供网页检索,不提供API;有的可以下载,但格式不统一;有的元数据完整,有的只有简略描述。
这类问题非常适合AI和知识组织工具介入。它需要做跨库检索、实体对齐、元数据映射、语义检索、数据清洗、引用管理、来源追踪。它不是简单的搜索引擎,而是面向研究问题的数据整合平台。
从这些例子可以看出,数字人文中最有价值的产品入口,往往不是“生成一篇文章”,而是处理那些长期困扰学者和机构的数据问题。
谁能把古籍、档案、报刊、图像、声音、地图、馆藏、地方文献这些复杂数据处理好,谁就能进入人文研究和文化机构真正的工作流。
四、重复、低效、适合自动化的工作流,才是AI落地的关键
AI落地不是看技术有多炫,而是看它能不能嵌入一条真实工作流。
在人文研究和文化机构中,有很多工作流长期重复、低效,却因为专业性强、数据复杂、预算有限,一直没有得到充分工具化。这些工作未必显眼,但非常适合AI介入。
比如文献收集。
人文学者做研究,第一步往往是搜集材料。这个过程看似简单,实际上非常耗时。研究者需要在学术数据库、图书馆目录、古籍数据库、档案目录、地方文献平台、报刊数据库、政府网站、博物馆数据库之间反复检索。不同平台的检索逻辑不同,关键词需要不断变化,结果需要人工筛选,相关文献需要下载、保存、命名、分类、记录出处。
AI可以在这里做的不只是“帮你搜索”,而是帮助建立一个面向研究主题的材料发现流程。它可以根据研究问题生成关键词组,扩展同义词、历史名称、相关人物、相关机构;可以记录不同数据库的检索结果;可以帮助去重;可以初步判断相关性;可以把文献按类型、时期、地区、主题分类;还可以生成可复查的材料清单。
再比如文本清洗。
很多研究者拿到数据后,最痛苦的不是分析,而是清洗。OCR文本里有错字、乱码、页眉页脚、脚注、广告、重复段落;网页抓取文本里有导航栏、版权信息、无关链接;PDF转文字后顺序混乱;表格字段不一致;地名、时间、人名格式不统一。
这些工作非常适合自动化,但又不能完全自动化。更合理的方式是AI先进行初步清洗,标出疑似错误和不确定项,研究者再进行抽查和修正。工具应该支持批量处理,也应该支持人工干预。
再比如标注。
数字人文研究中经常需要标注人物、地点、时间、作品、机构、事件、主题、情感、叙事类型、修辞手法、图像元素等。纯人工标注非常慢,纯机器标注又不够可靠。最适合的方式是半自动标注:AI先提出候选标签,用户确认、修改、删除;系统根据用户反馈逐渐适应具体项目的标注标准。
这种工作流对学术研究非常有价值。因为不同项目的标注体系往往不一样。一个文学项目关注叙事视角和人物关系,一个历史项目关注制度、地名和官职,一个艺术史项目关注图像母题和风格,一个民俗项目关注仪式、器物和空间。通用标签体系很难完全满足需求,工具必须允许用户自定义标签和规则。
再比如对比和校勘。
古籍、手稿、译本、报刊转载、政策文本版本之间,经常需要比较差异。传统方式是人工对读,非常耗时。AI和文本比对工具可以帮助发现增删改、异文、段落移动、词语替换、标点差异。但在人文研究中,差异不只是技术问题,还可能具有解释意义。一个词的变化可能反映政治语境变化,一处删改可能反映作者立场变化,一个版本差异可能影响作品阐释。
所以工具不能只给出“相似度”,而要让差异可视化、可标注、可导出、可引用。
再比如知识整理。
很多研究最终会产生大量卡片、摘录、笔记、表格、关系图和时间线。研究者经常需要把碎片材料组织成论证结构。AI可以帮助从文献中提取关键信息,形成时间线、人物表、地名表、概念表、事件表,也可以辅助建立知识图谱。但这一过程必须保留来源。每一个节点、每一条关系、每一个判断,都应该能够回到原文证据。
再比如成果转化。
文化机构做展览、教育、传播、出版时,需要把专业研究转化为公众可理解的内容。一个博物馆展览可能需要展签、导览词、教育活动方案、短视频脚本、社媒文案、互动问答。一个地方文化项目可能需要把档案材料转化为地方故事、城市漫步路线、数字展陈内容。AI可以帮助进行多版本转写,但前提是基于准确资料,而不是凭空生成。
这些重复工作流都有共同特点:
它们不是一次性的;
它们需要处理大量材料;
它们需要专业判断;
它们现有流程高度依赖人工;
它们的结果需要可复核;
它们如果被工具化,可以显著提高效率。
数字人文论文之所以重要,是因为它经常会把这些工作流写出来。论文作者为了完成研究,不得不描述自己如何收集数据、如何清洗、如何标注、如何建库、如何分析。对于学术读者来说,这可能只是方法说明;但对于AI产品设计者来说,这就是用户旅程。
比如一篇论文说,作者从某数据库获取了几千条诗歌文本,人工校对了作者信息,根据诗歌中出现的地名建立地理坐标,再用GIS工具分析诗人活动空间。这里至少暴露出四个工具需求:诗歌数据获取与整理、作者信息消歧、历史地名识别与坐标匹配、文学地理可视化。
再比如一篇论文说,作者为了研究近代报刊舆论,先对报纸版面进行OCR,再手动剔除广告和重复内容,然后按主题建立词表,最后用主题模型分析话题变化。这里也暴露出多个需求:报纸版面切分、广告识别、文章去重、主题词表构建、可解释主题模型、时间序列可视化。
这些需求不是凭空想出来的,而是从真实研究中长出来的。
这就是为什么AI团队如果想进入数字人文领域,不应该一上来就问“我们能用大模型做什么”,而应该问:
这个领域的人每天在重复做什么?
哪些步骤耗时最多?
哪些步骤容易出错?
哪些步骤需要专业判断?
哪些步骤可以先让机器做初稿,再由人修正?
哪些结果需要保存为可复用的数据?
哪些环节一旦工具化,就能让很多项目受益?
当你这样读数字人文论文时,你会发现论文不再只是论文,而是一条条未被充分产品化的工作流。
五、学术问题可以变成工具,工具也可以反过来创造新问题
真正有价值的数字人文工具,往往不是从“我要做一个工具”开始,而是从一个具体学术问题开始。
比如,研究者想知道某个文学流派的传播路径。这个问题听起来是文学史问题,但一旦展开,就会变成一组数据和工具问题:哪些作者属于这个流派?他们的作品发表在哪里?彼此是否有书信往来?是否共同参与刊物、社团、出版社?他们的活动地点如何变化?关键词和写作风格是否存在相似性?这些信息分散在哪些文本、年谱、书信、报刊和回忆录中?
如果要回答这个问题,就需要人物数据库、作品数据库、报刊发表记录、地理信息、社交网络分析、文本风格分析、时间线工具。于是,一个文学史问题就可以转化为一个“文学社群与文本传播分析平台”。
再比如,研究者想研究地方治理政策如何扩散。这个问题属于公共管理和政策研究,但它也可以转化为数字人文式的工具需求:需要收集不同地区政策文本,识别政策主题、政策工具、发布主体、时间节点、借鉴关系、文本相似度、执行机构和后续变化。这样就可以形成政策文本比较工具、政策扩散可视化平台、政策生命周期追踪系统。
再比如,研究者想分析某类非遗项目在地方社会中的传承变化。这个问题需要处理田野访谈、地方志、影像资料、传承人谱系、仪式空间、政策文件、旅游开发材料、社媒传播内容。它可以变成一个非遗知识库建设工具,支持人物、技艺、场所、事件、影像、文本之间的关联。
学术问题变成工具的关键,是找到其中可重复、可抽象、可迁移的部分。
并不是每一个学术问题都能直接做成产品。有些问题太个体化,只适合一篇论文;有些问题依赖学者个人解释,无法工具化;有些材料无法开放,也不适合平台化。但很多问题背后有共同结构。
例如:
“人物在文献中的出现”可以抽象为人物识别与消歧工具;
“地点在历史文本中的变化”可以抽象为历史地名知识库;
“作品版本差异”可以抽象为文本比对工具;
“概念在长期历史中的演变”可以抽象为语义变化分析工具;
“报刊中的议题变化”可以抽象为主题建模与时间线分析工具;
“图像中的文化元素识别”可以抽象为文化图像标注系统;
“口述史中的生命经历整理”可以抽象为访谈资料结构化平台;
“馆藏资源与公众传播之间的转换”可以抽象为文化内容生成与审核系统。
这就是数字人文最值得AI团队学习的地方:它不是为了工具而工具,而是从问题中长出工具。
与此同时,工具一旦成熟,又会反过来创造新的学术问题。
过去因为材料规模有限,学者只能研究少量经典文本;当大规模语料库可用后,就可以研究长时段、大范围、跨类型的文本现象。过去因为地图制作困难,空间问题常常只是文字描述;当GIS和历史地图平台可用后,文学地理、历史地理、城市文化空间研究就会变得更丰富。过去因为人物关系难以整理,社群研究依赖个别案例;当关系网络工具可用后,学者可以观察更大范围的知识传播和社会连接。
工具不是中性的,它会改变学者能提出的问题。
这也是数字人文与AI应用结合最有想象力的地方。它不仅能提高已有工作的效率,还可能打开新的研究尺度。它让研究者从“读几篇文本”扩展到“观察一个语料群”,从“描述一个案例”扩展到“比较多个区域”,从“凭经验判断趋势”扩展到“用数据辅助发现模式”,从“单一媒介研究”扩展到“文本、图像、声音、空间的综合分析”。
当然,这并不意味着数据越多,研究就越好。人文学术仍然需要细读、解释、批判和语境化。大规模分析可能发现模式,但模式的意义仍然需要学者判断。工具可以帮助提出问题,但不能自动完成解释。
好的数字人文工具,应该让学者在宏观和微观之间自由切换。既能看到整体趋势,又能回到具体文本;既能观察网络结构,又能阅读某一封信;既能看到某个词频上升,又能进入具体语境理解它为什么变化;既能生成地图热区,又能查看每一个地点背后的原始材料。
这也是未来AI人文工具的重要方向:不是单纯输出答案,而是支持探索。
它应该像一个研究工作台,而不是一个聊天窗口。聊天只是入口,真正的价值在于数据、标注、检索、分析、可视化、证据管理和协作流程。
六、文化机构的真实需求,比想象中更具体
如果说人文学者代表研究端需求,那么文化机构则代表资源端和服务端需求。
图书馆、档案馆、博物馆、美术馆、纪念馆、出版社、地方文化馆、非遗保护中心、地方志办公室、高校数字人文中心,这些机构手中掌握大量文化资源,也承担保存、整理、研究、展示、教育和传播的任务。它们是数字人文和AI应用非常重要的落地点。
但文化机构的真实需求,往往比外部想象更具体,也更受约束。
外部团队常常会说:“我们可以帮博物馆做一个AI导览。”
但博物馆真正关心的可能是:藏品信息是否准确?展览文本是否符合学术审核?观众问答是否会出现错误解释?不同年龄观众是否需要不同版本?多语言翻译是否可靠?导览内容能否与馆内动线结合?系统是否能处理高峰期访问?数据是否安全?版权是否清晰?是否能接入现有票务、导览和藏品系统?
外部团队会说:“我们可以帮档案馆做智能检索。”
但档案馆真正关心的可能是:档案目录层级如何保持?开放与不开放档案如何区分?检索结果是否泄露敏感信息?OCR结果是否可以作为正式文本?用户引用时如何标注档号?原件图像和识别文本如何对应?档案修复、编目、数字化加工的流程如何衔接?
外部团队会说:“我们可以帮出版社做AI生成内容。”
但出版社真正关心的可能是:内容版权是否安全?生成文本是否符合出版规范?是否能辅助选题策划?是否能进行稿件初审、事实核查、敏感风险提示、书稿结构分析?是否能把存量图书资源转化为课程、短视频脚本、知识卡片、有声书和互动产品?是否能帮助编辑而不是取代编辑?
外部团队会说:“我们可以帮地方文化机构做数字化平台。”
但地方文化机构真正关心的可能是:地方文献如何整理?老照片如何征集和标注?非遗传承人资料如何维护?地方故事如何转化为研学路线?项目经费有限,系统能否轻量部署?工作人员技术能力不强,后台是否足够简单?数据能否长期保存和迁移?
这些问题都说明,文化机构需要的不是一个“万能AI”,而是能解决具体业务环节的工具。
数字人文论文、项目报告和案例研究,恰好会呈现这些机构需求。很多论文会介绍某个图书馆如何建设专题数据库,某个博物馆如何开展数字展览,某个档案馆如何进行资源开放,某个地方文献项目如何采集和整理数据。读这些内容时,如果只关注学术结论,就会错过背后的真实业务;如果从产品角度阅读,就能看到机构在数据、流程、标准、服务和传播上的痛点。
文化机构的需求大致可以分为几类。
第一类是资源整理需求。
大量机构已经完成或正在进行数字化,但“数字化”不等于“数据化”。扫描成图片,只是第一步;能检索、能关联、能分析、能复用,才是更高层次的数据化。很多机构有海量图片、PDF、音视频和目录,但缺少结构化元数据,缺少语义标签,缺少跨资源关联。
AI可以在资源整理中发挥作用:自动识别文本,提取标题、作者、时间、地点、主题;为图片生成初步描述;为音视频生成字幕和摘要;为藏品补充关键词;为地方文献建立人物、地点、事件索引。
但这类应用必须与人工审核结合。文化资源的错误成本较高,尤其是公开展示、学术引用和教育传播场景,不能依赖未经核验的生成内容。
第二类是知识服务需求。
文化机构不只是保存资源,还要服务研究者、公众、学生、游客、政府部门和行业用户。传统检索系统往往要求用户知道准确关键词,但很多用户并不知道该搜什么。比如一个普通观众想了解“宋代人的日常生活”,他可能不知道应该检索哪些器物、文献、绘画和展览。一个研究者想找某个地方的水利资料,可能需要跨地方志、档案、地图、碑刻、报刊查询。
语义检索和问答系统在这里有价值。它可以让用户用自然语言提出问题,再从馆藏、文献、展览、数据库中找到相关资源。但前提仍然是:回答要有来源,不能胡编;系统要能区分确定信息和推测信息;对专业问题要提供原始材料入口。
第三类是展览和传播需求。
文化机构越来越重视公众传播。展览不再只是线下陈列,还包括线上展览、短视频、社交媒体、教育活动、研学课程、互动体验。AI可以帮助把专业资料转化为不同受众可理解的内容。例如,同一件文物,可以生成面向儿童的讲述、面向普通观众的导览、面向研究者的详细说明、面向短视频的脚本、面向学校课程的教学材料。
但传播不是简单改写。文化内容需要准确、克制、有审美,也需要符合机构定位。AI生成内容必须建立在机构审核过的知识库之上,并支持编辑修改、版本管理和风格控制。
第四类是内部管理需求。
很多文化机构的痛点不在前台展示,而在后台管理。例如藏品编目、借展流程、档案目录维护、项目资料归档、研究成果管理、版权授权记录、观众反馈分析、活动资料整理。这些工作耗费大量人力,却不容易被公众看到。AI如果能提高后台效率,实际价值可能比前台炫酷展示更大。
第五类是数据资产化需求。
随着文化数据成为重要资源,机构越来越需要把分散数据转化为可管理、可授权、可运营的数据资产。这涉及数据标准、元数据规范、版权状态、开放等级、接口服务、二次开发、数据产品设计。数字人文项目中的数据建设经验,对文化机构非常重要。
从这些需求看,AI进入文化机构不能只靠技术演示,而要理解机构的职责、流程、风险和资源结构。
数字人文论文提供的正是这种理解的入口。它让技术团队看见:文化机构不是没有需求,而是需求深嵌在专业流程里;不是没有数据,而是数据复杂且缺少结构化;不是不想创新,而是创新必须兼顾准确性、权威性、版权、伦理和长期维护。
如果能从这些约束中设计产品,机会会比想象中更扎实。
七、从论文到产品:如何读出AI应用机会
如果我们把数字人文论文当作需求地图,那么问题就变成了:应该如何阅读它?
普通读论文的方法,通常关注研究问题、理论框架、方法、结论和贡献。但如果目标是发现AI应用机会,就需要换一种读法。
第一,要重点读“数据来源”。
论文使用了什么材料?是古籍、报刊、档案、图像、地图、音频、视频、社交媒体、馆藏数据库,还是地方文献?这些数据来自哪里?是否公开?是否需要授权?格式是什么?规模多大?质量如何?作者是否提到数据获取困难?
数据来源决定了产品入口。因为AI应用不是凭空存在的,它必须面对具体数据。不同数据类型对应不同工具:文本需要OCR、NLP和语义检索;图像需要视觉识别和标注;音频需要语音识别和访谈整理;地图需要GIS和地名匹配;馆藏数据需要元数据规范和知识组织。
第二,要重点读“数据处理过程”。
作者是否花大量篇幅描述清洗、标注、筛选、去重、校对、分类?这些工作是否人工完成?是否耗时?是否有明确规则?是否存在可重复步骤?
凡是论文中出现“人工整理”“手动校对”“逐条标注”“反复筛选”“由于数据质量限制”“现有工具无法满足”等表达,都值得特别注意。这些地方往往就是工具机会。
第三,要重点读“方法局限”。
学术论文中的局限部分,对产品设计者来说特别有价值。作者会坦诚说明:样本规模有限、OCR误差较高、标注一致性不足、工具不适合中文语境、历史地名难以匹配、图像识别效果不好、数据库开放程度不足、缺少统一标准。
这些局限不是缺点,而是需求。每一个局限背后都可能有一个产品方向。
第四,要重点读“可迁移性”。
这个研究方法是否只适用于一个个案,还是可以迁移到一类材料、一类机构、一类研究问题?如果一个流程只服务于某篇论文,产品价值有限;但如果它适用于很多类似项目,就有工具化可能。
例如,为某一本古籍做专门校勘,可能是项目型工作;但如果能抽象出古籍版本比对平台,就有更大价值。为某个博物馆生成一次展览文案,是服务项目;但如果能形成基于馆藏知识库的展陈内容生产系统,就有产品潜力。
第五,要重点读“用户是谁”。
论文背后的真实用户可能不止作者本人。它可能服务于文学研究者、历史学者、艺术史学者、图书馆员、档案管理员、博物馆策展人、地方文化工作者、出版社编辑、教师、学生、公众。不同用户的需求不同,产品形态也不同。
研究者需要可验证和可分析;机构人员需要稳定和易用;公众需要易理解和有趣;编辑需要规范和可控;教师需要可教学和可复用。AI产品不能只定义一个模糊的“用户”,而要明确具体角色和任务。
第六,要重点读“输出结果”。
论文最终产出了什么?是数据库、地图、网络图、语料库、标注集、可视化平台、知识图谱、分析报告,还是新的解释框架?这些输出能否被其他人复用?能否成为工具的一部分?能否被机构持续维护?
很多数字人文论文的成果,其实已经具备产品雏形,只是缺少工程化、交互设计、部署能力和商业模式。AI团队可以从这些成果中找到合作机会,而不是从零开始幻想需求。
用这种方式阅读数字人文论文,你会发现它像一张层层展开的地图。表面上是学术研究,里面是数据类型,再里面是处理流程,再往里是工具缺口,最后是机构需求和产品机会。
这也是为什么我认为,未来做文化科技、AI出版、AI知识服务、AI学术工具的人,都应该系统阅读数字人文论文。
不是为了成为数字人文学者,而是为了理解真实问题从哪里来。
