当前位置：首页 > news >正文

结构化的数据 Structured Data

news 2026/7/6 2:59:47

第一个主要的趋势是结构化的数据，这个概念在以往有关语义网（Semantic Web）的一些演讲中，曾被引用过，但显而易见，到现在为止，结构化的数据比语义网的发展趋势更加明显。本文会分析结构化的数据在今年的发展，并且有三个产品供参考：OpenCalais, Google, Wolfram Alpha。

不是文档集，而是数据网

Tim Berners-Lee（译者注：万维网(WWW)的发明者，为互联网的迅速、大规模发展奠定了非常非常重要的技术基础）在二月份曾说我们现在身处一个数据网，而不是一个文档集，Tim Berners-Lee领导的组织W3C，已经大力推动了两个关键行动来建立这个数据网：语义网（Semantic Web）和最近提到的数据链（Linked Data）。

在过去的几年里，我们已经看到了有很多其他方式来建立结构化的数据，目前最好的例子是Twitter，因为 Twitter 90%的访问，都是由第三方程序对其API的使用贡献的（译者注：我一开始很难理解Twitter为什么会是结构化的数据的最佳实例，因为Twitter里面传播的信息统统是非结构化的。但经过仔细思考，发现Twitter其实成功创造了一种使用短信息来更新状态的通讯方式，对于内容更新、状态更新类的数据来说，这的确是结构化的，更重要的是，使用范围之广，已形成事实的标准）。

数据网的基本概念仍然与由Alex Iskold在2007年3月提到的相同：“未结构化的信息将会让路于结构化的数据，为更智能的计算铺路”。

译者注：来自不同网站的非结构化信息，通过各个公司/组织提供的API，成为了结构化的数据

实例1：OpenCalais

第一个实例产品OpenCalais，很可能是目前最好的有关数据链的产品，这是汤姆森路透（Thomson Reuters）于2008年2月发布的一个API。简单地讲，OpenCalais可以将非结构的网页内容转化为具有语义标记的数据，它可以将数据按照人物、地点、公司等分组组织。通过这种方式，第三方的程序或网站可以利用这些数据生成许多有趣的新应用——这正是数据链的基本定义。

关于数据链的更完整定义，参见Alexander Korth在2009年4月从技术角度的介绍：数据网，创建可供机器阅读的信息（The Web of Data: Creating Machine-Accessible Information），本文作者同样在2009年5月撰文：“Linked Data is Blooming: Why You Should Care”，介绍了数据链的背景与好处。

译者注：非结构的文档（文本/HTML），经过OpenCalais的解析，成为了人物、公司、地点、事件等结构化的数据

实例2：Google Rich Snippets

今年5月，Google将结构化的数据添加到了它的核心搜索中，作为一个名为“Rich snippets”的特性出现。这个特性的本质是通过 microformats 或 RDFa 等开放的结构化数据标准，从网页中提取并展现有价值的信息（译者注：百度最近提的框计算概念，其实类似于数据链，即用户搜索到的不仅仅是网页，还有有价值的数据，比如搜索股票代码，出现的是该股票的实时行情，而不是包含该股票代码的网页链接）。在5月份发布这个特性的时候，Google邀请了内容发布者来标记他们的HTML，尽管要想这种标记广泛使用需要一定的时间，但事实上如果有Google这样的大公司的推动，正显示了结构化的数据于互联网越来越大的重要性。

译者注：一个英文例子，搜索结果直接包含被搜索商品的评论、价格范围

译者注：一个中文例子：结果直接包含被搜索到网站的Alexa排名数据

其他大公司同样引领了这个方向，比如雅虎。