当前位置: 首页 > news >正文

结构化的数据 Structured Data

第一个主要的趋势是结构化的数据,这个概念在以往有关语义网(Semantic Web)的一些演讲中,曾被引用过,但显而易见,到现在为止,结构化的数据比语义网的发展趋势更加明显。本文会分析结构化的数据在今年的发展,并且有三个产品供参考:OpenCalais, Google, Wolfram Alpha。

不是文档集,而是数据网

Tim Berners-Lee(译者注:万维网(WWW)的发明者,为互联网的迅速、大规模发展奠定了非常非常重要的技术基础)在二月份曾说我们现在身处一个数据网,而不是一个文档集,Tim Berners-Lee领导的组织W3C,已经大力推动了两个关键行动来建立这个数据网:语义网(Semantic Web)和最近提到的数据链(Linked Data)。

在过去的几年里,我们已经看到了有很多其他方式来建立结构化的数据,目前最好的例子是Twitter,因为 Twitter 90%的访问,都是由第三方程序对其API的使用贡献的(译者注:我一开始很难理解Twitter为什么会是结构化的数据的最佳实例,因为Twitter里面传播的信息统统是非结构化的。但经过仔细思考,发现Twitter其实成功创造了一种使用短信息来更新状态的通讯方式,对于内容更新、状态更新类的数据来说,这的确是结构化的,更重要的是,使用范围之广,已形成事实的标准)。

数据网的基本概念仍然与由Alex Iskold在2007年3月提到的相同:“未结构化的信息将会让路于结构化的数据,为更智能的计算铺路”。

译者注:来自不同网站的非结构化信息,通过各个公司/组织提供的API,成为了结构化的数据

实例1:OpenCalais

第一个实例产品OpenCalais,很可能是目前最好的有关数据链的产品,这是汤姆森路透(Thomson Reuters)于2008年2月发布的一个API。简单地讲,OpenCalais可以将非结构的网页内容转化为具有语义标记的数据,它可以将数据按照人物、地点、公司等分组组织。通过这种方式,第三方的程序或网站可以利用这些数据生成许多有趣的新应用——这正是数据链的基本定义。
关于数据链的更完整定义,参见Alexander Korth在2009年4月从技术角度的介绍:数据网,创建可供机器阅读的信息 (The Web of Data: Creating Machine-Accessible Information),本文作者同样在2009年5月撰文:“Linked Data is Blooming: Why You Should Care”,介绍了数据链的背景与好处。

译者注:非结构的文档(文本/HTML),经过OpenCalais的解析,成为了人物、公司、地点、事件等结构化的数据

实例2:Google Rich Snippets

今年5月,Google将结构化的数据添加到了它的核心搜索中,作为一个名为“Rich snippets”的特性出现。这个特性的本质是通过 microformats 或 RDFa 等开放的结构化数据标准,从网页中提取并展现有价值的信息(译者注:百度最近提的框计算概念,其实类似于数据链,即用户搜索到的不仅仅是网页,还有有价值的数据,比如搜索股票代码,出现的是该股票的实时行情,而不是包含该股票代码的网页链接)。在5月份发布这个特性的时候,Google邀请了内容发布者来标记他们的HTML,尽管要想这种标记广泛使用需要一定的时间,但事实上如果有Google这样的大公司的推动,正显示了结构化的数据于互联网越来越大的重要性。

译者注:一个英文例子,搜索结果直接包含被搜索商品的评论、价格范围

译者注:一个中文例子:结果直接包含被搜索到网站的Alexa排名数据
其他大公司同样引领了这个方向,比如雅虎。

实例3:Wolfram Alpha

从 Wolfram Alpha 5月份的隆重推出到现在,作者一直在密切关注这个非常创新的产品。这个一个自描述的“可计算知识引擎 computational knowledge engine”,在一些预测中,它甚至被称为Google克星。虽然这有些夸张,但它的确有不少可能的应用。
Wolfram Alpha有个类似搜索引擎的界面,可以由用户输入自然语言。但它的主要部分是估算用户的行为,来显示合适的数据,这个产品是以使用与计算数据为前提的。如果Web2.0是产生数据(或者用户产生内容),那么下一代的互联网就是如何使用这些数据了。

总结

通过以上三个例子我们可以看到结构化的数据正快速地成为当今互联网的一个特性。像汤姆森路透(Thomson Reuters)与Google这样的公司正逐步实现数据的结构化,而更多像Wolfram Alpha这样的产品正在利用结构化的数据实现我们今天根本无法想象的功能。

译者注

为了方便理解,根据我的个人看法,这里解释一下文档、数据、结构化等词,如有谬误,欢迎指正:
文档:亦内容,可供阅读,传播。如:某产品的某个评论;某应聘人员的简历。
数据:与内容相同的是可以阅读,传播;胜于内容的是有明确分类,可供分析。如某个产品的评论分数;某应聘人员简历中的年龄,专业、工作年限。
结构化:数据结构化以后,会更易于分析,查找,抽象。如:某产品有几条评论,分数各是多少(可算出平均分,从而推断口碑最好的产品是哪个);应聘的所有人员的年龄分布、专业分布、工作年限分布。
另,我理解知识生产的过程如下:
信息(消息,新闻)>提取>数据>转化。分析>结构化数据>抽象>知识
所以,有了结构化的数据以后,离知识就只差一步了,所以不难想象,未来的互联网是可以自动生产知识的。

2、实时The Real-Time Web

http://www.jsqmd.com/news/1132103/

相关文章:

  • 时刻 ShortTime --ESBasic 可复用的.NET类库(01)
  • 如何新建html文件
  • WarcraftHelper:魔兽争霸3终极优化指南,让你的经典游戏重获新生!
  • Linux字符设备驱动开发实战:从Hello World到内核交互
  • kernel.org 突发内核文件“消失“:Linux基金会确认配置失误,全球镜像同步触发连锁反应
  • SnapClick 1.1.1 更新速递:右键秒开 / 多编辑器打开 / 录屏 HUD / 毛玻璃透明度
  • IDEA集成GitHub
  • 数据分析实战:销售数据洞察
  • 非线性字符串数据结构串讲
  • AtomCode 实测:用 3 个真实项目验证它到底强在哪
  • Spring Security OAuth2 Resource Server:JWT 鉴权与权限映射实战
  • 逆向学习:我为什么放着文档不看,直接读字节码
  • 深入了解CLR的加载过程
  • 使用过正规新能源企业 GEO 优化服务团队,效果究竟咋样?
  • Meta、Google、Adobe隐形水印算法大翻车!误报率远高于宣称
  • Visual C++运行库终极解决方案:一键修复Windows系统兼容性问题
  • 前端day4
  • IR2104 半桥 BUCK 电路 PCB 布局:3 个关键布线规则解决开关尖峰与振荡
  • c#基础内容:泛型、线程、委托、流
  • 早上,邮递员送来的时候,我还在梦中。
  • 经典题目(2):最长公共子序列;最长公共子串
  • 真的领到了这张8元现金券
  • 2026 内容创作类 AI 赛道全新红利(分短视频、图文绘画、AI 音乐、通用自动化四大板块,全部是今年落地可变现风口)
  • OpenCode × DeepSeek 配置方案迭代记:砍砍补补,越来越好用
  • Ubuntu系统向日葵远程桌面配置指南
  • iNeuOS工业互联网操作系统
  • 大部分管理信息系统(MIS)都少不了员工
  • 昆仑芯的“第三条路”
  • Week7:卷积神经网络、深度网络原理与循环神经网络专题
  • Linux find 命令性能深度解析:对比 locate 与 fd 的 3 大场景实测