信息抽取技术 信息抽取 信息抽取-简介,信息抽取-技术

信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。

信息提取_信息抽取 -简介

信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。
信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。
信息抽取信息抽取属于网络内容挖掘(Webcontentmining)研究的一部分,主要包括结构化数据抽取(StructuredDataExtraction)、信息集成(Informationintegreation)和观点挖掘(Opinionmining)等。大多数文献中提到的网络信息抽取往往专指结构化数据抽取。

信息提取_信息抽取 -技术

信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。

由于网上的信息载体主要是文本,所以,信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库!结构化数据抽取(StructuredDataExtraction)的目标是从Web页面中抽取结构化数据。这些结构化数据往往存储在后台数据库中,由网页按一定格式承载着展示给用户。例如论坛列表页面、Blog页面、搜索引擎结果页面等。
信息集成(Informationintegration)是针对结构化数据而言的。其目标是将从不同网站中抽取出的数据统一化后集成入库。其关键问题是如何从不同网站的数据表中识别出意义相同的数据并统一存储。
观点挖掘(Opinionmining)是针对网页中的纯文本而言的。其目标是从网页中抽取出带有主观倾向的信息。

信息提取_信息抽取 -工具

传统的网络数据抽取是针对抽取对象手工编写一段专门的抽取程序,这个程序称为包装器(wrapper)。近年来,越来越多的网络数据抽取工具被开发出来,替代了传统的手工编写包装器的方法。目前的网络数据抽取工具可分为以下几大类(实际上,一个工具可能会归属于其中若干类):
开发包装器的专用语言(LanguagesforWrapperDevelopment):用户可用这些专用语言方便地编写包装器。例如Minerva,TSIMMIS,Web-OQL,florid,Jedi等。
工具1
以HTML为中间件的工具(HTML-awareTools):这些工具在抽取时主要依赖HTML文档的内在结构特征。在抽取过程之前,这些工具先把文档转换成标签树;再根据标签树自动或半自动地抽取数据。代表工具有Knowlesys,MDR。
基于NLP(Naturallanguageprocessing)的工具(NLP-basedTools):这些工具通常利用filtering、part-of-speechtagging、lexicalsemantictagging等NLP技术建立短语和句子元素之间的关系,推导出抽取规则。这些工具比较适合于抽取那些包含符合文法的页面。代表工具有RAPIER,SRV,whisk。
包装器的归纳工具(WrapperInductionTools):包装器的归纳工具从一组训练样例中归纳出基于分隔符的抽取规则。这些工具和基于NLP的工具之间最大的差别在于:这些工具不依赖于语言约束,而是依赖于数据的格式化特征。这个特点决定了这些工具比基于NLP的工具更适合于抽取HTML文档。代表工具有:WIEN,SoftMealy,STALKER。
工具2
基于模型的工具(Modeling-basedTools):这些工具让用户通过图形界面,建立文档中其感兴趣的对象的结构模型,“教”工具学会如何识别文档中的对象,从而抽取出对象。代表工具有:NoDoSE,DEByE。
基于本体的工具(Ontology-basedTools):这些工具首先需要专家参与,人工建立某领域的知识库,然后工具基于知识库去做抽取操作。如果知识库具有足够的表达能力,那么抽取操作可以做到完全自动。而且由这些工具生成的包装器具有比较好的灵活性和适应性。代表工具有:BYU,X-tract。

信息提取_信息抽取 -流程

信息抽取技术 信息抽取 信息抽取-简介,信息抽取-技术
其具体步骤如下(以最通用的‘Knowlesys采集’步骤为例)

流程第一步,确立采集目标,即由用户选择目标网站。
第二步:提取特征信息,即根据目标网站的网页格式,提取出采集目标数据的通性。
第三步:网络信息获取,即利用工具自动的把页面数据把存到数据库。

信息提取_信息抽取 -挑战

信息抽取技术是近十年来发展起来的新领域,遇到许多新的挑战。 信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如新闻报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息。网上文本信息的大量增加导致这方面的研究得到高度重视。

信息提取_信息抽取 -IR和IE的区别

IR的目的是根用户的查询请求从文档库中找出相关的文档。用户必须从找到的文档中翻阅自己所要的信息。、
就其目的而言,IR和IE的不同可表达如下:IR从文档库中检索相关的文档,而IE是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具。
IR和IE不单在目的上不同,而且使用的技术路线也不同。部分原因是因为其目的差异,另外还因为它们的发展历史不同。多数IE的研究是从以规则为基础的计算语言学和自然语言处理技术发源的。而IR则更多地受到信息理论、概率理论和统计学的影响。

信息提取_信息抽取 -IE的历史

自动信息检索已是一个成熟的学科,其历史与文档数据库的历史一样长。但自动信息抽取技术则是近十年来发展起来的。有两个因素对其发展有重要的影响:一是在线和离线文本数量的几何级增加,另一是“消息理解研讨会”(MUC)近十几年来对该领域的关注和推动。 IE的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好,向其他新领域移植的性能却很差。

八十年代以来,美国政府一直支持MUC对信息抽取技术进行评测。各届MUC吸引了许多来自不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。每个参加单位根据预定的知识领域,开发一个信息抽取系统,然后用该系统处理相同的文档库。最后用一个官方的评分系统对结果进行打分。

研讨会的目的是探求IE系统的量化评价体系。在此之前,评价这些系统的方法没有章法可循,测试也通常在训练集上进行。MUC首次进行了大规模的自然语言处理系统的评测。如何评价信息抽取系统由此变成重要的问题,评分标准也随之制定出来。各届研讨会的测试主题各式各样,包括拉丁美洲恐怖主义活动、合资企业、微电子技术和公司管理层的人事更迭。

过去五、六年,IE研究成果丰硕。英语和日语姓名识别的成功率达到了人类专家的水平。通过 MUC用现有的技术水平,我们已有能力建造全自动的 IE系统。在有些任务方面的性能达到人类专家的水平[53]。不过自1993年以来,每届最高组别的有些任务,其成绩一直没有提高(但要记住MUC的任务一届比一届复杂)。一个显著的进步是,越来越多的机构可以完成最高组别的任务。这要归公于技术的普及和整合。目前,建造能达到如此高水平的系统需要大量的时间和专业人员。另外,目前大部分的研究都是围绕书面文本,而且只有英语和其他几种主要的语言。

  

爱华网本文地址 » http://www.413yy.cn/a/8103370103/75547.html

更多阅读

信息技术差生辅导计划 辅导差生情况方法效果

信息技术差生辅导计划培优重在拔尖,辅差重在提高,在课堂上有意识给学生制造机会,让优生吃得饱,让差生吃得好。现在的信息技术课可以充分发挥优生的优势,指名让他带一名或两名差生,介绍方法让差生懂得怎样学,激起他们的学习兴趣。从而提高

声明:《信息抽取技术 信息抽取 信息抽取-简介,信息抽取-技术》为网友轻书年少分享!如侵犯到您的合法权益请联系我们删除