Skip to content

Latest commit

 

History

History
196 lines (117 loc) · 10.2 KB

gentle-introduction-text-summarization.md

File metadata and controls

196 lines (117 loc) · 10.2 KB

文本摘要的温和介绍

原文: https://machinelearningmastery.com/gentle-introduction-text-summarization/

文本摘要是创建较长文本文档的简短,准确和流畅摘要的问题。

非常需要自动文本摘要方法来解决在线可用的不断增长的文本数据量,以便更好地帮助发现相关信息并更快地消费相关信息。

在这篇文章中,您将发现自然语言处理中的文本摘要问题。

阅读这篇文章后,你会知道:

  • 为什么文本摘要很重要,特别是考虑到互联网上提供的大量文本。
  • 您可能每天都会遇到的文本摘要示例。
  • 深度学习方法在自动文本摘要中的应用和前景。

让我们开始吧。

A Gentle Introduction to Text Summarization

文本摘要的温和介绍 Dmitry Sumin 的照片,保留一些权利。

概观

这篇文章分为 5 部分;他们是:

  1. 文本摘要
  2. 什么是自动文本摘要?
  3. 文本摘要的示例
  4. 如何总结文本
  5. 深度学习文本摘要

文本摘要

有大量的文字材料,它每天都在增长。

想想互联网,包括网页,新闻文章,状态更新,博客等等。数据是非结构化的,我们可以做的最好的方法是使用搜索和浏览结果。

非常需要将大部分文本数据缩减为捕获显着细节的更短,更集中的摘要,以便我们可以更有效地导航它,以及检查较大的文档是否包含我们正在寻找的信息。

数字文档形式的文本信息很快就会累积到大量数据中。这些大量文档中的大部分都是非结构化的:它不受限制,并且没有被组织到传统数据库中。因此,处理文件是一项敷衍的任务,主要是由于缺乏标准。

我们不可能手动创建所有文本的摘要;非常需要自动方法。

在 2014 年关于题为“ 自动文本摘要 ”的书中,作者提供了我们需要自动文本摘要工具的 6 个理由。

  1. 摘要减少了阅读时间。
  2. 在研究文档时,摘要使选择过程更容易。
  3. 自动摘要提高了索引的有效性。
  4. 自动摘要算法的偏差小于人类摘要。
  5. 个性化摘要在问答系统中非常有用,因为它们提供个性化信息。
  6. 使用自动或半自动摘要系统,商业抽象服务可以增加他们能够处理的文本数量。

现在我们知道我们需要自动文本摘要,让我们更好地定义文本摘要的含义。

什么是自动文本摘要?

自动文本摘要或仅文本摘要是创建较长文档的简短一致版本的过程。

文本摘要是从源(或多个源)中提取最重要信息以生成特定用户(或用户)和任务(或任务)的简化版本的过程。

我们(人类)通常擅长这种类型的任务,因为它涉及首先理解源文档的含义,然后在新描述中提炼意义并捕获显着的细节。

因此,自动创建文本摘要的目标是使得到的摘要与人类编写的摘要一样好。

自动摘要工作的理想是开发一种技术,通过该技术,机器可以生成成功模仿人类生成的摘要的摘要。

仅仅生成捕获源文档要点的单词和短语是不够的。摘要应该准确,并且应该作为新的独立文档流畅地阅读。

自动文本摘要是在保留关键信息内容和整体含义的同时生成简洁流畅的摘要的任务

接下来,让我们通过一些例子来理解这种理解。

文本摘要的示例

更大的文档摘要有很多原因和用途。

可能会想到的一个例子是创建一篇长篇新闻文章的简明摘要,但是我们每天都会遇到更多的文本摘要案例。

在他们 1999 年关于题为“ 自动文本摘要的进展 ”主题的书中,作者提供了一个有用的列表,列出了每天的文本摘要示例。

  • 头条新闻(来自世界各地)
  • 大纲(学生笔记)
  • 会议纪要(会议纪要)
  • 预览(电影)
  • 大纲(肥皂剧列表)
  • 评论(书籍,CD,电影等)
  • 摘要(电视指南)
  • 传记(简历,ob 告)
  • abridgments(儿童莎士比亚)
  • 公告(天气预报/股市报告)
  • 声音叮咬(当前问题上的政治家)
  • 历史(显着事件的年表)

很明显,我们阅读和使用摘要的次数比我们最初认为的要多。

如何总结文本

总结文本文档有两种主要方法;他们是:

1.提取方法。 2.抽象方法。

文本摘要的不同维度通常可以基于其输入类型(单个或多个文档),目的(通用,特定于域或基于查询)和输出类型(提取或抽象)来分类。

提取文本摘要涉及从源文档中选择短语和句子以构成新摘要。技术涉及对短语的相关性进行排序,以便仅选择与源的含义最相关的那些。

抽象文本摘要涉及生成全新的短语和句子以捕获源文档的含义。这是一种更具挑战性的方法,但也是人类最终使用的方法。传统方法通过从源文档中选择和压缩内容来进行操作。

...自动摘要有两种不同的方法:提取和抽象。摘要摘要方法通过识别文本的重要部分并逐字生成它们来工作; [...]抽象概括方法旨在以新的方式产生重要的材料。换句话说,他们使用先进的自然语言技术解释和检查文本,以生成一个新的较短文本,传达原始文本中最重要的信息

传统上,大多数成功的文本摘要方法都是提取方法,因为它是一种更简单的方法,但抽象方法可以为这个问题提供更一般的解决方案。

深度学习文本摘要

最近深度学习方法已经显示出有希望的文本摘要结果。

已经提出了通过应用深度学习方法进行自动机器翻译的方法,特别是通过将文本摘要的问题构建为序列到序列学习问题。

抽象文本摘要是生成标题或简短摘要的任务,该摘要由捕获文章或段落的显着想法的几个句子组成。 [...]此任务也可以自然地转换为将源文档中的单词的输入序列映射到称为摘要的单词的目标序列。

这些自动文本摘要的深度学习方法可以被认为是抽象方法,并通过学习特定于源文档的语言生成模型来生成全新的描述。

......序列到序列模型的最近成功,其中循环神经网络(RNN)既读取又自由生成文本,使得抽象概括成为可能

与提取方法相比,深度学习方法的结果还不是最先进的,但是在受约束的问题上取得了令人印象深刻的结果,例如为与其他抽象方法相媲美或超出其他抽象方法的新闻文章生成标题。

该方法的前景是,模型可以在没有专门的数据准备或子模型的情况下进行端到端的训练,并且模型完全是数据驱动的,无需编写专门的词汇表或专业预处理的源文档。

......我们提出了一种完全数据驱动的抽象句子摘要方法。 [...]该模型结构简单,可以轻松地进行端到端的训练,并可以扩展到大量的训练数据。

进一步阅读

如果您要深入了解,本节将提供有关该主题的更多资源。

文字摘要论文

深度学习文本摘要论文

图书

用品

摘要

在这篇文章中,您发现了自然语言处理中的文本摘要问题。

具体来说,你学到了:

  • 为什么文本摘要很重要,特别是考虑到互联网上提供的大量文本。
  • 您可能每天都会遇到的文本摘要示例。
  • 深度学习方法在自动文本摘要中的应用和前景。

你有任何问题吗? 在下面的评论中提出您的问题,我会尽力回答。