信息提取

重要性

将现实中文档的自然语言数字化、结构化。与关系型数据库联系紧密

极大减少人力成本,提高效率

应用

建筑

NLP最有价值的任务,没有之一

保险

法律

金融

招聘

......

教育

步骤

确定业务需求

文档预处理

PDF图片格式怎么办?

篇幅过长怎么办?

文档结构信息如何保留?

结合机器视觉技术OCR

分段处理

Json文件中保留四个字段

文本内容

所在位置

字体

大小

我们需要哪些信息,不要哪些信息?

抽取策略

从开头字段内容中抽取,若没抽到再找下一个字段的文本内容

主要模型

实体抽取

关系抽取

阅读理解