Please enable JavaScript.
Coggle requires JavaScript to display documents.
信息提取 (应用 (建筑, 保险, 法律, 金融, 招聘, ......, 教育), 步骤 (文档预处理 (PDF图片格式怎么办?…
信息提取
应用
建筑
保险
法律
金融
招聘
......
教育
步骤
文档预处理
PDF图片格式怎么办?
结合机器视觉技术OCR
篇幅过长怎么办?
分段处理
文档结构信息如何保留?
Json文件中保留四个字段
文本内容
所在位置
字体
大小
主要模型
实体抽取
关系抽取
阅读理解
确定业务需求
我们需要哪些信息,不要哪些信息?
抽取策略
从开头字段内容中抽取,若没抽到再找下一个字段的文本内容
重要性
将现实中文档的自然语言数字化、结构化。与关系型数据库联系紧密
极大减少人力成本,提高效率
NLP最有价值的任务,没有之一