赞
踩
目录
第1步:基础知识
第2步:确定宏观与微观理解
第3步:确定您想要的是什么(在合理的成本内)
第4步:理解整个文档(宏观理解)
第5步:提取事实,实体和关系(微观理解)
第6步:保持原产地/可追溯性
第7步:人工辅助过程
一旦识别,提取和清理了用例所需的内容,下一步就是要了解该内容。在许多用例中,具有最重要信息的内容以自然语言(例如英语,德语,西班牙语,中文等)写下,并且不方便地标记。要从此内容中提取信息,您需要依赖某些级别的文本挖掘,文本提取或可能的全自然语言处理(NLP)技术。
互联网内容的典型全文提取包括: