当前位置:   article > 正文

大数据开发 NLP文本相似度(1)

大数据开发 NLP文本相似度(1)

• :一个词在文章中出现的次数

• 也不是绝对的!出现次数最多的是“的”“是”“在”,这类最常用的词,

叫做停用词(stop words)

• 停用词对结果毫无帮助,必须过滤掉的词

• 如果某个词比较少见,但是它在这篇文章中多次出现,那

么它很可能反映了这篇文章的特性,正是我们所需要的关键词

  1. 反文档频率 -IDF

• 在词频的基础上,赋予每一个词的权重,进一步体现该词的重要性

• 最常见的词(“的”、“是”、“在”)给予最小的权重

• 较常见的词(“国内”、“中国”、“报道”)给予较小的权重

• 较少见的词(“养殖”、“维基”、“涨停”)较大权重

4.TF·IDF值越大 该词的越重要

反文档频率(IDF)= log( 语料库文档数/包含这个关键词的文档数+1)

应用:

  • 相似文章

• 使用TF-IDF算法,找出两篇文章的关键词;

• 每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合

中的词的词频;

• 生成两篇文章各自的词频向量;

• 计算两个向量的余弦相似度,值越大就表示越相似。

  • 文章摘要

在这里插入图片描述

5.L C S 定 义

• 最长公共子序列(Longest Common Subsequence)

• 一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列

• 两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序

– 字符串12455与245576的最长公共子序列为2455

– 字符串acdfg与adfc的最长公共子序列为adf

• 注意区别最长公共子串(Longest Common Substring)

– 最长公共子串要求连接

L C S 作 用

• 求两个序列中最长的公共子序列算法

– 生物学家常利用该算法进行基因序列比对,以推测序列的结构、功能和演化过程。

• 描述两段文字之间的“相似度”

– 辨别抄袭,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列

外的部分提取出来,该方法判断修改的部分

求 解 — — 暴力穷举法

• 假定字符串X,Y的长度分别为m,n;

• X的一个子序列即下标序列{1,2,……,m}严格递增子序列,因此,X共有2

m个

不同子序列;同理,Y有2

n个不同子序列;

• 穷举搜索法时间复杂度O(2
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数初中级Android工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则近万的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Android移动开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img

img

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Android开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注:Android)

总结

最后为了帮助大家深刻理解Android相关知识点的原理以及面试相关知识,这里放上相关的我搜集整理的24套腾讯、字节跳动、阿里、百度2019-2021面试真题解析,我把技术点整理成了视频和PDF(实际上比预期多花了不少精力),包知识脉络 + 诸多细节

还有 高级架构技术进阶脑图、Android开发面试专题资料 帮助大家学习提升进阶,也节省大家在网上搜索资料的时间来学习,也可以分享给身边好友一起学习。

一线互联网面试专题

379页的Android进阶知识大全

379页的Android进阶知识大全

网上学习 Android的资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。希望这份系统化的技术体系对大家有一个方向参考。

2021年虽然路途坎坷,都在说Android要没落,但是,不要慌,做自己的计划,学自己的习,竞争无处不在,每个行业都是如此。相信自己,没有做不到的,只有想不到的。祝大家2021年万事大吉。

《Android学习笔记总结+移动架构视频+大厂面试真题+项目实战源码》,点击传送门即可获取!

如此。相信自己,没有做不到的,只有想不到的。祝大家2021年万事大吉。

《Android学习笔记总结+移动架构视频+大厂面试真题+项目实战源码》,点击传送门即可获取!
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/419782
推荐阅读
相关标签
  

闽ICP备14008679号