seo伪原创技术原理分析,php实现伪原创示例
现在seo伪原创一般采用分词引擎以及动态同义词库,模拟百度(baidu),谷歌(google)等中文切词进行伪原创,生成后的伪原创文章更准确更贴近百度和谷歌收录。
百度如何看待一个采集内容,但浏览体验和访问性都好的网站?
百度站长白皮书上的说明:对于百度来说,能够提供满足用户需求的内容,有良好用户体验的网站就是好网站,有些站点从外站转载来的内容,经过加工提供了内容增益,更好的满足了用户需求,同样可以得到好的展现。
只要你的内容满足用户的需求,用户体验良好,一样能够得到好的展现。
这就说明了采集过来的内容并不一定是垃圾内容,只要经过用户需求的判定和满足;文章内容增益;网站用户体验提升。一样是优质的内容。
搜索引擎本身的定位就是一个庞大的资料平台,面对的目标用户是查找资料的用户,而互联网上用户群体最大的正是来查找资料的用户,搜索引擎展现出来的结果正是为这些用户提供他们想要的答案。
下面举例:
原创:虽然文章的确是自己写的原创文章,但是文章的内容排版没考虑到用户的体验,内容的方面也没别的网站完善,这时你还觉得这篇原创文章还是高质量内容吗?有解决用户的问题吗?
伪原创:伪原创的文章虽然是抄回来的,但经过正确的处理,对文章原作者所想表达的意思进行完善,同时加入自身的观点,语句通顺,这时这篇伪原创文章的质量就相当优质,能够完整的解决用户的问题,而且用户看得舒服。
采集:采集直接复制伪原创的内容,没有经过处理,网站的页面体验优秀。
从用户角度来看毫无疑问选择的顺序是:伪原创>采集>原创。
伪原创和采集这两者的体验十分优秀也是用户的选择方式,很多时候,用户并不在意究竟这篇文章是谁写的,而是在意这篇文章能不能够解决我的问题,看起来舒不舒服。
那么这时,搜索引擎从用户角度出发会把谁放在前面,大家可想而知了吧?
本人十分推荐原创的,而且上面所说的伪原创是建立在正确的处理,对原文内容进行了补充、排版和完善,里面包含的操作量并不低于完全的原创,然而现实中很多人并没做到。很多人还停留在采集的范畴,认为采集过来改改词语就是伪原创其实不是伪原创。
互联网那么大,你所想到的内容,未必别人就没想到,也肯定已经有人写了跟你内容相似的文章,而且你敢保证你的文章就一定比他好吗?
因此我们在鼓励原创的同时要确保,我们写出来的文章具有可读性,是能够真真正正的解决用户的问题,阅读感官优秀,但也不能强求原创,毕竟每个人的写作能力不一,对行业了解的深浅也不一样,适当的进行伪原创处理也是可以的,没必要情绪化的过分抵制,更不要再抱着为了更新而更新的心态。
--------------------------------
Google对于伪原创的判别要比百度来的准的多,Google是通过哪些方面来判定原创文章与伪原创?
1.内容相似度,是搜索引擎去重用的最多的算法,用的比较多的一种是TF/IDF算法,这个也是计算相关性的算法,TF-IDF的主要意思是说:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
2.数据指纹,当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的。还有对向量进行对比,也就是TF词频(关键词密度)等等来判断。
现在很多伪原创工具,只是把关键词进行了替换,标点符号指纹是不变的,甚至连TF词频都不变。对文章进行段落的重拍,这个的确是打乱了标点符号,但是向量和词频问题依然存在。
3.代码噪音,一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。
-------------------------------
一些站点,其内容往往是经过搜集整理后聚合而成的,那么这些站点对用户来说就是有价值的,其相对应的文章理应获得较好的排名。
从上面分析可以看出,增加自动摘要,自动标签,分类这些都是伪原创的必要手段。
做成内容聚合,专题,专栏,日报类型的这个google也是推荐的。
我需要重视两类文章即可。一是原创文章,二是有价值的信息聚合站点下的文章。
==================================
SEO伪原创工具有下面的优点:
1、采用引擎独有的分析规则和算法分割文章,能很好的匹配所有的搜索引擎。
2、独有的同义词替换词库,可以在不改变文章语义的前提下生成原创文章。
3、独有文章段落打乱和重组功能,支持生成繁体文章。
4、程序全新安装,源码体积小。
5、可以制作纯网页格式的伪原创文章,支持HTML超文本标识语言。
SEO伪原创工具功能特点:
1、支持保持文章原意的近意词替换;
2、支持改变文章原意的段落随机混乱、名词替换;
3、支持对搜索引擎优化(seo)友好的自定义关键词替换,自定义关键词、html随机插入文章;
4、可对单篇文章或批量txt执行伪原创操作;
5、所有词库全部开放,您可以自己对词库设定;
6、支持词库的批量导入
7、可视化的html代码编辑
8、可在发布文章时动态执行伪原创操作
在线伪原创工具有下面的优点:
1、采用引擎独有的分析规则和算法分割文章,能很好的匹配所有的搜索引擎。
2、独有的同义词替换词库,可以在不改变文章语义的前提下生成原创文章。
3、整合了目前主流的同义词库,词库功能非常强大,程序不间断更新中,无需安装,无需升级,时刻保持最新伪原创文章。
4、增加关键字加链接,关键字加粗,文章底部加版权等强大功能。
5、独有的分词引擎以及自创同义词库,模拟百度(baidu),谷歌(google)等中文切词进行伪原创,生成后的伪原创文章更准确更贴近百度和谷歌收录。
==============================
下面是最简单的PHP伪原创类,基于词典的同义词替换,由于搜索引擎算法更新单纯替换同义词已经不行了,所以现在用不到了。
class WycClass { private $replaced = array(); private $dicts = array(); function __construct() { $this->dicts = require(dirname(__FILE__).'/dict.php'); } function replace($text) { foreach($this->dicts as $key => $val) { if(preg_match("/".$key."/", $text) && !in_array($key, $this->replaced)) { $text = str_replace($key, $val, $text); array_push($this->replaced, $val); } } return $text; } }
---------------------------
同目录下的dict.php(只选取了一部分同义词作为示例,可以自己添加)
<?php return array( '光说不做' => '言而不行', '言而不行' => '光说不做', '罪有应得' => '咎由自取', '咎由自取' => '罪有应得', '黑沉沉' => '黑洞洞', '黑洞洞' => '黑沉沉', '黑魆魆' => '黑沉沉', '黑糊糊' => '黑沉沉', '黑黝黝' => '黑沉沉', '典礼' => '仪式', '仪式' => '典礼', '封锁' => '封闭', '封闭' => '封锁', '数量' => '数目', '数目' => '数量', '改行' => '转业', '转业' => '改行', '豪举' => '壮举', '壮举' => '豪举', '纯挚' => '纯真', '纯真' => '纯挚', '戳穿' => '揭穿', '揭穿' => '戳穿', '慈爱' => '慈祥', '慈祥' => '慈爱', '次序' => '顺序', '顺序' => '次序', '聪慧' => '聪明', '聪明' => '聪慧', '聪颖' => '伶俐', '伶俐' => '聪颖', '葱茏' => '葱郁', '洪亮' => '响亮', '嘹亮' => '响亮', '消费' => '花费', '花费' => '消费', '呼叫' => '呼唤', '呼唤' => '呼叫', '村庄' => '村落', '村落' => '村庄', '村子' => '村里', '村里' => '村子', '真心' => '真诚', '祝福' => '祝愿', '呵呵' => '嘿嘿', '功效' => '功用', '材质' => '材料', '材料' => '材质', '尺码' => '尺寸', '尺寸' => '尺码', '销售' => '出售', '出售' => '销售', '店主' => '掌柜', '掌柜' => '店主', );
另外说一下现在很多微信公众号关于抄袭,洗文无法维权(或维权成本很高,举报基本无用)的也是很令原创者头痛的事情,微信由于统一格式,原创阅读体验基本上还可以的,伪原创要超过原创必须对内容有深入了解进行再加工创作才能给用户提供更有价值的东西。
最后欢迎大家评论讨论,有更好的伪原创或者反伪原创的方法和思路的请提供,有自动化伪原创相关的资料可以探讨下。