Archive for 一月, 2012

搜索引擎是如何识别中文网站内容的伪原创的?

原创的文章是越来越难搞定了,几乎是没有时间让你原创的,因此很多的人都考虑用伪原创伪原创,就是通过对已被搜索引擎收录的文章的修改加工,让搜索引擎认为这是一篇全新地原创文章。常见的伪原创的做法是什么呢?
  首先,文章的来源。可以直接在网络中找一篇文章,然后对文章的标题进行修改。至于文章内容,可以将文章的段落打乱次序;也可以将文章大意引为己用,用自己的语言写出来;还可以引用原文章中的一段,在文章开头第一段或者最后一段使用自己地话。除了在网络中寻找现成的文章,我们还可以通过yahoo.com或者google.com访问国外的网站,找一些文章直接使用翻译器翻译过来。当然,机器翻译过来的文字是很难读通的,这时为了提高用户体验度,应该对文章进行适当的编辑。
  第一点、关于哪些词是蜘蛛不喜欢的呢?那么我们来看一下:总的来讲搜索引擎会过滤“的,了,呢,啊”之类的重复率非常之高的词,有人会问是为什么呢?很简单,因为这类词是对排名无帮助的无用词语。 第二点、在谈到这里要谈伪源创百度与谷歌是怎么算法,和判定的?为什么有时候转换近义词无效。我们都知道目前在网络市场上有一堆伪源创工具能够将词语伪原创比如将“电脑”伪原创为“计算机”等这样的近义词,那么有什么理由不相信强大的搜索引擎不会伪原创? Read the rest of this entry »

什么是 Sitemap以及如何制作SiteMap XML工具

Sitemap 可方便管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitepmap 形式,就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。
  Google SiteMap Protocol 是Google自己推出的一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级。在Google官方指南中指出加入了Google SiteMap文件的网站将更有利于Google网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括链接地址、更新时间、更新频率和索引优先权。 Read the rest of this entry »

Google是如何判断网站作弊的?

  对于网站的SPAM行为, Google也采取了一系列的反作弊算法,对于网站出现的一下的问题会认为网站存在作弊的行为。
  
  Google详细描述了它界定作弊行为:
  隐藏文本或隐藏链接
  大量使用与网页内容无关的关键词
  页面与 Google 搜索结果的描述不符合
  过渡页
  欺骗性复位向
  专门针对搜索引擎制作的桥页
  大量重复内容的页面或站点
  
  因此,要想网站能持续的长久的发展建议不要出现这些被搜索引擎厌恶的做法。

什么是网站的沙盒效应和百度新站“考察期”?

  沙盒效应(Sandbox),沙盒效应指的是,新的网站在Google里面很难得到好的排名,无论你怎么优化这个网站。换句话说,一个新的网站,可以有很丰富的相关的内容,可以有大量的高质量的链接,网站既对搜索引擎友好,也对用户友好,所有一切都优化的很好,但是在一段时间之内,就是很难在Google里面得到好的排名。
  Google的Sandbox有点像给予新网站的一个试用期。在这段试用期内,新网站几乎无法在竞争比较激烈的关键词下得到好的排名。
  与Google类似,Yahoo也具有沙盒效应。Yahoo沙盒效应持续比较长,而且在对网站的判断中加入了域名注册时间的权重,老站容易在排名中取得好成绩。
  百度新站“考察期”,百度虽然没有明确提出有沙盒概念,但是它对新站也有一个“建立信任期”,一般是2个月。这段时间内,频繁得修改网站结构与标题,会造成百度对站点信任度的降低,蜘蛛活跃度也会相应降低。