搜索引擎工作原理一共包括三个过程：网页搜索，预处理信息，建立索引。

细化分为：爬行—抓取—处理抓取信息—建立索引—呈现排名

一：爬行

爬行的目的：建立待抓取列表

谷歌爬虫：ddos 百度爬虫：spider

1、发现：

新的网站

被动等待：设置好Robots.txt文件，放在服务器等待爬虫自己过来爬取。（谷歌几周，百度一个月至几个月不等。）

主动引爬虫：写带有链接的软文花钱放在高质量高权重的网站中、利用权重高的博客、在质量高的论坛里发外链。

新的内容

能放首页放首页，否则尽量争取放在顶级栏目（总结：争取权重高的位置放）

Banner图片不如幻灯片，幻灯片不如文字。（总结：文字优先，图片写alt属性）

2、爬虫分析：

查看：网站日志分析。 Log文件里可查看站长工具：查看抓取频次。太高时会造成服务器崩溃。

问题及解决：网站访问突然为0

先site下网站收录看看有没有被惩罚

分析日志爬虫，记录IP（蜘蛛、用户）

统计代码出现问题

3、爬行策略：

深度优先：一层栏目走到底（1百万-1千万个页面）

广度优先：同行栏目分别收集（1百万个页面）

混合：两者的混合使用（5千万-1亿个页面）

4、爬虫抓取障碍：

txt文件设置错误服务器本身的问题（动态IP频繁出现、服务器不稳定）URL超长，搜索引擎爬虫懒得直接不抓。爬虫陷阱

二：抓取

1.网页本身需符合W3C标准

页头信息：状态码：200（正常访问）、404（死链）、301（永久性重定向）、302（临时重定向慎用）、403（禁止访问）、5xx（数据库的问题）编码：建议使用utf-8，gb2312在国外打开是乱码。

2.TDK关键词：

Title：尽量靠前，我们想让爬虫进入到某个页面就看到我们的主旨内容。

长度：33个汉字文章的话25个汉字足矣英文两个字符算一个字

位置：关键词位置前置

次数：不要过于重复太多（栏目可强调关键词，最重要的放前面）

可读性：考虑到用户体验

原创性：蜘蛛喜欢新鲜的东西

Keyword: 首页5-7个、一级栏目5-6个、二级栏目4-5个、列表页3-4个、专题2-3个。 Deion：（栏目必须围绕关键词写）

作用：提高点击率

密度：3-8%

长度：80个汉字

原创性：有利于收录

可读性：用户体验考虑

号召行动：活动、促销一类的页面

3、公共部分：

搜索引擎不会抓取重复部分(爬虫比较喜欢新鲜原创性的东西，重复出现的内容不利于抓取)

4、导航：

主导航、次导航、左导航、SEO导航（标签）、面包屑导航（不要用JS实现）、

5、广告：

Banner图片不如幻灯片，幻灯片不如文字（总结：文字优先，图片写alt属性）。文字有利于爬虫抓取。

6、正文：

关键词：次数合适、密度适中3-8%、位置靠前（金花站长工具可以查出来）

标签：唯一性，整个页面第一重要。含关键词，关键词尽量靠前

标签：不唯一性，第二重要性。

中可加其它的属性

属性：只能用于，意在告诉蜘蛛图片的解释

属性：为链接添加描述性文字，可为用户提供更清楚表达的<a href=https://www.zhungen.com/tag/yisi.html target=_blank class=infotextkey>意思</a>锚文本：（一切讲究相关性）锚文本得有相关的关键词，且面面相关 </p> <p> 三：处理抓取结果（预处理） </p> <p> 爬虫抓取后压缩成数据包返回数据库 </p> <p> 相关性：因为百度算法语境分析+语义分析的原因，所以网站不要出现不相关的内容出现，否则搜索引擎也会撇掉的权威性：各种评奖、<a href=https://www.zhungen.com/tag/wangluo.html target=_blank class=infotextkey>网络</a>评比、申请百度客服增加信任度。 </p> <p> 注：不权威造成的影响：同一篇文章，由于信任度高低，有可能自己被转载发布的文章自己的反倒在别人网站后面。 <br> 去重：一个链接不能有多个页面、同一个关键词不能指向不同链接、同一页面下不要出现不同链接相同关键词、 </p> <p> 四：建立索引 </p> <p> 搜索引擎的索引是反向建立的 </p> <p> 首页 URL 76分 </p> <p> 一级栏目 URL 80分 </p> <p> 二级栏目 URL 96分 </p> <p> 专题页 URL 70分 </p> <p> <a href=https://www.zhungen.com/tag/chanpin.html target=_blank class=infotextkey>产品</a> URL 68分 </p> <p> 百度分词：从前往后、从后往前、统计学、第三步处理抓取结果的<a href=https://www.zhungen.com/tag/shihou.html target=_blank class=infotextkey>时候</a>说到爬虫把抓取的内容压缩成数据包返回数据库。这时搜索引擎的索引库建成。当用户搜某个词（长尾词或短尾词）的时候搜索引擎会根据百度分词规律首先展现搜索词与索引库里完全一致的词。 </p> <p> 原文链接出处：http://www.longlongseo.com/seojichu/600.html </p></p></div> <div class="tags"><a href="/tag/sousuoyinqing.html" title="搜索引擎" class="c1" target="_blank">搜索引擎</a> <a href="/tag/lianjie.html" title="链接" class="c1" target="_blank">链接</a> <a href="/tag/huandengpian.html" title="幻灯片" class="c1" target="_blank">幻灯片</a> <a href="/tag/pachong.html" title="爬虫" class="c1" target="_blank">爬虫</a> <a href="/tag/guanjianci.html" title="关键词" class="c1" target="_blank">关键词</a> <a href="/tag/baidu.html" title="百度" class="c1" target="_blank">百度</a> <a href="/tag/yemian.html" title="页面" class="c1" target="_blank">页面</a> <a href="/tag/suoyin.html" title="索引" class="c1" target="_blank">索引</a> <a href="/tag/sousuo.html" title="搜索" class="c1" target="_blank">搜索</a> </div> <div class="clear"> <div class="shares"> <b>声明：准根文档网所有作品（图片、文字）均由用户自行上传分享，仅供网友学习交流。若您的权利被侵害，请联系 saizw@outlook.com</b> <div id="share"></div> </div></div> <div class="clear"></div> </div> <div class="ny-ad"></div> <nav class="article-nav"><span class="article-nav-prev">上一篇：<a href='/baike/202303/13666.html'>清华电子系大三一事无成怎么办？</a></span><span class="article-nav-next">下一篇：<a href='/baike/202303/13668.html'>死神的前世是谁死神是怎么形成的?</a></span></nav> <div class="ny-ad"></div> <div class="like"> <h3 class="title">猜你喜欢</h3> <div class="piclist likep"> <div class="li"><div class="img"><a href="/baike/202304/230928.html" target="_blank" title="怎样去除鞋子里的湿气"><img src="/d/file/pic/1048.jpg" alt="怎样去除鞋子里的湿气"></a></div><a href="" class="cat"></a><h3><a href="/baike/202304/230928.html" target="_blank" title="怎样去除鞋子里的湿气">怎样去除鞋子里的湿气</a></h3><div class="meta"><span class="author"><i class="iconfont iconhezuo_spe"></i> 准根网</span><span class="time"><i class="iconfont iconshijian"></i> 2023-04-22</span></div></div><div class="li"><div class="img"><a href="/baike/202304/233573.html" target="_blank" title="痔疮流血多怎么治疗"><img src="/d/file/pic/283.jpg" alt="痔疮流血多怎么治疗"></a></div><a href="" class="cat"></a><h3><a href="/baike/202304/233573.html" target="_blank" title="痔疮流血多怎么治疗">痔疮流血多怎么治疗</a></h3><div class="meta"><span class="author"><i class="iconfont iconhezuo_spe"></i> 准根网</span><span class="time"><i class="iconfont iconshijian"></i> 2023-04-23</span></div></div><div class="li"><div class="img"><a href="/baike/202304/234022.html" target="_blank" title="为什么专科学信网查不到"><img src="/d/file/pic/735.jpg" alt="为什么专科学信网查不到"></a></div><a href="" class="cat"></a><h3><a href="/baike/202304/234022.html" target="_blank" title="为什么专科学信网查不到">为什么专科学信网查不到</a></h3><div class="meta"><span class="author"><i class="iconfont iconhezuo_spe"></i> 准根网</span><span class="time"><i class="iconfont iconshijian"></i> 2023-04-23</span></div></div><div class="li"><div class="img"><a href="/baike/202304/234690.html" target="_blank" title="甲流先发烧还是先拉肚子"><img src="/d/file/pic/1028.jpg" alt="甲流先发烧还是先拉肚子"></a></div><a href="" class="cat"></a><h3><a href="/baike/202304/234690.html" target="_blank" title="甲流先发烧还是先拉肚子">甲流先发烧还是先拉肚子</a></h3><div class="meta"><span class="author"><i class="iconfont iconhezuo_spe"></i> 准根网</span><span class="time"><i class="iconfont iconshijian"></i> 2023-04-23</span></div></div><div class="li"><div class="img"><a href="/baike/202304/234986.html" target="_blank" title="qq附近人添加的上门是真的吗"><img src="/d/file/pic/855.jpg" alt="qq附近人添加的上门是真的吗"></a></div><a href="" class="cat"></a><h3><a href="/baike/202304/234986.html" target="_blank" title="qq附近人添加的上门是真的吗">qq附近人添加的上门是真的吗</a></h3><div class="meta"><span class="author"><i class="iconfont iconhezuo_spe"></i> 准根网</span><span class="time"><i class="iconfont iconshijian"></i> 2023-04-23</span></div></div><div class="li"><div class="img"><a href="/baike/202304/235209.html" target="_blank" title="扫码送杯子有风险吗"><img src="/d/file/pic/472.jpg" alt="扫码送杯子有风险吗"></a></div><a href="" class="cat"></a><h3><a href="/baike/202304/235209.html" target="_blank" title="扫码送杯子有风险吗">扫码送杯子有风险吗</a></h3><div class="meta"><span class="author"><i class="iconfont iconhezuo_spe"></i> 准根网</span><span class="time"><i class="iconfont iconshijian"></i> 2023-04-23</span></div></div><div class="clear"></div> </div></div> <div class="ny-ad"></div> </div> <div class="sidebar"> <div class="widget postlist"> <h3>最新文章</h3> <ul class="hasimg"> <li><a href="/baike/202304/257392.html" class="img" title="网购被骗怎么办(网购被骗怎么办不能退钱)"><img src="/d/file/pic/384.jpg" alt="网购被骗怎么办(网购被骗怎么办不能退钱)"></a><a href="/baike/202304/257392.html" title="网购被骗怎么办(网购被骗怎么办不能退钱)">网购被骗怎么办(网购被骗怎么办不能退钱)</a><p class="meta"><span><i class="iconfont iconshijian"></i> 05-12</span></p></li><li><a href="/baike/202304/257391.html" class="img" title="哪些银行信用卡好办额度又高(哪些银行信用卡好批额度高)"><img src="/d/file/pic/518.jpg" alt="哪些银行信用卡好办额度又高(哪些银行信用卡好批额度高)"></a><a href="/baike/202304/257391.html" title="哪些银行信用卡好办额度又高(哪些银行信用卡好批额度高)">哪些银行信用卡好办额度又高(哪些银行信用卡好批额度高)</a><p class="meta"><span><i class="iconfont iconshijian"></i> 05-12</span></p></li><li><a href="/baike/202304/257390.html" class="img" title="磁铁衣服扣子对人体有害吗？(磁铁衣服扣子对人体有害吗)"><img src="/d/file/pic/31.jpg" alt="磁铁衣服扣子对人体有害吗？(磁铁衣服扣子对人体有害吗)"></a><a href="/baike/202304/257390.html" title="磁铁衣服扣子对人体有害吗？(磁铁衣服扣子对人体有害吗)">磁铁衣服扣子对人体有害吗？(磁铁衣服扣子对人体有害吗)</a><p class="meta"><span><i class="iconfont iconshijian"></i> 05-12</span></p></li><li><a href="/baike/202304/257389.html" class="img" title="吃灵芝孢子粉大便发黑正常吗？"><img src="/d/file/pic/704.jpg" alt="吃灵芝孢子粉大便发黑正常吗？"></a><a href="/baike/202304/257389.html" title="吃灵芝孢子粉大便发黑正常吗？">吃灵芝孢子粉大便发黑正常吗？</a><p class="meta"><span><i class="iconfont iconshijian"></i> 05-12</span></p></li><li><a href="/baike/202304/257388.html" class="img" title="月见草的养殖方法和注意事项(月见草的种植方法和注意事项)"><img src="/d/file/pic/749.jpg" alt="月见草的养殖方法和注意事项(月见草的种植方法和注意事项)"></a><a href="/baike/202304/257388.html" title="月见草的养殖方法和注意事项(月见草的种植方法和注意事项)">月见草的养殖方法和注意事项(月见草的种植方法和注意事项)</a><p class="meta"><span><i class="iconfont iconshijian"></i> 05-12</span></p></li><li><a href="/baike/202304/257387.html" class="img" title="注塑机调气纹的技巧有哪些"><img src="/d/file/pic/595.jpg" alt="注塑机调气纹的技巧有哪些"></a><a href="/baike/202304/257387.html" title="注塑机调气纹的技巧有哪些">注塑机调气纹的技巧有哪些</a><p class="meta"><span><i class="iconfont iconshijian"></i> 05-12</span></p></li></ul> </div></div></div> </section> <footer class="footer"> <div class="container"> <div class="footer-links"> <ul> <li>推荐栏目：</li> <li><a href="/qitafanwen/" title="其他范文">其他范文</a></li><li><a href="/gongzuofanwen/" title="工作范文">工作范文</a></li><li><a href="/xueshengpingyu/" title="学生评语">学生评语</a></li><li><a href="/tiaojushuxin/" title="条据书信">条据书信</a></li><li><a href="/xindetihui/" title="心得体会">心得体会</a></li><li><a href="/yanjiangzhici/" title="演讲致辞">演讲致辞</a></li><li><a href="/baogaofanwen/" title="报告范文">报告范文</a></li><li><a href="/jingxuan/" title="精选综合">精选综合</a></li><li><a href="/hetongfanwen/" title="合同范文">合同范文</a></li><li><a href="/qiuzhilizhi/" title="求职离职">求职离职</a></li><li><a href="/kouhaobiaoyu/" title="口号标语">口号标语</a></li><li><a href="/ziwojiandingfanwen/" title="自我鉴定范文">自我鉴定范文</a></li></ul> </div> <p class="copyright">COPYRIGHT 2019 - 2024 <a href="https://www.zhungen.com/">准根文档网®</a>. ALL RIGHTS RESERVED. | <a href="/tags/">标签云</a> | <a href="https://beian.miit.gov.cn/" target="_blank" rel="nofollow">晋ICP备2022007449号-5</a> | <a href="mailto:saizw@outlook.com">联系站长</a></p></div> </footer> <a href="javascript:void(0);" class="back-to-top iconfont iconxiangshang cd-is-visible"></a> <script type="text/javascript" src="/skin/zhungen/js/guide.js"></script> <script type="text/javascript"> var getWindow = $(window); getWindow.scroll(function(){ var scrollHeight = getWindow.scrollTop(); var contentHeight = $(".content").height() - $(".sidebar").height(); console.log(contentHeight) if(scrollHeight>40 && scrollHeight<contentHeight+40){ $(".sidebar").css({ position:"absolute", right:"0px", top:scrollHeight-40+"px" }) }else if(scrollHeight <= 40){ $(".sidebar").css({ position:"absolute", right:"0px", top:"0px" }) } }) </script> </body> </html>

普及一下SEO搜索引擎的工作原理

标签：唯一性，整个页面第一重要。 含关键词，关键词尽量靠前

标签：不唯一性，第二重要性。

标签：唯一性，整个页面第一重要。含关键词，关键词尽量靠前