当前位置:首页 > 无名 > 正文

搜索引擎用的是什么算法来搜索?这些算法有何优势

   说说基本的吧,百度谷歌的压箱宝肯定是不公开的,但基本算法是公开发表的,那就是全文检索算法、爬虫算法及PageRank算法。有兴趣的可以去了解一下这些算法的技术细节及优缺点,这里就不赘述了。


    肤浅一点描述,全文检索算法就是自动对网页内容及宏数据进行分词及建立索引(包括反向索引)权重等,那么用户在搜索某关键词或者关键词组合的时候,搜索引擎就可以根据索引数据将相关网页以权重由高到低推给用户。爬虫算法呢,就是给它一个口子,它就访问你全家。比如一个网页的主页被搜索引擎建索引了,建完一看还有子网页(二级页面),子网页还有子网页(三级页面),于是很高兴的顺着链接挨个儿的去建索引。可以用BFS广度优先或者DFS深度优先算法,但深度优先遇到调皮的给你个循环链接就出不来了。当然网站也有自我保护机制,于是就通过Robot协议来跟搜索引擎讲哪些网页让你爬,其余的别爬,一般搜索引擎都是遵守robot协议的。

搜索引擎用的是什么算法来搜索?这些算法有何优势

    看起来很简单对不对,但是如果这样就可以做好搜索引擎,那满地都是搜索引擎了。所以李彦宏也好,谷歌的佩奇和布林也好,后来都用了PageRank算法,前者创立的百度,后者创立了谷歌。PageRank又是怎样的呢?还是简单的说,就是如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高。另外如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高。看看,从孤立的内容索引搜索,一下子就立体了。而且网页的权重会不断的调整,即使这个网页的内容是静态的,这样搜索引擎的结果就更趋向合理了。


    搜索引擎还得赚钱啊,所以光这么全自动的跑着可不行,于是人为的干预出来了。比如网站运营者可以付钱来提高自己网页在某些关键词上的权重,优先展示给用户,或者搜索引擎会优先推自家的相关结果(先推全家桶)。作为网站运营者,还可以做SEO即搜索引擎优化,通过某些手段来提高自己网页的权重和排名,利用的也是搜索引擎的工作机制。后来用户不满足于搜索结果只是一段原文及链接了,给我答案!于是又开始运用知识图谱和语义搜索等技术。这些技术的运用,意味着搜索引擎已经不再局限于网页层面的索引、分发及引流,而是在海量互联网信息的基础上直接满足用户的需求了。这点很可怕,如果做到了完美,那么今后用户都不必访问其它网站了,直接在搜索引擎的主页就能找到答案,而网站们成为了搜索引擎的嫁衣或者炮灰。。。

版权声明:

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2449504386@qq.com 举报,一经查实,本站将立刻删除。