搜索平台要对所有的网页进行检索。
最关键的来了。
怎么把网页排名?
理论上,肯定是应该把最相关最符合用户需求的网页排在前列。
这就是最大的技术难度了。
怎么来判断一个网页,最符合用户的需求?
是按关键词的数量排列。
网页里关键词出现的越多,排名就越靠前。
就比如搜索“旅游”。
一个网页里,全文检索后,“旅游”两个字出现了100次;另一个网页里,“旅游”这个关键词出现了101次。
那么,后者的排名就会靠前。
关键词最多的网页,就会排在搜索首页的第一位!
这种方法简单粗暴。
缺点明显。
需要爬虫所有网页,需要检索全部内容……需要的算力太多了,就导致服务器的压力太大,搜索速度太慢。
还有一点,内容也不够精准。
谁说关键词出现的次数越多,内容就越好?
真正的好文章,可能是全文都没有“旅游”二字,但处处都是围绕着“旅游”的点点滴滴。却因为算法的不足,缺乏关键字,无法被用户搜索到。
周浩然的搜索思想,就跟他这段时间的交流会里一直表达的“科技民主化”的提议很相符。
采用的是投票制。
谁获得的投票多,谁的网站就排名靠前!
投票的策略,就是反向链接。
一个旅游内容的网页,会链接接到另一个网页;另一个旅游内容的网页,可能也会链接到相同的网页……
这个超链接,就是投票!
要是100个旅游相关的网页,都同时连接到了同一个旅游主页。
那就说明这个旅游主页获得了100个网页的认可,获得了100票!
一个旅游网页,被许许多多的旅游相关的网页都链接了,都关联上了,就充分说明这个旅游网页获得了业内同行的认可!
价值含量极高!
这就是投票制。
靠着投票,来把所有网页内容进行排列,按照票数的多少来排名先后,推荐给用户。
内容质量就大大提升了。
用超链检索取代全文检索,需要的算力也会大幅度减少,搜索速度也就大大提高了。
这可以说是充分的践行了互联网“科技民主化”的大理念。
恰好,斯坦福大学里也有研究生,在做类似的课题研究。
谭明亮长吁短叹。
觉得好吃亏。
周浩然却兴致勃勃,跟着两位老教授,一起去了这个“BackRub”项目实验室。
这个项目组,一共就只有四个研究人员。
两个博士,两个硕士。
周浩然在意的是那两个博士。
“你好,我叫拉里,拉里·佩奇。”
“周先生,你前天的座谈会,我去现场听了,真让人心潮澎湃!你说的‘科技民主化’的概念真好,我是谢尔盖,谢尔盖·布林,很高兴认识你。”
看着眼前这两个蓬头垢面的年轻人。
周浩然长舒了一口气。
这下妥了!
找到正主了!
没错,就是他俩!
:https://u。手机版:https://u