关闭。此问题不符合堆栈溢出准则。它目前不接受答案。
<hr class=“my12大纲无baw0 bb bc-POWER-400”/
想改进此问题吗?更新问题,使其成为堆栈溢出的主题。
已于8年前关闭
改进这个问题
我一直在使用大量ajax请求处理一些高级javascript应用程序来呈现我的页面,我必须跟着https://developers.google.com/webmasters/ajax-crawling/?hl=fr .这告诉我们要做一些事情,比如:重新设计我们的链接,创建html快照,…使网站可搜索
我想知道为什么爬虫程序不运行javascript来获取呈现的页面及其索引。这背后有什么原因吗?或者这是未来可能出现的搜索引擎缺少的功能
尽管GoogleBot实际上处理用js编写的站点,但ajax站点的最大问题是,即使GoogleBot可以执行js并处理ajax请求
网络爬虫不太可能知道页面何时完成加载。因此,网络爬虫可以在开始执行ajax请求之前加载页面并对页面进行索引。比方说,将在页面滚动上执行脚本。谷歌机器人很可能不会触发所有可能的事件
另一个问题是导航
由于导航可以在不重新加载页面的情况下完成,一个url可以映射到多个“查看结果”。因此,谷歌要求开发人员保留一份使用静态页面的页面副本,以支持否则无法访问的页面。他们将被编入索引
如果你的站点可以通过一个完全限定的url访问每个页面,那么你应该不会有索引站点的问题
也就是说,脚本将要运行。但不确定爬虫程序是否会在处理完所有脚本后为页面编制索引
这里有一个链接:
谷歌机器人更聪明:它是在2010年写的,我们可以期待网络爬虫从那时起变得更聪明