News/行業(yè)動(dòng)態(tài)
分享你我感悟
您當(dāng)前位置>首頁>新聞資訊>行業(yè)動(dòng)態(tài)
網(wǎng)站robots.txt的相關(guān)知識(shí)分享
發(fā)表時(shí)間:2021-05-07 11:00:45
文章作者:管理員
瀏覽次數(shù):769
一般情況,網(wǎng)站的根目錄都會(huì)有一個(gè)robots.txt文件,是一個(gè)純文本文檔。那這個(gè)robots.txt文件是什么,有什么作用呢?臨沂網(wǎng)站建設(shè)公司為您做出以下分享。
robots基本介紹
robots.txt協(xié)議(也稱為爬蟲協(xié)議、爬蟲規(guī)則、機(jī)器人協(xié)議等。)主要用于規(guī)范爬蟲抓取網(wǎng)頁。robots協(xié)議里面記錄著規(guī)則,爬蟲爬取后會(huì)按照規(guī)則爬取網(wǎng)站。簡(jiǎn)單的理解,robots協(xié)議里面會(huì)告訴搜索引擎爬蟲,那些鏈接是允許爬取的,那些鏈接是不允許抓取的。
robots協(xié)議語法
robots協(xié)議的語法分為三個(gè)。分別是User-agent、Disallow、Allow。下面我們來一起了解下。
User-agent: 指的是那些搜索引擎執(zhí)行以下協(xié)議。如百度:User-agent: baiduspider。*號(hào)可以代表全部,代碼為:User-agent: *。
Disallow:指禁止抓取的意思。如語法:Disallow: /a ,就是禁止搜索引擎抓取帶有 /a 這個(gè)關(guān)鍵詞的鏈接。
Allow:指允許抓取的意思。通常默認(rèn)就是允許抓取,故很少會(huì)用到該命令。
Robots協(xié)議怎么用
1、當(dāng)網(wǎng)站中存在隱私頁面不想被搜索引擎抓取的時(shí)候,可以使用robots。
2、當(dāng)網(wǎng)站頁面存在多個(gè)鏈接的時(shí)候,可以用robots禁用一條,允許搜索引擎只收錄一條。(通常使用靜態(tài)url后,應(yīng)該屏蔽動(dòng)態(tài)url)
以上就是臨沂網(wǎng)站建設(shè)公司為您做出的相關(guān)分享,希望能夠使您對(duì)此有更多的了解。