網(wǎng)站robots.txt的相關(guān)知識(shí)分享

發(fā)表時(shí)間：2021-05-07 11:00:45

文章作者：管理員

瀏覽次數(shù)：769

一般情況,網(wǎng)站的根目錄都會(huì)有一個(gè)robots.txt文件,是一個(gè)純文本文檔。那這個(gè)robots.txt文件是什么,有什么作用呢?臨沂網(wǎng)站建設(shè)公司為您做出以下分享。

robots基本介紹

robots.txt協(xié)議(也稱為爬蟲協(xié)議、爬蟲規(guī)則、機(jī)器人協(xié)議等。)主要用于規(guī)范爬蟲抓取網(wǎng)頁。robots協(xié)議里面記錄著規(guī)則，爬蟲爬取后會(huì)按照規(guī)則爬取網(wǎng)站。簡(jiǎn)單的理解，robots協(xié)議里面會(huì)告訴搜索引擎爬蟲，那些鏈接是允許爬取的，那些鏈接是不允許抓取的。

robots協(xié)議語法

robots協(xié)議的語法分為三個(gè)。分別是User-agent、Disallow、Allow。下面我們來一起了解下。

User-agent: 指的是那些搜索引擎執(zhí)行以下協(xié)議。如百度：User-agent: baiduspider。*號(hào)可以代表全部，代碼為：User-agent: *。

Disallow:指禁止抓取的意思。如語法：Disallow: /a ,就是禁止搜索引擎抓取帶有 /a 這個(gè)關(guān)鍵詞的鏈接。

Allow：指允許抓取的意思。通常默認(rèn)就是允許抓取，故很少會(huì)用到該命令。

Robots協(xié)議怎么用

1、當(dāng)網(wǎng)站中存在隱私頁面不想被搜索引擎抓取的時(shí)候，可以使用robots。

2、當(dāng)網(wǎng)站頁面存在多個(gè)鏈接的時(shí)候，可以用robots禁用一條，允許搜索引擎只收錄一條。（通常使用靜態(tài)url后，應(yīng)該屏蔽動(dòng)態(tài)url）

以上就是臨沂網(wǎng)站建設(shè)公司為您做出的相關(guān)分享，希望能夠使您對(duì)此有更多的了解。