MobileMobile | Continue

Inn Forum

Log in  /  Sign up
Find
Hot Search: InnJoo UI Note i2s
12Next
Return Post new threads
View: 114|Reply: 16

فایل Robots.txt چیست؟

[Copy link]

7

Topics

7

Posts

35

Points

Kindergarten

Rank: 1

Points
35
Post on 2019-6-13 10:44:13 | All posts |Read mode
Last edited by chemistry21 on 2019-6-13 10:45
فایل Robots.txt یک فایل متنیست که وبمسترها با ایجاد آن می توانند ربات های موتورهای جستجو را در هنگام پایش وب سایت راهنمایی کنند. فایل robots.txt جزیی از پروتکلی با نام REP است که به استانداردسازی نحوه پایش وب توسط رباتها و چگونگی دسترسی و ایندکس محتوا و ارائه آن به کاربران می پردازد. پروتکل REP همچنین شامل نحوه برخورد با متا تگ Robots و دستوراتی دیگری مانند فالو کردن لینک ها نیز است.

در عمل فایل های robots.txt به user agent ها (مانند ربات های موتورهای جستجو) اشاره می کنند که کدام صفحات را پایش و به کدام مسیرها کاری نداشته باشند. این راهنمایی ها در قالب دستوراتی مانند Allow و Disallow به آنها داده می شود.

فایل robots.txt چیست
فرمت ابتدایی این فایل به شکل زیر است:

User-agent: [user-agent نام]

Disallow: [یو آر الی که نبایست پایش گردد]

با استفاده از این فایل می توان دستورات متفاوتی برای user agent های مختلف نوشت. کافیست که هر یک از مجموعه دستورات برای یک user agent را با یک خط فاصله از دیگری متمایز کنیم. به تصویر زیر توجه کنید:

نمونه فایل robots.txt
در صورتی که چندین مجموعه دستور برای چند user agent در فایل robots.txt ایجاد شده باشد، هر user agent دستورات مختص به خود را می خواند. به عنوان مثال به تصویر زیر دقت کنید:

نمونه فایل robots.txt
با توجه به دستورات بالا، user agent با نام msnbot تنها به مجموعه دستورات قسمت اول توجه می کند. در صورتی که user agent وارد شده به سایت جز هیچ یک از این گزینه ها نباشد، دستورات قسمت دوم که با user-agent: * آغاز شده است را دنبال می کند.

مثال هایی از فایل robots.txt
در ادامه مثال هایی را از فایل robots.txt برایتان آماده کرده ایم. دقت داشته باشید که این فایل در مسیر روت سایت یعنی آدرس
  1. www.example.com/robots.txt
Copy

قرار دارد.

جلوگیری از دسترسی تمام پایشگر ها به کل وب سایت:

User-agent: *

Disallow: /

این دستورات در فایل robots.txt به تمام پایشگرهای وب اعلام می کند که هیچ صفحه ای در دامنه www.example.com را پایش نکنند.

دسترسی دادن به تمام صفحات سایت به تمام پایشگرها:

User-agent: *

Disallow:

این دستورات در فایل robots.txt به تمام پایشگرهای وب اعلام می کند که می توانند تمام صفحات دامنه www.example.com را پایش کنند.

بلاک کردن دسترسی یک پایشگر به خصوص از یک فولدر مشخص:

User-agent: Googlebot

Disallow: /example-subfolder/

این دستورات به پایشگر Googlebot (ربات پایشگر گوگل) اعلام می کند که یو آر ال های شامل www.example.com/example-subfolder/ پایش نکند.

بلاک کردن دسترسی یک پایشگر به خصوص از یک صفحه وب مشخص:

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

این دستورات به پایشگر Bingbot (ربات پایشگر بینگ) اعلام می کند که صرفا یو آر ال www.example.com/example-subfolder/blocked-page.html را پایش نکند.

فایل robots.txt چگونه کار می کند؟
موتورهای جستجو دارای دو وظیفه اصلی هستند:

پایش وب برای یافتن محتوای جدید
ایندکس کردن محتوا برای جستجو کنندگانی که به دنبال آن هستند
موتورهای جستجو برای پایش وب سایت ها لینک ها را دنبال کرده و از یک سایت به سایتی دیگر می روند. به این رفتار آنها خزیدن یا Spidering نیز گفته می شود.

آنها پس از رسیدن به یک وب سایت، قبل از پایش آن نگاهی به فایل robots.txt می اندازند. در صورت یافتن این فایل، آن را خوانده و سپس به پایش وب سایت ادامه می دهند. فایل های robots.txt به منزله دستورالعمل پایشگرها برای پایش وب سایت است. در صورتی که فایل robots.txt دارای دستوری برای محدود کردن پایشگرها نباشد (یا اصلا هیچ فایل robots.txt وجود نداشته باشد)، پایشگرها بدون هیچ محدودیتی به تمام قسمت های یافته شده سر زده و آنها را ایندکس می کنند.

اطلاعات مکمل درباره فایل robots.txt
فایل robots.txt برای یافته شدن توسط پایشگرها بایست در مسیر ریشه سایت قرار داشته باشد.
فایل Robots.txt نسبت به حروف بزرگ و کوچک حساس است. به عبارتی نام صحیح این فایل robots.txt است. (اشکالی مانند Robots.txt یا robots.TXT قابل قبول نیست)
برخی از ربات ها ممکن است که دستورات فایل robots.txt را نادیده بگیرند. این موضع بیشتر در مورد پایشگرهای غیر موجه مانند ربات های یابنده ایمیل ها برقرار است.
فایل robots.txt در معرض عموم قرار دارد. به عبارتی هر شخصی می تواند دستورات آن را مشاهده کند. بنابراین اطلاعات خصوصی خود را در آنجا قرار ندهید.
هر یک از ساب دامین های وب سایت بایستی دارای فایل robots.txt مختص به خود باشند. به عبارت دیگر blog.example.com و example.com بایستی هر یک دارای فایل robots.txt مجزایی در مسیر خود باشند.
برای قرار دادن کامنت می توانید از کاراکتر # در ابتدای توضیحات استفاده نمایید.
ماکسیمم سایز قابل پشتیبانی برای فایل robots.txt، 500 کیلو بایت است. بنابریان حجم آن را زیر این عدد نگه دارید.

مسیر نقشه های سایت را می توانید در انتهای دستورات فایل robots.txt به مانند تصویر زیر قرار دهید.
برگرفته از وب سایت رادزاد


Reply

Props Report

0

Topics

1

Posts

4

Points

Kindergarten

Rank: 1

Points
4
Post on 2019-7-13 15:51:10 | All posts
Reply Support Opposition

Props Report

0

Topics

1

Posts

4

Points

Kindergarten

Rank: 1

Points
4
Post on 2019-7-15 14:57:13 | All posts
Reply Support Opposition

Props Report

0

Topics

1

Posts

6

Points

Kindergarten

Rank: 1

Points
6
Post on 2019-7-21 16:35:37 | All posts
[url=https://yekansoft.com/%d8%a7%d8%aa%d9%88%d9%85%d8%a7%d8%b3%db%8c%d9%88%d9%8
Reply Support Opposition

Props Report

0

Topics

1

Posts

6

Points

Kindergarten

Rank: 1

Points
6
Post on 2019-7-24 08:52:21 | All posts
Reply Support Opposition

Props Report

0

Topics

1

Posts

4

Points

Kindergarten

Rank: 1

Points
4
Post on 2019-7-25 11:01:19 | All posts
Reply Support Opposition

Props Report

0

Topics

1

Posts

6

Points

Kindergarten

Rank: 1

Points
6
Post on 2019-7-28 14:02:28 | All posts
Reply Support Opposition

Props Report

0

Topics

1

Posts

6

Points

Kindergarten

Rank: 1

Points
6
Post on 2019-7-30 12:51:28 | All posts
Reply Support Opposition

Props Report

0

Topics

1

Posts

4

Points

Kindergarten

Rank: 1

Points
4
Post on 2019-7-31 11:27:51 | All posts
Reply Support Opposition

Props Report

0

Topics

1

Posts

6

Points

Kindergarten

Rank: 1

Points
6
Post on 2019-7-31 16:33:17 | All posts
Reply Support Opposition

Props Report

12Next
Return Post new threads

Points policy of this forum

!fastreply! Top Return List