-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathrobots.txt
More file actions
97 lines (74 loc) · 1.83 KB
/
robots.txt
File metadata and controls
97 lines (74 loc) · 1.83 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
# Robots.txt ottimizzato per motori di ricerca tradizionali e generativi
# Oltrematica Dev Team - https://oltrematica.dev
# === MOTORI DI RICERCA TRADIZIONALI ===
# Consentito a tutti i crawler standard
User-agent: *
Allow: /
Crawl-delay: 1
# === MOTORI DI RICERCA GENERATIVI (AI) ===
# Questi crawler sono usati per addestrare modelli AI e rispondere a domande
# OpenAI (ChatGPT, GPT-4)
User-agent: ChatGPT-User
Allow: /
User-agent: GPTBot
Allow: /
# Anthropic (Claude)
User-agent: Claude-Web
Allow: /
User-agent: ClaudeBot
Allow: /
# Google AI (Gemini, Bard)
User-agent: Google-Extended
Allow: /
User-agent: GoogleOther
Allow: /
# Meta AI (Llama)
User-agent: FacebookBot
Allow: /
User-agent: Meta-ExternalAgent
Allow: /
# Cohere AI
User-agent: cohere-ai
Allow: /
# Common Crawl (usato per training AI)
User-agent: CCBot
Allow: /
# Perplexity AI
User-agent: PerplexityBot
Allow: /
# Diffbot
User-agent: Diffbot
Allow: /
# Applebot (Apple Intelligence)
User-agent: Applebot
Allow: /
User-agent: Applebot-Extended
Allow: /
# Amazon (Alexa)
User-agent: Amazonbot
Allow: /
# Bytedance (TikTok)
User-agent: Bytespider
Allow: /
# Yandex
User-agent: YandexBot
Allow: /
# === DIRETTIVE SPECIALI ===
# Cache-Control per crawler (non standard ma supportato da alcuni)
# Indica che i contenuti possono essere cachati e usati per training
# Disallow solo per route amministrative o di test (se esistono)
# User-agent: *
# Disallow: /admin/
# Disallow: /test/
# === SITEMAP ===
# Sitemap principale per aiutare i crawler a scoprire tutti i contenuti
Sitemap: https://oltrematica.dev/sitemap.xml
# === NOTE ===
# Questo sito è APERTO ai motori di ricerca generativi
# I nostri contenuti possono essere:
# - Indicizzati e cachati
# - Usati per rispondere a domande
# - Citati come fonte
# - Utilizzati per training di modelli AI
#
# Contatti: info@oltrematica.it