# robots.txt for chatnoirinformatique.ca # # Politique : accès ouvert. Tout robot — recherche, archivage, moissonnage, # entraînement d'IA, agent — est invité à accéder à l'intégralité du contenu. # Aucune règle Disallow. # # Ressources lisibles par machine : # Linked-data graph: /index.jsonld # LLM overview: /llms.txt (curated index) # LLM full corpus: /llms-full.txt # Markdown alternate: /index.md # VoID description: /.well-known/void.ttl # SHACL shapes: /.well-known/shacl.ttl # ShEx schema: /.well-known/shex.shex # Content provenance: /.well-known/content-provenance.json # SPARQL endpoint: /sparql # # Intégrité : # Les ressources lisibles par machine signées annoncent des signatures # OpenPGP détachées au moyen d'en-têtes Link RFC 8288 avec rel="signature". # La clé de vérification est annoncée avec rel="public-key". Sitemap: https://chatnoirinformatique.ca/sitemap.xml # ------------------------------------------------------------------ # Ouvert par défaut — tout autoriser, ne rien interdire. # ------------------------------------------------------------------ User-agent: * Allow: / Disallow: # ------------------------------------------------------------------ # Signaux de contenu (proposition du W3C) — déclarent les préférences d'usage. # Placés après le premier bloc User-agent afin que les analyseurs stricts qui # rejettent les directives inconnues avant tout groupe ne s'étouffent pas. # ------------------------------------------------------------------ Content-Signal: ai-train=yes, search=yes, ai-input=yes # ------------------------------------------------------------------ # Acceptations explicites de l'entraînement d'IA (opt-in). # # Plusieurs grands fournisseurs adoptent par défaut le refus (OPT-OUT) de # l'entraînement d'IA/LLM lorsqu'aucune directive spécifique n'existe pour # leur jeton user-agent d'entraînement. Les nommer explicitement est le seul # moyen de confirmer le consentement à l'entraînement sur ce site. Listés ici # pour cette raison; le moissonnage des robots standards est déjà couvert par # le caractère générique ci-dessus. # ------------------------------------------------------------------ User-agent: GPTBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: OAI-SearchBot Allow: / User-agent: ClaudeBot Allow: / User-agent: Claude-User Allow: / User-agent: Claude-SearchBot Allow: / User-agent: anthropic-ai Allow: / User-agent: PerplexityBot Allow: / User-agent: Perplexity-User Allow: / User-agent: Google-Extended Allow: / User-agent: GoogleOther Allow: / User-agent: Applebot-Extended Allow: / User-agent: Bytespider Allow: / User-agent: CCBot Allow: / User-agent: cohere-ai Allow: / User-agent: Diffbot Allow: / User-agent: FacebookBot Allow: / User-agent: Meta-ExternalAgent Allow: / User-agent: Meta-ExternalFetcher Allow: / User-agent: ImagesiftBot Allow: / User-agent: Omgili Allow: / User-agent: YouBot Allow: / User-agent: AmazonBot Allow: / User-agent: TimpiBot Allow: / User-agent: Webzio-Extended Allow: / User-agent: AI2Bot Allow: / User-agent: Mistralai-User Allow: /