XML、HTML和XHTML文档的有效内容类型

XML、HTML和XHTML文档的正确内容类型是什么

我需要编写一个简单的爬虫程序,只获取这些类型的文件

如今http://example.net/index.html 例如,由于mod_rewrite,可以提供一个JPEG文件,因此我需要检查响应头中的内容类型,并将其与允许的内容类型列表进行比较

我从哪里可以得到这样的清单

HTML:text/HTML,句号

XHTML:application/XHTML+xml,或者仅当遵循HTML兼容性准则时,text/HTML。请参阅W3介质类型说明

XML:text/XMLapplication/XML(RFC2376)

还有许多其他基于XML的媒体类型,例如application/rss+XMLimage/svg+XML。可以肯定的是,任何以+xml结尾的未识别但已注册的文档都是基于xml的。有关以+xml结尾的已注册媒体类型,请参见IANA列表

(对于未注册的x-类型,所有赌注都是无效的,但您希望+xml得到尊重。)

发表评论