XML、HTML和XHTML文档的正确内容类型是什么
我需要编写一个简单的爬虫程序,只获取这些类型的文件
如今http://example.net/index.html 例如,由于mod_rewrite,可以提供一个JPEG文件,因此我需要检查响应头中的内容类型,并将其与允许的内容类型列表进行比较
我从哪里可以得到这样的清单
HTML:text/HTML,句号
XHTML:application/XHTML+xml,或者仅当遵循HTML兼容性准则时,text/HTML。请参阅W3介质类型说明
XML:text/XML,application/XML(RFC2376)
还有许多其他基于XML的媒体类型,例如application/rss+XML或image/svg+XML。可以肯定的是,任何以+xml结尾的未识别但已注册的文档都是基于xml的。有关以+xml结尾的已注册媒体类型,请参见IANA列表
(对于未注册的x-类型,所有赌注都是无效的,但您希望+xml得到尊重。)