【复现】Apache Tika XXE漏洞(CVE-2025-66516)

发布时间 2025-12-15

Apache Tika是开源内容分析工具,Tika能从多种文件格式中抽取文本与中继数据,常被集成进搜索引擎、内容管理系统与各式数据处理平台,用于处理用户上传文件或批次导入文件。

近日,Apache Tika曝出严重XXE漏洞(CVE-2025-66516),CVSS评分10分。攻击者可构造含恶意XFA表单的PDF,在无交互情况下远程读取服务器敏感数据或发起内部请求。


影响范围


‌核心模块‌:tika-core(1.13-3.2.1)

‌PDF解析模块‌:tika-parser-pdf-module(2.0.0-3.2.1)

‌旧版模块‌:tika-parsers(1.13-1.28.5)


漏洞原理


为了解析PDF XFA中的XML数据,Tika会通过XMLReaderUtils类去构造一个XMLStreamReader,getXMLInputFactory中property并没有对外部实体和外部dtd进行防护,同时setXMLResolver中的Handler处理时将外部实体设置为空字符串。

以上的错误会导致使用JDK内部的stax xml解析器处理XML文件时会出现XXE问题。


图片1.png


图片2.png


漏洞复现


通过在PDF文件中构造恶意的XXE,我们成功获得了Windows系统中win.ini文件的内容。


图片3.png


修复版本


tika-core:≥3.2.2

tika-parser-pdf-module:≥3.2.2

tika-parsers:≥2.0.0(1.x分支)


安全建议


• 立即升级‌:将Apache Tika核心模块(tika-core)、解析器模块(tika-parsers)及PDF解析模块(tika-parser-pdf-module)升级至最新版本。

• 临时措施‌:若无法立即升级,建议限制对Tika服务的访问,并监控异常流量,避免处理来源不明的PDF文件。

• 持续监控‌:关注官方漏洞公告,定期进行安全审计,确保系统补丁及时更新。



参考链接:

[1]https://nvd.nist.gov/vuln/detail/CVE-2025-66516

[2]https://lists.apache.org/thread/s5x3k93nhbkqzztp1olxotoyjpdlps9k



启明星辰积极防御实验室(ADLab)


ADLab成立于1999年,是中国安全行业最早成立的攻防技术研究实验室之一,微软MAPP计划核心成员,“黑雀攻击”概念首推者。截至目前,ADLab已通过 CNVD/CNNVD/NVDB/CVE累计发布安全漏洞6500余个,持续保持国际网络安全领域一流水准。实验室研究方向涵盖基础安全研究、数据安全研究、5G安全研究、AI+安全研究、卫星安全研究、运营商基础设施安全研究、移动安全研究、物联网安全研究、车联网安全研究、工控安全研究、信创安全研究、云安全研究、无线安全研究、高级威胁研究、攻防对抗技术研究。研究成果应用于产品核心技术研究、国家重点科技项目攻关、专业安全服务等。


adlab.jpg