42fc535411b0b42bcf3940dd32e19dc4be503d10
[shibboleth/cpp-xmltooling.git] / xmltooling / util / ParserPool.cpp
1 /**
2  * Licensed to the University Corporation for Advanced Internet
3  * Development, Inc. (UCAID) under one or more contributor license
4  * agreements. See the NOTICE file distributed with this work for
5  * additional information regarding copyright ownership.
6  *
7  * UCAID licenses this file to you under the Apache License,
8  * Version 2.0 (the "License"); you may not use this file except
9  * in compliance with the License. You may obtain a copy of the
10  * License at
11  *
12  * http://www.apache.org/licenses/LICENSE-2.0
13  *
14  * Unless required by applicable law or agreed to in writing,
15  * software distributed under the License is distributed on an
16  * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND,
17  * either express or implied. See the License for the specific
18  * language governing permissions and limitations under the License.
19  */
20
21 /**
22  * ParserPool.cpp
23  *
24  * A thread-safe pool of parsers that share characteristics.
25  */
26
27 #include "internal.h"
28 #include "exceptions.h"
29 #include "logging.h"
30 #include "util/CurlURLInputStream.h"
31 #include "util/NDC.h"
32 #include "util/ParserPool.h"
33 #include "util/Threads.h"
34 #include "util/XMLHelper.h"
35
36 #include <sys/types.h>
37 #include <sys/stat.h>
38 #include <algorithm>
39 #include <functional>
40 #include <boost/algorithm/string.hpp>
41 #include <boost/bind.hpp>
42 #include <boost/tokenizer.hpp>
43 #include <xercesc/util/PlatformUtils.hpp>
44 #include <xercesc/util/XMLUniDefs.hpp>
45 #include <xercesc/sax/SAXException.hpp>
46 #include <xercesc/framework/MemBufInputSource.hpp>
47 #include <xercesc/framework/LocalFileInputSource.hpp>
48 #include <xercesc/framework/Wrapper4InputSource.hpp>
49
50 using namespace xmltooling::logging;
51 using namespace xmltooling;
52 using namespace xercesc;
53 using namespace boost;
54 using namespace std;
55
56
57 namespace {
58     class MyErrorHandler : public DOMErrorHandler {
59     public:
60         unsigned int errors;
61
62         MyErrorHandler() : errors(0) {}
63
64         bool handleError(const DOMError& e)
65         {
66 #ifdef _DEBUG
67             xmltooling::NDC ndc("handleError");
68 #endif
69             Category& log=Category::getInstance(XMLTOOLING_LOGCAT".ParserPool");
70
71             DOMLocator* locator=e.getLocation();
72             auto_ptr_char temp(e.getMessage());
73
74             switch (e.getSeverity()) {
75                 case DOMError::DOM_SEVERITY_WARNING:
76                     log.warnStream() << "warning on line " << locator->getLineNumber()
77                         << ", column " << locator->getColumnNumber()
78                         << ", message: " << temp.get() << logging::eol;
79                     return true;
80
81                 case DOMError::DOM_SEVERITY_ERROR:
82                     ++errors;
83                     log.errorStream() << "error on line " << locator->getLineNumber()
84                         << ", column " << locator->getColumnNumber()
85                         << ", message: " << temp.get() << logging::eol;
86                     return true;
87
88                 case DOMError::DOM_SEVERITY_FATAL_ERROR:
89                     ++errors;
90                     log.errorStream() << "fatal error on line " << locator->getLineNumber()
91                         << ", column " << locator->getColumnNumber()
92                         << ", message: " << temp.get() << logging::eol;
93                     return true;
94             }
95
96             ++errors;
97             log.errorStream() << "undefined error type on line " << locator->getLineNumber()
98                 << ", column " << locator->getColumnNumber()
99                 << ", message: " << temp.get() << logging::eol;
100             return false;
101         }
102     };
103 }
104
105
106 ParserPool::ParserPool(bool namespaceAware, bool schemaAware)
107     : m_namespaceAware(namespaceAware), m_schemaAware(schemaAware), m_lock(Mutex::create()), m_security(new SecurityManager()) {}
108
109 ParserPool::~ParserPool()
110 {
111     while(!m_pool.empty()) {
112         m_pool.top()->release();
113         m_pool.pop();
114     }
115 }
116
117 DOMDocument* ParserPool::newDocument()
118 {
119     return DOMImplementationRegistry::getDOMImplementation(nullptr)->createDocument();
120 }
121
122 #ifdef XMLTOOLING_XERCESC_COMPLIANT_DOMLS
123
124 DOMDocument* ParserPool::parse(DOMLSInput& domsrc)
125 {
126     DOMLSParser* parser=checkoutBuilder();
127     XercesJanitor<DOMLSParser> janitor(parser);
128     try {
129         MyErrorHandler deh;
130         parser->getDomConfig()->setParameter(XMLUni::fgDOMErrorHandler, dynamic_cast<DOMErrorHandler*>(&deh));
131         DOMDocument* doc=parser->parse(&domsrc);
132         if (deh.errors) {
133             if (doc)
134                 doc->release();
135             throw XMLParserException("XML error(s) during parsing, check log for specifics");
136         }
137         parser->getDomConfig()->setParameter(XMLUni::fgDOMErrorHandler, (void*)nullptr);
138         parser->getDomConfig()->setParameter(XMLUni::fgXercesUserAdoptsDOMDocument, true);
139         checkinBuilder(janitor.release());
140         return doc;
141     }
142     catch (XMLException& ex) {
143         parser->getDomConfig()->setParameter(XMLUni::fgDOMErrorHandler, (void*)nullptr);
144         parser->getDomConfig()->setParameter(XMLUni::fgXercesUserAdoptsDOMDocument, true);
145         checkinBuilder(janitor.release());
146         auto_ptr_char temp(ex.getMessage());
147         throw XMLParserException(string("Xerces error during parsing: ") + (temp.get() ? temp.get() : "no message"));
148     }
149     catch (XMLToolingException&) {
150         parser->getDomConfig()->setParameter(XMLUni::fgDOMErrorHandler, (void*)nullptr);
151         parser->getDomConfig()->setParameter(XMLUni::fgXercesUserAdoptsDOMDocument, true);
152         checkinBuilder(janitor.release());
153         throw;
154     }
155 }
156
157 #else
158
159 DOMDocument* ParserPool::parse(DOMInputSource& domsrc)
160 {
161     DOMBuilder* parser=checkoutBuilder();
162     XercesJanitor<DOMBuilder> janitor(parser);
163     try {
164         MyErrorHandler deh;
165         parser->setErrorHandler(&deh);
166         DOMDocument* doc=parser->parse(domsrc);
167         if (deh.errors) {
168             if (doc)
169                 doc->release();
170             throw XMLParserException("XML error(s) during parsing, check log for specifics");
171         }
172         parser->setErrorHandler(nullptr);
173         parser->setFeature(XMLUni::fgXercesUserAdoptsDOMDocument, true);
174         checkinBuilder(janitor.release());
175         return doc;
176     }
177     catch (XMLException& ex) {
178         parser->setErrorHandler(nullptr);
179         parser->setFeature(XMLUni::fgXercesUserAdoptsDOMDocument, true);
180         checkinBuilder(janitor.release());
181         auto_ptr_char temp(ex.getMessage());
182         throw XMLParserException(string("Xerces error during parsing: ") + (temp.get() ? temp.get() : "no message"));
183     }
184     catch (XMLToolingException&) {
185         parser->setErrorHandler(nullptr);
186         parser->setFeature(XMLUni::fgXercesUserAdoptsDOMDocument, true);
187         checkinBuilder(janitor.release());
188         throw;
189     }
190 }
191
192 #endif
193
194 DOMDocument* ParserPool::parse(istream& is)
195 {
196     StreamInputSource src(is);
197     Wrapper4InputSource domsrc(&src,false);
198     return parse(domsrc);
199 }
200
201 // Functor to double its argument separated by a character and append to a buffer
202 template <class T> class doubleit {
203 public:
204     doubleit(T& t, const typename T::value_type& s) : temp(t), sep(s) {}
205     void operator() (const pair<const T,T>& s) { temp += s.first + sep + s.first + sep; }
206     T& temp;
207     const typename T::value_type& sep;
208 };
209
210 bool ParserPool::loadSchema(const XMLCh* nsURI, const XMLCh* pathname)
211 {
212     // Just check the pathname and then directly register the pair into the map.
213
214     auto_ptr_char p(pathname);
215 #ifdef WIN32
216     struct _stat stat_buf;
217     if (_stat(p.get(), &stat_buf) != 0)
218 #else
219     struct stat stat_buf;
220     if (stat(p.get(), &stat_buf) != 0)
221 #endif
222     {
223 #if _DEBUG
224         xmltooling::NDC ndc("loadSchema");
225 #endif
226         Category& log=Category::getInstance(XMLTOOLING_LOGCAT".ParserPool");
227         auto_ptr_char n(nsURI);
228         log.error("failed to load schema for (%s), file not found (%s)",n.get(),p.get());
229         return false;
230     }
231
232     Lock lock(m_lock);
233     m_schemaLocMap[nsURI]=pathname;
234     m_schemaLocations.erase();
235     for_each(m_schemaLocMap.begin(), m_schemaLocMap.end(), doubleit<xstring>(m_schemaLocations,chSpace));
236
237     return true;
238 }
239
240 bool ParserPool::loadCatalogs(const char* pathnames)
241 {
242     string temp(pathnames);
243     boost::tokenizer< char_separator<char> > catpaths(temp, char_separator<char>(PATH_SEPARATOR_STR));
244     for_each(
245         catpaths.begin(), catpaths.end(),
246         // Call loadCatalog with an inner call to s->c_str() on each entry.
247         boost::bind(static_cast<bool (ParserPool::*)(const char*)>(&ParserPool::loadCatalog),
248             boost::ref(this), boost::bind(&string::c_str, _1))
249         );
250     return catpaths.begin() != catpaths.end();
251 }
252
253 bool ParserPool::loadCatalog(const char* pathname)
254 {
255     auto_ptr_XMLCh temp(pathname);
256     return loadCatalog(temp.get());
257 }
258
259 bool ParserPool::loadCatalog(const XMLCh* pathname)
260 {
261 #if _DEBUG
262     xmltooling::NDC ndc("loadCatalog");
263 #endif
264     Category& log=Category::getInstance(XMLTOOLING_LOGCAT".ParserPool");
265
266     // XML constants
267     static const XMLCh catalog[] =  UNICODE_LITERAL_7(c,a,t,a,l,o,g);
268     static const XMLCh system[] =   UNICODE_LITERAL_6(s,y,s,t,e,m);
269     static const XMLCh systemId[] = UNICODE_LITERAL_8(s,y,s,t,e,m,I,d);
270     static const XMLCh uri[] =      UNICODE_LITERAL_3(u,r,i);
271     static const XMLCh CATALOG_NS[] = {
272         chLatin_u, chLatin_r, chLatin_n, chColon,
273         chLatin_o, chLatin_a, chLatin_s, chLatin_i, chLatin_s, chColon,
274         chLatin_n, chLatin_a, chLatin_m, chLatin_e, chLatin_s, chColon,
275         chLatin_t, chLatin_c, chColon,
276         chLatin_e, chLatin_n, chLatin_t, chLatin_i, chLatin_t, chLatin_y, chColon,
277         chLatin_x, chLatin_m, chLatin_l, chLatin_n, chLatin_s, chColon,
278         chLatin_x, chLatin_m, chLatin_l, chColon,
279         chLatin_c, chLatin_a, chLatin_t, chLatin_a, chLatin_l, chLatin_o, chLatin_g, chNull
280     };
281
282     // Parse the catalog with the internal parser pool.
283
284     if (log.isDebugEnabled()) {
285         auto_ptr_char temp(pathname);
286         log.debug("loading XML catalog from %s", temp.get());
287     }
288
289     LocalFileInputSource fsrc(nullptr,pathname);
290     Wrapper4InputSource domsrc(&fsrc,false);
291     try {
292         DOMDocument* doc=XMLToolingConfig::getConfig().getParser().parse(domsrc);
293         XercesJanitor<DOMDocument> janitor(doc);
294
295         // Check root element.
296         const DOMElement* root=doc->getDocumentElement();
297         if (!XMLHelper::isNodeNamed(root,CATALOG_NS,catalog)) {
298             auto_ptr_char temp(pathname);
299             log.error("unknown root element, failed to load XML catalog from %s", temp.get());
300             return false;
301         }
302
303         // Fetch all the <system> elements.
304         DOMNodeList* mappings=root->getElementsByTagNameNS(CATALOG_NS,system);
305         Lock lock(m_lock);
306         for (XMLSize_t i=0; i<mappings->getLength(); i++) {
307             root=static_cast<DOMElement*>(mappings->item(i));
308             const XMLCh* from=root->getAttributeNS(nullptr,systemId);
309             const XMLCh* to=root->getAttributeNS(nullptr,uri);
310             m_schemaLocMap[from]=to;
311         }
312         m_schemaLocations.erase();
313         for_each(m_schemaLocMap.begin(), m_schemaLocMap.end(), doubleit<xstring>(m_schemaLocations,chSpace));
314     }
315     catch (std::exception& e) {
316         log.error("catalog loader caught exception: %s", e.what());
317         return false;
318     }
319
320     return true;
321 }
322
323 #ifdef XMLTOOLING_XERCESC_COMPLIANT_DOMLS
324 DOMLSInput* ParserPool::resolveResource(
325             const XMLCh *const resourceType,
326             const XMLCh *const namespaceUri,
327             const XMLCh *const publicId,
328             const XMLCh *const systemId,
329             const XMLCh *const baseURI
330             )
331 #else
332 DOMInputSource* ParserPool::resolveEntity(
333     const XMLCh* const publicId, const XMLCh* const systemId, const XMLCh* const baseURI
334     )
335 #endif
336 {
337 #if _DEBUG
338     xmltooling::NDC ndc("resolveEntity");
339 #endif
340     if (!systemId)
341         return nullptr;
342     xstring sysId(systemId);
343
344     Category& log=Category::getInstance(XMLTOOLING_LOGCAT".ParserPool");
345     if (log.isDebugEnabled()) {
346         auto_ptr_char sysId(systemId);
347         auto_ptr_char base(baseURI);
348         log.debug("asked to resolve %s with baseURI %s",sysId.get(),base.get() ? base.get() : "(null)");
349     }
350
351     // Find well-known schemas in the specified location.
352     map<xstring,xstring>::const_iterator i = m_schemaLocMap.find(sysId);
353     if (i != m_schemaLocMap.end())
354         return new Wrapper4InputSource(new LocalFileInputSource(baseURI, i->second.c_str()));
355
356     // Check for entity as a suffix of a value in the map.
357     bool (*p_ends_with)(const xstring&, const xstring&) = ends_with;
358     i = find_if(
359         m_schemaLocMap.begin(), m_schemaLocMap.end(),
360         boost::bind(p_ends_with, boost::bind(&map<xstring,xstring>::value_type::second, _1), boost::ref(sysId))
361         );
362     if (i != m_schemaLocMap.end())
363         return new Wrapper4InputSource(new LocalFileInputSource(baseURI, i->second.c_str()));
364
365     // We'll allow anything without embedded slashes.
366     if (XMLString::indexOf(systemId, chForwardSlash) == -1 && XMLString::indexOf(systemId, chBackSlash) == -1)
367         return new Wrapper4InputSource(new LocalFileInputSource(baseURI, systemId));
368
369     // Shortcircuit the request.
370     auto_ptr_char temp(systemId);
371     log.debug("unauthorized entity request (%s), blocking it", temp.get());
372     static const XMLByte nullbuf[] = {0};
373     return new Wrapper4InputSource(new MemBufInputSource(nullbuf, 0, systemId));
374 }
375
376 #ifdef XMLTOOLING_XERCESC_COMPLIANT_DOMLS
377
378 DOMLSParser* ParserPool::createBuilder()
379 {
380     static const XMLCh impltype[] = { chLatin_L, chLatin_S, chNull };
381     DOMImplementation* impl=DOMImplementationRegistry::getDOMImplementation(impltype);
382     DOMLSParser* parser=static_cast<DOMImplementationLS*>(impl)->createLSParser(DOMImplementationLS::MODE_SYNCHRONOUS,nullptr);
383     parser->getDomConfig()->setParameter(XMLUni::fgDOMNamespaces, m_namespaceAware);
384     if (m_schemaAware) {
385         parser->getDomConfig()->setParameter(XMLUni::fgDOMNamespaces, true);
386         parser->getDomConfig()->setParameter(XMLUni::fgXercesSchema, true);
387         parser->getDomConfig()->setParameter(XMLUni::fgDOMValidate, true);
388         parser->getDomConfig()->setParameter(XMLUni::fgXercesCacheGrammarFromParse, true);
389
390         // We build a "fake" schema location hint that binds each namespace to itself.
391         // This ensures the entity resolver will be given the namespace as a systemId it can check.
392         parser->getDomConfig()->setParameter(XMLUni::fgXercesSchemaExternalSchemaLocation, const_cast<XMLCh*>(m_schemaLocations.c_str()));
393     }
394     parser->getDomConfig()->setParameter(XMLUni::fgXercesUserAdoptsDOMDocument, true);
395     parser->getDomConfig()->setParameter(XMLUni::fgXercesDisableDefaultEntityResolution, true);
396     parser->getDomConfig()->setParameter(XMLUni::fgDOMResourceResolver, dynamic_cast<DOMLSResourceResolver*>(this));
397     parser->getDomConfig()->setParameter(XMLUni::fgXercesSecurityManager, m_security.get());
398     return parser;
399 }
400
401 DOMLSParser* ParserPool::checkoutBuilder()
402 {
403     Lock lock(m_lock);
404     if (m_pool.empty()) {
405         DOMLSParser* builder=createBuilder();
406         return builder;
407     }
408     DOMLSParser* p=m_pool.top();
409     m_pool.pop();
410     if (m_schemaAware)
411         p->getDomConfig()->setParameter(XMLUni::fgXercesSchemaExternalSchemaLocation, const_cast<XMLCh*>(m_schemaLocations.c_str()));
412     return p;
413 }
414
415 void ParserPool::checkinBuilder(DOMLSParser* builder)
416 {
417     if (builder) {
418         Lock lock(m_lock);
419         m_pool.push(builder);
420     }
421 }
422
423 #else
424
425 DOMBuilder* ParserPool::createBuilder()
426 {
427     static const XMLCh impltype[] = { chLatin_L, chLatin_S, chNull };
428     DOMImplementation* impl=DOMImplementationRegistry::getDOMImplementation(impltype);
429     DOMBuilder* parser=static_cast<DOMImplementationLS*>(impl)->createDOMBuilder(DOMImplementationLS::MODE_SYNCHRONOUS,0);
430     parser->setFeature(XMLUni::fgDOMNamespaces, m_namespaceAware);
431     if (m_schemaAware) {
432         parser->setFeature(XMLUni::fgDOMNamespaces, true);
433         parser->setFeature(XMLUni::fgXercesSchema, true);
434         parser->setFeature(XMLUni::fgDOMValidation, true);
435         parser->setFeature(XMLUni::fgXercesCacheGrammarFromParse, true);
436
437         // We build a "fake" schema location hint that binds each namespace to itself.
438         // This ensures the entity resolver will be given the namespace as a systemId it can check.
439         parser->setProperty(XMLUni::fgXercesSchemaExternalSchemaLocation,const_cast<XMLCh*>(m_schemaLocations.c_str()));
440     }
441     parser->setProperty(XMLUni::fgXercesSecurityManager, m_security.get());
442     parser->setFeature(XMLUni::fgXercesUserAdoptsDOMDocument, true);
443     parser->setFeature(XMLUni::fgXercesDisableDefaultEntityResolution, true);
444     parser->setEntityResolver(this);
445     return parser;
446 }
447
448 DOMBuilder* ParserPool::checkoutBuilder()
449 {
450     Lock lock(m_lock);
451     if (m_pool.empty()) {
452         DOMBuilder* builder=createBuilder();
453         return builder;
454     }
455     DOMBuilder* p=m_pool.top();
456     m_pool.pop();
457     if (m_schemaAware)
458         p->setProperty(XMLUni::fgXercesSchemaExternalSchemaLocation,const_cast<XMLCh*>(m_schemaLocations.c_str()));
459     return p;
460 }
461
462 void ParserPool::checkinBuilder(DOMBuilder* builder)
463 {
464     if (builder) {
465         Lock lock(m_lock);
466         m_pool.push(builder);
467     }
468 }
469
470 #endif
471
472 StreamInputSource::StreamInputSource(istream& is, const char* systemId) : InputSource(systemId), m_is(is)
473 {
474 }
475
476 BinInputStream* StreamInputSource::makeStream() const
477 {
478     return new StreamBinInputStream(m_is);
479 }
480
481 StreamInputSource::StreamBinInputStream::StreamBinInputStream(istream& is) : m_is(is), m_pos(0)
482 {
483 }
484
485 #ifdef XMLTOOLING_XERCESC_64BITSAFE
486 XMLFilePos
487 #else
488 unsigned int
489 #endif
490 StreamInputSource::StreamBinInputStream::curPos() const
491 {
492     return m_pos;
493 }
494
495 #ifdef XMLTOOLING_XERCESC_64BITSAFE
496 const XMLCh* StreamInputSource::StreamBinInputStream::getContentType() const
497 {
498     return nullptr;
499 }
500 #endif
501
502 xsecsize_t StreamInputSource::StreamBinInputStream::readBytes(XMLByte* const toFill, const xsecsize_t maxToRead)
503 {
504     XMLByte* target=toFill;
505     xsecsize_t bytes_read=0,request=maxToRead;
506
507     // Fulfill the rest by reading from the stream.
508     if (request && !m_is.eof() && !m_is.fail()) {
509         try {
510             m_is.read(reinterpret_cast<char* const>(target),request);
511             m_pos+=m_is.gcount();
512             bytes_read+=m_is.gcount();
513         }
514         catch(ios_base::failure& e) {
515             Category::getInstance(XMLTOOLING_LOGCAT".StreamInputSource").critStream()
516                 << "XML::StreamInputSource::StreamBinInputStream::readBytes caught an exception: " << e.what()
517                 << logging::eol;
518             *toFill=0;
519             return 0;
520         }
521     }
522     return bytes_read;
523 }
524
525 #ifdef XMLTOOLING_LITE
526
527 URLInputSource::URLInputSource(const XMLCh* url, const char* systemId, string* cacheTag) : InputSource(systemId), m_url(url)
528 {
529 }
530
531 URLInputSource::URLInputSource(const DOMElement* e, const char* systemId, string* cacheTag) : InputSource(systemId)
532 {
533     static const XMLCh uri[] = UNICODE_LITERAL_3(u,r,i);
534     static const XMLCh url[] = UNICODE_LITERAL_3(u,r,l);
535
536     const XMLCh* attr = e->getAttributeNS(nullptr, url);
537     if (!attr || !*attr) {
538         attr = e->getAttributeNS(nullptr, uri);
539         if (!attr || !*attr)
540             throw IOException("No URL supplied via DOM to URLInputSource constructor.");
541     }
542
543     m_url.setURL(attr);
544 }
545
546 BinInputStream* URLInputSource::makeStream() const
547 {
548     // Ask the URL to create us an appropriate input stream
549     return m_url.makeNewStream();
550 }
551
552 #else
553
554 URLInputSource::URLInputSource(const XMLCh* url, const char* systemId, string* cacheTag)
555     : InputSource(systemId), m_cacheTag(cacheTag), m_url(url), m_root(nullptr)
556 {
557 }
558
559 URLInputSource::URLInputSource(const DOMElement* e, const char* systemId, string* cacheTag)
560     : InputSource(systemId), m_cacheTag(cacheTag), m_root(e)
561 {
562 }
563
564 BinInputStream* URLInputSource::makeStream() const
565 {
566     return m_root ? new CurlURLInputStream(m_root, m_cacheTag) : new CurlURLInputStream(m_url.get(), m_cacheTag);
567 }
568
569 #endif
570
571 const char URLInputSource::asciiStatusCodeElementName[] = "URLInputSourceStatus";
572
573 const XMLCh URLInputSource::utf16StatusCodeElementName[] = UNICODE_LITERAL_20(U,R,L,I,n,p,u,t,S,o,u,r,c,e,S,t,a,t,u,s);