GitList

Browse code

pdf: base64 encode strings that fail to finalize

Kevin Lin authored on 2015/03/21 05:36:41
Showing 3 changed files

libclamav/pdf.c index 9e04957..e6f5433 100644
libclamav/pdf.h index d720e93..0644b87 100644
libclamav/pdfng.c index 180f0fc..dd4c00d 100644

@@ -3217,7 +3217,7 @@ static void Author_cb(struct pdf_struct *pdf, struct pdf_obj *obj, struct pdfnam
                              return;
                          if (!(pdf->stats.author))
                     -        pdf->stats.author = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Author", NULL);
                     +        pdf->stats.author = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Author", NULL, &(pdf->stats.author_b64));
+                     }
                      #endif
@@ -3233,7 +3233,7 @@ static void Creator_cb(struct pdf_struct *pdf, struct pdf_obj *obj, struct pdfna
                              return;
                          if (!(pdf->stats.creator))
                     -        pdf->stats.creator = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Creator", NULL);
                     +        pdf->stats.creator = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Creator", NULL, &(pdf->stats.creator_b64));
+                     }
                      #endif
@@ -3249,7 +3249,7 @@ static void ModificationDate_cb(struct pdf_struct *pdf, struct pdf_obj *obj, str
                              return;
                          if (!(pdf->stats.modificationdate))
                     -        pdf->stats.modificationdate = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/ModDate", NULL);
                     +        pdf->stats.modificationdate = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/ModDate", NULL, &(pdf->stats.modificationdate_b64));
+                     }
                      #endif
@@ -3265,7 +3265,7 @@ static void CreationDate_cb(struct pdf_struct *pdf, struct pdf_obj *obj, struct
                              return;
                          if (!(pdf->stats.creationdate))
                     -        pdf->stats.creationdate = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/CreationDate", NULL);
                     +        pdf->stats.creationdate = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/CreationDate", NULL, &(pdf->stats.creationdate_b64));
+                     }
                      #endif
@@ -3281,7 +3281,7 @@ static void Producer_cb(struct pdf_struct *pdf, struct pdf_obj *obj, struct pdfn
                              return;
                          if (!(pdf->stats.producer))
                     -        pdf->stats.producer = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Producer", NULL);
                     +        pdf->stats.producer = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Producer", NULL, &(pdf->stats.producer_b64));
+                     }
                      #endif
@@ -3297,7 +3297,7 @@ static void Title_cb(struct pdf_struct *pdf, struct pdf_obj *obj, struct pdfname
                              return;
                          if (!(pdf->stats.title))
                     -        pdf->stats.title = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Title", NULL);
                     +        pdf->stats.title = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Title", NULL, &(pdf->stats.title_b64));
+                     }
                      #endif
@@ -3313,7 +3313,7 @@ static void Keywords_cb(struct pdf_struct *pdf, struct pdf_obj *obj, struct pdfn
                              return;
                          if (!(pdf->stats.keywords))
                     -        pdf->stats.keywords = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Keywords", NULL);
                     +        pdf->stats.keywords = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Keywords", NULL, &(pdf->stats.keywords_b64));
+                     }
                      #endif
@@ -3329,7 +3329,7 @@ static void Subject_cb(struct pdf_struct *pdf, struct pdf_obj *obj, struct pdfna
                              return;
                          if (!(pdf->stats.subject))
                     -        pdf->stats.subject = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Subject", NULL);
                     +        pdf->stats.subject = pdf_parse_string(pdf, obj, obj->start + pdf->map, obj_size(pdf, obj, 1), "/Subject", NULL, &(pdf->stats.subject_b64));
+                     }
                      #endif
@@ -3514,83 +3514,123 @@ static void pdf_export_json(struct pdf_struct *pdf)
+                         }
                          if (pdf->stats.author) {
                     -        if (cli_isutf8(pdf->stats.author, strlen(pdf->stats.author)))
                     +        if (pdf->stats.author_b64) {
                                  cli_jsonstr(pdfobj, "Author", pdf->stats.author);
                     -        else {
                     -            char *b64 = (char *)cl_base64_encode(pdf->stats.author, strlen(pdf->stats.author));
                     -            cli_jsonstr(pdfobj, "Author", b64);
                                  cli_jsonbool(pdfobj, "Author_base64", 1);
                     -            free(b64);
                     +        } else {
                     +            if (cli_isutf8(pdf->stats.author, strlen(pdf->stats.author)))
                     +                cli_jsonstr(pdfobj, "Author", pdf->stats.author);
                     +            else {
                     +                char *b64 = (char *)cl_base64_encode(pdf->stats.author, strlen(pdf->stats.author));
                     +                cli_jsonstr(pdfobj, "Author", b64);
                     +                cli_jsonbool(pdfobj, "Author_base64", 1);
                     +                free(b64);
                     +            }
+                             }
+                         }
                          if (pdf->stats.creator) {
                     -        if (cli_isutf8(pdf->stats.creator, strlen(pdf->stats.creator)))
                     +        if (pdf->stats.creator_b64) {
                                  cli_jsonstr(pdfobj, "Creator", pdf->stats.creator);
                     -        else {
                     -            char *b64 = (char *)cl_base64_encode(pdf->stats.creator, strlen(pdf->stats.creator));
                     -            cli_jsonstr(pdfobj, "Creator", b64);
                                  cli_jsonbool(pdfobj, "Creator_base64", 1);
                     -            free(b64);
                     +        } else {
                     +            if (cli_isutf8(pdf->stats.creator, strlen(pdf->stats.creator)))
                     +                cli_jsonstr(pdfobj, "Creator", pdf->stats.creator);
                     +            else {
                     +                char *b64 = (char *)cl_base64_encode(pdf->stats.creator, strlen(pdf->stats.creator));
                     +                cli_jsonstr(pdfobj, "Creator", b64);
                     +                cli_jsonbool(pdfobj, "Creator_base64", 1);
                     +                free(b64);
                     +            }
+                             }
+                         }
                          if (pdf->stats.producer) {
                     -        if (cli_isutf8(pdf->stats.producer, strlen(pdf->stats.producer)))
                     +        if (pdf->stats.producer_b64) {
                                  cli_jsonstr(pdfobj, "Producer", pdf->stats.producer);
                     -        else {
                     -            char *b64 = (char *)cl_base64_encode(pdf->stats.producer, strlen(pdf->stats.producer));
                     -            cli_jsonstr(pdfobj, "Producer", b64);
                                  cli_jsonbool(pdfobj, "Producer_base64", 1);
                     -            free(b64);
                     +        } else {
                     +            if (cli_isutf8(pdf->stats.producer, strlen(pdf->stats.producer)))
                     +                cli_jsonstr(pdfobj, "Producer", pdf->stats.producer);
                     +            else {
                     +                char *b64 = (char *)cl_base64_encode(pdf->stats.producer, strlen(pdf->stats.producer));
                     +                cli_jsonstr(pdfobj, "Producer", b64);
                     +                cli_jsonbool(pdfobj, "Producer_base64", 1);
                     +                free(b64);
                     +            }
+                             }
+                         }
                          if (pdf->stats.modificationdate) {
                     -        if (cli_isutf8(pdf->stats.modificationdate, strlen(pdf->stats.modificationdate)))
                     +        if (pdf->stats.modificationdate_b64) {
                                  cli_jsonstr(pdfobj, "ModificationDate", pdf->stats.modificationdate);
                     -        else {
                     -            char *b64 = (char *)cl_base64_encode(pdf->stats.modificationdate, strlen(pdf->stats.modificationdate));
                     -            cli_jsonstr(pdfobj, "ModificationDate", b64);
                                  cli_jsonbool(pdfobj, "ModificationDate_base64", 1);
                     -            free(b64);
                     +        } else {
                     +            if (cli_isutf8(pdf->stats.modificationdate, strlen(pdf->stats.modificationdate)))
                     +                cli_jsonstr(pdfobj, "ModificationDate", pdf->stats.modificationdate);
                     +            else {
                     +                char *b64 = (char *)cl_base64_encode(pdf->stats.modificationdate, strlen(pdf->stats.modificationdate));
                     +                cli_jsonstr(pdfobj, "ModificationDate", b64);
                     +                cli_jsonbool(pdfobj, "ModificationDate_base64", 1);
                     +                free(b64);
                     +            }
+                             }
+                         }
                          if (pdf->stats.creationdate) {
                     -        if (cli_isutf8(pdf->stats.creationdate, strlen(pdf->stats.creationdate)))
                     +        if (pdf->stats.creationdate_b64) {
                                  cli_jsonstr(pdfobj, "CreationDate", pdf->stats.creationdate);
                     -        else {
                     -            char *b64 = (char *)cl_base64_encode(pdf->stats.creationdate, strlen(pdf->stats.creationdate));
                     -            cli_jsonstr(pdfobj, "CreationDate", b64);
                                  cli_jsonbool(pdfobj, "CreationDate_base64", 1);
                     -            free(b64);
                     +        } else {
                     +            if (cli_isutf8(pdf->stats.creationdate, strlen(pdf->stats.creationdate)))
                     +                cli_jsonstr(pdfobj, "CreationDate", pdf->stats.creationdate);
                     +            else {
                     +                char *b64 = (char *)cl_base64_encode(pdf->stats.creationdate, strlen(pdf->stats.creationdate));
                     +                cli_jsonstr(pdfobj, "CreationDate", b64);
                     +                cli_jsonbool(pdfobj, "CreationDate_base64", 1);
                     +                free(b64);
                     +            }
+                             }
+                         }
                          if (pdf->stats.title) {
                     -        if (cli_isutf8(pdf->stats.title, strlen(pdf->stats.title)))
                     +        if (pdf->stats.title_b64) {
                                  cli_jsonstr(pdfobj, "Title", pdf->stats.title);
                     -        else {
                     -            char *b64 = (char *)cl_base64_encode(pdf->stats.title, strlen(pdf->stats.title));
                     -            cli_jsonstr(pdfobj, "Title", b64);
                                  cli_jsonbool(pdfobj, "Title_base64", 1);
                     -            free(b64);
                     +        } else {
                     +            if (cli_isutf8(pdf->stats.title, strlen(pdf->stats.title)))
                     +                cli_jsonstr(pdfobj, "Title", pdf->stats.title);
                     +            else {
                     +                char *b64 = (char *)cl_base64_encode(pdf->stats.title, strlen(pdf->stats.title));
                     +                cli_jsonstr(pdfobj, "Title", b64);
                     +                cli_jsonbool(pdfobj, "Title_base64", 1);
                     +                free(b64);
                     +            }
+                             }
+                         }
                          if (pdf->stats.subject) {
                     -        if (cli_isutf8(pdf->stats.subject, strlen(pdf->stats.subject)))
                     +        if (pdf->stats.subject_b64) {
                                  cli_jsonstr(pdfobj, "Subject", pdf->stats.subject);
                     -        else {
                     -            char *b64 = (char *)cl_base64_encode(pdf->stats.subject, strlen(pdf->stats.subject));
                     -            cli_jsonstr(pdfobj, "Subject", b64);
                                  cli_jsonbool(pdfobj, "Subject_base64", 1);
                     -            free(b64);
                     +        } else {
                     +            if (cli_isutf8(pdf->stats.subject, strlen(pdf->stats.subject)))
                     +                cli_jsonstr(pdfobj, "Subject", pdf->stats.subject);
                     +            else {
                     +                char *b64 = (char *)cl_base64_encode(pdf->stats.subject, strlen(pdf->stats.subject));
                     +                cli_jsonstr(pdfobj, "Subject", b64);
                     +                cli_jsonbool(pdfobj, "Subject_base64", 1);
                     +                free(b64);
                     +            }
+                             }
+                         }
                          if (pdf->stats.keywords) {
                     -        if (cli_isutf8(pdf->stats.keywords, strlen(pdf->stats.keywords)))
                     +        if (pdf->stats.keywords_b64) {
                                  cli_jsonstr(pdfobj, "Keywords", pdf->stats.keywords);
                     -        else {
                     -            char *b64 = (char *)cl_base64_encode(pdf->stats.keywords, strlen(pdf->stats.keywords));
                     -            cli_jsonstr(pdfobj, "Keywords", b64);
                                  cli_jsonbool(pdfobj, "Keywords_base64", 1);
                     -            free(b64);
                     +        } else {
                     +            if (cli_isutf8(pdf->stats.keywords, strlen(pdf->stats.keywords)))
                     +                cli_jsonstr(pdfobj, "Keywords", pdf->stats.keywords);
                     +            else {
                     +                char *b64 = (char *)cl_base64_encode(pdf->stats.keywords, strlen(pdf->stats.keywords));
                     +                cli_jsonstr(pdfobj, "Keywords", b64);
                     +                cli_jsonbool(pdfobj, "Keywords_base64", 1);
                     +                free(b64);
                     +            }
+                             }
+                         }
                          if (pdf->stats.ninvalidobjs)

libclamav/pdf.h

History View file @ 67eb416

@@ -89,13 +89,21 @@ struct pdf_stats {
                          int32_t nacroform;        /* Number of AcroForm objects */
                          int32_t nxfa;             /* Number of XFA objects */
                          char *author;             /* Author of the PDF */
                     +    int8_t author_b64;
                          char *creator;            /* Application used to create the PDF */
                     +    int8_t creator_b64;
                          char *producer;           /* Application used to produce the PDF */
                     +    int8_t producer_b64;
                          char *creationdate;       /* Date the PDF was created */
                     +    int8_t creationdate_b64;
                          char *modificationdate;   /* Date the PDF was modified */
                     +    int8_t modificationdate_b64;
                          char *title;              /* Title of the PDF */
                     +    int8_t title_b64;
                          char *subject;            /* Subject of the PDF */
                     +    int8_t subject_b64;
                          char *keywords;           /* Keywords of the PDF */
                     +    int8_t keywords_b64;
                      };
@@ -148,7 +156,7 @@ void pdf_handle_enc(struct pdf_struct *pdf);
                      char *decrypt_any(struct pdf_struct *pdf, uint32_t id, const char *in, off_t *length, enum enc_method enc_method);
                      enum enc_method get_enc_method(struct pdf_struct *pdf, struct pdf_obj *obj);
                     -char *pdf_parse_string(struct pdf_struct *pdf, struct pdf_obj *obj, const char *objstart, size_t objsize, const char *str, char **endchar);
                     +char *pdf_parse_string(struct pdf_struct *pdf, struct pdf_obj *obj, const char *objstart, size_t objsize, const char *str, char **endchar, int8_t *b64);
                      struct pdf_array *pdf_parse_array(struct pdf_struct *pdf, struct pdf_obj *obj, size_t objsz, char *begin, char **endchar);
                      struct pdf_dict *pdf_parse_dict(struct pdf_struct *pdf, struct pdf_obj *obj, size_t objsz, char *begin, char **endchar);
                      int is_object_reference(char *begin, char **endchar, uint32_t *id);

libclamav/pdfng.c

History View file @ 67eb416

@@ -356,7 +356,7 @@ static char *pdf_finalize_string(struct pdf_struct *pdf, struct pdf_obj *obj, co
                          return wrkstr;
+                     }
                     -char *pdf_parse_string(struct pdf_struct *pdf, struct pdf_obj *obj, const char *objstart, size_t objsize, const char *str, char **endchar)
                     +char *pdf_parse_string(struct pdf_struct *pdf, struct pdf_obj *obj, const char *objstart, size_t objsize, const char *str, char **endchar, int8_t *b64)
+                     {
                          const char *q = objstart;
                          char *p1, *p2;
@@ -486,18 +486,16 @@ char *pdf_parse_string(struct pdf_struct *pdf, struct pdf_obj *obj, const char *
                                  switch (*p3) {
                                      case '(':
                                      case '<':
                     -                    res = pdf_parse_string(pdf, obj, p3, objsize2, NULL, NULL);
                     -                    free(begin);
                     +                    res = pdf_parse_string(pdf, obj, p3, objsize2, NULL, NULL, b64);
                                          break;
                                      default:
                                          res = pdf_finalize_string(pdf, obj, begin, objsize2);
                                          if (!res) {
                     -                        /* WE NEED TO BASE64 ENCODE IT! */
                     -                        return NULL; /* for now, just return NULL */
                     -                    } else {
                     -                        free(begin);
                     -                    }
                     +                        res = (char *)cl_base64_encode(begin, objsize2);
                     +                        if (b64) *b64 = 1;
                     +                    }
+                                 }
                     +            free(begin);
+                             }
                              close(fd);
@@ -564,20 +562,16 @@ char *pdf_parse_string(struct pdf_struct *pdf, struct pdf_obj *obj, const char *
                          len = (size_t)(p2 - p1) + 1;
                     -    /* EXPERIMENTAL */
+                    -
                          res = pdf_finalize_string(pdf, obj, p1, len);
                          if (!res) {
                     -        /* WE NEED TO BASE64 ENCODE IT! */
                     -        return NULL; /* for now, just return NULL */
                     +        res = (char *)cl_base64_encode(p1, len);
                     +        if (b64) *b64 = 1;
+                         }
                          if (res && endchar)
                              *endchar = p2;
                          return res;
+                    -
                     -    /* EXPERIMENTAL */
+                     }
                      struct pdf_dict *pdf_parse_dict(struct pdf_struct *pdf, struct pdf_obj *obj, size_t objsz, char *begin, char **endchar)
@@ -734,7 +728,7 @@ struct pdf_dict *pdf_parse_dict(struct pdf_struct *pdf, struct pdf_obj *obj, siz
                              switch (begin[0]) {
                                  case '(':
                     -                val = pdf_parse_string(pdf, obj, begin, objsz, NULL, &p1);
                     +                val = pdf_parse_string(pdf, obj, begin, objsz, NULL, &p1, NULL);
                                      begin = p1+2;
                                      break;
                                  case '[':
@@ -750,7 +744,7 @@ struct pdf_dict *pdf_parse_dict(struct pdf_struct *pdf, struct pdf_obj *obj, siz
+                                         }
+                                     }
                     -                val = pdf_parse_string(pdf, obj, begin, objsz, NULL, &p1);
                     +                val = pdf_parse_string(pdf, obj, begin, objsz, NULL, &p1, NULL);
                                      begin = p1+2;
                                      break;
                                  default:
@@ -932,7 +926,7 @@ struct pdf_array *pdf_parse_array(struct pdf_struct *pdf, struct pdf_obj *obj, s
                                      /* Not a dictionary. Intentially fall through. */
                                  case '(':
                     -                val = pdf_parse_string(pdf, obj, begin, objsz, NULL, &begin);
                     +                val = pdf_parse_string(pdf, obj, begin, objsz, NULL, &begin, NULL);
                                      begin += 2;
                                      break;
                                  case '[':