annotate sites/all/libraries/ARC2/arc/serializers/ARC2_NTriplesSerializer.php @ 4:ce11bbd8f642

added modules
author danieleb <danielebarchiesi@me.com>
date Thu, 19 Sep 2013 10:38:44 +0100
parents
children
rev   line source
danielebarchiesi@4 1 <?php
danielebarchiesi@4 2 /**
danielebarchiesi@4 3 * ARC2 N-Triples Serializer
danielebarchiesi@4 4 *
danielebarchiesi@4 5 * @author Benjamin Nowack
danielebarchiesi@4 6 * @license <http://arc.semsol.org/license>
danielebarchiesi@4 7 * @homepage <http://arc.semsol.org/>
danielebarchiesi@4 8 * @package ARC2
danielebarchiesi@4 9 */
danielebarchiesi@4 10
danielebarchiesi@4 11 ARC2::inc('RDFSerializer');
danielebarchiesi@4 12
danielebarchiesi@4 13 class ARC2_NTriplesSerializer extends ARC2_RDFSerializer {
danielebarchiesi@4 14
danielebarchiesi@4 15 function __construct($a, &$caller) {
danielebarchiesi@4 16 parent::__construct($a, $caller);
danielebarchiesi@4 17 }
danielebarchiesi@4 18
danielebarchiesi@4 19 function __init() {
danielebarchiesi@4 20 parent::__init();
danielebarchiesi@4 21 $this->esc_chars = array();
danielebarchiesi@4 22 $this->raw = 0;
danielebarchiesi@4 23 }
danielebarchiesi@4 24
danielebarchiesi@4 25 /* */
danielebarchiesi@4 26
danielebarchiesi@4 27 function getTerm($v, $term = '') {
danielebarchiesi@4 28 // type detection
danielebarchiesi@4 29 if (!is_array($v) || empty($v['type'])) {
danielebarchiesi@4 30 // bnode
danielebarchiesi@4 31 if (preg_match('/^\_\:/', $v)) {
danielebarchiesi@4 32 return $this->getTerm(array('value' => $v, 'type' => 'bnode'));
danielebarchiesi@4 33 }
danielebarchiesi@4 34 // uri
danielebarchiesi@4 35 if (preg_match('/^[a-z0-9]+\:[^\s\"]*$/is' . ($this->has_pcre_unicode ? 'u' : ''), $v)) {
danielebarchiesi@4 36 return $this->getTerm(array('value' => $v, 'type' => 'uri'));
danielebarchiesi@4 37 }
danielebarchiesi@4 38 // fallback for non-unicode environments: subjects and predicates can't be literals.
danielebarchiesi@4 39 if (in_array($term, array('s', 'p'))) {
danielebarchiesi@4 40 return $this->getTerm(array('value' => $v, 'type' => 'uri'));
danielebarchiesi@4 41 }
danielebarchiesi@4 42 // assume literal
danielebarchiesi@4 43 return $this->getTerm(array('type' => 'literal', 'value' => $v));
danielebarchiesi@4 44 }
danielebarchiesi@4 45 if ($v['type'] == 'bnode') {
danielebarchiesi@4 46 return $v['value'];
danielebarchiesi@4 47 }
danielebarchiesi@4 48 elseif ($v['type'] == 'uri') {
danielebarchiesi@4 49 return '<' . $this->escape($v['value']) . '>';
danielebarchiesi@4 50 }
danielebarchiesi@4 51 // something went wrong
danielebarchiesi@4 52 elseif ($v['type'] != 'literal') {
danielebarchiesi@4 53 return $this->getTerm($v['value']);
danielebarchiesi@4 54 }
danielebarchiesi@4 55 /* literal */
danielebarchiesi@4 56 $quot = '"';
danielebarchiesi@4 57 if ($this->raw && preg_match('/\"/', $v['value'])) {
danielebarchiesi@4 58 $quot = "'";
danielebarchiesi@4 59 if (preg_match('/\'/', $v['value'])) {
danielebarchiesi@4 60 $quot = '"""';
danielebarchiesi@4 61 if (preg_match('/\"\"\"/', $v['value']) || preg_match('/\"$/', $v['value']) || preg_match('/^\"/', $v['value'])) {
danielebarchiesi@4 62 $quot = "'''";
danielebarchiesi@4 63 $v['value'] = preg_replace("/'$/", "' ", $v['value']);
danielebarchiesi@4 64 $v['value'] = preg_replace("/^'/", " '", $v['value']);
danielebarchiesi@4 65 $v['value'] = str_replace("'''", '\\\'\\\'\\\'', $v['value']);
danielebarchiesi@4 66 }
danielebarchiesi@4 67 }
danielebarchiesi@4 68 }
danielebarchiesi@4 69 if ($this->raw && (strlen($quot) == 1) && preg_match('/[\x0d\x0a]/', $v['value'])) {
danielebarchiesi@4 70 $quot = $quot . $quot . $quot;
danielebarchiesi@4 71 }
danielebarchiesi@4 72 $suffix = isset($v['lang']) && $v['lang'] ? '@' . $v['lang'] : '';
danielebarchiesi@4 73 $suffix = isset($v['datatype']) && $v['datatype'] ? '^^' . $this->getTerm($v['datatype']) : $suffix;
danielebarchiesi@4 74 //return $quot . "object" . utf8_encode($v['value']) . $quot . $suffix;
danielebarchiesi@4 75 return $quot . $this->escape($v['value']) . $quot . $suffix;
danielebarchiesi@4 76 }
danielebarchiesi@4 77
danielebarchiesi@4 78 function getSerializedIndex($index, $raw = 0) {
danielebarchiesi@4 79 $this->raw = $raw;
danielebarchiesi@4 80 $r = '';
danielebarchiesi@4 81 $nl = "\n";
danielebarchiesi@4 82 foreach ($index as $s => $ps) {
danielebarchiesi@4 83 $s = $this->getTerm($s, 's');
danielebarchiesi@4 84 foreach ($ps as $p => $os) {
danielebarchiesi@4 85 $p = $this->getTerm($p, 'p');
danielebarchiesi@4 86 if (!is_array($os)) {/* single literal o */
danielebarchiesi@4 87 $os = array(array('value' => $os, 'type' => 'literal'));
danielebarchiesi@4 88 }
danielebarchiesi@4 89 foreach ($os as $o) {
danielebarchiesi@4 90 $o = $this->getTerm($o, 'o‚');
danielebarchiesi@4 91 $r .= $r ? $nl : '';
danielebarchiesi@4 92 $r .= $s . ' ' . $p . ' ' . $o . ' .';
danielebarchiesi@4 93 }
danielebarchiesi@4 94 }
danielebarchiesi@4 95 }
danielebarchiesi@4 96 return $r . $nl;
danielebarchiesi@4 97 }
danielebarchiesi@4 98
danielebarchiesi@4 99 /* */
danielebarchiesi@4 100
danielebarchiesi@4 101 function escape($v) {
danielebarchiesi@4 102 $r = '';
danielebarchiesi@4 103 // decode, if possible
danielebarchiesi@4 104 $v = (strpos(utf8_decode(str_replace('?', '', $v)), '?') === false) ? utf8_decode($v) : $v;
danielebarchiesi@4 105 if ($this->raw) return $v;// no further escaping wanted
danielebarchiesi@4 106 // escape tabs and linefeeds
danielebarchiesi@4 107 $v = str_replace(array("\t", "\r", "\n"), array('\t', '\r', '\n'), $v);
danielebarchiesi@4 108 // escape non-ascii-chars
danielebarchiesi@4 109 $v = preg_replace_callback('/([^a-zA-Z0-9 \!\#\$\%\&\(\)\*\+\,\-\.\/\:\;\=\?\@\^\_\{\|\}]+)/', array($this, 'escapeChars'), $v);
danielebarchiesi@4 110 return $v;
danielebarchiesi@4 111 }
danielebarchiesi@4 112
danielebarchiesi@4 113 function escapeChars($matches) {
danielebarchiesi@4 114 $v = $matches[1];
danielebarchiesi@4 115 $r = '';
danielebarchiesi@4 116 // loop through mb chars
danielebarchiesi@4 117 if (function_exists('mb_strlen')) {
danielebarchiesi@4 118 for ($i = 0, $i_max = mb_strlen($v, 'UTF-8'); $i < $i_max; $i++) {
danielebarchiesi@4 119 $c = mb_substr($v, $i, 1, 'UTF-8');
danielebarchiesi@4 120 if (!isset($this->esc_chars[$c])) {
danielebarchiesi@4 121 $this->esc_chars[$c] = $this->getEscapedChar($c, $this->getCharNo($c, 1));
danielebarchiesi@4 122 }
danielebarchiesi@4 123 $r .= $this->esc_chars[$c];
danielebarchiesi@4 124 }
danielebarchiesi@4 125 }
danielebarchiesi@4 126 // fall back to built-in JSON functionality, if available
danielebarchiesi@4 127 else if (function_exists('json_encode')) {
danielebarchiesi@4 128 $r = json_encode($v);
danielebarchiesi@4 129 if ($r == 'null') $r = json_encode (utf8_encode($v));
danielebarchiesi@4 130 // remove boundary quotes
danielebarchiesi@4 131 if (substr($r, 0, 1) == '"') $r = substr($r, 1);
danielebarchiesi@4 132 if (substr($r, -1) == '"') $r = substr($r, 0, -1);
danielebarchiesi@4 133 // uppercase hex chars
danielebarchiesi@4 134 $r = preg_replace('/(\\\u)([0-9a-f]{4})/e', "'\\1' . strtoupper('\\2')", $r);
danielebarchiesi@4 135 $r = preg_replace('/(\\\U)([0-9a-f]{8})/e', "'\\1' . strtoupper('\\2')", $r);
danielebarchiesi@4 136 }
danielebarchiesi@4 137 // escape byte-wise (may be wrong for mb chars and newer php versions)
danielebarchiesi@4 138 else {
danielebarchiesi@4 139 for ($i = 0, $i_max = strlen($v); $i < $i_max; $i++) {
danielebarchiesi@4 140 $c = $v[$i];
danielebarchiesi@4 141 if (!isset($this->esc_chars[$c])) {
danielebarchiesi@4 142 $this->esc_chars[$c] = $this->getEscapedChar($c, $this->getCharNo($c));
danielebarchiesi@4 143 }
danielebarchiesi@4 144 $r .= $this->esc_chars[$c];
danielebarchiesi@4 145 }
danielebarchiesi@4 146 }
danielebarchiesi@4 147 return $r;
danielebarchiesi@4 148 }
danielebarchiesi@4 149
danielebarchiesi@4 150 /* */
danielebarchiesi@4 151
danielebarchiesi@4 152 function getCharNo($c, $is_encoded = false) {
danielebarchiesi@4 153 $c_utf = $is_encoded ? $c : utf8_encode($c);
danielebarchiesi@4 154 $bl = strlen($c_utf);/* binary length */
danielebarchiesi@4 155 $r = 0;
danielebarchiesi@4 156 switch ($bl) {
danielebarchiesi@4 157 case 1:/* 0####### (0-127) */
danielebarchiesi@4 158 $r = ord($c_utf);
danielebarchiesi@4 159 break;
danielebarchiesi@4 160 case 2:/* 110##### 10###### = 192+x 128+x */
danielebarchiesi@4 161 $r = ((ord($c_utf[0]) - 192) * 64) + (ord($c_utf[1]) - 128);
danielebarchiesi@4 162 break;
danielebarchiesi@4 163 case 3:/* 1110#### 10###### 10###### = 224+x 128+x 128+x */
danielebarchiesi@4 164 $r = ((ord($c_utf[0]) - 224) * 4096) + ((ord($c_utf[1]) - 128) * 64) + (ord($c_utf[2]) - 128);
danielebarchiesi@4 165 break;
danielebarchiesi@4 166 case 4:/* 1111#### 10###### 10###### 10###### = 240+x 128+x 128+x 128+x */
danielebarchiesi@4 167 $r = ((ord($c_utf[0]) - 240) * 262144) + ((ord($c_utf[1]) - 128) * 4096) + ((ord($c_utf[2]) - 128) * 64) + (ord($c_utf[3]) - 128);
danielebarchiesi@4 168 break;
danielebarchiesi@4 169 }
danielebarchiesi@4 170 return $r;
danielebarchiesi@4 171 }
danielebarchiesi@4 172
danielebarchiesi@4 173 function getEscapedChar($c, $no) {/*see http://www.w3.org/TR/rdf-testcases/#ntrip_strings */
danielebarchiesi@4 174 if ($no < 9) return "\\u" . sprintf('%04X', $no); /* #x0-#x8 (0-8) */
danielebarchiesi@4 175 if ($no == 9) return '\t'; /* #x9 (9) */
danielebarchiesi@4 176 if ($no == 10) return '\n'; /* #xA (10) */
danielebarchiesi@4 177 if ($no < 13) return "\\u" . sprintf('%04X', $no); /* #xB-#xC (11-12) */
danielebarchiesi@4 178 if ($no == 13) return '\r'; /* #xD (13) */
danielebarchiesi@4 179 if ($no < 32) return "\\u" . sprintf('%04X', $no); /* #xE-#x1F (14-31) */
danielebarchiesi@4 180 if ($no < 34) return $c; /* #x20-#x21 (32-33) */
danielebarchiesi@4 181 if ($no == 34) return '\"'; /* #x22 (34) */
danielebarchiesi@4 182 if ($no < 92) return $c; /* #x23-#x5B (35-91) */
danielebarchiesi@4 183 if ($no == 92) return '\\'; /* #x5C (92) */
danielebarchiesi@4 184 if ($no < 127) return $c; /* #x5D-#x7E (93-126) */
danielebarchiesi@4 185 if ($no < 65536) return "\\u" . sprintf('%04X', $no); /* #x7F-#xFFFF (128-65535) */
danielebarchiesi@4 186 if ($no < 1114112) return "\\U" . sprintf('%08X', $no); /* #x10000-#x10FFFF (65536-1114111) */
danielebarchiesi@4 187 return ''; /* not defined => ignore */
danielebarchiesi@4 188 }
danielebarchiesi@4 189
danielebarchiesi@4 190 /* */
danielebarchiesi@4 191
danielebarchiesi@4 192 }