danielebarchiesi@4
|
1 <?php
|
danielebarchiesi@4
|
2 /**
|
danielebarchiesi@4
|
3 * ARC2 N-Triples Serializer
|
danielebarchiesi@4
|
4 *
|
danielebarchiesi@4
|
5 * @author Benjamin Nowack
|
danielebarchiesi@4
|
6 * @license <http://arc.semsol.org/license>
|
danielebarchiesi@4
|
7 * @homepage <http://arc.semsol.org/>
|
danielebarchiesi@4
|
8 * @package ARC2
|
danielebarchiesi@4
|
9 */
|
danielebarchiesi@4
|
10
|
danielebarchiesi@4
|
11 ARC2::inc('RDFSerializer');
|
danielebarchiesi@4
|
12
|
danielebarchiesi@4
|
13 class ARC2_NTriplesSerializer extends ARC2_RDFSerializer {
|
danielebarchiesi@4
|
14
|
danielebarchiesi@4
|
15 function __construct($a, &$caller) {
|
danielebarchiesi@4
|
16 parent::__construct($a, $caller);
|
danielebarchiesi@4
|
17 }
|
danielebarchiesi@4
|
18
|
danielebarchiesi@4
|
19 function __init() {
|
danielebarchiesi@4
|
20 parent::__init();
|
danielebarchiesi@4
|
21 $this->esc_chars = array();
|
danielebarchiesi@4
|
22 $this->raw = 0;
|
danielebarchiesi@4
|
23 }
|
danielebarchiesi@4
|
24
|
danielebarchiesi@4
|
25 /* */
|
danielebarchiesi@4
|
26
|
danielebarchiesi@4
|
27 function getTerm($v, $term = '') {
|
danielebarchiesi@4
|
28 // type detection
|
danielebarchiesi@4
|
29 if (!is_array($v) || empty($v['type'])) {
|
danielebarchiesi@4
|
30 // bnode
|
danielebarchiesi@4
|
31 if (preg_match('/^\_\:/', $v)) {
|
danielebarchiesi@4
|
32 return $this->getTerm(array('value' => $v, 'type' => 'bnode'));
|
danielebarchiesi@4
|
33 }
|
danielebarchiesi@4
|
34 // uri
|
danielebarchiesi@4
|
35 if (preg_match('/^[a-z0-9]+\:[^\s\"]*$/is' . ($this->has_pcre_unicode ? 'u' : ''), $v)) {
|
danielebarchiesi@4
|
36 return $this->getTerm(array('value' => $v, 'type' => 'uri'));
|
danielebarchiesi@4
|
37 }
|
danielebarchiesi@4
|
38 // fallback for non-unicode environments: subjects and predicates can't be literals.
|
danielebarchiesi@4
|
39 if (in_array($term, array('s', 'p'))) {
|
danielebarchiesi@4
|
40 return $this->getTerm(array('value' => $v, 'type' => 'uri'));
|
danielebarchiesi@4
|
41 }
|
danielebarchiesi@4
|
42 // assume literal
|
danielebarchiesi@4
|
43 return $this->getTerm(array('type' => 'literal', 'value' => $v));
|
danielebarchiesi@4
|
44 }
|
danielebarchiesi@4
|
45 if ($v['type'] == 'bnode') {
|
danielebarchiesi@4
|
46 return $v['value'];
|
danielebarchiesi@4
|
47 }
|
danielebarchiesi@4
|
48 elseif ($v['type'] == 'uri') {
|
danielebarchiesi@4
|
49 return '<' . $this->escape($v['value']) . '>';
|
danielebarchiesi@4
|
50 }
|
danielebarchiesi@4
|
51 // something went wrong
|
danielebarchiesi@4
|
52 elseif ($v['type'] != 'literal') {
|
danielebarchiesi@4
|
53 return $this->getTerm($v['value']);
|
danielebarchiesi@4
|
54 }
|
danielebarchiesi@4
|
55 /* literal */
|
danielebarchiesi@4
|
56 $quot = '"';
|
danielebarchiesi@4
|
57 if ($this->raw && preg_match('/\"/', $v['value'])) {
|
danielebarchiesi@4
|
58 $quot = "'";
|
danielebarchiesi@4
|
59 if (preg_match('/\'/', $v['value'])) {
|
danielebarchiesi@4
|
60 $quot = '"""';
|
danielebarchiesi@4
|
61 if (preg_match('/\"\"\"/', $v['value']) || preg_match('/\"$/', $v['value']) || preg_match('/^\"/', $v['value'])) {
|
danielebarchiesi@4
|
62 $quot = "'''";
|
danielebarchiesi@4
|
63 $v['value'] = preg_replace("/'$/", "' ", $v['value']);
|
danielebarchiesi@4
|
64 $v['value'] = preg_replace("/^'/", " '", $v['value']);
|
danielebarchiesi@4
|
65 $v['value'] = str_replace("'''", '\\\'\\\'\\\'', $v['value']);
|
danielebarchiesi@4
|
66 }
|
danielebarchiesi@4
|
67 }
|
danielebarchiesi@4
|
68 }
|
danielebarchiesi@4
|
69 if ($this->raw && (strlen($quot) == 1) && preg_match('/[\x0d\x0a]/', $v['value'])) {
|
danielebarchiesi@4
|
70 $quot = $quot . $quot . $quot;
|
danielebarchiesi@4
|
71 }
|
danielebarchiesi@4
|
72 $suffix = isset($v['lang']) && $v['lang'] ? '@' . $v['lang'] : '';
|
danielebarchiesi@4
|
73 $suffix = isset($v['datatype']) && $v['datatype'] ? '^^' . $this->getTerm($v['datatype']) : $suffix;
|
danielebarchiesi@4
|
74 //return $quot . "object" . utf8_encode($v['value']) . $quot . $suffix;
|
danielebarchiesi@4
|
75 return $quot . $this->escape($v['value']) . $quot . $suffix;
|
danielebarchiesi@4
|
76 }
|
danielebarchiesi@4
|
77
|
danielebarchiesi@4
|
78 function getSerializedIndex($index, $raw = 0) {
|
danielebarchiesi@4
|
79 $this->raw = $raw;
|
danielebarchiesi@4
|
80 $r = '';
|
danielebarchiesi@4
|
81 $nl = "\n";
|
danielebarchiesi@4
|
82 foreach ($index as $s => $ps) {
|
danielebarchiesi@4
|
83 $s = $this->getTerm($s, 's');
|
danielebarchiesi@4
|
84 foreach ($ps as $p => $os) {
|
danielebarchiesi@4
|
85 $p = $this->getTerm($p, 'p');
|
danielebarchiesi@4
|
86 if (!is_array($os)) {/* single literal o */
|
danielebarchiesi@4
|
87 $os = array(array('value' => $os, 'type' => 'literal'));
|
danielebarchiesi@4
|
88 }
|
danielebarchiesi@4
|
89 foreach ($os as $o) {
|
danielebarchiesi@4
|
90 $o = $this->getTerm($o, 'o‚');
|
danielebarchiesi@4
|
91 $r .= $r ? $nl : '';
|
danielebarchiesi@4
|
92 $r .= $s . ' ' . $p . ' ' . $o . ' .';
|
danielebarchiesi@4
|
93 }
|
danielebarchiesi@4
|
94 }
|
danielebarchiesi@4
|
95 }
|
danielebarchiesi@4
|
96 return $r . $nl;
|
danielebarchiesi@4
|
97 }
|
danielebarchiesi@4
|
98
|
danielebarchiesi@4
|
99 /* */
|
danielebarchiesi@4
|
100
|
danielebarchiesi@4
|
101 function escape($v) {
|
danielebarchiesi@4
|
102 $r = '';
|
danielebarchiesi@4
|
103 // decode, if possible
|
danielebarchiesi@4
|
104 $v = (strpos(utf8_decode(str_replace('?', '', $v)), '?') === false) ? utf8_decode($v) : $v;
|
danielebarchiesi@4
|
105 if ($this->raw) return $v;// no further escaping wanted
|
danielebarchiesi@4
|
106 // escape tabs and linefeeds
|
danielebarchiesi@4
|
107 $v = str_replace(array("\t", "\r", "\n"), array('\t', '\r', '\n'), $v);
|
danielebarchiesi@4
|
108 // escape non-ascii-chars
|
danielebarchiesi@4
|
109 $v = preg_replace_callback('/([^a-zA-Z0-9 \!\#\$\%\&\(\)\*\+\,\-\.\/\:\;\=\?\@\^\_\{\|\}]+)/', array($this, 'escapeChars'), $v);
|
danielebarchiesi@4
|
110 return $v;
|
danielebarchiesi@4
|
111 }
|
danielebarchiesi@4
|
112
|
danielebarchiesi@4
|
113 function escapeChars($matches) {
|
danielebarchiesi@4
|
114 $v = $matches[1];
|
danielebarchiesi@4
|
115 $r = '';
|
danielebarchiesi@4
|
116 // loop through mb chars
|
danielebarchiesi@4
|
117 if (function_exists('mb_strlen')) {
|
danielebarchiesi@4
|
118 for ($i = 0, $i_max = mb_strlen($v, 'UTF-8'); $i < $i_max; $i++) {
|
danielebarchiesi@4
|
119 $c = mb_substr($v, $i, 1, 'UTF-8');
|
danielebarchiesi@4
|
120 if (!isset($this->esc_chars[$c])) {
|
danielebarchiesi@4
|
121 $this->esc_chars[$c] = $this->getEscapedChar($c, $this->getCharNo($c, 1));
|
danielebarchiesi@4
|
122 }
|
danielebarchiesi@4
|
123 $r .= $this->esc_chars[$c];
|
danielebarchiesi@4
|
124 }
|
danielebarchiesi@4
|
125 }
|
danielebarchiesi@4
|
126 // fall back to built-in JSON functionality, if available
|
danielebarchiesi@4
|
127 else if (function_exists('json_encode')) {
|
danielebarchiesi@4
|
128 $r = json_encode($v);
|
danielebarchiesi@4
|
129 if ($r == 'null') $r = json_encode (utf8_encode($v));
|
danielebarchiesi@4
|
130 // remove boundary quotes
|
danielebarchiesi@4
|
131 if (substr($r, 0, 1) == '"') $r = substr($r, 1);
|
danielebarchiesi@4
|
132 if (substr($r, -1) == '"') $r = substr($r, 0, -1);
|
danielebarchiesi@4
|
133 // uppercase hex chars
|
danielebarchiesi@4
|
134 $r = preg_replace('/(\\\u)([0-9a-f]{4})/e', "'\\1' . strtoupper('\\2')", $r);
|
danielebarchiesi@4
|
135 $r = preg_replace('/(\\\U)([0-9a-f]{8})/e', "'\\1' . strtoupper('\\2')", $r);
|
danielebarchiesi@4
|
136 }
|
danielebarchiesi@4
|
137 // escape byte-wise (may be wrong for mb chars and newer php versions)
|
danielebarchiesi@4
|
138 else {
|
danielebarchiesi@4
|
139 for ($i = 0, $i_max = strlen($v); $i < $i_max; $i++) {
|
danielebarchiesi@4
|
140 $c = $v[$i];
|
danielebarchiesi@4
|
141 if (!isset($this->esc_chars[$c])) {
|
danielebarchiesi@4
|
142 $this->esc_chars[$c] = $this->getEscapedChar($c, $this->getCharNo($c));
|
danielebarchiesi@4
|
143 }
|
danielebarchiesi@4
|
144 $r .= $this->esc_chars[$c];
|
danielebarchiesi@4
|
145 }
|
danielebarchiesi@4
|
146 }
|
danielebarchiesi@4
|
147 return $r;
|
danielebarchiesi@4
|
148 }
|
danielebarchiesi@4
|
149
|
danielebarchiesi@4
|
150 /* */
|
danielebarchiesi@4
|
151
|
danielebarchiesi@4
|
152 function getCharNo($c, $is_encoded = false) {
|
danielebarchiesi@4
|
153 $c_utf = $is_encoded ? $c : utf8_encode($c);
|
danielebarchiesi@4
|
154 $bl = strlen($c_utf);/* binary length */
|
danielebarchiesi@4
|
155 $r = 0;
|
danielebarchiesi@4
|
156 switch ($bl) {
|
danielebarchiesi@4
|
157 case 1:/* 0####### (0-127) */
|
danielebarchiesi@4
|
158 $r = ord($c_utf);
|
danielebarchiesi@4
|
159 break;
|
danielebarchiesi@4
|
160 case 2:/* 110##### 10###### = 192+x 128+x */
|
danielebarchiesi@4
|
161 $r = ((ord($c_utf[0]) - 192) * 64) + (ord($c_utf[1]) - 128);
|
danielebarchiesi@4
|
162 break;
|
danielebarchiesi@4
|
163 case 3:/* 1110#### 10###### 10###### = 224+x 128+x 128+x */
|
danielebarchiesi@4
|
164 $r = ((ord($c_utf[0]) - 224) * 4096) + ((ord($c_utf[1]) - 128) * 64) + (ord($c_utf[2]) - 128);
|
danielebarchiesi@4
|
165 break;
|
danielebarchiesi@4
|
166 case 4:/* 1111#### 10###### 10###### 10###### = 240+x 128+x 128+x 128+x */
|
danielebarchiesi@4
|
167 $r = ((ord($c_utf[0]) - 240) * 262144) + ((ord($c_utf[1]) - 128) * 4096) + ((ord($c_utf[2]) - 128) * 64) + (ord($c_utf[3]) - 128);
|
danielebarchiesi@4
|
168 break;
|
danielebarchiesi@4
|
169 }
|
danielebarchiesi@4
|
170 return $r;
|
danielebarchiesi@4
|
171 }
|
danielebarchiesi@4
|
172
|
danielebarchiesi@4
|
173 function getEscapedChar($c, $no) {/*see http://www.w3.org/TR/rdf-testcases/#ntrip_strings */
|
danielebarchiesi@4
|
174 if ($no < 9) return "\\u" . sprintf('%04X', $no); /* #x0-#x8 (0-8) */
|
danielebarchiesi@4
|
175 if ($no == 9) return '\t'; /* #x9 (9) */
|
danielebarchiesi@4
|
176 if ($no == 10) return '\n'; /* #xA (10) */
|
danielebarchiesi@4
|
177 if ($no < 13) return "\\u" . sprintf('%04X', $no); /* #xB-#xC (11-12) */
|
danielebarchiesi@4
|
178 if ($no == 13) return '\r'; /* #xD (13) */
|
danielebarchiesi@4
|
179 if ($no < 32) return "\\u" . sprintf('%04X', $no); /* #xE-#x1F (14-31) */
|
danielebarchiesi@4
|
180 if ($no < 34) return $c; /* #x20-#x21 (32-33) */
|
danielebarchiesi@4
|
181 if ($no == 34) return '\"'; /* #x22 (34) */
|
danielebarchiesi@4
|
182 if ($no < 92) return $c; /* #x23-#x5B (35-91) */
|
danielebarchiesi@4
|
183 if ($no == 92) return '\\'; /* #x5C (92) */
|
danielebarchiesi@4
|
184 if ($no < 127) return $c; /* #x5D-#x7E (93-126) */
|
danielebarchiesi@4
|
185 if ($no < 65536) return "\\u" . sprintf('%04X', $no); /* #x7F-#xFFFF (128-65535) */
|
danielebarchiesi@4
|
186 if ($no < 1114112) return "\\U" . sprintf('%08X', $no); /* #x10000-#x10FFFF (65536-1114111) */
|
danielebarchiesi@4
|
187 return ''; /* not defined => ignore */
|
danielebarchiesi@4
|
188 }
|
danielebarchiesi@4
|
189
|
danielebarchiesi@4
|
190 /* */
|
danielebarchiesi@4
|
191
|
danielebarchiesi@4
|
192 }
|