danielebarchiesi@4: danielebarchiesi@4: * @homepage danielebarchiesi@4: * @package ARC2 danielebarchiesi@4: */ danielebarchiesi@4: danielebarchiesi@4: ARC2::inc('RDFSerializer'); danielebarchiesi@4: danielebarchiesi@4: class ARC2_NTriplesSerializer extends ARC2_RDFSerializer { danielebarchiesi@4: danielebarchiesi@4: function __construct($a, &$caller) { danielebarchiesi@4: parent::__construct($a, $caller); danielebarchiesi@4: } danielebarchiesi@4: danielebarchiesi@4: function __init() { danielebarchiesi@4: parent::__init(); danielebarchiesi@4: $this->esc_chars = array(); danielebarchiesi@4: $this->raw = 0; danielebarchiesi@4: } danielebarchiesi@4: danielebarchiesi@4: /* */ danielebarchiesi@4: danielebarchiesi@4: function getTerm($v, $term = '') { danielebarchiesi@4: // type detection danielebarchiesi@4: if (!is_array($v) || empty($v['type'])) { danielebarchiesi@4: // bnode danielebarchiesi@4: if (preg_match('/^\_\:/', $v)) { danielebarchiesi@4: return $this->getTerm(array('value' => $v, 'type' => 'bnode')); danielebarchiesi@4: } danielebarchiesi@4: // uri danielebarchiesi@4: if (preg_match('/^[a-z0-9]+\:[^\s\"]*$/is' . ($this->has_pcre_unicode ? 'u' : ''), $v)) { danielebarchiesi@4: return $this->getTerm(array('value' => $v, 'type' => 'uri')); danielebarchiesi@4: } danielebarchiesi@4: // fallback for non-unicode environments: subjects and predicates can't be literals. danielebarchiesi@4: if (in_array($term, array('s', 'p'))) { danielebarchiesi@4: return $this->getTerm(array('value' => $v, 'type' => 'uri')); danielebarchiesi@4: } danielebarchiesi@4: // assume literal danielebarchiesi@4: return $this->getTerm(array('type' => 'literal', 'value' => $v)); danielebarchiesi@4: } danielebarchiesi@4: if ($v['type'] == 'bnode') { danielebarchiesi@4: return $v['value']; danielebarchiesi@4: } danielebarchiesi@4: elseif ($v['type'] == 'uri') { danielebarchiesi@4: return '<' . $this->escape($v['value']) . '>'; danielebarchiesi@4: } danielebarchiesi@4: // something went wrong danielebarchiesi@4: elseif ($v['type'] != 'literal') { danielebarchiesi@4: return $this->getTerm($v['value']); danielebarchiesi@4: } danielebarchiesi@4: /* literal */ danielebarchiesi@4: $quot = '"'; danielebarchiesi@4: if ($this->raw && preg_match('/\"/', $v['value'])) { danielebarchiesi@4: $quot = "'"; danielebarchiesi@4: if (preg_match('/\'/', $v['value'])) { danielebarchiesi@4: $quot = '"""'; danielebarchiesi@4: if (preg_match('/\"\"\"/', $v['value']) || preg_match('/\"$/', $v['value']) || preg_match('/^\"/', $v['value'])) { danielebarchiesi@4: $quot = "'''"; danielebarchiesi@4: $v['value'] = preg_replace("/'$/", "' ", $v['value']); danielebarchiesi@4: $v['value'] = preg_replace("/^'/", " '", $v['value']); danielebarchiesi@4: $v['value'] = str_replace("'''", '\\\'\\\'\\\'', $v['value']); danielebarchiesi@4: } danielebarchiesi@4: } danielebarchiesi@4: } danielebarchiesi@4: if ($this->raw && (strlen($quot) == 1) && preg_match('/[\x0d\x0a]/', $v['value'])) { danielebarchiesi@4: $quot = $quot . $quot . $quot; danielebarchiesi@4: } danielebarchiesi@4: $suffix = isset($v['lang']) && $v['lang'] ? '@' . $v['lang'] : ''; danielebarchiesi@4: $suffix = isset($v['datatype']) && $v['datatype'] ? '^^' . $this->getTerm($v['datatype']) : $suffix; danielebarchiesi@4: //return $quot . "object" . utf8_encode($v['value']) . $quot . $suffix; danielebarchiesi@4: return $quot . $this->escape($v['value']) . $quot . $suffix; danielebarchiesi@4: } danielebarchiesi@4: danielebarchiesi@4: function getSerializedIndex($index, $raw = 0) { danielebarchiesi@4: $this->raw = $raw; danielebarchiesi@4: $r = ''; danielebarchiesi@4: $nl = "\n"; danielebarchiesi@4: foreach ($index as $s => $ps) { danielebarchiesi@4: $s = $this->getTerm($s, 's'); danielebarchiesi@4: foreach ($ps as $p => $os) { danielebarchiesi@4: $p = $this->getTerm($p, 'p'); danielebarchiesi@4: if (!is_array($os)) {/* single literal o */ danielebarchiesi@4: $os = array(array('value' => $os, 'type' => 'literal')); danielebarchiesi@4: } danielebarchiesi@4: foreach ($os as $o) { danielebarchiesi@4: $o = $this->getTerm($o, 'o‚'); danielebarchiesi@4: $r .= $r ? $nl : ''; danielebarchiesi@4: $r .= $s . ' ' . $p . ' ' . $o . ' .'; danielebarchiesi@4: } danielebarchiesi@4: } danielebarchiesi@4: } danielebarchiesi@4: return $r . $nl; danielebarchiesi@4: } danielebarchiesi@4: danielebarchiesi@4: /* */ danielebarchiesi@4: danielebarchiesi@4: function escape($v) { danielebarchiesi@4: $r = ''; danielebarchiesi@4: // decode, if possible danielebarchiesi@4: $v = (strpos(utf8_decode(str_replace('?', '', $v)), '?') === false) ? utf8_decode($v) : $v; danielebarchiesi@4: if ($this->raw) return $v;// no further escaping wanted danielebarchiesi@4: // escape tabs and linefeeds danielebarchiesi@4: $v = str_replace(array("\t", "\r", "\n"), array('\t', '\r', '\n'), $v); danielebarchiesi@4: // escape non-ascii-chars danielebarchiesi@4: $v = preg_replace_callback('/([^a-zA-Z0-9 \!\#\$\%\&\(\)\*\+\,\-\.\/\:\;\=\?\@\^\_\{\|\}]+)/', array($this, 'escapeChars'), $v); danielebarchiesi@4: return $v; danielebarchiesi@4: } danielebarchiesi@4: danielebarchiesi@4: function escapeChars($matches) { danielebarchiesi@4: $v = $matches[1]; danielebarchiesi@4: $r = ''; danielebarchiesi@4: // loop through mb chars danielebarchiesi@4: if (function_exists('mb_strlen')) { danielebarchiesi@4: for ($i = 0, $i_max = mb_strlen($v, 'UTF-8'); $i < $i_max; $i++) { danielebarchiesi@4: $c = mb_substr($v, $i, 1, 'UTF-8'); danielebarchiesi@4: if (!isset($this->esc_chars[$c])) { danielebarchiesi@4: $this->esc_chars[$c] = $this->getEscapedChar($c, $this->getCharNo($c, 1)); danielebarchiesi@4: } danielebarchiesi@4: $r .= $this->esc_chars[$c]; danielebarchiesi@4: } danielebarchiesi@4: } danielebarchiesi@4: // fall back to built-in JSON functionality, if available danielebarchiesi@4: else if (function_exists('json_encode')) { danielebarchiesi@4: $r = json_encode($v); danielebarchiesi@4: if ($r == 'null') $r = json_encode (utf8_encode($v)); danielebarchiesi@4: // remove boundary quotes danielebarchiesi@4: if (substr($r, 0, 1) == '"') $r = substr($r, 1); danielebarchiesi@4: if (substr($r, -1) == '"') $r = substr($r, 0, -1); danielebarchiesi@4: // uppercase hex chars danielebarchiesi@4: $r = preg_replace('/(\\\u)([0-9a-f]{4})/e', "'\\1' . strtoupper('\\2')", $r); danielebarchiesi@4: $r = preg_replace('/(\\\U)([0-9a-f]{8})/e', "'\\1' . strtoupper('\\2')", $r); danielebarchiesi@4: } danielebarchiesi@4: // escape byte-wise (may be wrong for mb chars and newer php versions) danielebarchiesi@4: else { danielebarchiesi@4: for ($i = 0, $i_max = strlen($v); $i < $i_max; $i++) { danielebarchiesi@4: $c = $v[$i]; danielebarchiesi@4: if (!isset($this->esc_chars[$c])) { danielebarchiesi@4: $this->esc_chars[$c] = $this->getEscapedChar($c, $this->getCharNo($c)); danielebarchiesi@4: } danielebarchiesi@4: $r .= $this->esc_chars[$c]; danielebarchiesi@4: } danielebarchiesi@4: } danielebarchiesi@4: return $r; danielebarchiesi@4: } danielebarchiesi@4: danielebarchiesi@4: /* */ danielebarchiesi@4: danielebarchiesi@4: function getCharNo($c, $is_encoded = false) { danielebarchiesi@4: $c_utf = $is_encoded ? $c : utf8_encode($c); danielebarchiesi@4: $bl = strlen($c_utf);/* binary length */ danielebarchiesi@4: $r = 0; danielebarchiesi@4: switch ($bl) { danielebarchiesi@4: case 1:/* 0####### (0-127) */ danielebarchiesi@4: $r = ord($c_utf); danielebarchiesi@4: break; danielebarchiesi@4: case 2:/* 110##### 10###### = 192+x 128+x */ danielebarchiesi@4: $r = ((ord($c_utf[0]) - 192) * 64) + (ord($c_utf[1]) - 128); danielebarchiesi@4: break; danielebarchiesi@4: case 3:/* 1110#### 10###### 10###### = 224+x 128+x 128+x */ danielebarchiesi@4: $r = ((ord($c_utf[0]) - 224) * 4096) + ((ord($c_utf[1]) - 128) * 64) + (ord($c_utf[2]) - 128); danielebarchiesi@4: break; danielebarchiesi@4: case 4:/* 1111#### 10###### 10###### 10###### = 240+x 128+x 128+x 128+x */ danielebarchiesi@4: $r = ((ord($c_utf[0]) - 240) * 262144) + ((ord($c_utf[1]) - 128) * 4096) + ((ord($c_utf[2]) - 128) * 64) + (ord($c_utf[3]) - 128); danielebarchiesi@4: break; danielebarchiesi@4: } danielebarchiesi@4: return $r; danielebarchiesi@4: } danielebarchiesi@4: danielebarchiesi@4: function getEscapedChar($c, $no) {/*see http://www.w3.org/TR/rdf-testcases/#ntrip_strings */ danielebarchiesi@4: if ($no < 9) return "\\u" . sprintf('%04X', $no); /* #x0-#x8 (0-8) */ danielebarchiesi@4: if ($no == 9) return '\t'; /* #x9 (9) */ danielebarchiesi@4: if ($no == 10) return '\n'; /* #xA (10) */ danielebarchiesi@4: if ($no < 13) return "\\u" . sprintf('%04X', $no); /* #xB-#xC (11-12) */ danielebarchiesi@4: if ($no == 13) return '\r'; /* #xD (13) */ danielebarchiesi@4: if ($no < 32) return "\\u" . sprintf('%04X', $no); /* #xE-#x1F (14-31) */ danielebarchiesi@4: if ($no < 34) return $c; /* #x20-#x21 (32-33) */ danielebarchiesi@4: if ($no == 34) return '\"'; /* #x22 (34) */ danielebarchiesi@4: if ($no < 92) return $c; /* #x23-#x5B (35-91) */ danielebarchiesi@4: if ($no == 92) return '\\'; /* #x5C (92) */ danielebarchiesi@4: if ($no < 127) return $c; /* #x5D-#x7E (93-126) */ danielebarchiesi@4: if ($no < 65536) return "\\u" . sprintf('%04X', $no); /* #x7F-#xFFFF (128-65535) */ danielebarchiesi@4: if ($no < 1114112) return "\\U" . sprintf('%08X', $no); /* #x10000-#x10FFFF (65536-1114111) */ danielebarchiesi@4: return ''; /* not defined => ignore */ danielebarchiesi@4: } danielebarchiesi@4: danielebarchiesi@4: /* */ danielebarchiesi@4: danielebarchiesi@4: }