PHP: Cortar texto com HTML

1 Comentário

Programar PHP

Hoje apresento-vos uma função que uso para cortar/truncar texto que contém HTML, ou seja, tem por objectivo poder cortar/truncar texto maior que X caracteres, sem contabilizar o HTML como caracteres, evitando assim tags não fechadas ou cortadas a meio.

Esta função é baseada numa função que arranjei algures na Internet (se souberem onde, coloquem o link para eu referir no artigo) e depois alterei ligeiramente, pelo que os "créditos" da mesma deveriam ir, quase na totalidade, para quem fez a função inicialmente.

<?php
function cutHTML($text,$length=100,$ending='...',$cutWords=false,$considerHtml=true) {
if ($considerHtml) {
// se o texto for mais curto que $length, retornar o texto na totalidade
if (strlen(preg_replace('/<.*?>/', '', $text)) <= $length) {
return $text;
}

// separa todas as tags html em linhas pesquisáveis
preg_match_all('/(<.+?>)?([^<>]*)/s', $text, $lines, PREG_SET_ORDER);

$total_length = strlen($ending);
$open_tags = array();
$truncate = '';

foreach ($lines as $line_matchings) {
// se existir uma tag html nesta linha, considerá-la e adicioná-la ao output (sem contar com ela)
if (!empty($line_matchings[1])) {
// se for um "elemento vazio" com ou sem barra de auto-fecho xhtml (ex. <br />)
if (preg_match('/^<(\s*.+?\/\s*|\s*(img|br|input|hr|area|base|basefont|col|frame|isindex|link|meta|param)(\s.+?)?)>$/is', $line_matchings[1])) {
// não fazer nada
// se a tag for de fecho (ex. </b>)
} else if (preg_match('/^<\s*\/([^\s]+?)\s*>$/s', $line_matchings[1], $tag_matchings)) {
// apagar a tag do array $open_tags
$pos = array_search($tag_matchings[1], $open_tags);
if ($pos !== false) {
unset($open_tags[$pos]);
}
// se a tag é uma tag inicial (ex. <b>)
} else if (preg_match('/^<\s*([^\s>!]+).*?>$/s', $line_matchings[1], $tag_matchings)) {
// adicionar tag ao início do array $open_tags
array_unshift($open_tags, strtolower($tag_matchings[1]));
}
// adicionar tag html ao texto $truncate
$truncate .= $line_matchings[1];
}

// calcular a largura da parte do texto da linha; considerar entidades como um caracter
$content_length = strlen(preg_replace('/&[0-9a-z]{2,8};|&#[0-9]{1,7};|&#x[0-9a-f]{1,6};/i', ' ', $line_matchings[2]));
if ($total_length+$content_length> $length) {
// o número dos caracteres que faltam
$left = $length - $total_length;
$entities_length = 0;
// pesquisar por entidades html
if (preg_match_all('/&[0-9a-z]{2,8};|&#[0-9]{1,7};|&#x[0-9a-f]{1,6};/i', $line_matchings[2], $entities, PREG_OFFSET_CAPTURE)) {
// calcular a largura real de todas as entidades no alcance "legal"
foreach ($entities[0] as $entity) {
if ($entity[1]+1-$entities_length <= $left) {
$left--;
$entities_length += strlen($entity[0]);
} else {
// não existem mais caracteres
break;
}
}
}
$truncate .= substr($line_matchings[2], 0, $left+$entities_length);
// chegamos à largura máxima, por isso saímos do loop
break;
} else {
$truncate .= $line_matchings[2];
$total_length += $content_length;
}

// se chegarmos à largura máxima, saímos do loop
if($total_length>= $length) {
break;
}
}
} else {
if (strlen($text) <= $length) {
return $text;
} else {
$truncate = substr($text, 0, $length - strlen($ending));
}
}

// se as palavras não puderem ser cortadas a meio...
if (!$cutWords) {
// ...procurar a última ocorrência de um espaço...
$spacepos = strrpos($truncate, ' ');
if (isset($spacepos)) {
// ...e cortar o texto nesta posição
$truncate = substr($truncate, 0, $spacepos);
}
}

// adicionar $ending no final do texto
$truncate .= $ending;

if($considerHtml) {
// fechar todas as tags html não fechadas
foreach ($open_tags as $tag) {
$truncate .= '</' . $tag . '>';
}
}
return $truncate;
}
?>

Modo de utilização:

Como sempre, é bastante simples e intuitivo, segue um exemplo de como truncar um texto $html, que é um texto com HTML.

<?php
$html = "Texto com <strong>html</strong>.";
echo cutHTML($html,10);
?>

Como sempre, é bastante simples e prático.

De notar que, se $considerHtml = false, estarão a cortar texto de forma normal, tendo a vantagem de considerar cortar (se $cutWords = true) ou não palavras.

Artigos Relacionados

Ioriyagami

Gracoes bro!! chido ka me sirvio
auf viedersehen

2010-02-27 3:38 pm