Jsoup избегает unescpaing

89
10

У меня есть страница HTML с последующим содержанием

italiane & acirc; & # 148; & # 148; Ufficio

что я получаю с

Document doc = Jsoup.connect(myLocation).get()

затем извлеките часть как String с

    doc.outputSettings().indentAmount(0).prettyPrint(false);
final Element docContent = doc.selectFirst("#docContent");
return docContent.html();

Проблема в том, что вместо того, чтобы иметь сырой html (как верхний), я получаю визуальную версию, как показано ниже

italiane - Ufficio

Я попытался сменить режим экранирования без успеха. Как это можно достичь?

спросил(а) 2021-01-25T20:13:37+03:00 4 месяца, 3 недели назад
1
Решение
88

Проблема исходила из удаленного контента, отправляющего содержимое UTF-8, но объявляя его как ISO-8859-1

Решение заключалось в том, чтобы исправить удаленный сервер или использовать в дальнейшем обходной путь

return new String(Jsoup.connect(remoteUrl).ignoreContentType(true).method(Connection.Method.GET).execute().bodyAsBytes(),StandardCharsets.UTF_8)

ответил(а) 2021-01-25T20:13:37+03:00 4 месяца, 3 недели назад
Ваш ответ
Введите минимум 50 символов
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема