Вопрос по кодировке текстового файла.

Ответить

Валентиныч 0

27 марта, 2011

Опубликовано 27 марта, 2011 · Жалоба

Есть исходный английский текстовый файл, написанный латиницей в Unicod UTF-8.

Его требуется перевести на русский язык (ес-но, на кириллице), и при этом сохранить первоначальную кодировку UTF-8.

Все попытки выполнить требуемое, заканчиваются не очень удачно: файл "разбухает" в размере практически в два раза, при том, что количество строк, остается неизменным, при незначительном изменении количества символов в каждой строке (в ту, или другую сторону), т.е. общее количество символов в тексте практически не изменяется.

Просмотр HEX-кода файла встроенным в FAR редактором показывает, что каждый символ кириллического текста отображается двумя символами (не понятными для меня). Это и удваивает общий размер файла.

Исходный файл - меню прибора, которое отображается на его дисплее. Как может отразиться удвоение размера файла на работе девайса?

P.S. Кстати, точно такой же китайский файл написанный иероглифами, по размеру практически не отличается от английского.

P.P.S. Не нашел более подходящего раздела для размещения вопроса. Если модератор посчитает, что теме не место в этом разделе, прошу перенести ее, или вообще удалить.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Methane 0

27 марта, 2011

Опубликовано 27 марта, 2011 · Жалоба

То UTF16 у вас получился.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

rezident 0

27 марта, 2011

Опубликовано 27 марта, 2011 · Жалоба

Просмотр HEX-кода файла встроенным в FAR редактором показывает, что каждый символ кириллического текста отображается двумя символами (не понятными для меня). Это и удваивает общий размер файла.

А вы уверены, что вы все знаете про UTF-8?

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Валентиныч 0

27 марта, 2011

Опубликовано 27 марта, 2011 · Жалоба

А вы уверены, что вы все знаете про UTF-8?

Если бы я был в этом уверен, я бы не сунулся с подобным вопросом в раздел для начинающих.

А вы уверены, что ваш встречный вопрос поможет мне в решении проблемы? :biggrin:

Ваша ссылка утверждает, что китайское письмо должно утраивать размер файла, но фактически этого не происходит.

То, что один иероглиф часто соответствует не букве а целому слову или фразе, я знаю!

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

тау 24

27 марта, 2011

Опубликовано 27 марта, 2011 · Жалоба

если хотите 8 битную кодировку - берите русский текст и через блокнот сохраняйте в формате ANSI , при этом будет задействована 8-битная кодировка Windows-1251.

В системах Microsoft Windows кодовая страница ANSI (англ. ANSI code page, ACP) может означать:
Windows-1252 (в контексте американских и западноевропейских локализаций)

Windows-1251 — так называемая ранее корпорацией Microsoft «кириллица ANSI» (англ. ANSI Cyrillic)

http://ru.wikipedia.org/wiki/Windows-1251

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Гость @Ark

27 марта, 2011

Опубликовано 27 марта, 2011 · Жалоба

... ссылка утверждает, что китайское письмо должно утраивать размер файла, но фактически этого не происходит.

Китайский язык немного по другому устроен, чем русский или английский...

Старый анекдот напомнили: Брежнев приехал в Китай. Полчаса выступает с трибуны, затем подходит

переводчик и произносит лишь одно слово. Выступает еще полчаса - переводчик снова произносит лишь

одно слово. Причем то же самое слово... :biggrin: Извините за оффтоп.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

DpInRock 0

27 марта, 2011

Опубликовано 27 марта, 2011 · Жалоба

Вот ё.

Китайское предложение может состоять из одного иероглифа. В то время как английское из нескольких слов.

В википедии все доступным языком прописано.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Валентиныч 0

27 марта, 2011

Опубликовано 27 марта, 2011 · Жалоба

если хотите 8 битную кодировку - берите русский текст и через блокнот сохраняйте в формате ANSI , при этом будет задействована 8-битная кодировка Windows-1251.

Я хочу, что бы железка, у которой в мозгах живет исходный английский файл, так же нормально отображала у себя на дисплее и русскоязычное меню.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

rezident 0

27 марта, 2011

Опубликовано 27 марта, 2011 · Жалоба

Я хочу, что бы железка, у которой в мозгах живет исходный английский файл, так же нормально отображала у себя на дисплее и русскоязычное меню.

Не совсем понятно, как конечная цель коррелирует с описываемыми вами проблемами?

Вот я беру небольшой ASCII-файл 963 байта и с помощью редактора FAR2 сохраняю его как UTF-8. Размер файла становится 1773 байт. Но я не вижу, где тут проблема-то? Если ваша железка действительно способна UTF-8 отображать, то причем тут длины файлов?

Строка символов на экране в любой исходной кодировке должна выглядеть одинаково.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Валентиныч 0

28 марта, 2011

Опубликовано 28 марта, 2011 · Жалоба

Если ваша железка действительно способна UTF-8 отображать, то причем тут длины файлов?

Начинаю понимать, что скорее всего ни при чем.

Еще вопрос. Где и как задается стиль и размер шрифта такого файла?

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

=AK= 10

28 марта, 2011

Опубликовано 28 марта, 2011 · Жалоба

Где и как задается стиль и размер шрифта такого файла?

На этот вопрос лучше всего может ответить разработчик прибора, в вашем случае - китайцы из Теквэя. Или кто-то из хакеров EEVblog-а. Или можете сами докопаться до ответа, если будете изучать man Линукса. :laughing:

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

andrew_b 14

28 марта, 2011

Опубликовано 28 марта, 2011 · Жалоба

Еще вопрос. Где и как задается стиль и размер шрифта такого файла?

Нигде. Файл содержит текст. Кто и как будет его показывать, ни файл, ни текст в нём не в курсе.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Валентиныч 0

28 марта, 2011

Опубликовано 28 марта, 2011 · Жалоба

Нигде.

Понял. Спасибо.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Валентиныч 0

1 апреля, 2011

Опубликовано 1 апреля, 2011 · Жалоба

Очередной вопрос по кодировке UTF-8.

В тексте есть несколько "нестандартных" символов, описание которых я не нашел в HEX-таблице этой кодировки. Речь идет о символах "Бесконечность" (горизонтальная восьмерка), "Умножение" (не буква "Х" кириллицы или латиницы, а именно крестик), и самое главное - о символе "математическое неравенство" (перечеркнутое "равно"). Предполагаю, что все это символы псевдографики, специально созданные разработчиком для этого прибора.

Редактор FAR2 (и некоторые другие редакторы, но не все) нормально читаю и отображают эти символы. Насколько я понимаю, FAR2 показывает десятичный код символа, под которым расположен курсор, в правом краю своей верхней (служебной?) строки. Этот код для "неравенства" - 8800.

Но любая попытка посмотреть hex-код приводит к модификации, и искажению символа при дальнейшем просмотре - графически он вырождается в "кракозяблу" (ее hex-код, если я его правильно считываю: E2 89 A0). При возврате из режима просмотра hex-кодов в обычный вьювер, FAR2 перекодирует весь текст из UTF-8 в ANSI 1251.

Нужный символ в модифицированном и сохраненном файле, вообще перестается отображаться на дисплее прибора - вместо него рисуется пробел.

Попытка импортировать код символа, или целую строку содержащую этот символ из исходного файла в модифицированный результата не дает - на дисплее символ отсутствует.

Как ни странно, "бесконечность" более лояльно относится к экспериментам с перекодировками - этот символ нормально отображается на дисплее после модификации.

"Умножение" пришлось заменить на литинский "х" - начертания буквы несколько отличаются от оригинального символа, и не только размерами, но с этим можно примириться.

А вот с "неравенством" полный косяк. Для того, чтобы вывести на экран хоть что-то, по смыслу напоминающее "не равно", пришлось рисовать вот такую комбинацию: "<=>". Благо, место позволяет...

Если кто-то сталкивался с подобным, и нашел решение проблемы, прошу подсказать, в каком направлении двигаться.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

xvr 12

1 апреля, 2011

Опубликовано 1 апреля, 2011 · Жалоба

Вам нужен Unicode редактор, который умеет читать и писать файлы в UTF-8. Любые преобразования внутри редактора в ANSI вам сразу обрежет половину символов :(

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Ответить в этой теме...

× Вставлено с форматированием. Вставить как обычный текст

Разрешено использовать не более 75 эмодзи.

× Ваша ссылка была автоматически встроена. Отображать как обычную ссылку

× Ваш предыдущий контент был восстановлен. Очистить редактор

× Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

Указать URL изображения

Подписчики 0

Валентиныч 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Methane 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

rezident 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Валентиныч 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

тау 24

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Гость @Ark

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

DpInRock 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Валентиныч 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

rezident 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Валентиныч 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

=AK= 10

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

andrew_b 14

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Валентиныч 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Валентиныч 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

xvr 12

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Присоединяйтесь к обсуждению

Обзор

Активность