Jump to content
    

Преобразовать UTF-16 в CP-866

2 часа назад, jcxz сказал:

Почему?

if ((s32)(j = (s8)c) < 0) {

Какие из символов Unicode А...я пройдут через это условие?

Share this post


Link to post
Share on other sites

1 час назад, Arlleex сказал:
if ((s32)(j = (s8)c) < 0) {

Какие из символов Unicode А...я пройдут через это условие?

Да, опять я думал про UTF-8, у которого все расширенные коды имеют установленный 7-й бит в первом байте.

Конечно же для UTF-16 заменить на простое: if ((j = c) >= 128) {

Share this post


Link to post
Share on other sites

Кстати: И эта функция по большому счёту - неверная. Да и ваша: 

тоже. Так как в UTF-16 один символ может кодироваться не обязательно одним словом. Ни та ни другая это не учитывают.

Именно поэтому всегда предпочитаю UTF-8.

Share this post


Link to post
Share on other sites

2 часа назад, jcxz сказал:

Кстати: И эта функция по большому счёту - неверная. Да и ваша: 

тоже. Так как в UTF-16 один символ может кодироваться не обязательно одним словом. Ни та ни другая это не учитывают.

Именно поэтому всегда предпочитаю UTF-8.

Почему моя не верная? Длинные коды (32-битные) представляются суррогатными парами, которые обе находятся в определенных диапазонах. Эти диапазоны моим алгоритмом не обрабатываются, поэтому такие символы будут просто пропущены. Чего мне и достаточно.

Share this post


Link to post
Share on other sites

1 час назад, Arlleex сказал:

Эти диапазоны моим алгоритмом не обрабатываются, поэтому такие символы будут просто пропущены. Чего мне и достаточно.

Ну хорошо, с длинным - ок. Но остаётся ещё порядок байт. Который переключается специальным управляющим символом = U+FEFF.

Share this post


Link to post
Share on other sites

Я полагаю, это формат UTF + BOM, у нас строго без BOM. Фактически, программист удаленной железки оперирует только строкой, никаких текстовых файлов не шлется. Ну и мы договорились о стандартном little endian. По крайней мере, у нас утвержден такой порядок.

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Unfortunately, your content contains terms that we do not allow. Please edit your content to remove the highlighted words below.
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...