Как определить кодировку php файла

PHP: Поддерживаемые кодировки символов - Manual

В настоящее время модулем mbstring поддерживаются следующие кодировки символов. Любая из этих кодировок символов может быть указаны в параметре encoding функций mbstring.

Следующие кодировки символов поддерживаются в этом расширении PHP:

UCS-4*
UCS-4BE
UCS-4LE*
UCS-2
UCS-2BE
UCS-2LE
UTF-32*
UTF-32BE*
UTF-32LE*
UTF-16*
UTF-16BE*
UTF-16LE*
UTF-7
UTF7-IMAP
UTF-8*
ASCII*
EUC-JP*
SJIS*
eucJP-win*
SJIS-win*
ISO-2022-JP
ISO-2022-JP-MS
CP932
CP51932

SJIS-mac** (alias: MacJapanese)
SJIS-Mobile#DOCOMO** (alias: SJIS-DOCOMO)
SJIS-Mobile#KDDI** (alias: SJIS-KDDI)
SJIS-Mobile#SOFTBANK** (alias: SJIS-SOFTBANK)
UTF-8-Mobile#DOCOMO** (alias: UTF-8-DOCOMO)
UTF-8-Mobile#KDDI-A**
UTF-8-Mobile#KDDI-B** (alias: UTF-8-KDDI)
UTF-8-Mobile#SOFTBANK** (alias: UTF-8-SOFTBANK)
ISO-2022-JP-MOBILE#KDDI** (alias: ISO-2022-JP-KDDI)
JIS
JIS-ms
CP50220
CP50220raw
CP50221
CP50222
ISO-8859-1*
ISO-8859-2*
ISO-8859-3*
ISO-8859-4*
ISO-8859-5*
ISO-8859-6*
ISO-8859-7*
ISO-8859-8*
ISO-8859-9*
ISO-8859-10*
ISO-8859-13*
ISO-8859-14*
ISO-8859-15*
ISO-8859-16*
byte2be
byte2le
byte4be
byte4le
BASE64
HTML-ENTITIES (alias: HTML)
7bit
8bit
EUC-CN*
CP936
GB18030**
HZ
EUC-TW*
CP950
BIG-5*
EUC-KR*
UHC (alias: CP949)
ISO-2022-KR
Windows-1251 (alias: CP1251)
Windows-1252 (alias: CP1252)
CP866 (alias: IBM866)
KOI8-R*
KOI8-U*
ArmSCII-8 (alias: ArmSCII8)

* обозначает кодировки, которые также могут использоваться в регулярных выражениях.

** обозначает кодировки, доступные с PHP 5.4.0.

Любая запись в php.ini, которая принимает имя кодировки, может также использовать значения "auto" и "pass". Функции mbstring, которые принимают имя кодировки, также могут использовать значение "auto".

Если установлено значение "pass", преобразование кодировки не производится.

Если установлено значение "auto", оно расширяется списком кодировок, определенным в NLS (настройках национального языка). Например, если NLS установлен в Japanese, предполагается, что значение будет из списка "ASCII,JIS,UTF-8,EUC-JP,SJIS".

См. также mb_detect_order()

PHP: html_entity_decode - Manual

ISO-8859-1	ISO8859-1	Западно-европейская Latin-1.
ISO-8859-5	ISO8859-5	Редко используемая кириллическая кодировка (Latin/Cyrillic).
ISO-8859-15	ISO8859-15	Западно-европейская Latin-9. Добавляет знак евро, французские и финские буквы к кодировке Latin-1 (ISO-8859-1).
UTF-8		8-битная Unicode, совместимая с ASCII.
cp866	ibm866, 866	Кириллическая кодировка, применяемая в DOS.
cp1251	Windows-1251, win-1251, 1251	Кириллическая кодировка, применяемая в Windows.
cp1252	Windows-1252, 1252	Западно-европейская кодировка, применяемая в Windows.
KOI8-R	koi8-ru, koi8r	Русская кодировка.
BIG5	950	Традиционный китайский, применяется в основном на Тайване.
GB2312	936	Упрощенный китайский, стандартная национальная кодировка.
BIG5-HKSCS		Расширенная Big5, применяемая в Гонконге.
Shift_JIS	SJIS, SJIS-win, cp932, 932	Японская кодировка.
EUC-JP	EUCJP, eucJP-win	Японская кодировка.
MacRoman		Кодировка, используемая в Mac OS.
`''`		Пустая строка активирует режим определения кодировки из файла скрипта (Zend multibyte), default_charset и текущей локали (см. nl_langinfo() и setlocale()) в указанном порядке. Не рекомендуется к использованию.

PHP: Краткий обзор поддерживаемых кодировок

ISO-10646-UCS-4	ISO 10646	Универсальный набор символов с 31 битом для кода символа, стандартизованный в ISO/IEC 10646 как UCS-4. Установлена синхронизация со стандартом Юникод.	Если это название используется в средствах преобразования кодировок, конвертер попытается определить порядок расположения байтов по BOM (метка порядка байтов).
ISO-10646-UCS-4	UCS-4	См. выше.	В отличие от `UCS-4`, строки всегда принимаются закодированными в прямом порядке расположения байтов.
ISO-10646-UCS-4	UCS-4	См. выше.	В отличие от `UCS-4`, строки всегда принимаются закодированными в обратном порядке расположения байтов.
ISO-10646-UCS-2	UCS-2	Универсальный набор символов с 16 битом для кода символа, стандартизованный в ISO/IEC 10646 как UCS-2. Установлена синхронизация со стандартом Юникод.	Если это название используется в средствах преобразования кодировок, конвертер попытается определить порядок расположения байтов по BOM (метка порядка байтов).
ISO-10646-UCS-2	UCS-2	См. выше.	В отличие от `UCS-2`, строки всегда принимаются закодированными в прямом порядке расположения байтов.
ISO-10646-UCS-2	UCS-2	См. выше.	В отличие от `UCS-2`, строки всегда принимаются закодированными в обратном порядке расположения байтов.
UTF-32	Юникод	Формат преобразования Юникода с 32-битной шириной символа, кодовое пространство которого соответствует стандарту кодовой таблицы Юникода. Эта схема кодирования не идентична UCS-4, так как кодовое пространство Юникода ограничено 21-м битом.	Если это название используется в средствах преобразования кодировок, конвертер попытается определить порядок расположения байтов по BOM (метка порядка байтов).
UTF-32BE	Юникод	См. выше	В отличие от `UTF-32`, строки всегда принимаются закодированными в прямом порядке расположения байтов.
UTF-32LE	Юникод	См. выше	В отличие от `UTF-32`, строки всегда принимаются закодированными в обратном порядке расположения байтов.
UTF-16	Юникод	Формат преобразования Юникода с 32-битной шириной кода символа. Спецификация UTF-16 отличается от UCS-2 ввиду того, что начиная с Юникод 2.0 был внедрен механизм замещения символов и теперь UTF-16 ссылается на 21-битное кодовое пространство.	Если это название используется в средствах преобразования кодировок, конвертер попытается определить порядок расположения байтов по BOM (метка порядка байтов).
UTF-16BE	Юникод	См. выше.	В отличие от `UTF-16`, строки всегда принимаются закодированными в прямом порядке расположения байтов.
UTF-16LE	Юникод	См. выше.	В отличие от `UTF-16`, строки всегда принимаются закодированными в обратном порядке расположения байтов.
UTF-8	Юникод / UCS	Формат преобразования Юникода с 32-битной шириной кода символа.	нет
UTF-7	Юникод	Безопасный для почтовых программ и решений формат преобразования Юникода, определенный в спецификации » RFC2152.	нет
(нет)	Юникод	Разновидность UTF-7, специально разработанная для использования в » протоколе IMAP.	нет
US-ASCII (предпочитаемое MIME-имя) / iso-ir-6 / ANSI_X3.4-1986 / ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII	ASCII / ISO 646	ASCII (American Standard Code for Information Interchange - американский стандартный код для обмена информацией) - широко используемая 7-битная кодировка. Также стандартизована как международный стандарт ISO 646.	(нет)
EUC-JP (предпочитаемое MIME-имя) / Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese	Объединение US-ASCII / JIS X0201:1997 (часть hankaku kana) / JIS X0208:1990 / JIS X0212:1990	Как видно из названия, эта кодировка используется в основном в Unix системах или им подобных. Исходная схема кодирования Extended UNIX Code легла в основу стандарта ISO 2022.	Набор символов, на который ссылается EUC-JP отличен от набора для IBM932 / CP932, которые используются в OS/2® и Microsoft® Windows®. Для обеспечения взаимодействия между этими платформами используйте кодировку EUCJP-WIN.
Shift_JIS (предпочитаемое MIME-имя) / MS_Kanji / csShift_JIS	Объединение JIS X0201:1997 / JIS X0208:1997	Shift_JIS был разработан в начале 80-х, когда Японские текстовые процессоры для рядовых пользователей только выходили на рынок, чтобы сохранить совместимость со схемой кодирования JIS X 0201:1976. В соответствии с определением IANA, кодовая таблица Shift_JIS несколько отличается от IBM932 / CP932. Тем не менее, названия "SJIS" / "Shift_JIS" ошибочно используются для обращения к этим кодовым таблицам.	Для кодовой таблицы CP932, используйте кодировку SJIS-WIN.
(none)	Объединение JIS X0201:1997 / JIS X0208:1997 / IBM расширения / NEC расширения	Несмотря на то, что эта "кодировка" использует ту же схему кодирования, что и EUC-JP, наборы символов, лежащий в их основе, различны. Таким образом, некоторые коды ссылаются на отличные от EUC-JP символы.	нет
Windows-31J / csWindows31J	Объединение JIS X0201:1997 / JIS X0208:1997 / IBM расширения / NEC расширения	Несмотря на то, что эта "кодировка" использует ту же схему кодирования, что и Shift_JIS, наборы символов, лежащий в их основе, различны. Таким образом, некоторые коды ссылаются на отличные от Shift_JIS символы.	(нет)
ISO-2022-JP (предпочитаемое MIME-имя) / csISO2022JP	US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983	» RFC1468	(нет)
JIS
ISO-8859-1
ISO-8859-2
ISO-8859-3
ISO-8859-4
ISO-8859-5
ISO-8859-6
ISO-8859-7
ISO-8859-8
ISO-8859-9
ISO-8859-10
ISO-8859-13
ISO-8859-14
ISO-8859-15
ISO-8859-16
byte2be
byte2le
byte4be
byte4le
BASE64
HTML-ENTITIES
7bit
8bit
EUC-CN
CP936
HZ
EUC-TW
CP950
BIG-5
EUC-KR
UHC (CP949)
ISO-2022-KR
Windows-1251 (CP1251)
Windows-1252 (CP1252)
CP866 (IBM866)
KOI8-R
KOI8-U

Как проверить кодировку в текстовом файле? / Общая / SocialKit

Программный комплекс SocialKit корректно работает с кириллицей в текстовых файлах, кодировка которых соответствует стандарту Windows-1251 (кратко может быть записано как CP1251 или ANSI). В этой связи в задачах, поддерживающих указание внешнего файла с перечнем комментариев, сообщений, описаний и прочей информации, которая может содержать кириллицу, нужно указывать текстовые файлы, где русский текст задан в кодировке по стандарту Windows-1251 или же просто ANSI, или CP1251 - всё это, по сути, одно и то же.

Учитывая, что многие инструменты по работе с текстом не отображают, в какой именно кодировке задан текст в текстовом файле и/или не поддерживают преобразование кодировок, то у новичков часто возникает вопрос о том, как именно привести кодировку текстового файла с русским текстом к понятному для SocialKit формату CP1251.

Следует сразу отметить, что большинство текстовых редакторов для ОС Windows (например, встроенный Блокнот и Wordpad) по умолчанию создают текстовые файлы именно с кодировкой по стандарту Windows-1251. Однако, эта кодировка по умолчанию может быть изменена в следствие тех или иных действий.

Если вы не уверены в том, в какой именно кодировке задан текст, то проще всего этот текст пересохранить через стандартный Блокнот Windows. При пересохранении Блокнот также покажет, в каком формате текст сейчас.

Опишем эту простую процедуру по шагам.

1. Открыть искомый текстовый файл в Блокноте Windows и выбрать пункт меню "Файл" -> "Сохранить как...".

Пример текстового файла, в котором русский текст задан в формате UTF, но это не очевидно при открытии.

2. В открывшемся диалоговом окне вы сразу видите, в какой кодировке был сохранён текст в текстовом файле.

Диалоговое окно пересохранения текстового файла, в котором можно сразу изменить кодировку.

Как видно, в примере текст в текстовом файле был ранее сохранён в кодировке UTF-8. Для изменения кодировке достаточно выбрать в выпадающем списке кодировку ANSI и нажать кнопку "Сохранить".

При этом зрительно для вас ничего не изменится, но многое изменится для программы и алгоритмов, занимающихся обработкой текста в процессе отправки. Корректно Instagram'у будет отправлен только ANSI-текст.

php - Получить кодировку файла

Переполнение стека

Около
Товары
Для команд

Переполнение стека Общественные вопросы и ответы
Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
Вакансии Программирование и связанные с ним технические возможности карьерного роста
Талант Нанимайте технических специалистов и создавайте свой бренд работодателя
Реклама

php - Обнаружить кодировку и сделать все UTF-8

Переполнение стека

Около
Товары
Для команд

Переполнение стека Общественные вопросы и ответы
Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
Вакансии Программирование и связанные с ним технические возможности карьерного роста
Талант Нанимайте технических специалистов и создавайте свой бренд работодателя

php - Как лучше всего определить / преобразовать кодировку внешнего файла HTML?

Переполнение стека

Около
Товары
Для команд

Переполнение стека Общественные вопросы и ответы
Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
Вакансии Программирование и связанные с ним технические возможности карьерного роста

php - чтение файла с правильной кодировкой

Переполнение стека

Около
Товары
Для команд

Переполнение стека Общественные вопросы и ответы
Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
Вакансии Программирование и связанные с ним технические возможности карьерного роста
Талант Нанимайте технических специалистов и создавайте свой бренд работодателя

c # - Как определить кодировку / кодовую страницу текстового файла

Переполнение стека

Около
Товары
Для команд

Переполнение стека Общественные вопросы и ответы
Переполнение стека для команд Где разработчики и технологи делятся частным

Как я могу изменить кодировку страницы php?

Переполнение стека

Около
Товары
Для команд

Переполнение стека Общественные вопросы и ответы
Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами

Каталог расширений

Популярные теги

Как определить кодировку php файла

PHP: Поддерживаемые кодировки символов - Manual

PHP: html_entity_decode - Manual

PHP: Краткий обзор поддерживаемых кодировок

Как проверить кодировку в текстовом файле? / Общая / SocialKit

php - Получить кодировку файла

php - Обнаружить кодировку и сделать все UTF-8

php - Как лучше всего определить / преобразовать кодировку внешнего файла HTML?

php - чтение файла с правильной кодировкой

c # - Как определить кодировку / кодовую страницу текстового файла

Как я могу изменить кодировку страницы php?

Смотрите также