[0001] Эта заявка основывается на и притязает на приоритет китайской патентной заявки № CN201410562477.9, поданной 21 октября 2014 года, полное содержимое которой содержится в данном документе по ссылке.
Область техники, к которой относится изобретение
[0002] Настоящее изобретение, в целом, относится к области компьютерных сетей, а более конкретно, к способу и устройству для идентификации кодирования веб-страницы.
Уровень техники
[0003] С развитием сетевой технологии одной из наиболее часто используемых функций является просмотр веб-страницы через браузер в терминале пользователем.
[0004] Поскольку данные веб-страницы могут быть закодированы с помощью различных режимов кодирования, браузер должен сначала идентифицировать режим кодирования согласно полю "кодировка" в данных веб-страницы, затем декодировать данные веб-страницы с помощью режима декодирования, соответствующего идентифицированному режиму кодирования, и, наконец, отображать данные веб-страницы. Однако вместе с популярностью технологии построения веб-сайта и технологии редактирования веб-страницы, данные веб-страницы, созданные техническим специалистом, могут упускать поле "кодировка" или нести поле "кодировка" с орфографическими ошибками, в этих обстоятельствах браузер может декодировать данные веб-страницы с помощью режима декодирования по умолчанию, что может приводить в результате к беспорядочным кодам.
Сущность изобретения
[0005] Для того чтобы преодолевать проблему предшествующего уровня техники, заключающуюся в том, что поле "кодировка" при кодировании веб-страницы пропущено или содержит орфографическую ошибку, что приводит в результате к отображению беспорядочных кодов через браузер, способ и устройство для идентификации кодирования веб-страницы предоставляются вариантами осуществления настоящего изобретения. Технические решения являются следующими.
[0006] Способ для идентификации кодирования веб-страницы предоставляется посредством вариантов осуществления настоящего изобретения и включает в себя:
[0007] загрузку данных веб-страницы, включающих в себя по меньшей мере один ресурс веб-страницы;
[0008] обнаружение того, является ли ресурс веб-страницы HTML-ресурсом (язык гипертекстовой разметки) и указывает ли он режим кодирования;
[0009] если ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентификацию режима кодирования HTML-ресурса; и
[0010] декодирование HTML-ресурса с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0011] В варианте осуществления способ дополнительно включает в себя:
[0012] если ресурс веб-страницы является HTML-ресурсом и он указывает режим кодирования, определение того, является ли указанный режим кодирования одним из предварительно заданных режимов кодирования; и
[0013] если указанный режим кодирования не является одним из предварительно заданных режимов кодирования, идентификацию режима кодирования HTML-ресурса; или выполнение автоматической корректировки по указанному режиму кодирования, чтобы получать режим кодирования после автоматической корректировки.
[0014] В варианте осуществления идентификация режима кодирования HTML-ресурса включает в себя:
[0015] идентификацию режима кодирования HTML-ресурса посредством вызова предварительно заданного алгоритма идентификации кодирования символов.
[0016] В варианте осуществления выполнение автоматической корректировки по указанному режиму кодирования, чтобы получать режим кодирования после автоматической корректировки, включает в себя:
[0017] вычисление орфографического сходства между указанным режимом кодирования и каждым из предварительно заданных режимов кодирования соответственно; и
[0018] если максимальное орфографическое сходство больше предварительно заданного порога, определение предварительно заданного режима кодирования, соответствующего максимальному орфографическому сходству, в качестве режима кодирования после автоматической корректировки.
[0019] В варианте осуществления способ дополнительно включает в себя:
[0020] если веб-ресурс является CSS-ресурсом (каскадные таблицы стилей), идентификацию режима кодирования, принятого HTML-ресурсом, в данных веб-страницы в качестве режима кодирования CSS-ресурса и декодирование CSS-ресурса с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0021] Согласно второму аспекту вариантов осуществления настоящего изобретения предоставляется устройство для идентификации кодирования веб-страницы, включающее в себя:
[0022] модуль загрузки данных, сконфигурированный с возможностью загружать данные веб-страницы, включающие в себя по меньшей мере один ресурс веб-страницы;
[0023] модуль обнаружения режима, сконфигурированный с возможностью обнаруживать, является ли ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования;
[0024] модуль идентификации режима, сконфигурированный с возможностью, если ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицировать режим кодирования HTML-ресурса; и
[0025] модуль декодирования ресурса, сконфигурированный с возможностью декодировать HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0026] В варианте осуществления устройство дополнительно включает в себя:
[0027] модуль обнаружения кодирования, сконфигурированный с возможностью, если ресурс веб-страницы является HTML-ресурсом и он указывает режим кодирования, обнаруживать, является ли указанный режим кодирования одним из предварительно заданных режимов кодирования; и
[0028] модуль идентификации режима, сконфигурированный с возможностью, если указанный режим кодирования не является одним из предварительно заданных режимов кодирования, идентифицировать режим кодирования HTML-ресурса; или
модуль автоматической корректировки, сконфигурированный с возможностью, если указанный режим кодирования не является одним из предварительно заданных режимов кодирования, выполнять автоматическую корректировку по указанному режиму кодирования, чтобы получать режим кодирования после автоматической корректировки.
[0029] В варианте осуществления модуль идентификации режима сконфигурирован с возможностью идентифицировать режим кодирования HTML-ресурса посредством вызова предварительно заданного алгоритма идентификации кодирования символов.
[0030] В варианте осуществления модуль автоматической корректировки включает в себя:
[0031] субмодуль орфографического вычисления, сконфигурированный с возможностью вычислять орфографическое сходство между указанным режимом кодирования и каждым из предварительно заданных режимов кодирования соответственно; и
[0032] субмодуль автоматической корректировки, сконфигурированный с возможностью, если максимальное орфографическое сходство больше предварительно заданного порога, определять предварительно заданный режим кодирования, соответствующий максимальному орфографическому сходству, как режим кодирования после автоматической корректировки.
[0033] В варианте осуществления устройство дополнительно включает в себя:
[0034] модуль повторного использования кодирования, сконфигурированный с возможностью, если веб-ресурс является CSS-ресурсом, идентифицировать режим кодирования HTML-ресурса в данных веб-страницы в качестве режима кодирования CSS-ресурса и декодировать CSS-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0035] Согласно третьему аспекту вариантов осуществления настоящего изобретения предоставляется устройство для идентификации кодирования веб-страницы, включающее в себя:
[0036] процессор и
[0037] память для хранения инструкций, исполняемых процессором,
[0038] при этом процессор сконфигурирован с возможностью:
[0039] загружать данные веб-страницы, включающие в себя по меньшей мере один ресурс веб-страницы,
[0040] обнаруживать, является ли ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования,
[0041] если ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицировать режим кодирования HTML-ресурса, и
[0042] декодировать HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0043] Технические решения, предоставленные вариантами осуществления настоящего изобретения, включают в себя следующие полезные результаты:
[0044] режим кодирования ресурса веб-страницы идентифицируется в случае, когда ресурс веб-страницы не указывает режим кодирования, и ресурс веб-страницы декодируется с помощью режима декодирования, соответствующего режиму кодирования, тем самым проблема предшествующего уровня техники, заключающаяся в том, что поле "кодировки" в кодировании веб-страницы пропускается, что приводит в результате к отображению беспорядочных кодов через браузер, преодолевается, так что, даже если режим кодирования не указывается, ресурс веб-страницы может быть декодирован и отображен правильно.
[0045] Следует понимать, что и упомянутое выше общее описание, и последующее подробное описание являются только примерными и объяснительными и не могут ограничивать настоящее изобретение.
Краткое описание чертежей
[0046] Сопровождающие чертежи, которые содержатся и составляют часть этого описания, иллюстрируют варианты осуществления, согласующиеся с настоящим изобретением, и вместе с описанием служат, чтобы объяснить принципы настоящего изобретения.
[0047] Фиг. 1 - блок-схема последовательности операций, показывающая способ идентификации кодирования веб-страницы согласно примерному варианту осуществления;
[0048] Фиг. 2 - блок-схема последовательности операций, показывающая способ идентификации кодирования веб-страницы согласно другому примерному варианту осуществления;
[0049] Фиг. 3 - блок-схема, иллюстрирующая устройство для идентификации кодирования веб-страницы согласно примерному варианту осуществления;
[0050] Фиг. 4 - блок-схема, иллюстрирующая устройство для идентификации кодирования веб-страницы согласно другому примерному варианту осуществления; и
[0051] Фиг. 5 - блок-схема, иллюстрирующая устройство для идентификации кодирования веб-страницы согласно примерному варианту осуществления.
[0052] Посредством вышеописанных сопровождающих чертежей были показаны конкретные варианты осуществления настоящего изобретения, для которых более подробное описание будет дано ниже. Эти чертежи и текстовое описание не предназначены для того, чтобы ограничивать рамки концепции настоящего изобретения каким-либо образом, а предназначены, чтобы объяснять концепцию настоящего изобретения специалистам через конкретные варианты осуществления.
Подробное описание изобретения
[0053] Далее приводится подробное описание примерных вариантов осуществления, примеры которых проиллюстрированы на прилагаемых чертежах. Нижеприведенное описание ссылается на прилагаемые чертежи, на которых идентичные номера на различных чертежах представляют идентичные или аналогичные элементы, если не указано иное. Реализации, изложенные в нижеприведенном описании примерных вариантов осуществления, не представляют все реализации в соответствии с настоящим раскрытием. Вместо этого, они являются просто примерами устройств и способов, согласующихся с аспектами, связанными с настоящим изобретением, которые перечислены в прилагаемой формуле изобретения.
[0054] Терминалы, связанные с вариантами осуществления настоящего изобретения, могут быть мобильными телефонами, планшетными компьютерами, устройствами чтения электронных книг, MP3-проигрывателями (аудиостандарт III группы экспертов по кинематографии), MP4-проигрывателями (аудиостандарт IV группы экспертов по кинематографии), портативными лэптопами и настольными компьютерами, и т.д.
[0055] Фиг. 1 - это блок-схема последовательности операций способа идентификации кодирования веб-страницы согласно примерному варианту осуществления. В этом варианте осуществления способ идентификации кодирования веб-страницы применяется, например, в терминале. Способ идентификации кодирования веб-страницы включает в себя следующие этапы.
[0056] На этапе 101 загружаются данные веб-страницы, которые включают в себя по меньшей мере один ресурс веб-страницы.
[0057] Ресурсы веб-страницы традиционно являются ресурсами 2 типов: HTML-ресурсами (язык гипертекстовой разметки) и CSS-ресурсами (каскадные таблицы стилей).
[0058] На этапе 102 обнаруживается, является ли ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования.
[0059] На этапе 103, если ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, режим кодирования HTML-ресурса идентифицируется.
[0060] На этапе 104 HTML-ресурс декодируется с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0061] Соответственно, в способе идентификации кодирования веб-страницы, предоставленном этим вариантом осуществления, режим кодирования ресурса веб-страницы идентифицируется в случае, когда ресурс веб-страницы не указывает режим кодирования, и ресурс веб-страницы декодируется с помощью режима декодирования, соответствующего режиму кодирования, тем самым, проблема предшествующего уровня техники, заключающаяся в том, что поле "кодировка" в кодировании веб-страницы пропускается, что приводит в результате к отображению беспорядочных кодов через браузер, преодолевается, так что, даже если режим кодирования не указывается, ресурс веб-страницы может быть декодирован и отображен правильно.
[0062] Фиг. 2 - это блок-схема последовательности операций, показывающая способ идентификации кодирования веб-страницы согласно другому примерному варианту осуществления. В этом варианте осуществления способ идентификации кодирования веб-страницы применяется, например, в терминале. Способ идентификации кодирования веб-страницы включает в себя следующие этапы.
[0063] На этапе 201 загружаются данные веб-страницы, которые включают в себя по меньшей мере один ресурс веб-страницы.
[0064] Когда терминал должен отображать веб-страницу, данные веб-страницы сначала загружаются. Данные каждой веб-страницы включают в себя по меньшей мере один ресурс веб-страницы.
[0065] Ресурсы веб-страницы традиционно являются ресурсами 2 типов: HTML-ресурсами и CSS-ресурсами.
[0066] На этапе 202 обнаруживается, является ли ресурс веб-страницы HTML-ресурсом.
[0067] Прежде чем каждый ресурс веб-страницы декодируется, терминал сначала определяет, является ли ресурс веб-страницы HTML-ресурсом.
[0068] Если ресурс веб-страницы является HTML-ресурсом, процесс переходит к этапу 203; а
[0069] если ресурс веб-страницы является CSS-ресурсом, процесс переходит к этапу 210.
[0070] На этапе 203 определяется, указывает ли HTML-ресурс режим кодирования.
[0071] Обычно используемые режимы кодирования включают в себя: UTF-8 (8-битный формат представления Юникода), Big5, GB2312 (кодированный набор китайских иероглифов для обмена информацией), GBK (кодированный набор китайских иероглифов для обмена информацией), ISO-8859-1 (Международная организация по стандартизации) и ISO-8859-2 и т.д.
[0072] HTML-ресурс, как правило, указывает свой режим кодирования с помощью поля "кодировка". Однако, поскольку разработчики веб-страниц имеют разный уровень, поле "кодировка" в HTML-ресурсе может быть пропущено или содержать орфографические ошибки.
[0073] Если HTML-ресурс не указывает режим кодирования, процесс переходит к этапу 204; а
[0074] если HTML-ресурс указывает режим кодирования, процесс переходит к этапу 206.
[0075] На этапе 204, если HTML-ресурс не указывает режим кодирования, режим кодирования HTML-ресурса идентифицируется.
[0076] Терминал может идентифицировать режим кодирования HTML-ресурса посредством вызова алгоритма идентификации кодирования предварительно заданного символа. Предварительно заданный алгоритм идентификации кодирования символов может быть алгоритмом chardet идентификации кодирования символов.
[0077] Например, если HTML-ресурс не указывает режим кодирования, терминал вызывает алгоритм chardet идентификации кодирования символов и, таким образом, идентифицирует, что режимом кодирования, примененным HTML-ресурсом, является GB2312.
[0078] Алгоритм chardet идентификации кодирования символов является алгоритмом для идентификации формата кодирования символьной строки, который зачастую используется для идентификации формата кодирования текстовых символов.
[0079] Для того, чтобы улучшать скорость идентификации, терминал может извлекать предварительно определенную длину символьной строки из HTML-ресурса и идентифицировать режим кодирования предварительно определенной длины символьной строки посредством предварительно заданного алгоритма идентификации кодирования символов вместо идентификации всех символьных строк повсюду в HTML-ресурсе.
[0080] На этапе 205 HTML-ресурс декодируется с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0081] После того как режим кодирования, примененный HTML-ресурсом, идентифицирован, терминал декодирует HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0082] На этапе 206, если ресурс веб-страницы указывает режим кодирования, определяется, является ли указанный режим кодирования одним из предварительно заданных режимов кодирования.
[0083] В случае, когда ресурс веб-страницы указывает режим кодирования, поскольку указанный режим кодирования может быть некорректно записан по буквам, терминал определяет, является ли указанный режим кодирования одним из предварительно заданных режимов.
[0084] Предварительно заданные режимы кодирования включают в себя, но не только: UTF-8 (8-битный формат представления Юникода), Big5, GB2312 (кодированный набор китайских иероглифов для обмена информацией), GBK (кодированный набор китайских иероглифов для обмена информацией), ISO-8859-1 (Международная организация по стандартизации) и ISO-8859-2 и т.д.
[0085] Если указанный режим кодирования является одним из предварительно заданных режимов кодирования, процесс переходит к этапу 207; а
[0086] если указанный режим кодирования не является одним из предварительно заданных режимов кодирования, процесс переходит к этапу 208.
[0087] На этапе 207, если указанный режим кодирования является одним из предварительно заданных режимов кодирования, HTML-ресурс декодируется с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0088] В случае, когда указанный режим кодирования является одним из предварительно заданных режимов кодирования, это означает, что не существует орфографической ошибки в указании режима кодирования, таким образом, терминал декодирует HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0089] На этапе 208, если указанный режим кодирования не является одним из предварительно заданных режимов кодирования, режим кодирования HTML-ресурса идентифицируется; или автоматическая корректировка выполняется по указанному режиму кодирования, чтобы получать режим кодирования после автоматической корректировки.
[0090] В случае, когда указанный режим кодирования не является одним из предварительно заданных режимов кодирования, это означает, что присутствует орфографическая ошибка в описании режима кодирования. В этом отношении, эти варианты осуществления предоставляют два различных процесса:
[0091] Первый процесс: терминал идентифицирует режим кодирования HTML-ресурса.
[0092] Процесс идентификации аналогичен процессу этапа 204, т.е., терминал может идентифицировать режим кодирования HTML-ресурса посредством предварительно заданного алгоритма идентификации кодирования символов. Предварительно заданный алгоритм идентификации кодирования символов может быть алгоритмом chardet идентификации кодирования символов.
[0093] Второй процесс: терминал выполняет автоматическую корректировку по указанному режиму кодирования, чтобы получать режим кодирования после автоматической корректировки.
[0094] Процесс автоматической корректировки: терминал вычисляет орфографическое сходство между указанным режимом кодирования и каждым из предварительно заданных режимов кодирования соответственно. Если существует 6 типов предварительно заданных режимов кодирования, 6 орфографических сходств в орфографии могут быть вычислены. Если максимальное орфографическое сходство больше предварительно заданного порога, терминал определяет предварительно заданный режим кодирования, соответствующий максимальному орфографическому сходству, в качестве режима кодирования после автоматической корректировки.
[0095] Например, указанным режимом кодирования является "GB2812", существует 6 типов предварительно заданных режимов кодирования и существует 6 вычисленных орфографических сходств. При этом максимальным орфографическим сходством является сходство с предварительно заданным режимом кодирования "GB2312", которое равно 83% и больше предварительно заданного порогового значения 60%. Таким образом, терминал определяет предварительно заданный режим кодирования "GB2312" как режим кодирования после автоматической корректировки.
[0096] Следует отметить, что первый процесс и второй процесс могут быть использованы отдельно или в комбинации. Возможная комбинация: сначала выполняется второй процесс, а затем, если максимальное орфографическое сходство меньше предварительно заданного порогового значения, или если максимальное орфографическое сходство существует относительно двух или более предварительно заданных режимов кодирования, терминал может выполнять первый процесс, чтобы повторно идентифицировать режим кодирования HTML-ресурса.
[0097] На этапе 209 HTML-ресурс декодируется с помощью режима декодирования, соответствующего повторно идентифицированному режиму кодирования или режиму кодирования после автоматической корректировки.
[0098] На этапе 210, если веб-ресурс является CSS-ресурсом, режим кодирования, примененный HTML-ресурсом в данных веб-страницы, идентифицируется как режим кодирования CSS-ресурса, и CSS-ресурс декодируется с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[0099] Т.е., если ресурс текущей веб-страницы является CSS-ресурсом вместо HTML-ресурса, поскольку HTML-ресурс и CSS-ресурс в данных одной и той же веб-страницы, как правило, применяют одинаковый режим кодирования, терминал идентифицирует режим кодирования, примененный HTML-ресурсом в данных веб-страницы, как режим кодирования CSS-ресурса. При этом, процесс идентификации режима кодирования HTML-ресурса может ссылаться на вышеописанные этапы 202-207.
[00100] Затем, терминал декодирует CSS-ресурс с помощью режима декодирования, соответствующего режиму кодирования CSS-ресурса.
[00101] Наконец, после того как каждый из ресурсов веб-страницы декодирован, терминал может отображать веб-страницу согласно декодированным ресурсам веб-страницы.
[00102] Соответственно, в способе идентификации кодирования веб-страницы, предоставленном этим вариантом осуществления, режим кодирования ресурса веб-страницы идентифицируется в случае, когда ресурс веб-страницы не указывает режим кодирования, и ресурс веб-страницы декодируется с помощью режима декодирования, соответствующего режиму кодирования, тем самым, проблема в предшествующем уровне техники в том, что поле "кодировка" в кодировании веб-страницы пропускается, что приводит в результате к отображению беспорядочных кодов через браузер, преодолевается, тогда, даже если режим кодирования не указывается, ресурс веб-страницы может быть декодирован и отображен правильно.
[00103] В способе идентификации режима кодирования ресурса веб-страницы, предоставленном этим вариантом осуществления, в случае, когда ресурс веб-страницы указывает режим кодирования, но орфографическая ошибка существует в описании режима кодирования, веб-ресурс декодируется с помощью режима декодирования, соответствующего повторно идентифицированному режиму кодирования или режиму кодирования после автоматической корректировки, таким образом, проблема предшествующего уровня техники, заключающаяся в том, что поле "кодировка" при кодировании веб-страницы содержит орфографическую ошибку, что приводит в результате к отображению беспорядочных кодов через браузер, преодолевается, так что, даже если режим кодирования содержит орфографическую ошибку, ресурс веб-страницы может быть декодирован и отображен правильно.
[00104] Последующее описание относится к вариантам осуществления устройств настоящего изобретения, которые могут быть сконфигурированы, чтобы выполнять варианты осуществления способа настоящего изобретения. Подробности, которые не раскрываются в вариантах осуществления устройства настоящего изобретения, могут ссылаться на варианты осуществления способа настоящего изобретения.
[00105] Фиг. 3 - это блок-схема, иллюстрирующая устройство для идентификации кодирования веб-страницы согласно примерному варианту осуществления. Устройство для идентификации кодирования веб-страницы может быть реализовано посредством программного обеспечения, аппаратных средств или комбинации обоих как часть или весь терминал. Устройство для идентификации кодирования веб-страницы может включать в себя:
[00106] модуль 320 загрузки данных, сконфигурированный с возможностью загружать данные веб-страницы, включающие в себя по меньшей мере один ресурс веб-страницы;
[00107] модуль 340 обнаружения режима, сконфигурированный с возможностью обнаруживать, является ли ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования;
[00108] модуль 360 идентификации режима, сконфигурированный с возможностью, если ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицировать режим кодирования HTML-ресурса; и
[00109] модуль 380 декодирования ресурса, сконфигурированный с возможностью декодировать HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[00110] Соответственно, в устройстве идентификации кодирования веб-страницы, предоставленном этим вариантом осуществления, режим кодирования ресурса веб-страницы идентифицируется в случае, когда ресурс веб-страницы не указывает режим кодирования, и ресурс веб-страницы декодируется с помощью режима декодирования, соответствующего режиму кодирования, тем самым, проблема предшествующего уровня техники, заключающаяся в том, что поле "кодировка" в кодировании веб-страницы пропускается, что приводит в результате к отображению беспорядочных кодов через браузер, преодолевается, так что, даже если режим кодирования не указывается, ресурс веб-страницы может быть декодирован и отображен правильно.
[00111] Фиг. 4 - это блок-схема, иллюстрирующая устройство для идентификации кодирования веб-страницы согласно другому примерному варианту осуществления. Устройство для идентификации кодирования веб-страницы может быть реализовано посредством программного обеспечения, аппаратных средств или комбинации обоих как часть или весь терминал. Устройство для идентификации кодирования веб-страницы может включать в себя:
[00112] модуль 320 загрузки данных, сконфигурированный с возможностью загружать данные веб-страницы, включающие в себя по меньшей мере один ресурс веб-страницы;
[00113] модуль 340 обнаружения режима, сконфигурированный с возможностью обнаруживать, является ли ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования;
[00114] модуль 360 идентификации режима, сконфигурированный с возможностью, если ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицировать режим кодирования HTML-ресурса; и
[00115] модуль 380 декодирования ресурса, сконфигурированный с возможностью декодировать HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[00116] В необязательном порядке, устройство дополнительно включает в себя:
[00117] модуль 352 обнаружения кодирования, сконфигурированный с возможностью, если ресурс веб-страницы является HTML-ресурсом и он указывает режим кодирования, обнаруживать, является ли указанный режим кодирования одним из предварительно заданных режимов кодирования; и
[00118] модуль 360 идентификации режима, сконфигурированный с возможностью, если указанный режим кодирования не является одним из предварительно заданных режимов кодирования, идентифицировать режим кодирования HTML-ресурса; или
[00119] модуль 370 автоматической корректировки, сконфигурированный с возможностью, если указанный режим кодирования не является одним из предварительно заданных режимов кодирования, выполнять автоматическую корректировку по указанному режиму кодирования, чтобы получать режим кодирования после автоматической корректировки.
[00120] В необязательном порядке, модуль 360 идентификации режима сконфигурирован с возможностью идентифицировать режим кодирования HTML-ресурса посредством вызова предварительно заданного алгоритма идентификации кодирования символов.
[00121] В необязательном порядке, модуль 370 автоматической корректировки включает в себя:
[00122] субмодуль 372 орфографического вычисления, сконфигурированный с возможностью вычислять орфографическое сходство между указанным режимом кодирования и каждым из предварительно заданных режимов кодирования соответственно; и
[00123] субмодуль 374 автоматической корректировки, сконфигурированный с возможностью, если максимальное орфографическое сходство больше предварительно заданного порогового значения, определять предварительно заданный режим кодирования, соответствующий максимальному орфографическому сходству, как режим кодирования после автоматической корректировки.
[00124] В необязательном порядке, устройство дополнительно включает в себя:
[00125] модуль 354 повторного использования кодирования, сконфигурированный с возможностью, если веб-ресурс является CSS-ресурсом, идентифицировать режим кодирования HTML-ресурса в данных веб-страницы в качестве режима кодирования CSS-ресурса и декодировать CSS-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
[00126] Соответственно, в устройстве идентификации кодирования веб-страницы, предоставленном этим вариантом осуществления, режим кодирования ресурса веб-страницы идентифицируется в случае, когда ресурс веб-страницы не указывает режим кодирования, и ресурс веб-страницы декодируется с помощью режима декодирования, соответствующего режиму кодирования, тем самым, проблема предшествующего уровня техники, заключающаяся в том, что поле "кодировка" в кодировании веб-страницы пропускается, что приводит в результате к отображению беспорядочных кодов через браузер, преодолевается, так что, даже если режим кодирования не указывается, ресурс веб-страницы может быть декодирован и отображен правильно.
[00127] В устройстве идентификации режима кодирования ресурса веб-страницы, предоставленном этим вариантом осуществления, в случае, когда ресурс веб-страницы указывает режим кодирования, но орфографическая ошибка существует в описании режима кодирования, веб-ресурс декодируется с помощью режима декодирования, соответствующего повторно идентифицированному режиму кодирования или режиму кодирования после автоматической корректировки, таким образом, проблема предшествующего уровня техники, заключающаяся в том, что поле "кодировка" при кодировании веб-страницы содержит орфографическую ошибку, что приводит в результате к отображению беспорядочных кодов через браузер, преодолевается, так что, даже если режим кодирования содержит орфографическую ошибку, ресурс веб-страницы может быть декодирован и отображен правильно.
[00128] Что касается устройств в вышеописанных вариантах осуществления, конкретные способы для выполнения операций для отдельных модулей в них были описаны подробно в вариантах осуществления, касающихся способа, которые не будут детально разбираться в данном документе.
[00129] Фиг. 5 - это блок-схема, иллюстрирующая устройство для идентификации кодирования веб-страницы согласно примерному варианту осуществления. Например, устройство 500 может быть мобильным телефоном, компьютером, терминалом цифрового вещания, устройством обмена сообщениями, игровой консолью, планшетом, медицинским устройством, тренажерным оборудованием, персональным цифровым помощником и т.п.
[00130] Обращаясь к фиг. 5, устройство 500 может включать в себя один или более из следующих компонентов: компонент 502 обработки, память 504, компонент 506 энергоснабжения, мультимедийный компонент 508, аудиокомпонент 510, интерфейс 512 ввода/вывода (I/O), компонент 514 датчика и компонент 516 связи.
[00131] Компонент 502 обработки типично управляет всеми операциями устройства 500, такими как операции, ассоциированные с отображением, телефонными вызовами, обменами данными, операциями камеры и операциями записи. Компонент 502 обработки может включать в себя один или более процессоров 520 для исполнения инструкций, чтобы выполнять все или часть этапов в вышеописанных способах. Кроме того, компонент 502 обработки может включать в себя один или более модулей, которые обеспечивают взаимодействие между компонентом 502 обработки и другими компонентами. Например, компонент 502 обработки может включать в себя мультимедийный модуль, чтобы обеспечивать взаимодействие между мультимедийным компонентом 508 и компонентом 502 обработки.
[00132] Память 504 сконфигурирована хранить различные типы данных, чтобы поддерживать работу устройства 500. Примеры таких данных включают в себя инструкции для каких-либо приложений или методов, работающих на устройстве 500, контактные данные, данные телефонной книги, сообщения, изображения, видеозаписи и т.д. Память 504 может быть реализована с помощью любого типа энергозависимых или энергонезависимых запоминающих устройств или их комбинации, такого как статическое оперативное запоминающее устройство (SRAM), электрически стираемое программируемое постоянное запоминающее устройство (EEPROM), стираемое программируемое постоянное запоминающее устройство (EPROM), программируемое постоянное запоминающее устройство (PROM), постоянное запоминающее устройство (ROM), магнитная память, флэш-память, магнитный или оптический диск.
[00133] Компонент 506 энергоснабжения предоставляет энергию различным компонентам устройства 500. Компонент 506 энергоснабжения может включать в себя систему управления энергией, один или более источников энергии и любые другие компоненты, ассоциированные с генерацией, управлением и распределением энергии в устройстве 500.
[00134] Мультимедийный компонент 508 включает в себя экран, предоставляющий интерфейс вывода между устройством 500 и пользователем. В некоторых вариантах осуществления экран может включать в себя жидкокристаллический дисплей (LCD) и сенсорную панель (TP). Если экран включает в себя сенсорную панель, экран может быть реализован как сенсорный экран, чтобы принимать входные сигналы от пользователя. Сенсорная панель включает в себя один или более сенсорных датчиков, чтобы распознавать касания, скольжения и жесты на сенсорной панели. Сенсорные датчики могут не только распознавать границу касания или действия скольжения, но также распознавать период времени и давление, ассоциированные с касанием или действием скольжения. В некоторых вариантах осуществления мультимедийный компонент 508 включает в себя переднюю камеру и/или заднюю камеру. Передняя камера и/или задняя камера могут принимать внешние мультимедийные данные, в то время как устройство 500 находится в рабочем режиме, таком как режим фотографирования или режим видеосъемки. Каждая из передней камеры и задней камеры может быть системой с фиксированной оптической линзой или иметь возможность фокусирования и оптического увеличения.
[00135] Аудиокомпонент 510 сконфигурирован с возможностью выводить и/или вводить аудиосигналы. Например, аудиокомпонент 510 включает в себя микрофон ("MIC"), сконфигурированный с возможностью принимать внешний аудиосигнал, когда устройство 500 находится в рабочем режиме, таком как режим вызова, режим записи и режим идентификации голоса. Принятый аудиосигнал может быть дополнительно сохранен в памяти 504 или передан посредством компонента 516 связи. В некоторых вариантах осуществления аудиокомпонент 510 дополнительно включает в себя динамик, чтобы выводить аудиосигналы.
[00136] I/O-интерфейс 512 предоставляет интерфейс между компонентом 502 обработки и периферийными интерфейсными модулями, такими как клавиатура, колесо со щелчком, кнопки и т.п. Кнопки могут включать в себя, но не только, кнопку начальной страницы, кнопку громкости, кнопку запуска и кнопку блокировки.
[00137] Компонент 514 датчика включает в себя один или более датчиков, чтобы предоставлять оценки состояния различных аспектов устройства 500. Например, компонент 514 датчика может обнаруживать открытое/закрытое состояние устройства 500, относительное расположение компонентов, например, дисплея и клавиатуры, устройства 500, изменение в положении устройства 500 или компонента устройства 500, присутствие или отсутствие контакта пользователя с устройством 500, ориентацию или ускорение/замедление устройства 500 и изменение в температуре устройства 500. Компонент 514 датчика может включать в себя датчик приближения, сконфигурированный, чтобы обнаруживать присутствие близких объектов без какого-либо физического контакта. Компонент 514 датчика может также включать в себя датчик света, такой как CMOS или CCD-датчик изображения для использования в приложениях формирования изображений. В некоторых вариантах осуществления компонент 514 датчика может также включать в себя датчик акселерометра, датчик гироскопа, магнитный датчик, датчик давления или температурный датчик.
[00138] Компонент 516 связи сконфигурирован с возможностью обеспечивать связь, проводную или беспроводную, между устройством 500 и другими устройствами. Устройство 500 может осуществлять доступ к беспроводной сети на основе стандарта связи, такого как WiFi, 2G или 3G, или их комбинации. В одном примерном варианте осуществления компонент 516 связи принимает широковещательный сигнал или ассоциированную с вещанием информацию от внешней системы управления вещанием через широковещательный канал. В одном примерном варианте осуществления компонент 516 связи дополнительно включает в себя модуль связи ближнего радиуса действия (NFC), чтобы обеспечивать связь ближнего радиуса действия. Например, NFC-модуль может быть реализован на основе технологии радиочастотной идентификации (RFID), технологии инфракрасной передачи данных (IrDA), технологии сверхширокой полосы пропускания (UWB), технологии Bluetooth (BT) и других технологий.
[00139] В примерных вариантах осуществления устройство 500 может быть реализовано с помощью одной или более специализированных интегральных микросхем (ASIC), цифровых сигнальных процессоров (DSP), устройств обработки цифровых сигналов (DSPD), программируемых логических устройств (PLD), программируемых пользователем вентильных матриц (FPGA), контроллеров, микроконтроллеров, микропроцессоров или других электронных компонентов для выполнения вышеописанных способов.
[00140] В примерных вариантах осуществления также предоставляется энергонезависимый машиночитаемый носитель информации, включающий в себя инструкции, такой как память 504, включающая в себя инструкции, при этом инструкции являются исполняемыми процессором 520 в устройстве 500 для выполнения вышеописанных способов. Например, энергонезависимый машиночитаемый носитель информации может быть ROM, RAM, CD-ROM, магнитной лентой, гибким диском, оптическим устройством хранения данных и т.п.
[00141] Энергонезависимый машиночитаемый носитель информации, когда инструкции на носителе информации исполняются процессором устройства 500, обеспечивает выполнение устройством 500 способа идентификации кодирования веб-страницы, который показан на фиг. 1 и 2.
[00142] Другие варианты осуществления настоящего изобретения будут очевидны специалистам из обсуждения, приведенного в описании, и практического применения настоящего изобретения, раскрытого в данном документе. Эта заявка предполагает охватывать любые варианты, использования или адаптации настоящего изобретения, следующие общим его принципам и включающие в себя такие отступления от настоящего изобретения как подпадающие под известную или привычную практику в области техники. Предполагается, что описание и примеры рассматриваются только как иллюстративные, при этом истинный объем и существо настоящего изобретения определяется нижеследующей формулой изобретения.
[00143] Будет понятно, что настоящее изобретение не ограничивается точной конструкцией, которая была описана выше и иллюстрирована на сопровождающих чертежах, и что различные модификации и изменения могут быть выполнены без отступления от его объема. Предполагается, что объем настоящего изобретения должен быть ограничен только прилагаемой формулой изобретения.
Изобретение относится к способу и устройству для идентификации кодирования веб-страницы, которые принадлежат области компьютерных сетей. Техническим результатом является повышение точности идентификации режима кодирования веб-страницы. Способ включает в себя: загрузку данных веб-страницы, содержащих по меньшей мере один ресурс веб-страницы; обнаружение того, является ли данный ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования; если ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентификацию режима кодирования HTML-ресурса; и декодирование HTML-ресурса с помощью режима декодирования, соответствующего идентифицированному режиму кодирования. 3 н. и 2 з.п. ф-лы, 5 ил.
1. Способ идентификации кодирования веб-страницы, содержащий этапы, на которых:
загружают данные веб-страницы, содержащие по меньшей мере один ресурс веб-страницы;
обнаруживают, является ли этот ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования;
если данный ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицируют режим кодирования HTML-ресурса посредством вызова предварительно заданного алгоритма идентификации кодирования символов в отношении по меньшей мере части HTML-ресурса;
если упомянутый ресурс веб-страницы является HTML-ресурсом и он указывает режим кодирования,
определяют, является ли указанный режим кодирования одним из предварительно заданных режимов кодирования, и если указанный режим кодирования не является одним из предварительно заданных режимов кодирования,
выполняют автоматическую корректировку в отношении указанного режима кодирования, чтобы получить режим кодирования после автоматической корректировки, посредством того, что
вычисляют орфографическое сходство между указанным режимом кодирования и каждым из упомянутых предварительно заданных режимов кодирования соответственно, и
если максимальное орфографическое сходство больше предварительно заданного порогового значения, определяют предварительно заданный режим кодирования, соответствующий максимальному орфографическому сходству, в качестве режима кодирования после автоматической корректировки, и/или
идентифицируют режим кодирования HTML-pecypca посредством вызова упомянутого предварительно заданного алгоритма идентификации кодирования символов в отношении по меньшей мере части HTML-ресурса; и
декодируют HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
2. Способ по п. 1, дополнительно содержащий этапы, на которых:
если упомянутый веб-ресурс является CSS-ресурсом, идентифицируют режим кодирования, принятый HTML-ресурсом, в данных веб-страницы в качестве режима кодирования CSS-pecypca и декодируют CSS-pecypc с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
3. Устройство для идентификации кодирования веб-страницы, содержащее:
модуль загрузки данных, сконфигурированный загружать данные веб-страницы, содержащие по меньшей мере один ресурс вебстраницы;
модуль обнаружения режима, сконфигурированный обнаруживать, является ли этот ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования;
модуль идентификации режима, сконфигурированный, если данный ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицировать режим кодирования HTML-ресурса посредством вызова предварительно заданного алгоритма идентификации кодирования символов в отношении по меньшей мере части HTML-ресурса;
модуль обнаружения кодирования, сконфигурированный, если упомянутый ресурс веб-страницы является HTML-ресурсом и он указывает режим кодирования, обнаруживать, является ли указанный режим кодирования одним из предварительно заданных режимов кодирования;
модуль автоматической корректировки;
при этом если указанный режим кодирования не является одним из предварительно заданных режимов кодирования,
модуль автоматической корректировки сконфигурирован выполнять автоматическую корректировку в отношении указанного режима кодирования, чтобы получить режим кодирования после автоматической корректировки, причем модуль автоматической корректировки содержит:
субмодуль орфографического вычисления, сконфигурированный вычислять орфографическое сходство между указанным режимом кодирования и каждым из упомянутых предварительно заданных режимов кодирования соответственно, и
субмодуль автоматической корректировки, сконфигурированный, если максимальное орфографическое сходство больше предварительно заданного порогового значения, определять предварительно заданный режим кодирования, соответствующий максимальному орфографическому сходству, как режим кодирования после автоматической корректировки, и/или
модуль идентификации режима сконфигурирован идентифицировать режим кодирования HTML-ресурса посредством вызова упомянутого предварительно заданного алгоритма идентификации кодирования символов в отношении по меньшей мере части HTML-ресурса; и
модуль декодирования ресурса, сконфигурированный декодировать HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
4. Устройство по п. 3, дополнительно содержащее модуль повторного использования кодирования, сконфигурированный, если упомянутый веб-ресурс является CSS-ресурсом, идентифицировать режим кодирования HTML-ресурса в данных веб-страницы в качестве режима кодирования CSS-pecypca и декодировать CSS-pecypc с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
5. Устройство для идентификации кодирования веб-страницы, содержащее:
процессор и
память для хранения инструкций, исполняемых процессором,
при этом процессор сконфигурирован:
загружать данные веб-страницы, содержащие по меньшей мере один ресурс веб-страницы;
обнаруживать, является ли этот ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования;
если данный ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицировать режим кодирования HTML-ресурса посредством вызова предварительно заданного алгоритма идентификации кодирования символов в отношении по меньшей мере части HTML-ресурса;
если упомянутый ресурс веб-страницы является HTML-ресурсом и он указывает режим кодирования, определять, является ли указанный режим кодирования одним из предварительно заданных режимов кодирования, и если указанный режим кодирования не является одним из предварительно заданных режимов кодирования,
выполнять автоматическую корректировку в отношении указанного режима кодирования, чтобы получить режим кодирования после автоматической корректировки, посредством вычисления орфографического сходства между указанным режимом кодирования и каждым из упомянутых предварительно заданных режимов кодирования соответственно, и
если максимальное орфографическое сходство больше предварительно заданного порогового значения, определения предварительно заданного режима кодирования, соответствующего максимальному орфографическому сходству, в качестве режима кодирования после автоматической корректировки, и/или идентифицировать режим кодирования HTML-pecypca посредством вызова упомянутого предварительно заданного алгоритма идентификации кодирования символов в отношении по меньшей мере части HTML-ресурса; и
декодировать HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
US7711673 B1, 04.05.2010 | |||
US7148824 B1, 12.12.2006 | |||
WO03091909 A1, 06.11.2003 | |||
СПОСОБ АВТОМАТИЗИРОВАННОГО ОПРЕДЕЛЕНИЯ ЯЗЫКА И (ИЛИ) КОДИРОВКИ ТЕКСТОВОГО ДОКУМЕНТА | 2011 |
|
RU2500024C2 |
Авторы
Даты
2017-02-08—Публикация
2015-01-22—Подача