СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ РЕЗУЛЬТАТА ВЫПОЛНЕНИЯ ЗАДАЧИ В КРАУДСОРСИНГОВОЙ СРЕДЕ Российский патент 2021 года по МПК G06F17/00 

Описание патента на изобретение RU2744032C2

Область техники, к которой относится изобретение

[001] Настоящая технология относится к способам и системам для определения результата для задачи и, в частности, к способам и системам для определения результата в краудсорсинговой среде.

Уровень техники

[002] Краудсорсинговые платформы, такие как Amazon Mechanical Turk™, позволяют координировать использование человеческого интеллекта для выполнения задач, которые компьютеры в настоящее время не могут решать быстрее и дешевле, чем профессиональные эксперты. Тем не менее, поскольку эксперты на краудсорсинговых платформах часто не являются профессионалами и имеют различный уровень компетентности, полученные результаты также различаются. В частности, это касается задач, не сводящихся к выбору одного из нескольких вариантов.

[003] Если в задаче от эксперта требуется ввод текста (например, в случае задачи перевода с одного языка на другой язык или задачи преобразования устной речи в текст), когда ответ заранее не известен, для краудсорсинговой платформы сложно преобразовывать все полученные результаты для формирования единого результата.

[004] В патентной заявке CN106446287A «Answer Aggregation Method and System Facing Crowdsourcing Scene Question-Answering System» (Beijing University of Posts and Telecommunications, опубликована 22 февраля 2017 г.) описаны способ и система для объединения ответов в краудсорсинговой системе вопросов и ответов. Способ включает в себя: получение нескольких касающихся заданного вопроса ответных текстов, каждый из которых содержит голоса других пользователей «за» и «против»; выполнение текстового анализа темы и ключевых слов в каждом ответном тексте и формирование набора векторов; кластеризацию всех наборов векторов, объединение всех сходных ответов в класс и подсчет голосов «за» и «против» для каждого класса сходных ответов; предоставление автору вопроса ответов с заранее заданным количеством ответов в каждом классе сходных ответов и расчет результата, соответствующего голосам «за» и «против». Преимущества способа и системы для объединения ответов в краудсорсинговой системе вопросов и ответов заключаются в том, что благодаря предоставлению автору вопроса классов ответов и расчету результата для голосов «за» и «против», соответствующих классам ответов, экономится время автора вопроса, затрачиваемое на бесполезное чтение множества сходных ответов, автору вопроса обеспечивается более широкий охват общественного мнения, а пользователям может быть оказана помощь в повышении эффективности оценивания и принятия решений.

[005] В патентной заявке US20030154181A1 «Document Clustering with Cluster Refinement and Model Selection Capabilities» (NEC Corp., опубликована 14 августа 2003 г.) описан способ разделения документов (плоская кластеризация) для кластеризации документов с высокой точностью и для точной оценки количества кластеров в корпусе документов (т.е. обеспечивается возможность выбора модели). Для точной кластеризации корпуса документов используется расширенный набор признаков для представления каждого документа, а модель смеси нормальных распределений (GMM, Gaussian Mixture Model) совместно с алгоритмом максимизации ожиданий (EM, Expectation-Maximization) используется для выполнения первоначальной кластеризации документов. На основе первоначального результата для каждого кластера определяется набор отличительных признаков и первоначально полученные кластеры документов уточняются путем голосования с целью определения метки кластера для каждого документа с использованием этого набора отличительных признаков. Этот самонастраивающийся процесс определения отличительных признаков и голосования для определения метки кластера применяется итеративно до достижения сходимости кластеров документов. Кроме того, возможность выбора модели достигается путем случайной инициализации кластеров и последующего определения значения C для количества N кластеров, при котором в результате выполняемого фиксированное количество раз процесса кластеризации документа получаются достаточно близкие результаты.

Раскрытие изобретения

[006] Разработанные не имеющие ограничительного характера варианты осуществления настоящей технологии основаны на выявлении разработчиками по меньшей мере одной технической проблемы, связанной с известными решениями.

[007] Разработчики настоящей технологии обнаружили определенные технические недостатки, связанные с существующим уровнем техники. Во-первых, эксперты на краудсорсинговой платформе часто не являются профессионалами и/или не мотивированы, что может приводить к неудовлетворительным результатам. В ситуации, когда в задаче преобладают результаты, отправленные немотивированными или не заслуживающими доверия экспертами, сложно должным образом определить согласованный результат, особенно, когда задача требует от экспертов ввода текстовой информации. Во-вторых, даже если большинство экспертов мотивированы и заслуживают доверия, сложно должным образом выбрать один согласованный результат задачи, требующей от экспертов ввода текстовой информации, без выбора правильного результата доверенным экспертом.

[008] В соответствии с первым аспектом настоящей технологии реализован выполняемый сервером компьютерный способ определения результата для задачи заданного вида, выполняемой в краудсорсинговой среде. Способ включает в себя: получение сервером множества результатов для задачи, отправленных множеством экспертов из краудсорсинговой среды; получение сервером для каждого эксперта из множества экспертов оценки качества, указывающей на надежность эксперта; формирование сервером множества векторных представлений, содержащего векторное представление для каждого результата из множества результатов; отображение сервером множества векторных представлений в векторное пространство; объединение сервером множества векторных представлений по меньшей мере в первый кластер, содержащий первое подмножество из множества векторных представлений, и во второй кластер, содержащий второе подмножество из множества векторных представлений; выполнение сервером алгоритма машинного обучения (MLA, Machine Learning Algorithm), способного формировать первый параметр достоверности, соответствующий вероятности того, что первое подмножество содержит векторное представление правильного результата для задачи, и формируемый на основе одной или нескольких оценок качества, связанных с первым подмножеством из множества векторных представлений, и второй параметр достоверности, соответствующий вероятности того, что второе подмножество содержит векторное представление правильного результата для задачи, и формируемый на основе одной или нескольких оценок качества, связанных со вторым подмножеством из множества векторных представлений; формирование сервером объединенного векторного представления на основе первого подмножества из множества векторных представлений или второго подмножества из множества векторных представлений, если первый параметр достоверности или второй параметр достоверности соответствует заранее заданному условию; выбор сервером объединенного векторного представления в качестве результата для задачи.

[009] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения задача заданного вида представляет собой задачу перевода иди задачу преобразования устной речи в текст.

[0010] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения результат представляется в текстовой форме, а формирование множества векторных представлений включает в себя формирование векторных представлений слов для каждой формы из множества текстовых форм с использованием модели Word2Vec, модели «непрерывного мешка слов» (continuous bag-of-words) или непрерывной модели скип-граммы (continuous skip-gram model).

[0011] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения кластеризация множества векторных представлений выполняется с использованием алгоритма кластеризации вида «k-средних», алгоритма кластеризации на основе центроида, алгоритма кластеризации на основе распределения или алгоритма кластеризации на основе плотности.

[0012] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения оценка качества эксперта основана на коэффициенте ошибок эксперта, возникающих при выполнении задач заданного вида.

[0013] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения алгоритм MLA представляет собой алгоритм на основе модели Дэвида-Скина (Dawid-Skene), способный формировать первый параметр достоверности на основе коэффициентов ошибок, связанных с первым подмножеством из множества экспертов, связанным с первым подмножеством из множества векторных представлений, и второй параметр достоверности на основе коэффициентов ошибок, связанных со вторым подмножеством из множества экспертов, связанным со вторым подмножеством из множества векторных представлений.

[0014] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения заранее заданное условие относится к наибольшему из первого параметра достоверности и второго параметра достоверности.

[0015] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения формирование объединенного векторного представления включает в себя выбор векторного представления, соответствующего медоиду первого подмножества из множества векторных представлений.

[0016] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения формирование объединенного векторного представления включает в себя формирование первого векторного представления, соответствующего центроиду первого подмножества из множества векторных представлений, и выбор из первого подмножества из множества векторных представлений второго векторного представления, соответствующего наиболее схожему с центроидом векторному представлению, в качестве объединенного векторного представления.

[0017] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения выбор объединенного векторного представления включает в себя ввод объединенного векторного представления в процедуру преобразования вектора в текст для формирования единого результата.

[0018] В соответствии с другим аспектом настоящей технологии реализована содержащая сервер система для определения результата для задачи заданного вида, выполняемой в краудсорсинговой среде. Сервер содержит процессор и выполнен с возможностью: получения сервером множества результатов для задачи, отправленных множеством экспертов из краудсорсинговой среды; получения сервером для каждого эксперта из множества экспертов оценки качества, указывающей на надежность эксперта; формирования сервером множества векторных представлений, содержащего векторное представление для каждого результата из множества результатов; отображения сервером множества векторных представлений в векторное пространство; объединения сервером множества векторных представлений по меньшей мере в первый кластер, содержащий первое подмножество из множества векторных представлений, и во второй кластер, содержащий второе подмножество из множества векторных представлений; выполнения сервером алгоритма MLA, способного формировать первый параметр достоверности, соответствующий вероятности того, что первое подмножество содержит векторное представление правильного результата для задачи, и формируемый на основе одной или нескольких оценок качества, связанных с первым подмножеством из множества векторных представлений, и второй параметр достоверности, соответствующий вероятности того, что второе подмножество содержит векторное представление правильного результата для задачи, и формируемый на основе одной или нескольких оценок качества, связанных со вторым подмножеством из множества векторных представлений; формирования сервером объединенного векторного представления на основе первого подмножества из множества векторных представлений или второго подмножества из множества векторных представлений, если первый параметр достоверности или второй параметр достоверности соответствует заранее заданному условию; выбора сервером объединенного векторного представления в качестве результата для задачи.

[0019] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения результат представлен в текстовой форме, при этом для формирования множества векторных представлений процессор способен формировать векторные представления слов для каждой формы из множества текстовых форм с использованием модели Word2Vec, модели «непрерывного мешка слов» или непрерывной модели скип-граммы.

[0020] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения для кластеризации множества векторных представлений процессор способен выполнять алгоритм кластеризации вида «k-средних», алгоритм кластеризации на основе центроида, алгоритм кластеризации на основе распределения или алгоритм кластеризации на основе плотности.

[0021] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения оценка качества эксперта основана на коэффициенте ошибок эксперта, возникающих при выполнении задач заданного вида.

[0022] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения алгоритм MLA представляет собой алгоритм на основе модели Дэвида-Скина, способный формировать первый параметр достоверности на основе коэффициентов ошибок, связанных с первым подмножеством из множества экспертов, связанным с первым подмножеством из множества векторных представлений, и второй параметр достоверности на основе коэффициентов ошибок, связанных со вторым подмножеством из множества экспертов, связанным со вторым подмножеством из множества векторных представлений.

[0023] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения заранее заданное условие относится к наибольшему из первого параметра достоверности и второго параметра достоверности.

[0024] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения для формирования объединенного векторного представления процессор способен выбирать векторное представление, соответствующее медоиду первого подмножества из множества векторных представлений.

[0025] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения для формирования объединенного векторного представления процессор способен выбирать векторное представление, наиболее часто встречающееся в первом подмножестве из множества векторных представлений.

[0026] В некоторых не имеющих ограничительного характера вариантах осуществления изобретения для формирования объединенного векторного представления процессор способен формировать первое векторное представление, соответствующее центроиду первого подмножества из множества векторных представлений, и выбирать из первого подмножества из множества векторных представлений второе векторное представление, соответствующее наиболее схожему с центроидом векторному представлению, в качестве объединенного векторного представления.

[0027] Дополнительные и/или альтернативные признаки, аспекты и преимущества вариантов осуществления настоящей технологии содержатся в дальнейшем описании, в приложенных чертежах и в формуле изобретения.

[0028] В контексте настоящего описания термин «сервер» означает компьютерную программу, выполняемую соответствующими аппаратными средствами и способную принимать запросы (например, от клиентских устройств) через сеть и выполнять эти запросы или инициировать их выполнение. Аппаратные средства могут представлять собой один физический компьютер или одну компьютерную систему, что не существенно для настоящей технологии. В настоящем контексте выражение «сервер» не означает, что каждая задача (например, принятая команда или запрос) или некоторая конкретная задача принимается, выполняется или запускается одним и тем же сервером (т.е. одними и теми же программными и/или аппаратными средствами). Это выражение означает, что любое количество программных средств или аппаратных средств может принимать, отправлять, выполнять или инициировать выполнение любой задачи или запроса либо результатов любых задач или запросов. Все эти программные и аппаратные средства могут представлять собой один сервер или несколько серверов, при этом оба эти случая подразумеваются в выражении «по меньшей мере один сервер».

[0029] В контексте настоящего описания термин «клиентское устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения конкретной задачи. Таким образом, некоторые (не имеющие ограничительного характера) примеры клиентских устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как клиентское устройство, также может функционировать как сервер для других клиентских устройств. Использование выражения «клиентское устройство» не исключает использования нескольких клиентских устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов либо шагов любого описанного здесь способа.

[0030] В контексте настоящего описания термин «база данных» означает любой структурированный набор данных, независимо от его конкретной структуры, программного обеспечения для управления базой данных или компьютерных аппаратных средств для хранения этих данных, их применения или обеспечения их использования иным способом. База данных может располагаться в тех же аппаратных средствах, где реализован процесс, обеспечивающий хранение или использование информации, хранящейся в базе данных, либо база данных может располагаться в отдельных аппаратных средствах, таких как специализированный сервер или множество серверов.

[0031] В контексте настоящего описания выражение «информация» включает в себя информацию любого рода или вида, допускающую хранение в базе данных. Таким образом, информация включает в себя аудиовизуальные произведения (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные о местоположении, числовые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы, списки слов и т.д., но не ограничивается ими.

[0032] В контексте настоящего описания выражение «компонент» включает в себя обозначение программного обеспечения (подходящего для определенных аппаратных средств), необходимого и достаточного для выполнения определенной функции или нескольких функций.

[0033] В контексте настоящего описания выражение «пригодный для использования в компьютере носитель информации» означает носители любого рода и вида, включая ОЗУ, ПЗУ, диски (CD-ROM, DVD, гибкие диски, жесткие диски и т.д.), USB-накопители, твердотельные накопители, накопители на магнитных лентах и т.д.

[0034] В контексте настоящего описания числительные «первый» «второй», «третий» и т.д. используются лишь для указания различия между существительными, к которым они относятся, но не для описания каких-либо определенных взаимосвязей между этими существительными. Например, должно быть понятно, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа, хронологии, иерархии или классификации, в данном случае, серверов, а также что их использование (само по себе) не подразумевает обязательного наличие «второго сервера». Кроме того, как встречается в настоящем описании в другом контексте, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента в действительности могут быть одним и тем же элементом. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут представлять собой одно и то же программное и/или аппаратное средство, а в других случаях - различные программные и/или аппаратные средства.

[0035] Каждый вариант осуществления настоящей технологии относится к по меньшей мере одной из вышеупомянутых целей и/или аспектов, но не обязательно ко всем ним. Должно быть понятно, что некоторые аспекты настоящей технологии, связанные с попыткой достижения вышеупомянутой цели, могут не соответствовать этой цели и/или могут соответствовать другим целям, явным образом здесь не упомянутым.

[0036] Дополнительные и/или альтернативные признаки, аспекты и преимущества вариантов осуществления настоящей технологии должны быть ясны из дальнейшего описания, приложенных чертежей и формулы изобретения.

Краткое описание чертежей

[0037] Дальнейшее описание приведено для обеспечения лучшего понимания настоящей технологии, а также других аспектов и их признаков, и должно использоваться совместно с приложенными чертежами.

[0038] На фиг. 1 представлена схема системы, реализованной согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0039] На фиг. 2 представлена схема процесса определения результата для задачи, выполняемой в краудсорсинговой среде.

[0040] На фиг. 3 приведено схематическое изображение множества векторных представлений результатов, отображенных в векторное пространство при выполнении части процесса, представленного на фиг. 2.

[0041] На фиг. 4 приведено схематическое изображение представленного на фиг. 3 множества векторных представлений, объединенных в кластеры при выполнении части процесса, представленного на фиг. 2.

[0042] На фиг. 5 приведена схема первого примера процесса определения объединенного векторного представления, выполняемого в качестве части процесса, представленного на фиг. 2.

[0043] На фиг. 6 приведена схема второго примера процесса определения объединенного векторного представления, выполняемого в качестве части процесса, представленного на фиг. 2.

[0044] На фиг. 7 приведена схема третьего примера процесса определения объединенного векторного представления, выполняемого в качестве части процесса, представленного на фиг. 2.

[0045] На фиг. 8 представлена блок-схема способа определения результата для задачи, выполняемой в краудсорсинговой среде.

Осуществление изобретения

[0046] На фиг. 1 представлена схема системы 100, пригодной для реализации вариантов осуществления настоящей технологии, не имеющих ограничительного характера. Очевидно, что система 100 приведена только для демонстрации варианта реализации настоящей технологии. Таким образом, дальнейшее описание системы представляет собой описание примеров, иллюстрирующих настоящую технологию. Это описание не предназначено для определения объема или границ настоящей технологии. В некоторых случаях также приводятся полезные примеры модификаций системы 100. Они способствуют пониманию, но также не определяют объем или границы настоящей технологии. Эти модификации не составляют исчерпывающего перечня. Как должно быть понятно специалисту в данной области, вероятно, возможны и другие модификации. Кроме того, если в некоторых случаях модификации не описаны (т.е. примеры модификаций отсутствуют), это не означает, что они невозможны и/или что описание содержит единственно возможный вариант реализации того или иного элемента настоящей технологии. Специалисту в данной области должно быть понятно, что это не так. Кроме того, следует понимать, что система 100 в некоторых случаях может представлять собой упрощенную реализацию настоящей технологии, и что такие варианты представлены для того, чтобы способствовать лучшему ее пониманию. Специалистам в данной области должно быть понятно, что различные варианты осуществления настоящей технологии могут быть значительно сложнее.

[0047] Представленные здесь примеры и условный язык предназначены для обеспечения лучшего понимания принципов настоящей технологии, а не для ограничения ее объема до таких специально приведенных примеров и условий. Очевидно, что специалисты в данной области техники способны разработать различные способы и устройства, которые явно не описаны и не показаны, но реализуют принципы настоящей технологии в пределах ее существа и объема. Кроме того, чтобы способствовать лучшему пониманию, дальнейшее описание может содержать упрощенные варианты реализации настоящей технологии. Специалисту в данной области должно быть понятно, что различные варианты осуществления данной технологии могут быть значительно сложнее.

[0048] Более того, описание принципов, аспектов и вариантов реализации настоящей технологии, а также их конкретные примеры предназначены для охвата их структурных и функциональных эквивалентов, независимо от того, известны они в настоящее время или будут разработаны в будущем. Например, специалистам в данной области техники должно быть очевидно, что любые описанные структурные схемы соответствуют концептуальным представлениям иллюстративных принципиальных схем, реализующих принципы настоящей технологии. Также должно быть очевидно, что любые блок-схемы, схемы процессов, диаграммы изменения состояния, псевдокоды и т.п. соответствуют различным процессам, которые могут быть представлены на машиночитаемом носителе информации и могут выполняться компьютером или процессором, независимо от того, показан такой компьютер или процессор явно или нет.

[0049] Функции различных элементов, показанных на чертежах, включая любой функциональный блок, обозначенный как «процессор», могут быть реализованы с использованием специализированных аппаратных средств, а также аппаратных средств, способных выполнять соответствующее программное обеспечение. Если используется процессор, эти функции могут выполняться одним выделенным процессором, одним совместно используемым процессором или множеством отдельных процессоров, некоторые из которых могут использоваться совместно. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), или специализированный процессор, такой как графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно трактоваться как указание исключительно на аппаратные средства, способные выполнять программное обеспечение, и может подразумевать, помимо прочего, аппаратные средства цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), ПЗУ (ROM) для хранения программного обеспечения, ОЗУ (RAM) и энергонезависимое ЗУ. Также могут подразумеваться другие аппаратные средства, общего назначения и/или заказные.

[0050] Далее с учетом вышеизложенных принципов рассмотрены некоторые не имеющие ограничительного характера примеры, иллюстрирующие различные варианты реализации аспектов настоящей технологии.

[0051] Система 100 содержит сервер 102 и базу 104 данных, доступную серверу 102.

[0052] Как схематически показано на фиг. 1, база 104 данных содержит указания на идентификаторы множества экспертов 106, указавших свою готовность выполнить краудсорсинговую задачу по меньшей мере одного вида и/или выполнивших по меньшей мере одну краудсорсинговую задачу в прошлом и/или зарегистрированных для выполнения краудсорсинговой задачи по меньшей мере одного вида.

[0053] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии база 104 данных контролируется и/или управляется поставщиком краудсорсинговых услуг, таким как компания Yandex LLC (ул. Льва Толстого, 16, Москва, 119021, Россия). В других не имеющих ограничительного характера вариантах осуществления изобретения база 104 данных может управляться другой организацией.

[0054] На реализацию базы 104 данных не накладывается каких-либо особых ограничений. База 104 данных может быть реализована с использованием любой подходящей известной технологии, обеспечивающей описанные здесь функции. Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, база 104 данных содержит интерфейс связи (не показан) для двухсторонней связи с сетью 110 связи (или имеет доступ к нему).

[0055] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии в качестве сети 110 связи может использоваться сеть Интернет. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сеть 110 связи может быть реализована иначе, например, в виде любой глобальной сети связи, локальной сети связи, частной сети связи и т.п.

[0056] Предполагается, что база 104 данных может, по меньшей мере частично, храниться на сервере 102 и/или в любом другом одном или нескольких местах и/или, по меньшей мере частично, управляться сервером 102. Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, база 104 данных содержит информацию, связанную с идентификаторами по меньшей мере некоторых экспертов 106 из множества экспертов и достаточную для того, чтобы обратившийся к базе 104 данных элемент, такой как сервер 102, мог назначить и отправить одну или несколько задач, предназначенных для выполнения одним или несколькими экспертами 106.

[0057] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, в базе 104 данных хранится оценка 112 качества, связанная с каждым из экспертов 106. Оценка 112 качества каждого эксперта 106 указывает на надежность результата для задачи, выполненной экспертом 106, или, иными словами, на коэффициент ошибок эксперта 106.

[0058] На способ определения оценок 112 качества экспертов 106 не накладывается каких-либо ограничений. Например, оценки 112 качества могут быть определены на основе первого множества тестовых задач, выполненных экспертами 106. В настоящем документе термин «тестовая задача» означает задачу, правильный результат которой известен до ее отправки для выполнения эксперту 106, который тестируется или оценивается для определения связанной с ним оценки качества, при этом оцениваемым экспертам 106 правильный результат заранее не сообщается.

[0059] Результаты первого множества тестовых задач, предоставленные экспертами 106, регистрируются в базе 104 данных в подходящей структуре данных (не показана). Для каждого эксперта 106 доля в процентах правильно выполненных экспертом 106 задач из первого множества тестовых задач рассчитывается и регистрируется в базе 104 данных в виде оценки 112 качества эксперта 106. Например, если эксперт 106 выполняет 20 тестовых задач и предоставляет результат, совпадающий с соответствующим известным правильным результатом, для 18 из 20 тестовых задач, то оценка 112 качества эксперта 106 определяется следующим образом: 18/20 = 0,9 (90%). Должно быть понятно, что оценка качества может быть выражена в различных формах.

[0060] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии оценки 112 качества могут быть определены на основе статистического анализа ранее выполненных задач и на основе проверок, сделанных надежным экспертом.

[0061] В любой момент времени множество экспертов 106 может содержать различное количество экспертов 106, например, 50 экспертов 106, доступных для выполнения задач и имеющих оценки 112 качества в диапазоне от 0% до 100%. Множество экспертов 106 может содержать большее или меньшее количество экспертов 106.

[0062] Сервер 102 может быть реализован в виде традиционного компьютерного сервера. В не имеющем ограничительного характера примере осуществления настоящей технологии сервер 102 может быть реализован в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™. Очевидно, что сервер 102 может быть реализован с использованием любых других подходящих аппаратных средств и/или прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания. В представленном не имеющем ограничительного характера варианте осуществления настоящей технологии сервер 102 реализован в виде одного сервера. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии функции сервера 102 могут быть распределены между несколькими серверами.

[0063] Сервер 102 содержит интерфейс связи (не показан) для обеспечения двухсторонней связи с сетью 110 связи по линии 108 связи.

[0064] На реализацию линии 108 связи не накладывается каких-либо особых ограничений, она зависит от реализации сервера 102. Например, линия 108 связи может быть реализована в виде беспроводной линии связи (такой как канал сети связи 3G, канал сети связи 4G, Wireless Fidelity или сокращенно WiFi®, Bluetooth® и т.п.) или проводной линии связи (такой как соединение на основе Ethernet).

[0065] Должно быть очевидно, что варианты реализации сервера 102, линии 108 связи и сети 110 связи приведены лишь для иллюстрации. Специалисту в данной области должны быть понятны и другие подробности реализации сервера 102, линии 108 связи и сети 110 связи. Представленные выше примеры никак не ограничивают объем настоящей технологии.

[0066] Сервер 102 содержит память 114 сервера, содержащую один или несколько носителей информации и в общем случае хранящую компьютерные программные команды, исполняемые процессором 116 сервера. Например, память 114 сервера может быть реализована в виде машиночитаемого физического носителя информации, включая ПЗУ и/или ОЗУ. Память 114 сервера также может включать в себя одно или несколько устройств постоянного хранения, таких как накопители на жестких дисках (HDD), твердотельные накопители (SSD) и карты флэш-памяти.

[0067] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 102 может эксплуатироваться организацией, управляющей базой 104 данных. В других не имеющих ограничительного характера вариантах осуществления изобретения сервер 102 может эксплуатироваться организацией, отличной от той, что управляет базой 104 данных.

[0068] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 102 способен выполнять краудсорсинговое приложение 118. Например, краудсорсинговое приложение 118 может быть реализовано в виде краудсорсинговой платформы, такой как Yandex.Toloka™ либо другой проприетарной или коммерчески доступной краудсорсинговой платформы.

[0069] С этой целью сервер 102 связан линией связи с базой 121 данных задач. В других не имеющих ограничительного характера вариантах осуществления изобретения база 121 данных задач может быть связана с сервером 102 через сеть 110 связи. Несмотря на то, что база 121 данных задач схематично показана здесь в виде одного элемента, предполагается, что база 121 данных задач может быть распределенной.

[0070] База 121 данных задач наполняется множеством задач для человеческого интеллекта (HIT, Human Intelligence Task) (далее - «задачи», отдельно не обозначены). На наполнение базы 121 данных задач множеством задач не накладывается каких-либо ограничений. В общем случае, один или несколько составителей запросов на выполнение задач (не показаны) могут отправлять в базу 121 данных задач одну или несколько задач, подлежащих выполнению. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии один или несколько составителей запросов на выполнение задач могут указывать вид экспертов, для которых предназначена задача, и/или бюджет, который должен быть выделен каждому эксперту 106, предоставившему правильный результат.

[0071] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии заданная задача из множества задач может включать в себя задачу перевода. Например, задача перевода соответствует задаче, в которой от экспертов 106 требуется ввести правильный перевод предложения с языка оригинала (например, с французского языка) на язык перевода (например, на английский язык).

[0072] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии заданная задача из множества задач может включать в себя задачу преобразования устной речи в текст. Например, в задаче преобразования устной речи в текст от экспертов 106 требуется ввести правильное текстовое представление записанного фрагмента устной речи.

[0073] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии заданная задача из множества задач может включать в себя задачу оптического распознавания символов (OCR, Optical Character Recognition). Например, задача OCR соответствует задаче, в которой от экспертов 106 требуется определить правильное текстовое представление сканированного изображения текста.

[0074] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, краудсорсинговое приложение 118 способно назначать задачу по меньшей мере для подмножества из множества экспертов 106 в базе 104 данных, указавших на свою доступность.

[0075] Сервер 102 способен осуществлять связь с различными элементами через сеть 110 связи. Примеры различных элементов включают в себя базу 104 данных, соответствующие электронные устройства 120 экспертов 106 и другие устройства, которые могут быть связаны с сетью 110 связи. Соответственно, краудсорсинговое приложение 118 способно получать задачу из базы 121 данных задач и отправлять эту задачу соответствующим электронным устройствам 120, используемым множеством экспертов 106 для выполнения задачи, например, через сеть 110 связи.

[0076] Предполагается, что для этой цели может быть использована любая подходящая технология и/или среда передачи файлов. Также предполагается, что задача может быть отправлена множеству экспертов 106 с использованием любого другого подходящего способа, такого как обеспечение удаленного доступа к задаче для множества экспертов 106.

[0077] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, сервер 102 способен получать набор результатов для задачи, выполненной множеством экспертов 106. Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, набор результатов может быть получен сервером 102 в одном или нескольких пакетах 122 данных, например, через сеть 110 связи. Предполагается, что при этом могут использоваться любые другие подходящие средства передачи данных.

Краудсорсинговое приложение 118

[0078] На фиг. 2 представлена схема процесса определения результата для задачи, выполняемой в краудсорсинговой среде. Процесс определения результата выполняется краудсорсинговым приложением 118 (см. фиг. 1), реализованным согласно не имеющему ограничительного характера варианту осуществления настоящей технологии. Краудсорсинговое приложение 118 выполняет процедуру 202 приема, процедуру 204 отображения, процедуру 206 кластеризации, процедуру 208 объединения и процедуру 210 выбора (или осуществляет доступ к ним иным образом).

[0079] В контексте настоящего описания термин «процедура» подразумевает подмножество выполняемых компьютером программных команд краудсорсингового приложения 118, исполняемых процессором 116 сервера (процедура 202 приема, процедура 204 отображения, процедура 206 кластеризации, процедура 208 объединения и процедура 210 выбора). Во избежание сомнений следует пояснить, что процедура 202 приема, процедура 204 отображения, процедура 206 кластеризации, процедура 208 объединения и процедура 210 выбора показаны по отдельности для удобства объяснения процессов, выполняемых краудсорсинговым приложением 118. Предполагается, что некоторые или все процедуры из числа процедуры 202 приема, процедуры 204 отображения, процедуры 206 кластеризации, процедуры 208 объединения и процедуры 210 выбора могут быть реализованы в виде одной или нескольких комбинированных процедур.

[0080] Для обеспечения лучшего понимания настоящей технологии ниже описаны функции и обрабатываемые или сохраняемые данные и/или информация процедуры 202 приема, процедуры 204 отображения, процедуры 206 кластеризации, процедуры 208 объединения и процедуры 210 выбора.

Процедура 202 приема

[0081] Процедура 202 приема способна получать в пакете 122 данных множество 212 результатов от соответствующего электронного устройства 120, используемого экспертом из множества экспертов 106, отправляющим результат задачи, назначенной этому эксперту из множества экспертов 106. Очевидно, что лишь один пакет 122 данных показан исключительно для обеспечения лучшего понимания. Должно быть понятно, что процедура 202 приема может принимать множество пакетов данных, каждый из которых содержит один из результатов. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии результат из множества 212 результатов может представлять собой слово, фразу или предложение.

[0082] Например, если задача представляет собой задачу OCR, то множество 212 результатов содержит текстовые ответы, введенные экспертами 106. Если задача представляет собой задачу преобразования устной речи в текст, то множество 212 результатов содержит введенные экспертами 106 текстовые ответы, соответствующие записанному фрагменту устной речи. Если задача представляет собой задачу перевода, то множество 212 результатов содержит введенные экспертами 106 текстовые ответы на языке перевода, соответствующие тексту на языке оригинала.

[0083] Очевидно, что лишь один пакет 122 данных показан исключительно для обеспечения лучшего понимания и что процедура 202 приема способна принимать несколько пакетов данных, например, по одному пакету от каждого соответствующего электронного устройства 120.

[0084] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии каждый результат из множества 212 результатов содержит указание на эксперта 106, сформировавшего этот результат. Затем процедура 202 приема способна обращаться к базе 104 данных для получения оценки 212 качества, связанной с каждым экспертом 106, и связывать ее с результатом, полученным от каждого конкретного эксперта из множества экспертов 106.

[0085] Процедура 202 приема дополнительно способна отправлять пакет 214 данных процедуре 204 отображения. Пакет 214 данных содержит (а) множество 212 результатов и (б) оценку 212 качества, связанную с множеством 212 результатов.

Процедура 204 отображения

[0086] В ответ на получение пакета 214 данных процедура 204 отображения способна выполнять следующие функции.

[0087] Сначала процедура 204 отображения способна выполнять алгоритм 216 формирования векторов, который способен формировать векторное представление каждого результата из множества 212 результатов.

[0088] Способ реализации алгоритма 216 формирования векторов хорошо известен в данной области техники и подробно здесь не описан. Достаточно сказать, что алгоритм 216 формирования векторов способен формировать векторное представление слов для каждого результата из множества 212 результатов с использованием модели Word2Vec, модели «непрерывного мешка слов», непрерывной модели скип-граммы и т.п.

[0089] Очевидно, что множество 212 результатов может содержать один или несколько повторяющихся результатов, для которых формируются одинаковые векторные представления. Например, если два результата представляют собой символы ABC, то этим двум результатам соответствует одно векторное представление.

[0090] После формирования множества векторных представлений алгоритм 216 формирования векторов дополнительно способен отображать множество векторных представлений в многомерное векторное пространство (подробно описано ниже). На реализацию многомерного векторного пространства не накладывается каких-либо ограничений, она зависит от размерности множества векторных представлений.

[0091] На фиг. 3 представлено схематическое изображение множества векторных представлений, отображенных в векторное пространство 300 процедурой 204 отображения.

[0092] Как показано на чертеже, множество векторных представлений (показаны в виде точек) отображено в векторное пространство 300. Векторное пространство 300 показано в виде двумерного пространства исключительно для удобства представления. Очевидно, что векторное пространство 300 может быть реализовано в виде n-мерного пространства.

[0093] Процедура 204 отображения дополнительно способна сопоставлять каждое векторное представление с соответствующей оценкой 112 качества. Например, процедура 204 отображения способна формировать список (не показан), в котором каждое векторное представление (или указание на него) связано с соответствующей оценкой качества. Для удобства на фиг. 3 каждая оценка 112 качества (показана в виде квадрата) связана с векторным представлением. Несмотря на то, что создается впечатление, что оценки 112 качества также отображаются в векторное пространство 300, должно быть очевидно, что это сделано исключительно для обеспечения лучшего понимания.

[0094] В векторном пространстве 300 имеется первое векторное представление 302, связанное с оценкой 112 качества. Оценка 112 качества, связанная с первым векторным представлением 302, соответствует оценке 112 качества эксперта 106, отправившего результат, соответствующий первому векторному представлению 302.

[0095] В векторном пространстве 300 также имеется второе векторное представление 304, связанное с шестью оценками 112 качества. Иными словами, шесть результатов, предоставленных множеством экспертов 106, соответствуют одному и тому же ответу и поэтому представлены в виде одного векторного представления, но связаны с каждой оценкой 112 качества шести экспертов 106, отправивших одинаковые результаты.

Процедура 206 кластеризации

[0096] Процедура 206 кластеризации способна осуществлять доступ к векторному пространству 300 для выполнения следующих функций.

[0097] Сначала процедура 206 кластеризации способна группировать множество векторных представлений во множество кластеров, при этом сходные векторные представления объединяются в одном кластере.

[0098] На способ реализации алгоритма 218 кластеризации не накладывается каких-либо ограничений. Он может представлять собой алгоритм кластеризации вида «k-средних», алгоритм кластеризации на основе центроида, алгоритм кластеризации на основе распределения, алгоритм кластеризации на основе плотности и т.п.

[0099] На фиг. 4 представлено схематическое изображение множества векторных представлений, сгруппированных в кластеры алгоритмом 218 кластеризации.

[00100] Множество векторных представлений сгруппировано алгоритмом 218 кластеризации в три кластера: первый кластер 402, второй кластер 404 и третий кластер 406. Предполагается, что алгоритм 218 кластеризации способен группировать множество векторных представлений в менее или более чем три кластера.

[00101] Первый кластер 402 содержит первое подмножество 408 из множества векторных представлений. В частности, первое подмножество 408 содержит 6 векторных представлений (включая первое векторное представление 302) результатов, отправленных шестью экспертами 106.

[00102] Второй кластер 404 содержит второе подмножество 410 из множества векторных представлений. В частности, второе подмножество 410 содержит 5 векторных представлений результатов, отправленных восемью экспертами 106.

[00103] Третий кластер 406 содержит третье подмножество 412 из множества векторных представлений. В частности, третье подмножество 412 содержит 5 векторных представлений (включая второе векторное представление 304) результатов, отправленных пятнадцатью экспертами 106.

[00104] После кластеризации множества векторных представлений процедура 206 кластеризации (см. фиг. 2) дополнительно способна выполнять алгоритм 220 MLA, обученный рассчитывать параметр достоверности для первого кластера 402, второго кластера 404 и третьего кластера 406. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии параметр достоверности соответствует вероятности того, что кластер (первый кластер 402, второй кластер 404 и третий кластер 406) содержит векторное представление правильного результата для задачи.

[00105] Например, для третьего кластера 406 алгоритм 220 MLA способен определить вероятность того, что третье подмножество 412 содержит векторное представление правильного результата для задачи, на основе 15 оценок качества, связанных с третьим подмножеством 412.

[00106] На реализацию алгоритма 220 MLA не накладывается каких-либо ограничений. С учетом того, что оценка 112 качества указывает на коэффициент ошибок, связанный с экспертом, алгоритм 220 MLA может быть реализован в виде алгоритма на основе модели Дэвида-Скина для определения параметра достоверности на основе оценок 112 качества каждого векторного представления из первого кластера 402, второго кластера 404 и третьего кластера 406. На реализацию параметра достоверности не накладывается каких-либо ограничений. В частности, он может быть реализован в виде значения в процентах или в виде значения в диапазоне, например, от 1 до 100.

[00107] После определения первого параметра достоверности, связанного с первым кластером 402, второго параметра достоверности, связанного со вторым кластером 404, и третьего параметра достоверности, связанного с третьим кластером 406, процедура 206 кластеризации способна отправлять пакет 222 данных процедуре 208 объединения. Пакет 222 данных содержит первый параметр достоверности, второй параметр достоверности и третий параметр достоверности.

Процедура 208 объединения

[00108] После получения пакета 222 данных процедура 208 объединения способна выполнять следующее.

[00109] Сначала процедура 208 объединения способна выбирать первый параметр достоверности, второй параметр достоверности или третий параметр достоверности, соответствующий заранее заданному условию. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии для определения соответствия заранее заданному условию определятся наибольший параметр из числа первого параметра достоверности, второго параметра достоверности и третьего параметра достоверности.

[00110] Например, можно предположить, что третий параметр достоверности, связанный с третьим кластером 406, соответствует наибольшему параметру достоверности, т.е. третий кластер 406 определен как имеющий наибольшую вероятность наличия в нем векторного представления правильного результата для задачи.

[00111] Процедура 208 объединения дополнительно способна формировать объединенное векторное представление третьего подмножества 412. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии объединенное векторное представление соответствует векторному представлению правильного ответа задачи. На способ определения объединенного векторного представления не накладывается каких-либо ограничений. Он описан ниже на нескольких примерах.

Первый пример

[00112] На фиг. 5 приведено схематическое изображение первого примера процесса определения объединенного векторного представления третьего подмножества 412.

[00113] Как показано на чертеже, третье подмножество 412 содержит второе векторное представление 304, третье векторное представление 502, четвертое векторное представление 504, пятое векторное представление 506 и шестое векторное представление 508.

[00114] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии объединенное векторное представление соответствует медоиду третьего подмножества 412. Иными словами, процедура 208 объединения способна определить векторное представление из третьего подмножества 412, имеющее наименьшее среднее отличие от всех остальных векторных представлений из третьего подмножества 412.

[00115] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, медоид третьего подмножества 412 определяется процедурой 208 объединения в соответствии со следующей формулой или функцией:

где x1, x2, ..., xn соответствует второму векторному представлению 304, третьему векторному представлению 502, четвертому векторному представлению 504, пятому векторному представлению 506 и шестому векторному представлению 508 в векторном пространстве с функцией d расстояния.

Второй пример

[00116] На фиг. 6 приведено схематическое изображение второго примера процесса определения объединенного векторного представления третьего подмножества 412.

[00117] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии объединенное векторное представление соответствует векторному представлению, наиболее схожему с центроидом третьего подмножества 412.

[001] [00118] На определение центроида не накладывается каких-либо ограничений. Например, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии центроид может быть определен с использованием следующей формулы или функции:

[00119] Согласно формуле (2), центроид представляет собой точку в векторном пространстве 300, соответствующую среднему значению для каждого измерения (x, y, z, ... n) второго векторного представления 304, третьего векторного представления 502, четвертого векторного представления 504, пятого векторного представления 506 и шестого векторного представления 508.

[00120] Также предполагается, что центроид может быть определен без использования среднего значения для каждого измерения векторных представлений из третьего подмножества 412 (второго векторного представления 304, третьего векторного представления 502, четвертого векторного представления 504, пятого векторного представления 506 и шестого векторного представления 508). Например, центроид может быть определен путем использования «математической середины» (среднего значения экстремумов) в каждом измерении (x, y, z, ... n) второго векторного представления 304, третьего векторного представления 502, четвертого векторного представления 504, пятого векторного представления 506 и шестого векторного представления 508.

[00121] Несмотря на то, что в представленном выше примере центроид определяется без учета фактического количества одинаковых результатов, имеющих одинаковые векторные представления (например, второе векторное представление 304, соответствующее шести результатам, отправленным шестью экспертами 106), объем изобретения этим не ограничивается.

[00122] Предполагается, что усредненное значение (или среднее значение экстремумов) для каждого измерения определяется с учетом каждого отдельного векторного представления каждого отправленного результата. Иными словами, центроид может быть определен на основе (а) 6 векторных представлений, соответствующих второму векторному представлению 304; (б) 2 векторных представлений, соответствующих третьему векторному представлению 502; (в) 3 векторных представлений, соответствующих четвертому векторному представлению 504; (г) 2 векторных представлений, соответствующих пятому векторному представлению 506; (г) 2 векторных представлений, соответствующих шестому векторному представлению 508.

[00123] Например, можно предположить, что процедура 208 объединения определила центроид 602, как показано на фиг. 6. Затем процедура 208 объединения способна определять векторное представление из третьего подмножества 412 (второе векторное представление 304, третье векторное представление 502, четвертое векторное представление 504, пятое векторное представление 506 и шестое векторное представление 508), наиболее схожее с центроидом 602.

[00124] На способ определения векторного представления, наиболее схожего с центроидом 602, не накладывается каких-либо ограничений. Например, процедура 208 объединения способна определять близость косинусов углов центроида 602 и векторных представлений из третьего подмножества 412 (второго векторного представления 304, третьего векторного представления 502, четвертого векторного представления 504, пятого векторного представления 506 и шестого векторного представления 508) и выбирать векторное представление с наиболее близкими косинусами углов.

Третий пример

[00125] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии объединенное векторное представление соответствует векторному представлению с большинством голосов в третьем подмножестве 412.

[00126] На фиг. 7 приведено схематическое изображение третьего примера процесса определения объединенного векторного представления. На фиг. 7 представлена таблица 700, содержащая все векторные представления из третьего подмножества 412 с соответствующими количествами результатов.

[00127] Например, можно предположить, что задача, для которой было получено множество 212 результатов, представляет собой задачу OCR, в которой от экспертов 106 требуется ввести текст, содержащийся на сканированном изображении 702 (соответствует слову «BATT»).

[00128] В третьем подмножестве 412 шесть экспертов 106 в качестве результата ввели слово «BATT», что соответствует второму векторному представлению 304. Два эксперта 106 в качестве результата ввели слово «Batt», что соответствует третьему векторному представлению 502. Три эксперта 106 в качестве результата ввели слово «batt», что соответствует четвертому векторному представлению 504. Два эксперта 106 в качестве результата ввели слово «BAII», что соответствует пятому векторному представлению 506. Два эксперта 106 в качестве результата ввели слово «BAii», что соответствует шестому векторному представлению 508.

[00129] Затем процедура 208 объединения способна выбирать векторные представления, наиболее часто встречающиеся в третьем подмножестве 412, или, иными словами, имеющие большинство голосов в третьем подмножестве 412, а именно слово «BATT» (соответствующее второму векторному представлению 304), в качестве объединенного векторного представления.

[00130] После определения объединенного векторного представления третьего подмножества 412 процедура 208 дополнительно способна отправлять процедуре 210 выбора пакет 224 данных, содержащий объединенное векторное представление (см. фиг. 2).

Процедура 210 выбора

[00131] В ответ на получение пакета 224 данных процедура 210 выбора способна преобразовывать объединенное векторное представление в текстовый формат.

[00132] Например, если предположить, что в качестве объединенного векторного представления выбрано второе векторное представление 304, процедура 210 выбора способна выполнять процедуру преобразования вектора в текст (не показана) для формирования соответствующего результата «BATT».

[00133] Затем процедура 210 выбора может выбрать результат «BATT» в качестве правильного результата для задачи.

[00134] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процедура 210 выбора дополнительно способна рассчитывать и направлять вознаграждение экспертам 106, предоставившим ответ «BATT».

[00135] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процедура 210 выбора дополнительно способна обращаться к базе 104 данных (см. фиг. 1) и увеличивать оценки 112 качества экспертов 106, отправивших результат «BATT».

[00136] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процедура 210 выбора дополнительно способна обращаться к базе 104 данных (см. фиг. 1) и уменьшать оценки 112 качества экспертов 106, которые предоставили результат, не соответствующий векторному представлению из третьего подмножества 412.

[00137] Различные не имеющие ограничительного характера варианты осуществления настоящей технологии позволяют формировать правильный результат задачи, для которой заранее не известен правильный ответ.

[00138] Описанные выше архитектура и примеры позволяют выполнять компьютерный способ определения результата для задачи, выполняемой в краудсорсинговой среде. На фиг. 8 представлена блок-схема способа 800, выполняемого согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии. Способ 800 может выполняться сервером 102.

[00139] Шаг 802: получение сервером множества результатов выполнения задачи, отправленных множеством экспертов из краудсорсинговой среды.

[00140] Способ 800 начинается с шага 802, на котором процедура 202 приема получает пакет 122 данных от соответствующего электронного устройства 120, используемого каждым экспертом 106, отправляющим результат задачи. Пакет 122 данных содержит множество 212 результатов для задачи, отправленных множеством экспертов 106. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии каждый результат из множества 212 результатов может представлять собой слово, фразу или предложение.

[00141] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии каждый результат из множества 212 результатов содержит указание на эксперта 106, сформировавшего этот результат.

[00142] Шаг 804: получение сервером для каждого эксперта из множества экспертов оценки качества, указывающей на надежность эксперта.

[00143] На шаге 804 на основе указания на экспертов 106, сформировавших результат, процедура 202 приема может обратиться к базе 104 данных для получения оценки 212 качества, связанной с каждым экспертом 106 из множества экспертов 106, формировавших множество 212 результатов.

[00144] Процедура 202 приема дополнительно может отправить пакет 214 данных процедуре 204 отображения. Пакет 214 данных содержит (а) множество 212 результатов и (б) оценку 212 качества, связанную с множеством 212 результатов.

[00145] Шаг 806: формирование сервером множества векторных представлений, содержащего векторное представление для каждого результата из множества результатов.

[00146] На шаге 806 в ответ на получение пакета 214 данных процедура 204 отображения способна выполнять следующие функции.

[00147] Процедура 204 отображения может выполнить алгоритм 216 формирования векторов, способный формировать векторное представление каждого результата из множества 212 результатов. Очевидно, что множество 212 результатов может содержать один или несколько повторяющихся результатов, для которых формируются одинаковые векторные представления.

[00148] Способ реализации алгоритма 216 формирования векторов хорошо известен в данной области техники и здесь подробно не описан. Достаточно сказать, что алгоритм 216 формирования векторов может сформировать векторное представление слов для каждого результата из множества 212 результатов с использованием модели Word2Vec, модели «непрерывного мешка слов», непрерывной модели скип-граммы и т.п.

[00149] Шаг 808: отображение сервером множества векторных представлений в векторное пространство.

[00150] На шаге 808 после формирования множества векторных представлений алгоритм 216 формирования векторов дополнительно может отобразить множество векторных представлений в векторное пространство 300. На реализацию многомерного векторного пространства не накладывается каких-либо ограничений, она зависит от размерности множества векторных представлений.

[00151] Как показано на фиг. 3, множество векторных представлений (показаны в виде точек) отображается в векторное пространство 300. Векторное пространство 300 показано в виде двумерного пространства исключительно для удобства представления. Очевидно, что векторное пространство 300 может быть реализовано в виде n-мерного пространства.

[00152] Процедура 204 отображения дополнительно может сопоставить каждое векторное представление с соответствующей оценкой 112 качества (показана в виде квадрата).

[00153] Шаг 810: объединение сервером множества векторных представлений по меньшей мере в первый кластер, содержащий первое подмножество из множества векторных представлений, и во второй кластер, содержащий второе подмножество из множества векторных представлений.

[00154] На шаге 810 процедура 206 кластеризации способна осуществлять доступ к векторному пространству 300 для выполнения следующих функций.

[00155] Сначала процедура 206 кластеризации может сгруппировать множество векторных представлений во множество кластеров, при этом сходные векторные представления объединяются в одном кластере.

[00156] На способ реализации алгоритма 218 кластеризации не накладывается каких-либо ограничений. Он может представлять собой алгоритм кластеризации вида «k-средних», алгоритм кластеризации на основе центроида, алгоритм кластеризации на основе распределения, алгоритм кластеризации на основе плотности и т.п.

[00157] Как показано на фиг. 4, множество векторных представлений сгруппировано алгоритмом 218 кластеризации в три кластера: первый кластер 402, второй кластер 404 и третий кластер 406. Предполагается, что алгоритм 218 кластеризации может сгруппировать множество векторных представлений в менее или более чем три кластера.

[00158] Первый кластер 402 содержит первое подмножество 408 из множества векторных представлений. В частности, первое подмножество 408 содержит 6 векторных представлений (включая первое векторное представление 302) результатов, отправленных шестью экспертами 106.

[00159] Второй кластер 404 содержит второе подмножество 410 из множества векторных представлений. В частности, второе подмножество 410 содержит 5 векторных представлений результатов, отправленных восемью экспертами 106.

[00160] Третий кластер 406 содержит третье подмножество 412 из множества векторных представлений. В частности, третье подмножество 412 содержит 5 векторных представлений (включая второе векторное представление 304) результатов, отправленных пятнадцатью экспертами 106.

[00161] Шаг 812: выполнение сервером алгоритма MLA, способного формировать первый параметр достоверности, соответствующий вероятности того, что первое подмножество содержит векторное представление правильного результата для задачи, и формируемый на основе одной или нескольких оценок качества, связанных с первым подмножеством из множества векторных представлений, и второй параметр достоверности, соответствующий вероятности того, что второе подмножество содержит векторное представление правильного результата для задачи, и формируемый на основе одной или нескольких оценок качества, связанных со вторым подмножеством из множества векторных представлений.

[00162] На шаге 812 после кластеризации множества векторных представлений процедура 206 кластеризации дополнительно может выполнить алгоритм 220 MLA, обученный рассчитывать параметр достоверности для первого кластера 402, второго кластера 404 и третьего кластера 406. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии параметр достоверности соответствует вероятности того, что кластер (первый кластер 402, второй кластер 404 и третий кластер 406) содержит векторное представление правильного результата для задачи.

[00163] Например, для третьего кластера 406 алгоритм 220 MLA может определить вероятность того, что третье подмножество 412 содержит векторное представление правильного результата для задачи, на основе 15 оценок качества, связанных с третьим подмножеством 412.

[00164] После определения первого параметра достоверности, связанного с первым кластером 402, второго параметра достоверности, связанного со вторым кластером 404, и третьего параметра достоверности, связанного с третьим кластером 406, процедура 206 кластеризации может отправить пакет 222 данных процедуре 208 объединения. Пакет 222 данных содержит первый параметр достоверности, второй параметр достоверности и третий параметр достоверности.

[00165] Шаг 814: формирование сервером объединенного векторного представления на основе первого подмножества из множества векторных представлений или второго подмножества из множества векторных представлений, если первый параметр достоверности или второй параметр достоверности соответствует заранее заданному условию.

[00166] На шаге 814 в ответ на получение пакета 222 данных процедура 208 объединения способна выполнять следующее.

[00167] Сначала процедура 208 объединения может выбрать первый параметр достоверности, второй параметр достоверности или третий параметр достоверности, соответствующий заранее заданному условию. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии определение соответствия заранее заданному условию включает в себя определение наибольшего параметра из числа первого параметра достоверности, второго параметра достоверности и третьего параметра достоверности.

[00168] Например, можно предположить, что третий параметр достоверности, связанный с третьим кластером 406, соответствует наибольшему параметру достоверности, т.е. третий кластер 406 определен как имеющий наибольшую вероятность наличия в нем векторного представления правильного результата для задачи.

[00169] Процедура 208 объединения дополнительно может сформировать объединенное векторное представление третьего подмножества 412 и отправить процедуре 210 выбора пакет 224 данных, содержащий это объединенное векторное представление.

[00170] Шаг 816: выбор сервером объединенного векторного представления в качестве результата для задачи.

[00171] На шаге 816 в ответ на получение пакета 224 данных процедура 210 выбора может преобразовать объединенное векторное представление в текстовый формат.

[00172] На этом способ 800 завершается.

[00173] Специалистам в данной области техники должно быть очевидно, что по меньшей некоторые варианты осуществления настоящей технологии преследуют цель расширения арсенала технических средств для решения определенной технической проблемы, присущей традиционной технологии краудсорсинга, а именно, определения из множества результатов, полученных различными экспертами, правильного текстового ответа для задачи, для которой правильный ответ заранее не известен.

[00174] Очевидно, что не все упомянутые в данном описании технические эффекты должны присутствовать в каждом варианте осуществления настоящей технологии. Например, возможны варианты осуществления настоящей технологии, когда пользователь не получает некоторые из этих технических эффектов, или другие варианты реализации, когда пользователь получает другие технические эффекты либо технический эффект отсутствует.

[00175] Для специалиста в данной области могут быть очевидными возможные изменения и усовершенствования описанных выше вариантов осуществления настоящей технологии. Предшествующее описание приведено лишь в иллюстративных целях, а не для ограничения объема изобретения. Объем охраны настоящей технологии определяется исключительно объемом приложенной формулы изобретения.

[00176] Несмотря на то, что описанные выше варианты реализации приведены со ссылкой на конкретные шаги, выполняемые в определенном порядке, должно быть понятно, что эти шаги могут быть объединены или разделены или что их порядок может быть изменен без выхода за границы настоящей технологии. Соответственно, порядок и группировка шагов не носят ограничительного характера для настоящей технологии.

Похожие патенты RU2744032C2

название год авторы номер документа
СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ РЕЗУЛЬТАТА ДЛЯ ЗАДАЧИ, ВЫПОЛНЯЕМОЙ В КРАУДСОРСИНГОВОЙ СРЕДЕ 2019
  • Друца Алексей Валерьевич
RU2744038C2
СИСТЕМА И СПОСОБ ФОРМИРОВАНИЯ ОБУЧАЮЩЕГО НАБОРА ДЛЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ 2017
  • Лахман Константин Викторович
  • Чигорин Александр Александрович
  • Юрченко Виктор Сергеевич
RU2711125C2
СПОСОБ И СИСТЕМА ДЛЯ КЛАСТЕРИЗАЦИИ ДОКУМЕНТОВ 2019
  • Шаграев Алексей Галимович
RU2757592C1
Способ и сервер для формирования рекомендаций по парковке, отображаемых на электронном устройстве 2018
  • Верещагин Алексей Иванович
  • Калинин Петр Андреевич
RU2749650C1
СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ ФАКТА ПОСЕЩЕНИЯ ПОЛЬЗОВАТЕЛЕМ ТОЧКИ ИНТЕРЕСА 2020
  • Шишкин Александр Леонидович
  • Гольцман Ирина Анатольевна
  • Петров Данил Вадимович
  • Шапошников Денис Евгеньевич
RU2769920C2
Способ выполнения задач 2018
  • Федорова Валентина Павловна
  • Гусев Глеб Геннадьевич
RU2743898C1
СПОСОБ ОБУЧЕНИЯ МОДУЛЯ РАНЖИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ ОБУЧАЮЩЕЙ ВЫБОРКИ С ЗАШУМЛЕННЫМИ ЯРЛЫКАМИ 2016
  • Гусев Глеб Геннадьевич
  • Устиновский Юрий Михайлович
  • Сердюков Павел Викторович
  • Федорова Валентина Павловна
RU2632143C1
Способ и система для определения аномальной краудсорсинговой метки 2019
  • Тощаков Алексей Васильевич
  • Посадская Анастасия Леонидовна
  • Анисимов Александр Владимирович
  • Аглинская Евгения Владимировна
RU2775591C2
КЛАСТЕРИЗАЦИЯ ДОКУМЕНТОВ 2020
  • Семёнов Станислав Владимирович
  • Антонова Александра Александровна
  • Мисюрев Алексей Владимирович
RU2768209C1
СПОСОБ АВТОМАТИЧЕСКОЙ ИТЕРАТИВНОЙ КЛАСТЕРИЗАЦИИ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ ПО СЕМАНТИЧЕСКОЙ БЛИЗОСТИ, СПОСОБ ПОИСКА В СОВОКУПНОСТИ КЛАСТЕРИЗОВАННЫХ ПО СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ДОКУМЕНТОВ И МАШИНОЧИТАЕМЫЕ НОСИТЕЛИ 2014
  • Клинцов Виктор Петрович
  • Селедкин Вячеслав Алексеевич
RU2556425C1

Иллюстрации к изобретению RU 2 744 032 C2

Реферат патента 2021 года СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ РЕЗУЛЬТАТА ВЫПОЛНЕНИЯ ЗАДАЧИ В КРАУДСОРСИНГОВОЙ СРЕДЕ

Изобретение относится к области определения результата для задачи и, в частности, к способам и системам для определения результата в краудсорсинговой среде. Техническим результатом является возможность автоматизированной выборки из введенной экспертами текстовой информации одного согласованного результат задачи доверенным экспертом. Технический результат заявляемого технического решения достигается тем, что способ включает в себя: получение множества результатов для задачи, отправленных множеством экспертов; получение оценки качества для каждого эксперта из множества экспертов; формирование множества векторных представлений, содержащего векторное представление для каждого результата; выполнение алгоритма машинного обучения, способного формировать первый параметр достоверности и второй параметр достоверности; формирование объединенного векторного представления, если первый параметр достоверности или второй параметр достоверности соответствует заранее заданному условию; выбор объединенного векторного представления в качестве результата для задачи. 2 н. и 18 з.п. ф-лы, 8 ил.

Формула изобретения RU 2 744 032 C2

1. Компьютерный способ определения результата для задачи заданного вида, выполняемой в краудсорсинговой среде, выполняемый сервером и включающий в себя:

- получение сервером множества результатов для задачи, отправленных множеством экспертов из краудсорсинговой среды;

- получение сервером для каждого эксперта из множества экспертов оценки качества, указывающей на надежность эксперта;

- формирование сервером множества векторных представлений, содержащего векторное представление для каждого результата из множества результатов;

- отображение сервером множества векторных представлений в векторное пространство;

- объединение сервером множества векторных представлений по меньшей мере в первый кластер, содержащий первое подмножество из множества векторных представлений, и во второй кластер, содержащий второе подмножество из множества векторных представлений;

- выполнение сервером алгоритма машинного обучения (MLA), способного формировать:

- первый параметр достоверности, соответствующий вероятности того, что первое подмножество содержит векторное представление правильного результата для задачи, и формируемый на основе одной или нескольких оценок качества, связанных с первым подмножеством из множества векторных представлений; и

- второй параметр достоверности, соответствующий вероятности того, что второе подмножество содержит векторное представление правильного результата для задачи, и формируемый на основе одной или нескольких оценок качества, связанных со вторым подмножеством из множества векторных представлений;

- формирование сервером объединенного векторного представления на основе первого подмножества из множества векторных представлений или второго подмножества из множества векторных представлений, если первый параметр достоверности или второй параметр достоверности соответствует заранее заданному условию;

- выбор сервером объединенного векторного представления в качестве результата для задачи.

2. Способ по п. 1, отличающийся тем, что задача заданного вида представляет собой задачу перевода или задачу преобразования устной речи в текст.

3. Способ по п. 1, отличающийся тем, что результат представляется в текстовой форме, а формирование множества векторных представлений включает в себя формирование векторных представлений слов для каждой формы из множества текстовых форм с использованием модели Word2Vec, модели «непрерывного мешка слов» или непрерывной модели скип-граммы.

4. Способ по п. 1, отличающийся тем, что кластеризация множества векторных представлений выполняется с использованием алгоритма кластеризации вида «k-средних», алгоритма кластеризации на основе центроида, алгоритма кластеризации на основе распределения или алгоритма кластеризации на основе плотности.

5. Способ по п. 1, отличающийся тем, что оценка качества эксперта основана на коэффициенте ошибок эксперта, возникающих при выполнении задач заданного вида.

6. Способ по п. 5, отличающийся тем, что алгоритм MLA представляет собой алгоритм на основе модели Дэвида-Скина, способный формировать первый параметр достоверности на основе коэффициентов ошибок, связанных с первым подмножеством из множества экспертов, связанным с первым подмножеством из множества векторных представлений, и второй параметр достоверности на основе коэффициентов ошибок, связанных со вторым подмножеством из множества экспертов, связанным со вторым подмножеством из множества векторных представлений.

7. Способ по п. 1, отличающийся тем, что заранее заданное условие относится к наибольшему из первого параметра достоверности и второго параметра достоверности.

8. Способ по п. 1, отличающийся тем, что формирование объединенного векторного представления включает в себя выбор векторного представления, соответствующего медоиду первого подмножества из множества векторных представлений.

9. Способ по п. 1, отличающийся тем, что формирование объединенного векторного представления включает в себя выбор векторного представления, наиболее часто встречающегося в первом подмножестве из множества векторных представлений.

10. Способ по п. 1, отличающийся тем, что формирование объединенного векторного представления включает в себя формирование первого векторного представления, соответствующего центроиду первого подмножества из множества векторных представлений, и выбор из первого подмножества из множества векторных представлений второго векторного представления, соответствующего наиболее схожему с центроидом векторному представлению, в качестве объединенного векторного представления.

11. Способ по п. 1, отличающийся тем, что выбор объединенного векторного представления включает в себя ввод объединенного векторного представления в процедуру преобразования вектора в текст для формирования единого результата.

12. Система для определения результата для задачи заданного вида, выполняемой в краудсорсинговой среде, содержащая сервер, содержащий процессор и выполненный с возможностью:

- получения сервером множества результатов для задачи, отправленных множеством экспертов из краудсорсинговой среды;

- получения сервером для каждого эксперта из множества экспертов оценки качества, указывающей на надежность эксперта;

- формирования сервером множества векторных представлений, содержащего векторное представление для каждого результата из множества результатов;

- отображения сервером множества векторных представлений в векторное пространство;

- объединения сервером множества векторных представлений по меньшей мере в первый кластер, содержащий первое подмножество из множества векторных представлений, и во второй кластер, содержащий второе подмножество из множества векторных представлений;

- выполнения сервером алгоритма MLA, способного формировать:

- первый параметр достоверности, соответствующий вероятности того, что первое подмножество содержит векторное представление правильного результата для задачи, и формируемый на основе одной или нескольких оценок качества, связанных с первым подмножеством из множества векторных представлений; и

- второй параметр достоверности, соответствующий вероятности того, что второе подмножество содержит векторное представление правильного результата для задачи, и формируемый на основе одной или нескольких оценок качества, связанных со вторым подмножеством из множества векторных представлений;

- формирования сервером объединенного векторного представления на основе первого подмножества из множества векторных представлений или второго подмножества из множества векторных представлений, если первый параметр достоверности или второй параметр достоверности соответствует заранее заданному условию;

- выбора сервером объединенного векторного представления в качестве результата для задачи.

13. Система по п. 12, отличающаяся тем, что результат представлен в текстовой форме, при этом для формирования множества векторных представлений процессор выполнен с возможностью формирования векторных представлений слов для каждой формы из множества текстовых форм с использованием модели Word2Vec, модели «непрерывного мешка слов» или непрерывной модели скип-граммы.

14. Система по п. 12, отличающаяся тем, что для кластеризации множества векторных представлений процессор выполнен с возможностью выполнения алгоритма кластеризации вида «k-средних», алгоритма кластеризации на основе центроида, алгоритма кластеризации на основе распределения или алгоритма кластеризации на основе плотности.

15. Система по п. 12, отличающаяся тем, что оценка качества эксперта основана на коэффициенте ошибок эксперта, возникающих при выполнении задач заданного вида.

16. Система по п. 15, отличающаяся тем, что алгоритм MLA представляет собой алгоритм на основе модели Дэвида-Скина, способный формировать первый параметр достоверности на основе коэффициентов ошибок, связанных с первым подмножеством из множества экспертов, связанным с первым подмножеством из множества векторных представлений, и второй параметр достоверности на основе коэффициентов ошибок, связанных со вторым подмножеством из множества экспертов, связанным со вторым подмножеством из множества векторных представлений.

17. Система по п. 12, отличающаяся тем, что заранее заданное условие относится к наибольшему из первого параметра достоверности и второго параметра достоверности.

18. Система по п. 12, отличающаяся тем, что для формирования объединенного векторного представления процессор выполнен с возможностью выбора векторного представления, соответствующего медоиду первого подмножества из множества векторных представлений.

19. Система по п. 12, отличающаяся тем, что для формирования объединенного векторного представления процессор выполнен с возможностью выбора векторного представления, наиболее часто встречающегося в первом подмножестве из множества векторных представлений.

20. Система по п. 12, отличающаяся тем, что для формирования объединенного векторного представления процессор выполнен с возможностью формирования первого векторного представления, соответствующего центроиду первого подмножества из множества векторных представлений, и выбора из первого подмножества из множества векторных представлений второго векторного представления, соответствующего наиболее схожему с центроидом векторному представлению, в качестве объединенного векторного представления.

Документы, цитированные в отчете о поиске Патент 2021 года RU2744032C2

US 10162734 B1, 25.12.2018
Печь-кухня, могущая работать, как самостоятельно, так и в комбинации с разного рода нагревательными приборами 1921
  • Богач В.И.
SU10A1
Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами 1924
  • Ф.А. Клейн
SU2017A1
CN106446287A, 22.02.2017
Д.А
УСТАЛОВ и др.: "Автоматизация процесса коллективного построения лингвистических ресурсов", Инженерный вестник Дона, 1/2018.

RU 2 744 032 C2

Авторы

Федорова Валентина Павловна

Гусев Глеб Геннадьевич

Друца Алексей Валерьевич

Даты

2021-03-02Публикация

2019-04-15Подача