Система контентной аналитики IBM DeepQA/WATSON

Источник: neuroscience

На ряде сайтов в марте 2012 г. явилась информация о перспективах коммерческого применения аппаратно-програмного комплекса искусственного интеллекта на базе суперкомпьютера "Watson" разработки корпорации IBM (назван в честь основателя IBM Томаса Уотсона).

"Watson" представляет собой программный комплекс, который работает на кластере из 10 стоек по 9 стандартных серверов IBM Power 750 на базе процессоров POWER7 и обеспечивает обработку естественной речи, поиск информации, моделирует рассуждения и реализует технологии машинного обучения для ответов на вопросы. Эта система получила известность после победы в игре "Jeopardy", в рамках которой игроки соревнуются, кто быстрее ответит на вопрос, заданный на естественном английском языке.

Первым пользователем Watson уже стала медицинская страховая компания WellPoint; данный проект был развёрнут на инфраструктуре, представленной IBM, и его функцией является консультирование в сфере медицины и оценки рисков. В рамках проекта стало понятно, что диагностирование заболеваний не сильно отличается от процесса поиска ответов на вопросы викторины Jeopardy. В своем медицинском приложении "Watson" выдает перечень ответов, наряду с вероятностью их верности. Во время конкурса Jeopardy суперкомпьютер считал верным ответ, если вероятность его верности составлял более 80 процентов, в случае с медициной считается, что существует достаточно большая вероятность того, что пациент поражен не самым очевидным видом заболевания, симптомы которого проявляются, поэтому Watson в списке ответов выдает результаты и с значительно меньшим процентом вероятности.

Способность понимания естественного языка дают "Watson" возможность оперировать совершенно новой для него категорией информации - неподтвержденными данными. Такие данные не являются абсолютно истинными, но в некоторых случаях являются исключительно полезными для постановки правильного диагноза. Суперкомпьютер способен самостоятельно "серфить" по просторам Интернета, по крупицам выискивая медицинские данные, которыми он пополняет свой банк данных.

Во время соревнования, проходившей в клинике Кливленда (Cleveland Clinic), "Watson" набрал в два раза больше баллов за точность выставления диагнозов, чем две команды опытных и уважаемых медиков-кардиологов клиники В ходе подготовки к соревнованию в "Watson" были введены тексты большого количества медицинских журналов, учебников, примеров и других данных. Это дало суперкомпьютеру самые обширные в мире знания в самых различных областях медицины. 

Система IBM "Watson" также начала использоваться в одном из ведущих мировых центров исследования рака - в онкологическом центре Memorial Sloan-Kettering в Нью-Йорке. "Watson" будет анализировать огромное количество научных данных для ответа на вопросы о природе и лечении рака и предоставлять самую последнюю и актуальную информацию по этому вопросу.

В начале марта 2012 г. также стало известно о заключении сделки между IBM и крупнейшим финансовым конгломератом Citigroup по созданию системы анализа ситуации на рынках. При этом связь с "Watson" будет осуществляться через интернет, а обработка информации будет осуществляться в облаке. Суперкомпьютер Watson будет работать на компанию Citigroup в виде удаленного сервиса облачных вычислений, что означает, что сам суперкомпьютер будет находиться на площадке компании IBM, а не в вычислительном центре Citigroup. Отныне IBM вообще не планирует размещение системы на серверах предприятий-заказчиков - "Watson" будет предоставляться исключительно как сетевая услуга. IBM даже был введён специальный термин WAAS (Watson as service). 

Согласно сообщению представителей Citigroup, суперкомпьютер Watson будет "анализировать текущие потребности покупателей, обрабатывать финансовую и экономическую информацию из различных источников, анализировать данные, поставляемые клиентами, что позволит поднять на совершенно иной качественный уровень область цифровых банковских и финансовых операций".
Вышесказанное, по всей видимости, подразумевает, что суперкомпьютер Watson будет постоянно заниматься анализом миллионов страниц всевозможной и разноплановой информации, предоставляя результаты специалистам компании Citigroup в удобном для восприятия виде. Уже сейчас специалисты Citigroup проводят операции по обучению искусственного интеллекта суперкомпьютера тонкостям финансового дела и специфическому жаргону, используемому на Уолл-стрит.

Аналитики IBM уверены, что данная услуга может получить широкое распространение, поскольку Watson может быть адаптирован для применения в различных областях. Наиболее эффективным он становится после периода обработки данных клиента и обучения на его задачах. В настоящее время, согласно заявлению генерального менеджера IBM Watson Solutions Маноха Саксены (Manoj Saxena), взаимодействие с "Watson" проходит в виде письменного диалога, в котором система задаёт дополнительные вопросы и запрашивает необходимую информацию, после чего выводит построенную логическую цепочку и правильный, с точки зрения машины, ответ. 

Руководителем всего проекта создания вопрос-ответной системы контентной аналитики DeepQA (Deep Question Answering) / WATSON корпорации IBM является Дэвид Феруччи (David Ferrucci), заведующий департаментом семантического анализа и синтеза Исследовательского центра IBM им. Уотсона. Он также является руководителем группы разработчиков Агентства перспективных оборонных исследовательских программ США (DARPA) по начатой в 2009 г. программе "Машинное чтение" (DARPA Machine Reading Program). Целью программы является создание автоматизированной системы чтения и понимания текстов на естественном языке, способной извлекать востребованную информацию из текста без участия Кроме того, Феруччи возглавлял группу, которая разработала стандарты UIMA для анализа и интеграции текстовой и мультимодальной (текст, звук, речь, видео) аналитики. Под руководством Феруччи в IBM работает коллектив из 32 ученых и программистов.

От себя добавлю, что "Watson" не является нейросетевой системой в чистом виде, но использует важные и эффективные нейросетевые принципы в своей работе. Один из компонентов оценки правильности ответа определяется количеством общих слов между вопросом и предложением-гипотезой. Другой компонент основан на вычислении длины наибольшей общей последовательности между ними. Третий компонент оценки измеряет соответствие между логическими формами вопроса и найденного предложения, анализируя представление текста в виде графа, где узлы - это слова, а ребра - грамматические или семантические отношения между ними. Также учитывается контекст (принадлежность объекта к классу). В процессе обучения подбираются веса между компонентами окончательной оценки так, чтобы максимизировать число правильных ответов на тестовом наборе вопросов. 

См. первоисточники: 
http://www.computerworld.com/s/artic...ough_the_cloud
http://www.research.ibm.com/deepqa/h..._machine.shtml
http://www-03.ibm.com/innovation/us/watson/
http://www.ibm.com/ibm100/us/en/idea...011watson.html
http://en.wikipedia.org/wiki/Watson_%28computer%29
http://researcher.ibm.com/view.php?person=us-ferrucci
http://primerlabs.com/node/126
http://www.singularityweblog.com/dav...ig-challenges/

На русском языке:
http://www.overclockers.ru/hardnews/...j_uslugoj.html
http://www.nanonewsnet.ru/news/2012/...m-s-uoll-strit
http://www.dailytechinfo.org/infotec...oll-strit.html
http://www.dailytechinfo.org/infotec...diagnosta.html
http://www.dailytechinfo.org/infotec...rdiologov.html

Компания IBM нашла практическое применение суперкомпьютеру Watson, который не первый год обыгрывает участников телевизионной игры "Jeopardy!" - аналога российской "Своей игры". 

"Ватсона" хотят превратить в мобильное приложение, которое бросит вызов интеллектуальным поисковым программам вроде Apple Siri. Уже сегодня первая версия компьютера работает на Citigroup Inc. и WellPoint Inc. Но требует слишком мощных источников питания, поэтому в планшет или смартфон ее "запихнуть" не получается.

Да и Watson 2.0 останется в каком-то смысле облачной технологией. 

http://www-03.ibm.com/innovation/us/watson/
http://finance.rambler.ru/news/economics/114436418.html
http://e-memory.ru/rtsoft.htm
http://www.businessweek.com/news/201...ales-push-tech
http://www-03.ibm.com/innovation/us/watson/


Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=36138