1 / 27

Електронни корпуси: видове, обработки и използване

Електронни корпуси: видове, обработки и използване. Кирил Симов kivs@bultreebank.org Базирана на материали, разработени заедно с Петя Осенова Секция за лингвистично моделиране Институт за информационни и комуникационни технологии Българска академия на науките

fionn
Télécharger la présentation

Електронни корпуси: видове, обработки и използване

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Електронни корпуси: видове, обработки и използване Кирил Симов kivs@bultreebank.org Базирана на материали, разработени заедно с Петя Осенова Секция за лингвистично моделиране Институт за информационни и комуникационни технологии Българска академия на науките Факултет по хуманитарни науки, ШУ, Шумен 23 ноември 2012 ФХН, ШУ, Шумен, 23 ноември 2012

  2. План • Корпус • Нива на обработка • Използване ФХН, ШУ, Шумен, 23 ноември 2012

  3. Лингвистиката като емпирична наука • Лингвистичните теории се базират на наблюдения над проявления на езика – писмен, реч в определен контекст • Корпус е регистрирането на тези проявления и контексти по начин, който позволява тяхното използване в езиковите изследвания • В последните 50 години корпусите променят своята медия – от хартия/записи към електронен формат ФХН, ШУ, Шумен, 23 ноември 2012

  4. Компютърна корпусна лингвистика • Изследва механизмите на извършване на лингвистичната дейност • Разработва компютърни модели за подпомагане • наблюдението над лингвистичния материал • формирането и тестването на лингвистични хипотези • Не е теория за езика • Не е дял на лингвистиката ФХН, ШУ, Шумен, 23 ноември 2012

  5. Предоставя на лингвистите възможност • Да работят с огромно количество и разнообразни текстове • Да правят обобщения за езика и неговата употреба • Да откриват езикови факти, които не са и предполагали, че съществуват ФХН, ШУ, Шумен, 23 ноември 2012

  6. Предизвикателствата • Как най-добре да се възползваме от съществуването на компютърно достъпни текстове? • Кои лингвистични теории ще са най-подходящи за структурирането на едно корпусно ориентирано изследване? • Какви лингвистични явления да търсим? • Какви приложения могат да имат идеите и подобрените описания на езиците при подобни изследвания? ФХН, ШУ, Шумен, 23 ноември 2012

  7. Използване на електронните корпуси • като набор от примери за лингвистите • като източници на материал за лексикографите • като материал за учителите по език и съответно за учащите • за обучаване на NLP (Natural Language Processing) приложенията:напр. при машинен превод, тагери, парсери ФХН, ШУ, Шумен, 23 ноември 2012

  8. Типове корпуси • Корпуси от разговорна реч vs корпуси от писмени текстове • Едноезикови vs многоезикови корпуси • Корпуси за специална цел vs общи корпуси • Аd-hoc корпуси vs балансирани, представителни корпуси • Сурови текстове vs маркирани документи • Неанотирани vs анотирани корпуси ФХН, ШУ, Шумен, 23 ноември 2012

  9. Обработки над корпуси • Сегментация на текста • Морфологичен анализ • Снемане на многозначност • Лематизация • Синтактичен анализ • Семантичен анализ • Прагматика, знание за света ФХН, ШУ, Шумен, 23 ноември 2012

  10. Сегментация на текста • Определяне на границите на изреченията в текста Проблем: Какво е изречение? • Определяне на потенциалните думи в текста Проблем: Какво е дума (Tokenization and sentence boundaries identification) ФХН, ШУ, Шумен, 23 ноември 2012

  11. Граница на изречението • Всяко срещане на . или ? или ! обозначава граница на изречение • Съкращения – г., ген., полк., т.н. Върна се през 1992 г. Петров беше напуснал. Тогава ген. Петров беше напуснал. • Непряка реч “Момчетата играха на границите на силите си. Но ... ...” – каза Стоичков – “ ... ... ...” ФХН, ШУ, Шумен, 23 ноември 2012

  12. Потенциални думи • Всеки низ от символи между два интервала е потенциална дума • Проблемни случаи: • препинателните знаци се пишат заедно с предишната дума: така е, ако смяташ • препинателни знаци могат да са част от думите: министър-председател, О'Хенри, Сидни'96 • специални изрази: $100, МиГ-29 ФХН, ШУ, Шумен, 23 ноември 2012

  13. Тоукънизация (Tokenization) • Тоукъне низ, който е минимален низ от символи, който е част от потенциална дума • Тоукъните са групирани в типове: кирилица (Cyr), кирилицасглавнабуква (CyrC), кирилицасамосглавнибукви (CyrAC), кирилицасамосмалкибукви (CyrAS), латиница (LAT), цифри (Num), пунктуация (Punkt), разделители (SP) (интервал, табулация, новред), специалнисимволи (Spec) ФХН, ШУ, Шумен, 23 ноември 2012

  14. Пример По-високиятмъжбешекихнал. ПоCyrC -Punkt високиятCyrAS мъжCyrAS бешеCyrAS кихналCyrAS       . Punkt Проблеми: По-високия, Стара Загора-Велико Търново, “беше кихнал”, “за да”, “себе си” ФХН, ШУ, Шумен, 23 ноември 2012

  15. Морфологичен анализ • Определяне кои потенциални думи са “истински” думи и да им се препишат граматичните характеристики По (Р;З;А)-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн). По-високият (Пмеп) мъж (Снмен) беше (Гнндн2е;Гнндн3е) кихнал (Гснпаемдн). ФХН, ШУ, Шумен, 23 ноември 2012

  16. Снемане на многозначността • Премахвамногозначносттанасъответнотониво По-високият (Пмеп) мъж (Снмен) беше (Гнндн3е) кихнал (Гснпаемдн). • Ръчно снемане на многозначността • Автоматично снемане на многозначността ФХН, ШУ, Шумен, 23 ноември 2012

  17. Корпус еталон • Корпус еталон (“златен” корпус) е корпус, анотиран на дадено ниво от специално подготвени анотатори • Този корпус се използва като • Еталон за лингвистичното знание за дадената област • Източник на лингвистично знание за автоматични средства за анализ на даденото явление ФХН, ШУ, Шумен, 23 ноември 2012

  18. Построяване на корпус еталон • Ръководство на анотатора • Софтуер, поддържащ работата на анотатора • Измерване на качеството на анотиране • Най-малко двама анотатори обработват един и същ езиков материал – измерването на качеството се дефинира чрез процента на съгласуваност между анотаторите • Експерт решава трудните случаи ФХН, ШУ, Шумен, 23 ноември 2012

  19. Автоматично анотиране • Два подхода • Правила, написани от експерт Ако думата е многозначна между кратък член и бройна форма и предишната дума е числително име или прилагателно множествено число, то избери бройна форма • Статистически методи – машинно самообучение Разглежда се контекст, представен чрез характеристики и на базата на корпуса еталон се научават предпочитания за едно или друго решение • Хибридни методи ФХН, ШУ, Шумен, 23 ноември 2012

  20. Оценка на качеството • Ако за всеки фрагмент се взима решение, то качеството се измерва като • точност – процентът на правилните решения • Ако не се взима решение за всеки фрагмент, то качеството се измерва като • точност – процентът на правилните решения от всички решения • покритие – процентът на откритите правилни решения от всички правилни случаи ФХН, ШУ, Шумен, 23 ноември 2012

  21. Представяне на анотация Два основни подхода: • Допълващ – текстът и анотацията се представят заедно • Референтен – текстът не се модифицира, а анотацията реферира към части от текста • Формално се изразяват чрез маркиращи езици: HTML, SGML, XML, TiGerML, LaTeX, RTF, … ФХН, ШУ, Шумен, 23 ноември 2012

  22. Лематизация • За всяка словоформа в текста да бъде определена основната форма – лема • Многозначност: белите  бял, беля (Г), беля (С) • В българския език словоизменителният речник помага за на 99% от случаите, заедно с морфологичното анотиране • Проблеми при дублетни основни форми: знам и зная ФХН, ШУ, Шумен, 23 ноември 2012

  23. Синтактично анотиране • Избор на лингвистична теория – конституентен или депендентен подход • Ръководството за анотиране е граматика на езика • Правила за избор на анализ при няколко конкуриращи се анализа ФХН, ШУ, Шумен, 23 ноември 2012

  24. Семантичен анализ • Лексикална семантика и изреченска семантика • Източник на значение – речници, тезауруси, формални йерархии от понятия • Логическа форма на изречението ФХН, ШУ, Шумен, 23 ноември 2012

  25. Прагматика и знание за света • Връзката с контекста на изказването • Знанието за света при разбирането на текста: Тази тема беше обсъдена на срещата за изменение на климата в Доха, Катар. ФХН, ШУ, Шумен, 23 ноември 2012

  26. Многоезични корпуси • Паралелни корпуси – превод и оригинал • Съпоставими корпуси – текстове на една и съща тема, събитие и т.н. • Подравняване на различни нива: параграфи, изречения, фрази и думи • Използване при машинния превод ФХН, ШУ, Шумен, 23 ноември 2012

  27. Заключение • Езиковите ресурси – корпуси, граматики и лексикони са богатство за дадения език • За българския език има направени много ресурси, но има нужда от много нови и от разширяването на старите • Освен за изследователски цели, много важно приложение са езиковите технологии ФХН, ШУ, Шумен, 23 ноември 2012

More Related