Беларускі дзяржаўны ўніверсітэт філалагічны факультэт Кафедра прыкладной лінгвістыкі




Дата канвертавання02.04.2017
Памер237.65 Kb.
БЕЛАРУСКІ ДЗЯРЖАЎНЫ ЎНІВЕРСІТЭТ
Філалагічны факультэт
Кафедра прыкладной лінгвістыкі
Узгоднена:_______________ дэкан праф. І.С. Роўда

Узгоднена:_______________ старш. ВМК ф-та к.ф.н. М.М. Хмяльніцкі
Узгоднена:_______________ заг. кафедры дац. Л.Ф. Гербік
Дата 30.05.2013 г.


НАВУЧАЛЬНА-МЕТАДЫЧНЫ КОМПЛЕКС ПА ДЫСЦЫПЛІНЕ

«МЕТАДЫ АЎТАМАТЫЧНАЙ АПРАЦОЎКІ ТЭКСТАЎ»

для спецыяльнасцяў

1-21 05 01 «Беларуская філалогія» (па напрамках)

Напрамак спецыяльнасці 1-21 05 01-02 «Беларуская філалогія (камп’ютарнае забеспячэнне)»

1-21 05 02 «Руская філалогія» (по направлениям)

Напрамак спецыяльнасці 1-21 05 02-02 «Руская філалогія (камп’ютарнае забеспячэнне)»

Разгледжана і зацверджана на паседжанні Навукова-метадычнага савета

пратакол № __ ад __________


Аўтар-складальнік: Гецэвіч Ю.С., кандыдат тэхнічных навук, дацэнт.

РЭЦЭНЗЕНТЫ:


кафедра русского, общего и славянского языкознания Гомельского государственного университета имени Франциска Скорины (зав. кафедрой доктор филологических наук, профессор В.А. Коваль);
доцент кафедры интеллектуальных информационных технологий Учреждения образования «Белорусский государственный университет информатики и радиоэлектроники» кандидат технических наук О.Е. Елисеева

РЭКАМЕНДАВАНЫ ДА ЗАЦВЯРДЖЭННЯ:

Кафедрай прыкладной лінгвістыкі

(пратакол № 10 ад 27.05.2013);


Навукова-метадычнай камісіяй філалагічнага ф-та

(пратакол № 6 ад 30.05.2013г.)


Саветам філалагічнага факультэта Беларускага дзяржаўнага ўніверсітэта (пратакол № 8 ад 30.05.2013г.)

УДК
Метады аўтаматычнай апрацоўкі тэкстаў: навукова-метадычны комплекс па курсу «Метады аўтаматычнай апрацоўкі тэкстаў» для студэнтаў філалагічнага факультэта / Ю.С. Гецэвіч — Мінск: БДУ, 2013. — с.

У навукова-метадычным комплексе раскрываюцца асноўныя пытанні курса «Метады аўтаматычнай апрацоўкі тэкстаў» для студэнтаў філалагічнага факультэта, якія навучаюцца на спецыяльнасці «Руская філалогія (па галінах) Галіна спецыяльнасці 1-21 05 02-04 «Руская філалогія
(руская мова як замежная)». Выбар тэмаў лекцый і семінарскіх заняткаў дазваляе пазнаёміць студэнтаў з прынцыпамі і метадамі выкарыстання камп'ютэрных сродкаў для рашэння актуальных лінгвістычных задач. Абмеркаванне прапанаваных праблем дазволіць навучыць студэнтаў тэарэтычным асновам, метадам і сродкам фармалізацыі мовы. Практычныя заняткі скіраваныя на тое, каб студэнты атрымалі грунтоўныя навыкі распрацоўкі і ацэнкі лінгвістычных аўтаматызаваных алгарытмаў марфалагічнага і сінтаксічнага аналізу тэкстаў у асяроддзі настройвальнага лінгвістычнага аналізатара NooJ.

Навукова-метадычны комплекс прызначаны для студэнтаў філалагічнага факультэта і таксама можа быць выкарыстаны студэнтамі вочных і завочных аддзяленняў установаў вышэйшай прафесійнай адукацыі.



УДК

© ©

ЗМЕСТ


Тлумачальная запіска да навукова-метадычнага комплекса «Метады аўтаматычнай апрацоўкі тэкстаў»




1. Тэарэтычны раздзел

Раздзел 1. ЛІНГВІСТЫЧНЫЯ ПРАЦЭСАРЫ ТЭКСТАЎ

Раздзел 2. УВАХОДНЫЯ ДАДЗЕНЫЯ ДЛЯ ЛІНГВІСТЫЧНАГА ПРАЦЭСАРА ТЭКСТАЎ

Раздзел 3. БАЗАВЫ ЛІНГВІСТЫЧНЫ АНАЛІЗ ЭЛЕКТРОННЫХ ТЭКСТАЎ

Раздзел 4. АЎТАМАТЫЗАВАНЫ МАРФАЛАГІЧНЫ АНАЛІЗ

Раздзел 5. АЎТАМАТЫЗАВАНЫ СІНТАКСІЧНЫ АНАЛІЗ

Раздзел 6. ЛІНГВІСТЫЧНЫЯ РЭСУРСЫ ДЛЯ ЛІНГВІСТЫЧНАГА ПРАЦЭСАРА

Раздзел 7. АНАЛІЗ ЯКАСЦІ ПРАЦЫ МАРФАЛАГІЧНЫХ І СІНТАКСІЧНЫХ ГРАМАТЫК

Раздзел 8. АЎТАМАТЫЗАВАНЫЯ КОМПЛЕКСЫ МАРФАЛАГІЧНАГА І СІНТАКСІЧНАГА АНАЛІЗУ ДЛЯ ШМАТУЗРОЎНЕВАЙ АПРАЦОЎКІ ТЭКСТАЎ




2. Практычны раздзел

1. Практычнае заданне № 1. Пабудова марфалагічнай граматыкі NooJ

2. Практычнае заданне № 2. Пабудова сінтаксічнай граматыкі NooJ

3. Практычнае заданне № 3. Фарміраванне корпуса беларускіх электронных тэкстаў з датамі. Пабудова сінтаксічнай граматыкі з вывадам дат у выглядзе канкарданса. Ацэнка працы граматыкі ў тэрмінах паўнаты, дакладнасці і сярэдняй гарманічнай меры.

4. Практычнае заданне № 4. Праца з невядомымі словамі ў тэксце

5. Практычнае заданне № 5. Праца з флексійнымі класамі невядомых слоў

6. Практычнае заданне № 6. Стварэнне анімацыі марфалагічных працэсаў у NooJ Lab Marphology

7. Практычнае заданне № 7. Стварэнне граматыкі для пошуку розных тыпаў сказаў у корпусе тэкстаў. Вывядзенне канкардансу

8. Практычнае заданне № 8. Пабудова і праца з корпусам з клічнымі сказамі

9. Практычнае заданне № 9. Вывядзенне канкардансаў ужывання выклічнікаў праз Locate Patteren - <INTERJECTION>




3. Раздзел кантролю ведаў

3.1. Пералік рэкамендаваных сродкаў дыягностыкі вынікаў вучэбнай дзейнасці

3.2. Тэматыкі і тыпы тэкстаў для ўласных корпусаў тэкстаў

3.3. Пытанні для падрыхтоўкі да іспыту па курсе

3.4. Патрабаванні да ўзроўню засваення зместу дысцыпліны

3.5. Крытэрыі выстаўлення адзнакі на іспыце па дысцыпліне




4. Дапаможны раздзел

4.1. Асноўная літаратура

4.2. Дапаможная літаратура

4.3. Рэсурсы электроннага доступа

Тлумачальная запіска да навукова-метадычнага комплекса «Метады аўтаматычнай апрацоўкі тэкстаў»
Курс «Метады аўтаматычнай апрацоўкі тэкстаў» прадугледжвае паглыбленае знаёмства з сучаснымі кірункамі выкарыстання мовы ў інфармацыйных тэхналогіях; з фармалізацыяй ведаў пра мову і алгарытмізацыяй лінгвістычнага аналізу; з прынцыпамі стварэння лінгвістычных банкаў дадзеных, аўтаматызаваных граматык, баз ведаў і слоўнікаў. Атрыманыя веды могуць знайсці выкарыстанне ў вывучэнні і выкладанні роднай і замежнай моваў з выкарыстаннем новых інфармацыйных тэхналогій у школе і ВНУ; у стварэнні сістэм тэкставага аналізу і машыннага перакладу; у стварэнні лінгвістычных банкаў дадзеных і ў напісанні навуковай працы на базе аналізу гэтых банкаў дадзеных.

Асноўная мэта курса «Метады аўтаматычнай апрацоўкі тэкстаў» палягае ў фармаванні ў студэнтаў ведаў пра прынцыпы і метады выкарыстання камп’ютэрных сродкаў для рашэння актуальных лінгвістычных задач, а таксама ў фармаванні ўменняў і навыкаў па распрацоўцы алгарытмаў і лінгвістычных рэсурсаў для апрацоўкі адвольных электронных тэкставых корпусаў.

Асноўныя задачы дысцыпліны ўключаюць:

- азнаямленне з тэарэтычнымі асновамі, метадамі і сродкамі фармалізацыі мовы;

- агляд і засваенне асноўных прынцыпаў стварэння і выкарыстання сістэм аўтаматызаванага лінгвістычнага аналізу;

- засваенне складання лінгвістычных аўтаматызаваных алгарытмаў марфалагічнага аналізу слова з дапамогай настройвальнага лінгвістычнага аналізатара NooJ;

- засваенне складання лінгвістычных аўтаматызаваных алгарытмаў сінтаксічнага аналізу сказа і словазлучэнняў з дапамогай настройвальнага лінгвістычнага аналізатара NooJ;

- вывучэнне спосабаў ацэнак якасці працы лінгвістычных аўтаматызаваных алгарытмаў для апрацоўкі электронных тэкстаў;

- азнаямленне з задачамі, якія часта паўстаюць перад камп’ютэрнымі лінгвістамі, і са спосабамі іх рашэння;

Заняткі па курсу «Метады аўтаматычнай апрацоўкі тэкстаў» праводзяцца ў выглядзе лекцый, практычных заняткаў, кантрольна-самастойных заданняў, кансультацый.

Курс «Метады аўтаматычнай апрацоўкі тэкстаў» складаецца з цыклу лекцый і цыклу практычных заняткаў. Лекцыі носяць праблемны характар, звязаны з найбольш важнымі кірункамі даследаванняў і пакліканы даць студэнтам веды ў прадметнай вобласці. Практычныя заняткі накіраваныя на фармаванне ў студэнтаў уменняў па стварэнні электронных корпусаў тэкстаў і алгарытмізаваных граматык, якія здольныя апрацоўваць корпусы тэкстаў, для настройвальнага лінгвістычнага працэсара NooJ.

Форма правядзення самастойнай працы студэнтаў аптымальная пры вывучэнні дадзенай дысцыпліны – гэта выкананне кантрольна-самастойных заданняў.

Заключны кантроль праводзіцца ў форме іспыту.


1. Тэарэтычны раздзел
Раздзел 1. ЛІНГВІСТЫЧНЫЯ ПРАЦЭСАРЫ ТЭКСТАЎ

Віды лінгвістычных працэсараў. Вобласці прымянення.

Агульныя архітэктуры працы лінгвістычных працэсараў (тэкставы аналіз, сінтэз маўлення па тэксце, машынны пераклад).

Раздзел 2. УВАХОДНЫЯ ДАДЗЕНЫЯ ДЛЯ ЛІНГВІСТЫЧНАГА ПРАЦЭСАРА ТЭКСТАЎ

Тэкст. Электронны сімвал. Электронны тэкст. Натуральная мова. Тэкст натуральнай мовы. Арфаграфічны тэкст. Токен.

Пабудова тэматычных тэкставых карпусоў.

Раздзел 3. БАЗАВЫ ЛІНГВІСТЫЧНЫ АНАЛІЗ ЭЛЕКТРОННЫХ ТЭКСТАЎ

Статыстыка ўжывання электронных сімвалаў у тэксце.

Статыстыка ўжывання токенаў, біграм, шматзначных і нешматзначных, невядомых слоў у тэксце.

Анатаванне слоў і лексічны аналіз тэкстаў з дапамогай распрацаваных слоўнікаў.



Раздзел 4. АЎТАМАТЫЗАВАНЫ МАРФАЛАГІЧНЫ АНАЛІЗ

Прынцыпы працы і стварэнне візуальных і правілавых аўтаматызаваных марфалагічных граматык.

Прынцыпы пабудовы і распрацоўка спісу тэставых слоў для праверкі аўтаматызаваных марфалагічных граматык.

Раздзел 5. АЎТАМАТЫЗАВАНЫ СІНТАКСІЧНЫ АНАЛІЗ

Прынцыпы працы і стварэнне візуальных і правілавых аўтаматызаваных сінтаксічных граматык.

Прынцыпы пабудовы і распрацоўка спісу тэставых слоў для праверкі аўтаматызаваных сінтаксічных граматык.

Раздзел 6. ЛІНГВІСТЫЧНЫЯ РЭСУРСЫ ДЛЯ ЛІНГВІСТЫЧНАГА ПРАЦЭСАРА

Слоўнікі як звязаная сукупнасць лем, класаў канчаткаў і граматычных пазнак слоў.

Пабудова слоўнікаў для невядомых (новых) слоў.

Раздзел 7. АНАЛІЗ ЯКАСЦІ ПРАЦЫ МАРФАЛАГІЧНЫХ І СІНТАКСІЧНЫХ ГРАМАТЫК

Метадалогія праверкі правільнасці працы граматыкі.

Паняцці дакладнасці, паўнаты і сярэдняй гарманічнай меры для праверкі працы граматыкі.

Раздзел 8. АЎТАМАТЫЗАВАНЫЯ КОМПЛЕКСЫ МАРФАЛАГІЧНАГА І СІНТАКСІЧНАГА АНАЛІЗУ ДЛЯ ШМАТУЗРОЎНЕВАЙ АПРАЦОЎКІ ТЭКСТАЎ

Прынцыпы рашэння складаных лінгвістычных задач з дапамогай настройвальнага лінгвістычнага працэсара NooJ.

Прынцыпы распрацоўкі складнікавых марфалагічных граматык для рашэння лакальнага фрагмента пастаўленай лінгвістычнай задачы.

Прынцыпы распрацоўкі складнікавых сінтаксічных граматык для рашэння лакальнага фрагмента пастаўленай лінгвістычнай задачы.

Прынцыпы паслядоўнага выкарыстання некалькіх марфалагічных і сінтаксічных граматык для рашэння ўсёй пастаўленай лінгвістычнай задачы.


2. Практычны раздзел


1. Практычнае заданне № 1




2. Практычнае заданне № 2




3. Практычнае заданне № 3




4. Практычнае заданне № 4




5. Практычнае заданне № 5




6. Практычнае заданне № 6




7. Практычнае заданне № 7




8. Практычнае заданне № 8




9. Практычнае заданне № 9



Перад выкананнем практычных заняткаў студэнт павінны выканаць наступныя ўмовы:



  1. Азнаёміцца з падручнікам па NooJ (бясплатны доступ і выкарыстанне) – Silberztein, M. 2003-, NooJ Manual. Available for download at: www.nooj4nlp.net http://www.nooj4nlp.net/NooJManual.pdf

  2. Усталяваць праграму NooJ (бясплатны доступ і выкарыстанне) з рэсурсу NooJ resourses // NooJ [Electronic resourse]. – 2002 . – Mode of access : http://www.nooj4nlp.net/pages/resources.html. – Date of access : 17.03.2012.

  3. Усталяваць беларускі модуль для NooJ (бясплатны доступ і выкарыстанне) Hetsevich, Y. Belarusian module for NooJ // Y. Hetsevich, S. Hetsevich, B. Lobanov, Ya. Yakubovich // NooJ web-site [Electronic resourse]. – 2012. Mode of access : http://www.nooj4nlp.net/pages/belarusian.html. – Date of access : 16.03.2012.

  4. Важна памятаць, што падзаданні заданняў павінны выконвацца ў вызначаным парадку нумарацыі.


Практычнае заданне № 1. Пабудаваць марфалагічную граматыку NooJ (сс. 107-120 падручніка па NooJ), якая адрознівае беларускія і рускія словы ў электронным корпусе тэкстаў “Каласы пад сярпом тваім У. Караткевіча”. Вынікі працы даслаць на электронны адрас выкладчыка yury.hetsevich@gmail.com.
Практычнае заданне № 2. Пабудаваць сінтаксічную граматыку NooJ (cc. 141-154). Дадаць кантракт (спіс правільных і няправільных выразаў для прымітыўнага тэставання граматыкі). Прымяніць граматыку да электроннага корпуса тэкстаў “Каласы пад сярпом тваім У. Караткевіча” з беларускага модуля NooJ. Атрымаць канкардансы працы граматыкі. Вынікі працы даслаць на электронны адрас выкладчыка yury.hetsevich@gmail.com.
Практычнае заданне № 3. Самастойна падабраць беларускія электронныя тэксты з датамі, сфармаваць з іх корпус тэкстаў з назвай Dates.noc для праграмы NooJ. Пабудаваць сінтаксічную граматыку, якая б шукала даты ў корпусе і выводзіла іх у выглядзе канкарданса. Ацаніць працу граматыкі ў тэрмінах паўнаты, дакладнасці і сярэдняй гарманічнай меры. Вынікі працы даслаць на электронны адрас выкладчыка yury.hetsevich@gmail.com.
Практычнае заданне № 4. Праца з невядомымі словамі ў тэксце.

  1. Знайсці ўсе невядомыя словы ў корпусе з практычнага задання № 3. Захаваць іх у файл з назвай unkWords.dic. Падлічыць ужыванні невядомых слоў ва ўсім корпусе тэкстаў праз запыт у акне CORPUS->Locate (важна выбраць опцыю ў Limitation->All occurences).

  2. Абазначыць катэгорыі мовы ў 200 невядомых словах паводле файла _properties.def і захаваць у слоўнік з назвай 200Words.dic. Скампіляваць 200Words.dic і падлучыць слоўнік 200Words.nod да праграмы NooJ. Падлічыць ужыванні невядомых слоў ва ўсім корпусе тэкстаў праз запыт у акне CORPUS->Locate (важна выбраць опцыю ў Limitation->All occurences).

  3. Параўнаць вынікі скарачэння ўжыванняў невядомых слоў у корпусе пасля распісвання 200 невядомых слоў.

Вынікі працы (усе электронныя файлы і назіранні з высновамі) даслаць на электронны адрас выкладчыка yury.hetsevich@gmail.com.


Практычнае заданне № 5. Праца з флексійнымі класамі невядомых слоў.

  1. Прачытаць файл README.rtf з беларускага модуля NooJ і сс. 95-104 падручніка па NooJ.

  2. Для кожнай катэгорыі мовы са спісу невядомых слоў unkWords.dic выбраць па 2 прадстаўнікі (разам з іх словаформамі), захаваць іх у файле Each2Words.dic.

  3. Кожнае слова з файла Each2Words.dic прывесці да пачатковай формы, а словаформы закаментаваць.

  4. Для кожнага слова з файла Each2Words.dic пабудаваць флексійны клас-шаблон, абазначыць яго слову, і запісаць клас у файл флексій FlexEach2Word.flx.


Вытрымка-прыклад з Each2Words.dic
актрыса,NOUN+FLX=АБАТЫСА+UNAMB
Вытрымка-прыклад (адпаведная) з FlexEach2Word.nof
АБАТЫСА =

/Accusative+Animate+Common+Feminine+Plural

+ /Animate+Common+Feminine+Genitive+Plural

+ а/Animate+Common+Feminine+Nominative

+ ай/Animate+Common+Feminine+Instrumental

+ ам/Animate+Common+Dative+Feminine+Plural

+ амі/Animate+Common+Feminine+Instrumental+Plural

+ ах/Animate+Common+Feminine+Plural+Prepositional

+ аю/Animate+Common+Feminine+Instrumental

+ е/Animate+Common+Dative+Feminine

+ е/Animate+Common+Feminine+Prepositional

+ у/Accusative+Animate+Common+Feminine

+ ы/Animate+Common+Feminine+Genitive

+ ы/Animate+Common+Feminine+Nominative+Plural;



  1. У файле Each2Words.dic прапісаць каманду #use FlexEach2Word.flx, скампіляваць слоўнік Each2Words.dic, падлучыць да NooJ, праверыць на корпусе. Ці зніклі распісаныя словы са спісу невядомых?

Вынікі працы (усе атрыманыя электронныя файлы і назіранні з высновамі) даслаць на электронны адрас выкладчыка yury.hetsevich@gmail.com.



Практычнае заданне № 6. Зрабіць анімацыю любых 2-3 марфалагічных працэсаў у NooJ Lab Marphology. Вынікі працы (усе атрыманыя электронныя файлы і назіранні з высновамі) даслаць на электронны адрас выкладчыка yury.hetsevich@gmail.com.
Практычнае заданне № 7. Зрабіць граматыку для пошуку розных тыпаў сказаў у корпусе тэкстаў “Каласы пад сярпом тваім У. Караткевіча” і ў корпусе тэкстаў студэнта Dates.noc. Вывесці канкарданс. Вынікі працы (усе атрыманыя электронныя файлы і назіранні з высновамі) даслаць на электронны адрас выкладчыка yury.hetsevich@gmail.com.
Практычнае заданне № 8. Пабудаваць корпус з клічнымі сказамі з назвай Exclamаtions.noc. (Іх можна ўзяць з твораў з дыялогамі з сайта knihi.com, а таксама з правіл пастаноўкі адпаведных знакаў у сказах ”?”,”!”,”...”, “.” у правілах беларускай мовы па спасылцы http://libelli.narod.ru/misc/rules.htm#_Toc204867471)

Дапрацаваць граматыку з практычнага задання № 7 паводле прачытаных правілаў, прымяніць яе для корпусу тэкстаў студэнта з клічнымі сказамі Exclamаtions.noc. Вывесці канкарданс. Вынікі працы (усе атрыманыя электронныя файлы і назіранні студэнта з высновамі) даслаць на электронны адрас выкладчыка yury.hetsevich@gmail.com.
Практычнае заданне № 9. Сабраць усе выклічнікі з клічных сказаў паводле практычнага задання №8, абазначыць іх катэгорыяй INTERJECTION, абазначыць тып выклічніка, захаваць у асобны файлік – INTERJECTION_(Вашае імя).dic, скампіляваць яго і вывесці канкардансы ўжывання выклічнікаў праз Locate Patteren - <INTERJECTION> у корпусах Kalasy.noc, Dates.noc, Exclamаtions.noc. Вынікі працы (усе электронныя файлы і назіранні студэнтаў з высновамі) даслаць на электронны адрас выкладчыка yury.hetsevich@gmail.com.

3. Раздзел кантролю ведаў
3.1. Пералік рэкамендаваных сродкаў дыягностыкі вынікаў вучэбнай дзейнасці


  1. Апытанне на лекцыях і на практычных занятках.

  2. Выкананне заданняў па ўласным корпусе тэкстаў на практычных занятках.

  3. Выкананне і абарона кантрольна-самастойнага задання па ўласным корпусе тэкстаў.

  4. Іспыт як выніковая форма кантролю ведаў.


3.2. Тэматыкі і тыпы тэкстаў для ўласных корпусаў тэкстаў


  1. Навукова-тэхнічныя тэксты на беларускай мове.

  2. Тэксты па гісторыі на беларускай мове.

  3. Тэксты драматургіі на беларускай мове.

  4. Тэксты навінавых сайтаў на беларускай мове.

  5. Рэлігійныя тэксты на беларускай мове.

  6. Мастацкія тэксты на беларускай мове.

  7. Літаратурныя тэксты на беларускай мове.

  8. Афіцыйна-дзелавыя тэксты на беларускай мове.



3.3. Пытанні для падрыхтоўкі да іспыту па курсе


  1. Лінгвістычныя працэсары тэкстаў. Віды лінгвістычных працэсараў. Вобласці прымянення.

  2. Агульныя архітэктуры працы лінгвістычных працэсараў (тэкставы аналіз, сінтэз маўлення па тэксце, машынны пераклад).

  3. Уваходныя дадзеныя для лінгвістычнага працэсара тэкстаў NooJ.

  4. Тэкст. Электронны сімвал. Электронны тэкст. Натуральная мова. Тэкст натуральнай мовы. Арфаграфічны тэкст. Токен.

  5. Пабудова тэматычных тэкставых корпусаў.

  6. Базавы лінгвістычны аналіз электронных тэкстаў.

  7. Статыстыка ўжывання электронных сімвалаў у тэксце.

  8. Статыстыка ўжывання токенаў, біграм, шматзначных і нешматзначных, невядомых слоў у тэксце.

  9. Лінгвістычныя рэсурсы для лінгвістычнага працэсара NooJ.

  10. Слоўнікі NooJ як звязаная сукупнасць лем, класаў канчаткаў і граматычных пазнак словаў.

  11. Лексічны аналіз тэкстаў з дапамогай распрацаваных слоўнікаў NooJ.

  12. Пабудова слоўніка для невядомых слоў.

  13. Аўтаматызаваны марфалагічны аналіз праз NooJ.

  14. Прынцыпы працы і распрацоўка візуальных і правілавых аўтаматызаваных марфалагічных граматык NooJ.

  15. Прынцыпы пабудовы і распрацоўка спісу тэставых слоў для праверкі аўтаматызаваных марфалагічных граматык NooJ.

  16. Аўтаматызаваны сінтаксічны аналіз праз NooJ.

  17. Прынцыпы працы і распрацоўка візуальных і правілавых аўтаматызаваных сінтаксічных граматык NooJ.

  18. Прынцыпы пабудовы і распрацоўка спісу тэставых слоў для праверкі аўтаматызаваных сінтаксічных граматык NooJ.

  19. Аналіз якасці працы марфалагічных і сінтаксічных граматык.

  20. Метадалогія праверкі правільнасці працы граматыкі.

  21. Паняцці дакладнасці, паўнаты і сярэдняй гарманічнай меры для праверкі працы граматыкі.

  22. Аўтаматызаваныя комплексы марфалагічнага і сінтаксічнага аналізу для шматузроўневай апрацоўкі тэкстаў праз NooJ.

  23. Прынцыпы рашэння складаных лінгвістычных задач з дапамогай настройвальнага лінгвістычнага працэсара NooJ (пра падыходы, як знаходзілі выклічнікі).

  24. Прынцыпы распрацоўкі складнікавых марфалагічных граматык для рашэння невялікага фрагмента пастаўленай лінгвістычнай задачы.

  25. Прынцыпы распрацоўкі складнікавых сінтаксічных граматык для рашэння невялікага фрагмента пастаўленай лінгвістычнай задачы.

  26. Прынцыпы паслядоўнага выкарыстання некалькіх марфалагічных і сінтаксічных граматык для рашэння ўсяго фрагмента пастаўленай лінгвістычнай задачы.



3.4. Патрабаванні да ўзроўню засваення зместу дысцыпліны
У выніку вывучэння навуковай дысцыпліны студэнт павінен:

ведаць:

– асноўны тэрміналагічны апарат, метады, сродкі і задачы аўтаматызаванай апрацоўкі тэкстаў;

– структуру, кампаненты і асаблівасці працы настройвальнага лінгвістычнага працэсара NooJ;

– асноўныя падыходы пабудовы марфалагічных і сінтаксічных граматык NooJ для развязання праблемных задач камп’ютэрнай лінгвістыкі;

– спосабы ацэнак якасці працы лінгвістычных аўтаматызаваных алгарытмаў для апрацоўкі электронных тэкстаў;

умець:

– устанавіць на персанальны камп’ютэр лінгвістычны працэсар NooJ і беларускі модуль NooJ;

– будаваць і выкарыстоўваць лінгвістычныя рэсурсы (марфалагічныя і сінтаксічныя граматыкі, слоўнікі, корпусы тэкстаў) для настройвальнага працэсара NooJ;

– колькасна ацэньваць у тэрмінах дакладнасці і паўнаты аўтаматызаваныя і аўтаматычныя лінгвістычныя алгарытмы.


3.5. Крытэры выстаўлення адзнакі на іспыце па дысцыпліне


Адзнака

Крытэры ацэнкі ўзроўню ведаў і кампетэнцый студэнта

10 балаў

Студэнт даў вычарпальны адказ на тэарэтычнае пытанне, прадэманстраваў свабоднае валоданне паняткава-тэрміналагічным апаратам па тэме пытання білета, правільна выканаў практычнае заданне, патлумачыўшы алгарытм яго выканання; паспяхова адказаў на дадатковыя пытанні выкладчыка па праграме дысцыпліны.

9 балаў

Студэнт даў поўны адказ на тэарэтычнае пытанне, прадэманстраваў валоданне паняткава-тэрміналагічным апаратам па тэме пытання білета, правільна выканаў практычнае заданне, паспяхова адказаў на дадатковыя пытанні выкладчыка па тэме, сумежнай з пытаннем / заданнем білета.

8 балаў

Студэнт даў поўны адказ на тэарэтычнае пытанне, але дапусціў нязначныя недакладнасці, якія надалей змог прыбраць, адказваючы на ўдакладняльныя пытанні выкладчыка, з нязначнымі хібнасцямі выканаў практычнае заданне, але змог унесці неабходныя выпраўленні па патрабаванні выкладчыка.

7 балаў

Студэнт даў поўны, але з нязначнымі недакладнасцямі, адказ на тэарэтычнае пытанне, з нязначнымі хібнасцямі выканаў практычнае заданне, і пры гэтым не змог унесці неабходныя выпраўленні па патрабаванні выкладчыка.

6 балаў

Студэнт даў няпоўны, але задавальняльны адказ на тэарэтычнае пытанне, з істотнымі хібамі выканаў практычнае заданне, але змог часткова ўнесці неабходныя выпраўленні па патрабаванні выкладчыка.

5 балаў

Студэнт даў няпоўны, але задавальняльны адказ на тэарэтычнае пытанне, з істотнымі хібамі выканаў практычнае заданне, і пры гэтым не змог унесці неабходныя выпраўленні па патрабаванні выкладчыка.

4 балы

Студэнт даў няпоўны, але задавальняльны адказ на тэарэтычнае пытанне, не выканаў практычнае заданне, але паказаў разуменне сутнасці задання, адказваючы на навадныя пытанні выкладчыка.

3 балы

Студэнт даў незадавальняльны адказ на тэарэтычнае пытанне, не выканаў практычнае заданне або выканаў з істотнымі хібнасцямі, якія не змог выправіць, нягледзячы на наводныя пытанні выкладчыка.

2 балы

Студэнт не даў адказу на тэарэтычнае пытанне, не выканаў практычнае заданне або выканаў з істотнымі хібнасцямі, якія не змог выправіць, нягледзячы на наводныя пытанні выкладчыка.

1 бал

Студэнт не даў адказу на тэарэтычнае пытанне, не выканаў практычнае заданне або адмовіўся адказваць.

Умова допуску да іспыту – гэта паспяховае выкананне кантрольна-самастойнага задання па тэксце індывідуальнай тэматыкі, якое выконваецца студэнтам самастойна, у пазааўдыторны час.


4. Дапаможны раздзел
4.1. Асноўная літаратура


  1. Bekavac B. Units of Measurement Detection Module for NooJ. Conference on NooJ 2009, pp. 121-127, Tunisia (2009)

  2. Duško V., Krstev C., Koeva S. Towards a Complex Model for Morpho-Syntactic Annotation. Proceedings of the Workshop Workshop on a Common Natural Language Processing Paradigm for Balkan Languages, 26 September 2007, Borovets, Bul-garia. In: Paskaleva, E., Slavcheva, M. (eds.), pp. 65-71 (2007)

  3. Hetsevich, Y. Overview of Belarusian And Russian dictionaries and their adaptation for NooJ / Y. Hetsevich, S. Hetsevich // Automatic Processing of Various Levels of Linguistic Phenomena: Selected Papers from the NooJ 2011 Intern. Conf. / eds. Vučković Kristina, Bekavac Božo, Silberztein Max. – Newcastle : Cambridge Scholars Publishing, 2012. – P. 29–40.

  4. Hetsevich, Yu. Belarusian and Russian linguistic modules processing for the system NooJ as applied to text-to-speech synthesis / Yu. S. Hetsevich, S. A. Hetsevich, B. M. Lobanov // Компьютерная лингвистика и интеллектуальные технологии: По материалам Международной конференции «Диалог» (Бекасово, 30 мая – 3 июня 2012 г.). Вып. 11 (18): В 2 т. Т.1: Основная программа конференции. – М.: Изд-во РГГУ, 2012. – С. 198–212.

  5. Taylor, P. Text-to-Speech Synthesis / P. Taylor. New York – Cambridge University Press, 2009. – 642 p.

  6. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В.– М.: МИЭМ, 2011.– 272 с.

  7. Ахманова, О.С. Словарь лингвистических терминов. Изд. 4-е, стереотипное. /О.С. Ахманова – М.: КомКнига, 2007. – 576 с.

  8. Беларуская граматыка. У 2 ч. Ч. 1 Фаналогія. Арфаграфія. Марфалогія. Словаўтварэнне. Націск / АН БССР, Інстытут мовазнаўства імя Я. Коласа. Мінск, 1985. С. 117–133.

  9. Гецэвіч, Ю.С. Ідэнтыфікацыя выразаў з адзінкамі вымярэння ў навукова-тэхнічных і прававых тэкстах на беларускай і рускай мовах / Ю.С. Гецэвіч, А.М. Скопінава // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2012) : доклады XI Международной конференции (Минск, 15 ноября 2012 г.). – Минск : ОИПИ НАН Беларуси, 2012. – С. 260–265.

  10. Д.В. Ландэ. – М. : Издательский дом «Вильямс», 2005. – 272 с.

  11. Зубова И.И. Информационные технологии в лингвистике. – Минск, 2002.


4.2. Дапаможная літаратура


  1. Bird, S. Natural Language Processing with Python / S. Bird, E. Klein, E. Loper.- Tokio: O'Reilly,2009.

  2. Cunningham H. Information Extraction: a User Guide (revised version), Research Memorandum CS-99-07. Department of Computer Science, University of Sheffield (May, 1999)

  3. Mykowiecka A., Kupść A., Marciniak M., Piskorski J.. Resources for Information Extraction from Polish texts. Proceedings of 3rd Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Lin-guistics, Poznan (2007)

  4. Paskaleva E., Angelova G., Jankova M., Bontcheva K., Cunningham H., Wilks Y. Slavonic Named Entities in Gate, Re-search Memorandum CS-02-01. Department of Computer Science, University of Sheffield, Great Britain (2002)

  5. А. Г. Кушниренко, Г. В. Лебедев, Р. А. Сворень «Основы информатики и вычислительной техники». – М.: Просвещение, 1990.

  6. Апресян, Ю.Д. Лингвистический процессор для сложных информационных систем /Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. //. М.: Наука, 1992. 256 с.

  7. Евдокимова, И.С. Естественно-языковые системы.– Улан-Удэ, 2006.

  8. Кароткая граматыка беларускай мовы. У 2. ч. Ч. 1. Фаналогія. Марфаналогія. Марфалогія. Мінск, 2007.

  9. Лобанов, Б.М. Компьютерный синтез и клонирование речи / Б.М. Лобанов, Л.И. Цирульник // Минск: Белорусская наука, 2008. – 344 с.: ил.

  10. Марчук Ю.Н. Основы компьютерной лингвистики. М., 2000.

  11. Машинный перевод и прикладная лингвистика. М., 1980.

  12. Носков, А.А. Инструментальные системы разработки приложений по автоматической обработке текстов на естественном языке // Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В.- М.: МИЭМ, 2011.-272 с. – С. 141–169.

  13. Рябцева Н.К. Информационные процессы и машинный перевод. М., 1986.

  14. Саммерфилд, М. Регулярные выражения // Саммерфилд, М. Программирование на Python 3.– Спб.–М.:Символ-Плюс, 2009.



4.3. Рэсурсы электроннага доступа

  1. Hetsevich, Y. Belarusian module for NooJ // Y. Hetsevich, S. Hetsevich, B. Lobanov, Ya. Yakubovich // NooJ web-site [Electronic resourse]. – 2012. Mode of access : http://www.nooj4nlp.net/pages/belarusian.html. – Date of access : 16.03.2012.

  2. NLPK: Natural Language Toolkit.– http://www.nltk.org/.

  3. NooJ resourses // NooJ [Electronic resourse]. – 2002 . – Mode of access : http://www.nooj4nlp.net/pages/resources.html. – Date of access : 17.03.2012.

  4. Numeric Property Searching in Derwent World Patents Index on STN [Electronic resource]. – 1998. – Mode of access: http://www.stn-international.com/ numeric_property_searching.html. – Date of access: 05.02.2013.

  5. Quantalyze semantic annotation and search service [Electronic resource]. – 2013. – Mode of access: https://www.quantalyze.com/en/. – Date of access: 05.02.2013.

  6. Silberztein, M. 2003-, NooJ Manual. Available for download at: www.nooj4nlp.net http://www.nooj4nlp.net/NooJManual.pdf

  7. URL: http://alias-i.com/lingpipe/ (сайт LingPipe, программных библиотек для анализа ЕЯ).

  8. URL: http://gskinner.com/RegExr/, http://realcode.ru/regexptester/ (on-line конструкторы регулярных выражений).

  9. URL: http://opennlp.apache.org/ (сайт OpenNLP, программных библиотек для анализа ЕЯ)

  10. URL: http://opennlp.sourceforge.net/projects.html (каталог open-source инструментов обработки ЕЯ).

  11. URL: http://www.aot.ru/download.php (сайт группы АОТ, страница программных библиотек и бинарных файлов).

  12. URL: http://www.aot.ru/onlinedemo.html (сайт группы АОТ, раздел программ АОТ on-line).

  13. URL: http://www.sil.org/linguistics/computing.html (каталог ПО и других ресурсов по прикладной лингвистике от SIL).

  14. Автоматическая Обработка Текста – АОТ [Электронный ресурс]. – 2003. – Режим доступа : http://aot.ru/. – Дата доступа : 16.03.2012.

  15. Беларускія лінгвістычныя кампутарныя праграмы. Афіцыйны сайт Белазара [Электроны рэсурс]. – 2010. – Рэжым доступа : http://belazar.belinter.net/. – Дата доступа : 16.03.2012.


База данных защищена авторским правом ©urok.shkola.of.by 2016
звярнуцца да адміністрацыі

    Галоўная старонка