دانلود حل تمرین پردازش زبان و گفتار مارتین جورافسکی Speech and Language Processing Jurafsky Martin

- دانلود حل تمرین پردازش زبان و گفتار مارتین جورافسکی Speech and Language Processing Jurafsky Martin

دانلود حل تمرین پردازش زبان و گفتار مارتین جورافسکی Speech and Language Processing Jurafsky Martin

کتاب حل المسائل پردازش گفتار و زبان نسخه دوم، نویسنده: جیمز مارتین, دنیل جوراف اسکای

Speech and Language Processing, 2nd Edition

by Daniel Jurafsky (Author), James H. Martin
 

 آنچه تحویل داده می شود:

 1. فایل PDF (با کیفیت عالی)
تعداد صفحات: 116 صفحه (حل تمرینات فصل دوم تا فصل 25)

زبان انگلیسی

دروس مرتبط: پردازش صوت,پردازش صدا,بینایی ماشین و تشخیص الگو,پردازش زبان طبیعی,نظریه زبان ها و ماشین ها

توضیحات:

For undergraduate or advanced undergraduate courses in Classical Natural Language Processing, Statistical Natural Language Processing, Speech Recognition, Computational Linguistics, and Human Language Processing.

 

An explosion of Web-based language techniques, merging of distinct fields, availability of phone-based dialogue systems, and much more make this an exciting time in speech and language processing. The first of its kind to thoroughly cover language technology – at all levels and with all modern technologies – this text takes an empirical approach to the subject, based on applying statistical and other machine-learning algorithms to large corporations. The authors cover areas that traditionally are taught in different courses, to describe a unified vision of speech and language processing. Emphasis is on practical applications and scientific evaluation. An accompanying Website contains teaching materials for instructors, with pointers to language processing resources on the Web. The Second Edition offers a significant amount of new and extended material.

 

Table of Contents

Chapter 1: Introduction

This chapter is largely the same with updated history and pointers to newer applications.

Chapter 2: Regular Expressions and Automata

This chapter is largely the same with some bug fixes.

Chapter 3: Words and Transducers

This new version of the chapter still focuses on morphology and FSTs, but is expanded in various ways. There are more details about the formal descriptions of finite-state transducers, many bugs are fixed, and two new sections are added relating to words and subwords. The first new section is on word and sentence tokenization, including algorithms for English as well as the maxmatch algorithm for Chinese word segmentation. The second new section is on spelling correction and minimum edit distance, and is an extended version of the edit-distance section from Chapter 5 of the first edition, with clearer figures for example for explaining the minimum-edit-distance backtrace.

Chapter 4: N-grams (Formerly Chapter 6)

This updated language model chapter has had a complete overhaul. This draft includes more examples, a more complete description of Good-Turing, expanded sections on practical issues like perplexity and evaluation, language modeling toolkits, including ARPA format, and an overview of modern methods like interpolated Kneser-Ney.

Chapter 5: Part-of-Speech Tagging (Formerly Chapter 8)

The main change to this revised chapter is a greatly expanded, and hence self-contained, description of bigram and trigram HMM part-of-speech tagging, including Viterbi decoding and deleted interpolation smoothing. Together with the new Chapter 6, this allows a complete introduction to HMMs for courses that don’t use the speech recognition chapters. Other changes in this chapter include expanded descriptions of unknown word modeling and part-of-speech tagging in other languages, and many bug fixes. Finally, we’ve moved this chapter earlier in the book.

Chapter 6: Hidden Markov and Maximum Entropy Models (Formerly part of Chapter 7 and Appendix D)

This new chapter introduces two sequence models: HMMs and MEMMs. It gives the details of Hidden Markov Models, including Forward, Viterbi, and EM. It then introduces MaxEnt models, begining with linear regression, followed by logistic regression, then the extension to MaxEnt, and finally the MEMM and the Viterbi intuition.

Chapter 7: Phonetics (Formerly parts of Chapters 4, 5, and 7)

This chapter is an introduction to articulatory and acoustic phonetics for speech processing, as well as foundational tools like the ARPAbet, wavefile formats, phonetic dictionaries, and PRAAT.

Chapter 8: Speech Synthesis

This is a new chapter on speech synthesis.

Chapter 9: Automatic Speech Recognition (Formerly 7)

This new significantly-expanded speech recognition chapter gives a complete introduction to HMM-based speech recognition, including extraction of MFCC features, Gaussian Mixture Model acoustic models, and embedded training.

Chapter 10: Speech Recognition: Advanced Topics (New Chapter)

This new second chapter on speech recognition covers advanced topics like decision-tree clustering for context-dependent phones, advanced decoding (including n-best lists, lattices, confusion networks, and stack decoding), robustness (including MLLR adaptation), discriminative training, and human speech recognition.

Chapter 11: Computational Phonology (Formerly parts of Chapters 4, 5, and 7)

This chapter is a brief introduction to computational phonology, including phonological and morphological learning, finite-state models, OT, and Stochastic OT. 

Chapter 12: Formal Grammars of English (Formerly 9)

This chapter still focuses on CFGs for English and includes a revamped and somewhat expanded grammar for the ATIS domain. New and expanded sections cover: treebanks with a focus on the Penn Treebank, searching treebanks with tgrep and tgrep2, heads and head-finding rules, dependency grammars, Categorial grammar, and grammars for spoken language processing. (top)

Chapter 13: Syntactic Parsing (Formerly 10)

The focus of this chapter is still on parsing with CFGs. It now includes sections on CKY, Earley and agenda-based (chart) parsing. In addition, there is a new section on partial parsing with a focus on machine learning based base-phrase chunking and the use of IOB tags.

Chapter 14: Statistical Parsing (Formerly 12)

This statistical parsing chapter has been extensively revised. It now covers PCFGs, probabilistic CKY parsing, parent annotations, the Collins parser, and touches on advanced topics such as discriminative reranking and parsing for language modeling.

Chapter 15: Features and Unification (Formerly 11)

Mainly bug fixes.

Chapter 16: Language and Complexity (Formerly 13)

Mainly bug fixes.

Chapter 17: The Representation of Meaning (Formerly 14)

This chapter still covers basic notions surrounding meaning representation languages. It now has better coverage of model-theoretic semantics for meaning representations, and a new section on Description Logics and their role as a basis for OWL and its role in the Semantic Web.

Chapter 18: Computational Semantics (Formerly 15)

This chapter covers compositional approaches to semantic analysis at the sentence level. The primary focus is on rule-to-rule approaches based on lambda-expressions. It also now has new coverage of unification-based approaches to computational semantics. Coverage in the old chapter 15 on semantic grammars has been moved to the discourse chapter; coverage of information extraction has been expanded and moved to the new chapter 22.

Chapter 19: Lexical Semantics (Formerly 16)

This chapter still covers the basics of lexical semantics, including sense relations, semantic roles, and primitive decomposition. The treatment of semantic roles has been updated, as has the coverage of WordNet, and new sections added for PropBank and FrameNet.

Chapter 20: Computational Lexical Semantics (New Chapter; Parts of old Chs. 15, 16 and 17)

The focus of this new chapter is on computing with word meanings. The three main topics are word sense disambiguation, computing relations between words (similarity, hyponymy, etc.), and semantic role labeling. It considerably expands the treatment of these topics.

Chapter 21: Computational Discourse

This rewritten chapter includes a number of updates to the first edition. The anaphora resolution section is updated to include modern log-linear methods, and a section on the more general problem of coreference is also included. The coherence section describes cue-based methods for rhetorical relation and coherence relation extraction. Finally, there is a significant new section on discourse segmentation (including TextTiling).

Chapter 22: Information Extraction (New chapter: Parts of old 15)

This new chapter surveys current approaches to information extraction. The main topics are named entity recognition, relation detection, temporal expression analysis and template-filling. The primary focus is on supervised machine learning approaches to these topics. The coverage on mostly finite-state methods (FASTUS) has been moved from the old Ch. 15 to here.

Chapter 23: Question Answering and Summarization (Mostly new; Parts of old 17 and 20)

This new chapter covers two applications, question answering and summarization. A brief introduction to the necessary background material from information retrieval is also included. The chapter includes factoid question answering, single document summarization, generic multiple document summarization, and query-focused summarization.

Chapter 24: Dialog and Conversational Agents (Formerly 19)

This is a completely rewritten version of the dialogue chapter. It includes much more information on modern dialogue systems, including VoiceXML, confirmation and clarification dialogues, the information-state model, markov decision processes, and other current approaches to dialogue agents.

Chapter 25: Machine Translation

The MT chapter has been extensively rewritten and a significant new section added covering statistical MT, including IBM Model 1, Model 3, and HMM alignment. A new evaluation section covering human evaluation and Bleu has also been added, as well as sections on SYSTRAN and more details on cross-linguistic divergences.

 

 ترجمه گوگل:  
 

برای دوره های کارشناسی ارشد یا پیشرفته در پردازش زبان طبیعی طب سنتی، پردازش زبان طبیعی طبیعی، تشخیص گفتار، زبان شناسی محاسباتی و پردازش زبان انسانی.
انفجار تکنیک های زبان مبتنی بر وب، ادغام زمینه های متمایز، دسترسی به سیستم های مبتنی بر تلفن مبتنی بر تلفن و خیلی بیشتر، این زمان هیجان انگیز در پردازش گفتار و زبان است. اولین نوعی که به طور کامل تکنولوژی زبان را پوشش می دهد – در تمام سطوح و با تمامی تکنولوژی های مدرن – این متن یک رویکرد تجربی را برای موضوع بر اساس کاربرد آماری و دیگر الگوریتم های یادگیری ماشین برای شرکت های بزرگ به دست می دهد. نویسندگان مناطقی را که به طور سنتی در دوره های مختلف آموزش داده می شوند، برای توصیف یک دید کلی از گفتار و پردازش زبان. تاکید بر کاربرد عملی و ارزیابی علمی است. یک وب سایت همراه شامل مواد آموزشی برای مربیان و اشاره گرها به منابع پردازش زبان در وب است. نسخه دوم مقدار قابل توجهی از مواد جدید و گسترده را ارائه می دهد.

 
جدول محتوا

فصل 1 مقدمه
این فصل عمدتا با تاریخچه به روز شده و اشاره به برنامه های جدیدتر است. PDF برای فصل 1 (بالا)
فصل 2: ​​عبارات منظم و خودکار
این بخش عمدتا با برخی از رفع اشکال است. (بالا)
فصل 3: واژه ها و مبدل ها
این نسخه جدید این فصل همچنان بر مورفولوژی و FSTs تمرکز دارد، اما به روش های مختلف گسترش می یابد. جزئیات بیشتر در مورد توصیف رسمی مبدل های حالت دولتی وجود دارد، بسیاری از اشکالات ثابت شده است و دو بخش جدید در رابطه با کلمات و زیر کلمات اضافه شده است. اولین بخش جدید در مورد لغو کلمه و جمله است، از جمله الگوریتم های انگلیسی و همچنین الگوریتم maxmatch برای تقسیم کلمه چینی. بخش دوم این است که اصلاح املایی و حداقل فاصله ویرایش، و نسخه پیشرفته بخش ویرایش فاصله از فصل 5 نسخه اول است، با چهره های واضح تر به عنوان مثال برای توضیح کمترین ویرایش فاصله از راه دور. (بالا)
فصل 4: N-gram ها (قبلا فصل 6)
این فصل فصل به روز شده در زبان مدرک اصلاحی کامل داشته است. این پیش نویس شامل نمونه های بیشتر، توضیحات کامل از Good-Touring، بخش های گسترش یافته در موضوعات عملی مانند اختلال و ارزیابی، ابزارهای مدل سازی زبان، از جمله قالب ARPA و یک مرور کلی از روش های مدرن مانند Kneser-Ney Interpolated است. (بالا)
فصل 5: تگ کردن بخشی از گفتار (قبلا فصل 8)
تغییر اصلی در این فصل تجدید نظر، توصیف بسیار تیز شده و به همین ترتیب مستقل از تگ های بخشی از سخنرانی هیمور و تریگرام HMM است، از جمله رمزگشایی ویتربی و صاف کردن بینابینی حذف شده. همراه با فصل 6 جدید، این اجازه می دهد تا مقدمه ای کامل برای HMM برای دوره هایی که از فصل های تشخیص گفتار استفاده نمی کنند. سایر تغییرات در این فصل عبارتند از: توضیحات گسترده ای از مدل سازی لغات نامشخص و برچسب زدن بخشی از گفتار به زبان های دیگر و بسیاری از رفع اشکال. در نهایت، ما این فصل را در کتاب قبلی نقل مکان کردیم. (بالا)
فصل 6: مارکوک پنهان و مدل های آنتروپی حداکثر (قبلا بخشی از فصل 7 و ضمیمه D)
این فصل جدید دو مدل توالی را معرفی می کند: HMMs و MEMMs. این جزئیات مدل های پنهان مارکوف، از جمله Forward، Viterbi، و EM را می دهد. سپس مدل های MaxEnt را معرفی می کند که از رگرسیون خطی شروع می شود، سپس رگرسیون لجستیک، سپس فرمت به MaxEnt، و در نهایت MEMM و شهود Viterbi است. (بالا)
فصل هفتم: فونتیکس (بخش های قبل از فصل 4، 5 و 7)
این فصل مقدمه ای برای آوای گفتاری و آکوستیک برای پردازش گفتار و همچنین ابزارهای پایه ای مانند ARPAbet، فرمت های موجفیل، لغات آوایی و PRAAT است. (بالا)
فصل هشتم: سنتز گفتار
این یک فصل جدید در مورد ترکیبات گفتاری است. (بالا)
فصل 9: تشخیص خودکار گفتار (قبلا 7)
این فصل جدید به رسمیت شناختن گفتار به طور قابل توجهی پیشرفته، مقدمه ای کامل برای تشخیص گفتار مبتنی بر HMM، شامل استخراج ویژگی های MFCC، مدل های آکوستیک Model Mix Mix و آموزش های تعبیه شده است. (بالا)
فصل 10: تشخیص گفتار: موضوعات پیشرفته (فصل جدید)
این فصل دوم جدید در زمینه تشخیص گفتار، موضوعات پیشرفته مانند خوشه بندی درخت تصمیم گیری برای تلفن های وابسته به زمینه، رمزگشایی پیشرفته (از جمله بهترین لیست ها، شبکه ها، شبکه های سردرگمی و رمزگشایی پشته)، استحکام (شامل انطباق MLLR)، آموزش های تبعیض آمیز، و تشخیص گفتار انسانی. (بالا)
فصل 11: فونوگرافی محاسباتی (بخش های قبل از فصل 4، 5 و 7)
این فصل مقدمه کوتاهی برای واژگان رایانه ای، از جمله آموزش واژگان و مورفولوژیک، مدل های حالت دولتی، OT و Stochastic OT است. (بالا)
فصل 12: گرامرهای رسمی انگلیسی (قبلا 9)
این فصل همچنان بر روی CFG ها برای زبان انگلیسی تمرکز دارد و حاوی گرامر تجدید شده و تا حدودی برای دامنه ATIS است. بخش های جدید و گسترده عبارتند از: بانک های درخت با تمرکز بر Penn Treebank، جستجو درختان با tgrep و tgrep2، سر و قواعد جستجو، گرامر وابستگی، گرامر دسته بندی و گرامر برای پردازش زبان گفتاری. (بالا)
فصل 13: تجزیه همگانی (قبلا 10)
تمرکز این فصل هنوز در مورد تجزیه CFGs است. این در حال حاضر شامل بخش هایی در CKY، Earley و تجزیه و تحلیل (نمودار) مبتنی بر دستور کار است. علاوه بر این، یک بخش جدید در تجزیه جزئی وجود دارد با توجه به تمرکز بر یادگیری ماشین بر اساس chunking اصطلاح پایه و استفاده از برچسب های IOB وجود دارد. (بالا)
فصل 14: تجزیه آماری (بلافاصله 12)
این فصل تجزیه آماری به طور گسترده ای تجدید نظر شده است. در حال حاضر PCFG ها، تجزیه CKY احتمالا، حاشیه نویسی والدین، تجزیه کننده Collins را پوشش می دهد و موضوعات پیشرفته ای مانند بازخوانی تبعیض آمیز و تجزیه برای مدل سازی زبان را پوشش می دهد. (بالا)
فصل 15: ویژگی ها و متحد سازی (قبلا 11)
به طور عمده رفع اشکال. (بالا)
فصل 16: زبان و پیچیدگی (قبلا 13)
به طور عمده رفع اشکال. (بالا)
فصل 17: نمایندگی معنی (قبلا 14)
این فصل همچنان مفاهیم پایه ای در مورد زبان های نمایشی معانی را پوشش می دهد. اکنون بهتر است
 فصل 18: معناشناسی محاسباتی (قبلا 15)
در این فصل رویکرد ترکیب به تجزیه و تحلیل معنایی در سطح حکم می پردازیم. تمرکز اصلی این است که بر اساس اصطلاحات لامبدا، قوانین حاکم بر قانون باشد. این هم اکنون پوشش جدیدی از رویکردهای متحد مبتنی بر معانی محاسباتی را ارائه می دهد. پوشش فصل 15 پیرامون گرامرهای معنایی به فصل گفتمان منتقل شده است؛ پوشش استخراج اطلاعات گسترش یافته و به فصل 22 منتقل شده است. (بالا)
فصل 19: معانی واژگانی (سابق 16)
این فصل هنوز مبانی معانی واژگانی را شامل می شود، از جمله روابط حساس، نقش های معنایی و تجزیه اولیه. درمان نقش های معنایی به روز شده است، همانطور که پوشش WordNet و بخش های جدید برای PropBank و FrameNet اضافه شده است. (بالا)
فصل 20: معانی واژگانی محاسباتی (فصل جدید؛ قطعات قدیمی Chs. 15، 16 و 17)
تمرکز این فصل جدید بر روی محاسبات با معنای کلمه است. سه موضوع اصلی عبارت ابهام کلمه هستند، محاسبه روابط بین کلمات (شباهت، hyponymy، و غیره) و نشانه نقش معنایی. این به نحو قابل توجهی درمان این موضوعات را گسترش می دهد. (بالا)
فصل 21: گفتمان محاسباتی
این فصل بازنویسی شامل تعدادی از به روز رسانی های نسخه اول است. بخش قطعنامه anaphora به روز می شود که شامل روش های مدرن ورودی خطی است و بخش دیگری نیز در مورد مسئله کلیتر coreference نیز وجود دارد. بخش انسجام، روشهای مبتنی بر نشانه را برای استخراج رابطه لختی و همبستگی توصیف می کند. سرانجام بخش جدیدی در مورد تقسیم بندی گفتمان (از جمله TextTiling) وجود دارد. (بالا)
فصل 22: استخراج اطلاعات (فصل جدید: قسمت های قدیمی 15)
این فصل جدید رویکردهای فعلی را برای استخراج اطلاعات مورد بررسی قرار می دهد. موضوعات اصلی به نام شناسایی نهاد، شناسایی رابطه، تجزیه و تحلیل بیان زمان و قالب پر کردن نامیده می شود. تمرکز اصلی بر رویکردهای یادگیری دستگاه به این موضوعات است. پوشش در متداول ترین روش های حالت محدود (FASTUS) از Ch. قدیمی منتقل شده است. 15 به اینجا (بالا)
فصل 23: پرسش پاسخ و خلاصه (به طور کامل جدید؛ بخش های قدیمی 17 و 20)
این فصل جدید دو برنامه را پوشش می دهد، پاسخ سوال و خلاصه می کند. مقدمه کوتاهی در زمینه مواد لازم برای بازیابی اطلاعات نیز گنجانده شده است. این فصل شامل پرسشنامه پاسخ فوری، خلاصه تک تک سند، خلاصه چندین سند چندگانه و خلاصه متمرکز با پرس و جو است. (بالا)
فصل 24: نمایندگان گفتگو و گفتگو (قبلا 19)
این یک نسخه کاملا بازنویسی فصل گفتگو است. این شامل اطلاعات بسیار بیشتری در مورد سیستم های گفتمان مدرن، از جمله VoiceXML، گفتگوی تأیید و واضح، مدل اطلاعات دولت، فرایندهای تصمیم گیری ماروف و سایر رویه های فعلی برای عوامل گفتگو است. (بالا)
فصل 25: ترجمه ماشین
بخش MT به طور گسترده بازنویسی شده است و یک بخش قابل توجه جدید اضافه شده است که شامل آماری MT، از جمله مدل IBM 1، مدل 3، و تراز HMM است. بخش ارزیابی جدیدی که شامل ارزیابی انسانی و Bleu است نیز اضافه شده است، همچنین بخش های مربوط به SYSTRAN و جزئیات بیشتر در مورد واگرایی متقابل زبانی. (بالا)

توجه توجه توجه: هرگونه کپی برداری و فروش فایل های فروشگاه برکت الکترونیک (به آدرس solutions.sellfile.ir) در فروشگاه های دیگر شرعاً حرام است، تمامی فایل ها و پروژه های موجود در فروشگاه، توسط ما اجرا و پیاده سازی و یا از منابع معتبر زبان اصلی جمع آوری شده اند و دارای حق کپی رایت اسلامی می باشند.

از پایین همین صفحه (بخش پرداخت و دانلود) می توانید این پروژه را خریداری و دانلود نمایید.

کد محصول: 60700

برای دانلود کلیک کنید