חזרה

סילבוס

מספר קורס 0368-3062-02
שם הקורס ניהול נתונים באינטרנט
יחידה אקדמית הפקולטה למדעים מדויקים ע"ש ריימונד ובברלי סאקלר -
מדעי המחשב
אופן ההוראה תרגיל
שעות סמסטריאליות 1
סמסטר ב' תשפ"ב
יום ה
שעות 12:00-13:00
בניין דן דוד - כיתות לימוד
חדר 001
קורס מקוון במלואו
אין סילבוס

תוכן הקורס ומטרתו

ניהול נתונים באינטרנט ואחזור מידע

*** ההרצאות בקורס (לא התרגולים) יועברו באופן מקוון הסמסטר (סמסטר ב' תשפ"ב)

מדובר בקורס מבוא לנושאים נבחרים מתחום ניהול הנתונים ואחזור המידע.
נדון בקורס בהבחנות שבין מידע מובנה (טבלאי), מובנה למחצה (מסמכי XML ומידע מקושר) וכן מידע טקסטואלי.

על מנת לעבד את כמויות המידע האדירות ברשת אנו זקוקים לאלגוריתמים יעילים לפעולות כגון, אחזור מידע רלוונטי, המלצה ודירוג של מקורות מידע שונים.
מטרת הקורס היא להציג לסטודנטים מודלים ואלגוריתמים שיסייעו להם בחילות וארגון מידע שמקורו בדפי אינטרנט.

נושאי הקורס כוללים:

- מודל XML לאחסון מידע: שפת XPath, אוטומטי עצים לתבניות XML, שפת HTML לתצוגת דפי אינטרנט
- חילוץ מידע: אונטולוגיות (גרף מסד נתונים) ובנייתן ממידע מובנה למחצה וטקסטואלי, שפת SPARQL לשליפה על מסדי נתונים מצורת גרף
- זחלן רשת
- אחזור מידע: מבוא למערכות לאחזור מידע, מודל המרחב הוקטורי, מנוע חיפוש על עמודי אינטרנט, מדדי הערכה לביצוע אחזור מידע
- אלגוריתמים לדירוג עמודי אינטרנט מבוססי קישורים: HITS, PageRank
- אלגוריתמים לשקלול דירוגים: אלגוריתם Fagin ואלגוריתם הסף
- מבוא לעיבוד שפות טבעיות
-מידול שפה
- תיוג משפטים (מודל מרקוב, אלגוריתם ויטרבי)
- ניתוח עצי למשפטים (מודל דקדוק הסתברותי חסר הקשר, אלגוריתם CYK)
- מבוא מקוצר לשיטות פורצות דרך בעיבוד שפה טבעית

בבליוגרפיה (חלקית): ראו למטה

Web Data Management & Information Retrieval

*** The course lectures (not its recitations) will be given virtually this semester (Spring 2022)

The course provides an introduction to selcted topics in Web Data Management and Information Retrieval (IR).
We discuss the distinctions between information types found in the Web: structured (tables), semi-structured (XML and linked data), and unstructured data (text).

To be able to deal with this ocean of information, there is a need for algorithms for efficient retrieval, recommendation, and ranking of data.
The goal of this course is to introduce students with models and algorithmic techniques for extracting and organizing with web data, in light of these challenging features.

Topics include:

- XML data model: XPath query language, Tree Automata for XML Typing, HTML web pages
- Information Extraction: Ontology (KG) building from semi-structured and unstructured data, SPARQL query language
- Web crawling
- Information Retrieval: Intro to IR systems, the Vector Space Model, Web Search, evaluating IR systems
- Link-analysis ranking algorithms: HITS, PageRank
- Rank aggregation: Fagin & Threshold algorithms
- Introduction to Natural Language Processing (NLP):
- Language modeling
- Sentence tagging (HMM & Viterbi algorithm)
- Sentence parsing (PCFG & CYK algorithm)
- Introduction to state-of-the-art models



Bibliography (partial):


Books



1. Serge Abiteboul, Ioana Manolescu, Philippe Rigaux, Marie-Christine Rousset, Pierre Senellart,



Web Data Management, Cambridge University Press 2011


2. Dan Suciu?, Dan Olteanu?, Christopher R? ?, Christoph Koch?

Probabilistic databases, Morgan and Claypool 2011







Papers

1. Brin, Page


The Anatomy of a Large-Scale Hypertextual Web Search Engine, Computer Networks and ISDN Systems 30 (7), 1998

2. Fagin,

Kumar, Sivakumar, COMPARING TOP k LISTS SIAM J. Discrete Math 17 (1), 2003

3. Fagin, Lotem, Naor,

Optimal aggregation algorithms for middleware, in Proc. of SIGMOD '01

4. Sarwar, Karypis, Konstan, Reidl,

Item-based collaborative filtering recommendation algorithms in proc. of WWW'01

5. Wang, De Vries, Reinders,

Unifying user-based and item-based Collaborative Filtering in proc. of SIGIR '06

6. Kleinberg,

Authoritative sources in a hyperlinked environment, in JACM 46 (5), 1999

7. Serge Abiteboul, Benny Kimelfeld, Yehoshua Sagiv, Pierre Senellart:

On the expressiveness of probabilistic XML models. VLDB J. 18(5), 2009



הסילבוס המפורט מפורסם לתלמידי הקורס בלבד
מטלות הקורס

ייתכנו מטלות נוספות
רשימת המטלות המלאה תופיע בסילבוס המפורט של הקורס.

קורסי קדם נדרשיםאלגוריתמים (03682160) +מודלים חישוביים (03682200) +מבוא להסתברות (03662010) אומבוא להסתברות וסטטיסטיקה (05092801) אוהסתברות וסטטיס. (03682002) אומבוא להסתברות לסטטיסטיקאי (03651101) אוהסתברות וסטטיסטיקה (03211836)

דרישות קדם ספציפיות בקורס בהתאם לתוכנית הלימודים הנלמדת,
מופיעות בדף הידיעון של התוכנית



tau logohourglass00:00