Declarative recursive computation on an RDBMS

Jankov, Dimitrije; Luo, Shangyu; Yuan, Binhang; Cai, Zhipeng; Zou, Jia; Jermaine, Chris; Gao, Zekai J.

doi:10.14778/3317315.3317323

Cited by 33 publications

(7 citation statements)

References 32 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…We note that [29] has propose the use of provenance for incremental model updates for linear and logistic regression models. Another intriguing direction towards this goal is to leverage the line of works on machine learning algorithm representation using relational algebra [18,22], for which provenance models exists.…”

Section: Challenges and Opportunitiesmentioning

confidence: 99%

Bias analysis and mitigation in data-driven tools using provenance

Moskovitch

Jagadish

2022

Proceedings of the 14th International Workshop on the Theory and Practice of Provenance

View full text Add to dashboard Cite

Fairness and bias mitigation in data-driven systems has been extensively studied in recent years. In this paper, we suggest a novel approach towards fairness analysis and bias mitigation utilizing the notion of provenance, which was shown to be useful for similar tasks in the context of data and process analyses. We illustrate the idea using a simple use-case demonstrating a scenario of mitigating bias caused by inadequate minority group representation. We conclude with an outline of opportunities and challenges in developing provenance-based solutions for bias analysis and mitigation in data-driven systems.

show abstract

Section: Challenges and Opportunitiesmentioning

confidence: 99%

Bias analysis and mitigation in data-driven tools using provenance

Moskovitch

Jagadish

2022

Proceedings of the 14th International Workshop on the Theory and Practice of Provenance

View full text Add to dashboard Cite

show abstract

“…Extensions of SQL for matrix manipulations are reported in [27]. Most relevant is [23] in which a recursion mechanism is added to SQL which resembles for-loops. The expressive power of this extension is unknown, however.…”

Section: Contribution and Outlinementioning

confidence: 99%

“…Linear algebra-based algorithms have become a key component in data analytic workflows. As such, there is a growing interest in the database community to integrate linear algebra functionalities into relational database management systems [5,23,[25][26][27]. In particular, from a query language perspective, several proposals have recently been put forward to unify relational algebra and linear algebra.…”

Section: Introductionmentioning

confidence: 99%

Expressive power of linear algebra query languages

Geerts¹,

Muñoz²,

Riveros³

et al. 2020

Preprint

View full text Add to dashboard Cite

Linear algebra algorithms often require some sort of iteration or recursion as is illustrated by standard algorithms for Gaussian elimination, matrix inversion, and transitive closure. A key characteristic shared by these algorithms is that they allow looping for a number of steps that is bounded by the matrix dimension. In this paper we extend the matrix query language MATLANG with this type of recursion, and show that this suffices to express classical linear algebra algorithms. We study the expressive power of this language and show that it naturally corresponds to arithmetic circuit families, which are often said to capture linear algebra. Furthermore, we analyze several sub-fragments of our language, and show that their expressive power is closely tied to logical formalisms on semiringannotated relations.

show abstract

“…A significant limitation of SQL is the lack of iteration constructs. Although loops can be expressed via recursive queries, RDBMS support for recursion is typically limited to fixed-points over sets [89,90]. Iterative processes until a certain condition is satisfied, which typically is not supported by SQL recursion, are very common in machine learning though.…”

Section: On Db and ML Foundationsmentioning

confidence: 99%

“…Finally, recent work [107], [65] proposes the extension of SQL with matrices/vectors and a set of linear algebra operators. [90] combines this approach with optimizations on executing recursion and large query plans on an RDBMS, which can make it suitable for distributed machine learning. Sql4ml does not assume any changes to the relational database system, nor to the ML framework, enabling portability.…”

Section: Extending Sql With Linear Algebramentioning

confidence: 99%

Declarative specification of data analytics tasks

Makrynioti¹,

Μακρυνιώτη²

View full text Add to dashboard Cite

Η διατριβή μελετά την εφαρμογή του δηλωτικού προτύπου στην περιοχή της ανάλυσης δεδομένων. Η έννοια του δηλωτικού προγραμματισμού συνήθως συνοψίζεται στη φράση "περιέγραψε τι κάνει το πρόγραμμα παρά πώς το κάνει". Καθώς η υιοθέτηση της επιστήμης δεδομένων μεγαλώνει με γοργούς ρυθμούς, έχει προκύψει η ανάγκη εκδημοκρατισμού των εργασιών ανάλυσης δεδομένων καθιστόντας την ανάπτυξη τους πιο προσιτή και λιγότερο κουραστική μέσω γλωσσών υψηλού επιπέδου. Εμπνεόμενοι από την επιτυχία του δηλωτικού προτύπου στα συστήματα σχεσιακών βάσεων δεδομένων, οι ερευνητές έχουν ξεκινήσει πρόσφατα να εξερευνούν αν η χρήση δηλωτικών γλωσσών στον τομέα της ανάλυσης δεδομένων, με έμφαση στους αλγορίθμους μηχανικής μάθησης, μπορεί να παρέχει ένα άλμα παραγωγικότητας για τους προγραμματιστές. Το πρώτο μέρος της διατριβής διεξάγει μία λεπτομερή επισκόπηση των τρέχοντων συστημάτων στις περιοχές της ανάλυσης δεδομένων και της μηχανικής μάθησης που αυτοχαρακτηρίζονται ως δηλωτικά. Τα κύρια χαρακτηριστικά των προγραμματιστικών τους μοντέλων, καθώς και οι τεχνικές βελτιστοποίησης που χρησιμοποιούνται σε αυτά τα συστήματα, αναλύονται μέσω συγκεκριμένων παραδειγμάτων κώδικα. Με βάση αυτά τα χαρακτηριστικά η διατριβή παρέχει μία κατηγοριοποίηση ενός μεγάλου εύρους συστημάτων στην προαναφερθείσα περιοχή και προτείνει ένα σύνολο επιθυμητών ιδιοτήτων για ένα σύστημα ανάλυσης δεδομένων/μηχανικής μάθησης που το καθιστούν πιο κοντά στους στόχους του δηλωτικού προτύπου. Το δεύτερο μέρος της διατριβής επικεντρώνεται στην έκφραση αλγορίθμων μηχανικής μάθησης με γλώσσες επερωτήσεων βάσεων δεδομένων και στην αποδοτική μεταγλώττιση και εκτέλεση τους με εξειδικευμένους λύτες μαθηματικής βελτιστοποίησης και πλατφόρμες μηχανικής μάθησης. Οι προτεινόμενες προσεγγίσεις βασίζονται στο πρότυπο "μοντέλο+λύτης", όπου υπάρχει μια περιγραφή της συνάρτησης κόστους του μοντέλου μηχανικής μάθησης και ένας αλγόριθμος επίλυσης που παρέχει τη βέλτιστη λύση για αυτή. Αρχικά, η διατριβή εξερευνεί τη χρήση της Datalog ως μία δηλωτική γλώσσα για γράψει κανείς μέρη ενός γραμμικού αλγορίθμου μηχανικής μάθησης, ο οποίος στη συνέχεια μετατρέπεται σε μία/ένα χαμηλού επιπέδου αναπαράσταση/μορφότυπο δεδομένων και καταναλώνεται από έναν αλγόριθμο γραμμικού προγραμματισμού. Η δεύτερη προσέγγιση προτείνει μία μέθοδο μετάφρασης συναρτήσεων κόστους μοντέλων μηχανικής μάθησης γραμμένων σε SQL σε τελεστές γραμμικής άλγεβρας όπως αυτοί παρέχονται από ένα εξειδικευμένο σύστημα μηχανικής μάθησης, για παράδειγμα το TensorFlow. Αυτή η προσέγγιση επεκτείνει την πρώτη ως προς το ότι καλύπτει μη γραμμικά μοντέλα μηχανικής μάθησης και παράγει αυτόματα κώδικα που χρησιμοποιεί πρωταρχικά στοιχεία μιας πλατφόρμας μηχανικής μάθησης παρά έναν μορφότυπο δεδομένων. Και στις δύο περιπτώσεις η υπολογισθείσα λύση αποθηκεύεται πίσω στη βάση δεδομένων, γεγονός που επιτρέπει την παραγωγή μελλοντικών προβλέψεων σε δεδομένα ελέγχου μέσα στη βάση δεδομένων. Στα πλαίσια αυτών των προσεγγίσεων, προτείνονται τεχνικές για την αυτοματοποίηση και βελτιστοποίηση της μεταφοράς δεδομένων μεταξύ δομών της βάσης δεδομένων (σχέσεις) και εκείνων της πλατφόρμας μηχανικής μάθησης (πολυδιάστατες συστοιχίες). Η διατριβή επιδεικνύει τις προτεινόμενες προσεγγίσεις μέσω πρότυπων συστημάτων, τα οποία υλοποιούν μια απ' άκρη σ' άκρη ροή εργασιών που ξεκινά στη βάση δεδομένων, προωθεί την εκπαίδευση του μοντέλου σε μια βιβλιοθήκη μηχανικής μάθησης, και αποθηκεύει τα υπολογεισθέντα βάση πίσω στη βάση δεδομένων. Παρουσιάζονται πειράματα σχετικά με τη διαδικασία μετάφρασης και τις τεχνικές βελτιστοποίησης μεταφοράς δεδομένων σε δημοφιλείς αλγορίθμους μηχανικής μάθησης, συμπεριλαμβανομένων των Γραμμική Παλινδρόμηση, Factorization Machines και Λογιστική Παλινδρόμηση, και σε διαφορετικά σύνολα δεδομένων.

show abstract

Declarative recursive computation on an RDBMS

Cited by 33 publications

References 32 publications

Bias analysis and mitigation in data-driven tools using provenance

Bias analysis and mitigation in data-driven tools using provenance

Expressive power of linear algebra query languages

Declarative specification of data analytics tasks

Contact Info

Product

Resources

About