ÖzKonuşma insanlar arasındaki hızlı ve en doğal iletişim yöntemlerindendir. Konuşmadan duygu tanıma çalışmaları, konuşma sırasında çıkan ses sinyalinden anlam bilgisini elde etmeye çalışmaktadırlar. Son yıllarda konuşma sinyalleri üzerinden duygu analizi ile ilgili olarak birçok çalışma yapılmıştır. Bu çalışmalarda duygu analizinde 3 önemli yön dikkate alınarak detaylı bir araştırma yapılmıştır. Birinci konu konuşma sinyallerinden öznitelik çıkarma, ikinci konu bu özniteliklerden sınıflandırmaya olumlu katkısı olacakların seçimi ve üçüncü konu ise sınıflandırma şemalarının tasarımı ve performans değerlendirmesidir. Özniteliklerin doğru belirlenmesi, öznitelikler üzerinde seçme işleminin başarılı bir şekilde uygulanması performansı büyük ölçüde etkilemektedir. Ancak sesten özniteliklerin çıkarılması, ve sınıflandırılmasında farklı yöntemler tercih edilse de performans veri setlerine, duygu durumlarına, dillere, eğitim setinin kullanım yöntemine göre değişebilmektedir. İncelenen makaleler kapsamında sınıflandırıcı olarak en sık SVM ve öznitelik olarak da MFCC kullanılmıştır. En yüksek tanıma oranı ise TESS veri setinde oto-kodlayıcı ve Alex-net CNN ile sağlanmış ve %98 başarı elde edilmiştir.
Bu çalışmada, klasik makine öğrenme yöntemleri farklı kültürlere ait farklı türdeki müziklerden oluşmuş veri tabanları üzerinde duygu tanıması yapmak için kullanılmışlardır. Bu veri tabanlarında bulunan müziklerden öznitelik çıkarmak için çalışmalarda yaygın olarak kullanılan araçlar tercih edilmiştir. Çıkarılan bütün özniteliklere korelasyon tabanlı öznitelik seçme yöntemi uygulanmıştır. Makine öğrenmesi yöntemleri olarak Bayes Ağları, Sıralı Minimal Optimizasyon, Lojistik Regresyon ve Karar Ağaçları kullanılmıştır. Öznitelik seçim işlemi sonrasında kalan özniteliklere Bayes Ağları yöntemi uygulandığında, Türkçe Duygusal Müzik Veri Tabanı için %94,35, Bi-Modal Veri Tabanı için %79,62 ve Soundtrack Veri Tabanı için ise %75,45 tanıma oranı elde edilmiş ve karşılaştırılan sınıflandırıcılardan daha iyi sonuç alınmıştır. Daha sonra, araçlardan çıkarılan öznitelikler bir araya getirilmiş ve yine seçim işlemi yapılmıştır. Bu işlemden sonra ise, sırasıyla bu veritabanları için %95,96, %80,24 ve %82,72 tanıma oranları elde edilmiştir.
ÖzBu çalışmada, müzik türü sınıflandırma yapmak için bu alanda daha önce kullanılmamış derin öğrenmeye dayalı Evrişimli Uzun Kısa süreli bellek derin sinir ağı (CLDNN) adı verilen bir mimari kullanılmıştır. Ayrıca çeşitli müzik türlerine ait 200 müzikten oluşan yeni bir Türkçe Müzik Veritabanı oluşturulmuştur. Önerilen mimarinin ve yaygın olarak kullanılan makine öğrenme metotlarının sınıflandırma performansı oluşturulan bu veri tabanı üzerinde değerlendirilmiştir. Ek olarak, kullanılan bu mimarinin ilk kısmını oluşturan Evrişimli Sinir Ağı (CNN) kullanılarak, yeni öznitelikler elde edilmiştir. Bu yeni öznitelikleri elde etmek için Evrişimli Sinir Ağı'na girdi olarak hem Mel Frekansı Kepstrum Katsayıları (MFCC) hem de log mel filtre bankası enerjileri kullanıldı. Bu özniteliklere ek olarak çeşitli araçlar kullanılarak çok sayıda standart öznitelik elde edilmiştir. Bütün metotlar için en başarılı sınıflandırma sonuçlarına standart özniteliklerle yeni öznitelikler bir arada kullanıldığında ulaşılmıştır. Karşılaştırılan sınıflandırıcılar içerisinde en iyi sonuçlara ise %99,5 ile önerilen mimarinin kalan kısmı olan Uzun Kısa Süreli Bellek (LSTM) ile tam bağlantılı katmanlardan oluşan Derin Sinir Ağı (DNN) birleşimi ile ulaşılmıştır.
Öz Müzikten duygu tanıma yapılması, günümüzde hala oldukça zor bir görevdir. Bu çalışmada, müzikten duygu tanıma yapılması için genel problemler tespit edilmiş, bu problemlerin üstesinden gelmek ve sınıflandırma başarısını artırmak için yaklaşımlar geliştirilmiştir. Bu amaçla, çeşitli makine öğrenmesi yöntemleri ve farklı araçlardan elde edilen öznitelikler kullanılarak Türkçe müziklerden duygu tanıması yapılmak istenmiştir. Yöntem olarak Bayes Ağları, Sıralı Minimal Optimizasyon (SMO), Karar Ağaçları (J.48) ve Lojistik Regresyon kullanılmıştır. Bu yöntemler, duygu tanıma yapmak için oluşturulan bir veri tabanı üzerine uygulanmış ve performansları ölçülmüştür. Bu veri tabanı her biri 30 saniyelik 124 müzik alıntısından oluşan Türkçe Duygusal Müzik Veri Tabanı'dır. Müzik sinyallerinden öznitelik elde etmek için ise, yapılan çalışmalarda sık sık karşımıza çıkan ve öznitelik çıkarma sırasında karşılaşılan sorunlara kapsamlı çözüm sağlayan çeşitli araçlar kullanılmıştır. Bu araçlar çok sayıda farklı öznitelik elde etmemize olanak sağlar. Buna ek olarak gereksiz olan öznitelikleri çıkarmak ve sınıflandırıcı performansını artırmak amacıyla korelasyon tabanlı öznitelik seçme yöntemi (Correlation-based Feature Selection) kullanılmıştır. Her bir araçtan elde edilen özellikler ayrı ayrı kullanılarak, makine öğrenmesi yöntemleri ile birlikte sınıflandırma işlemi yapılmıştır. Sınıflandırma aşamasında sonuçları değerlendirmek ve karşılaştırmak için 10 kat çapraz doğrulama yöntemi uygulanmıştır. Yapılan çalışmada, elde edilen özniteliklere öznitelik seçim yöntemi uygulanarak ve Bayes Ağları sınıflandırıcısı kullanılarak %94.35 oranında doğruluk ile duygu tanıma gerçekleştirilmiş ve diğer sınıflandırıcıların hepsinden daha iyi sonuç alınmıştır. Son olarak, bütün araçlardan elde edilen öznitelikler bir araya getirilmiş ve bu özniteliklere yine seçim işlemi yapılmıştır. Bu işlemden sonra ise, Bayes Ağları kullanılarak elde edilen duygu tanıma oranı %1.6 artarak, %95.96 olmuştur.
Speech recognition has several application areas such as human machine interaction, classification of phone calls by gender, voice tagging, STT, etc. Predicting gender from audio signals is a problem that is easy for humans to solve, difficult to solve by a computer. In this study, a model based on MFCC and classification with machine learning is proposed for gender estimation from Turkish voice signals. Within the scope of the study, 58 different series and films were examined and a new original dataset was created with 894 audio recordings consisting of 5 sec sections taken from them. Mel-frequency cepstral coefficients (MFCC) and spectrogram, which are frequently used in the literature, were used for feature extraction from audio data. The results were first evaluated separately using two features in one way. A hybrid feature vector was then created using two feature vectors. Different machine learning algorithms (LR, DT, RF, XGB etc.) were tested in the classification process and it was seen that the best accuracy was achieved in the hybrid model and logistic regression with 89%. Recall, precision and f-score values were obtained as 86.8%, 92% and 89.3%, respectively. The obtained test results revealed that the proposed model, together with the hybrid feature vector used, the original dataset and the classifier based on machine learning, showed classification success in terms of accuracy and was a stable and robust model.
Thanks to the technological developments that have taken place in recent years, the number, variety and quality of the data obtained using IoT (Internet of Things) sensors have been increasing. Data obtained from IoT sensors have been used in many scientific fields such as land use, climate change, vegetation analysis and air quality forecasting. In this study, a location-based spatial analysis application was carried out using the data obtained from IoT sensors with machine learning. With this application, the average temperature information of the station was estimated with Artificial Neural Network (ANN), Random Forests (RF), and Support Vector Machines (SVM) methods using daily average humidity, average pressure, and station altitude information on real datas of Kayseri acquired from the Turkish State Meteorological Service, and then performances of the methods were compared. In the experimental evaluations, the ANN, RF and SVM methods obtained an average of 0.83, 0.75 and 0.50 R2 values. The ANN method outperformed the RF and SVM methods in location-based temperature estimation.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
334 Leonard St
Brooklyn, NY 11211
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.