İnternetin gelişmesiyle beraber dijital ortamda bulunan veri miktarı
sürekli artış göstermektedir. Özellikle web 2.0 teknolojisiyle birlikte
wikipedia, blog, sosyal medya gibi, kullanıcıların yeni içerik ekleyebildiği
sitelerin artması sonucunda internet ortamındaki bilgi miktarının hem sayısı
hem de büyüklüğü sürekli artarak devasa boyutlara ulaşmıştır. Verilerin bu
kadar çok olduğu bir ortamda istenilen bilgiye ulaşmak ciddi bir
problemdir. Günümüz bilgi çağı, aranan
bilgiye daha çabuk ve hızlı erişmek için otomatik metin özetleme sitemlerinin
bilgi çıkarımı ile ilgili birçok alanda kullanımını zorunlu hale
getirmektedir. Bu çalışmada cümle
çıkarımına dayalı metin özetleme yöntemleri ele alınmış, ilk olarak doküman
içerisinde yer alan cümleleri temsil edecek öznitelikler çıkarılmış, ardından bu
özniteliklerin özet
oluşturmadaki etkinliği genetik algoritma yardımıyla belirlenmeye
çalışılmıştır. Çalışmada kullanılan veri
seti Türkçe haber metinleri ve bunların özetlerini içeren 120 dokumandan
oluşmaktadır. 80 adet dokuman genetik
algoritma yardımıyla eğitilerek,
özniteliklere ilişkin en iyi ağırlık değerleri belirlenmiş, daha sonra
bu ağırlıklar yardımıyla 40 adet test dokümanı özetlenmiş ve sonuçlar orijinal
özetlerle karşılaştırılmıştır.
With the development of the Internet, the amount of
data in the digital environment is continuously increasing. Especially with web
2.0 technology, as a result of sites which users are able to add new content
such as wikipedia, blogs and social media sites, the amount of information on
the internet is increasing both in number and size. Accessing the required
information in a medium where there are so many data is a serious problem.
Today’s information age make it necessary to use automatic text summarization
systems in many areas about information retrieval in order to access the
searched information. In this study, text summarization methods based on
sentence extraction are discussed, firstly features to represent sentences in
document is extracted and then the effectiveness of these attributes on
summarization is tried to be determined by using genetic algorithm. The data
set used in the study consists of 120 documents containing Turkish news texts
and their summaries. 80 documents are trained with the help of genetic
algorithm and the best weight values for the attributes are determined, then 40
test documents are summarized with these weights and the results are compared
with the original summaries.
Journal Section | Articles |
---|---|
Authors | |
Publication Date | December 20, 2017 |
Published in Issue | Year 2017 Volume: 3 Issue: 2 |