تبدیل گفتار به نوشتار آفلاین

1400/01/03

تبدیل گفتار به نوشتار آفلاین :

سلام

نمیدونم چرا نظر منو پاک کردید!!

مجدد آن را می نویسم :)

من موفق شدم که برنامه شما را اجرا کنم و دستوراتی را بدم و در نهایت به آنها پاسخ را به فینگلیشی بنویسم و جواب صوتی بدهد (یا صدای از پیش ذخیره شده فارسی را اجرا کند) یا دستوری را اجرا کنم

دنبال روشی هستم که بتوانم آفلاین این کار را انجام بدهم،

حتی اگه نیاز باشه سوالم را به صورت صوت ذخیره کنم تا در صورت شنیدن آن را اجرا کند

مثل

https://github.com/alphacep/vosk-api

https://www.reddit.com/r/farsi/comments/j4efid/farsi_open_source_speech_recognition_works_offline/

باید pip بروز میشد که شد

بعد vosk نصب شد

ولی بعد باید پک فارسی را میگرفتم

https://alphacephei.com/vosk/models

دیگه نمیدونم چکار کنم

یک گیگ پک فارسی بود، دیدم سیستممو خیلی درگیر میکنه

من 60 مگی را انتخاب کردم، البته دیکشنری کمتری داره

ولی اینجا از روی میکروفون نمیخونه

باید صدای میکروفون ذخیره بشه

بعد از صدای ضبط شده بخونه

نمیدونم استاد راه رو درست رفتم؛

from vosk import Model, KaldiRecognizer, SetLogLevel
import wave
import json
import os
import codecs
ff = codecs.open("demofile.txt", "a", "utf-8")
wf = wave.open("test.wav", "rb")
model = Model("..")
rec = KaldiRecognizer(model, wf.getframerate())
while True:
    data = wf.readframes(100)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        rec.Result()
tt=rec.FinalResult()
tt_json =  json.loads(tt)
ff.write(tt_json['text'])
()ff.close

این کد رو خودم نوشتم

ولی متاسفانه بلد نیستم که چجوری از روی میکروفون بخونه

این میاد فایل صحبت منو ترجمه میکنه

خیلی هم به سیستم احساس میکنم فشار میاد

میخوام مثل همون کد شما باشه که منتظر میکروفون بمونه و بعد وقتی چیزی گفتم بگیره و پردازش کنه

من از شما جلسه کیوی هم خریدم، اما هنوز ندیدمش، انشالله بتونم با کمک اون متن های فارسی که ترمینال ویندوز نشون نمیده و همچنین محیط گرافیکی زیبا این دستیارو به شکل گرافیکی طراحی و کم کم به دیتابیسی متصل کنم

اگر امکانش بود یک جلسه آموزشی هم از Vosk اضافه می فرمودید خیـــــلـــــی عالی و کامل می شد

البته خیلی از نظر قدرت داغونه

نمیدونم چجوری میشه بهترش کرد

یکی از اساتید پایتون به وسیله Tensor با الگوریتم KWS یک سیستم خیلی خوبی طراحی کرده

https://icc-aria.ir/projects/تشخیص-صوت-و-تبدیل-به-متن-فارسی-آفلاین-speech-recognition-persian-offline

اگه آموزش به این سمت میرفت که دمتون گرم

من از هوش مصنوعی چیزی نمیدونم

***********************

اینو امروز بهش رسیدم، با توجه به راهنمایی استاد مذکور که فرمودند از tensor استفاده کرده اند (icc-aria) :

https://www.analyticsvidhya.com/blog/2019/07/learn-build-first-speech-to-text-model-python

https://www.kaggle.com/c/tensorflow-speech-recognition-challenge

مهمترین کار دستیار شخصی اینه که بتونه بدون اینترنت، فرمان ما را انجام دهد

برای سیستم هوشمند قابل حمل با استفاده از رزبری پای این امر خیلی مهمه

خواهشمندم اینجانب را راهنمایی بفرمایید

مهم نیست که همه کلمات هم بتواند پاسخ دهد

اما کلماتی که من بهش میدم را بدون مشکل پاسخ دهی کند

گوگل واقعا عالی عمل میکنه

کاش اپن سورس میکرد

البته مثل اینکه این کار را کرده و آفلاین این کار را انجام میده، اما قطعا اپن سورس نیست

ahmadiali

سعید فرهنگ

1400/01/11
ساعت 15:52

سلام دوستم. بله پکیج و راه هایی وجود داره که بتونه به صورت افلاین، این عملیات رو انجام بده. ولی یا حجم خیلی زیادی دارن و روی سیستم های شخصی جوابگو نیس، یا اینکه کیفیت پایین و محدودیت زیادی داره. در تلاشم وقتم رو خالی کنم و یه ویدئو ضبط کنم و درمورد این مسائل حرف بزنم و راه حل هایی که وجود داره رو ارائه بدم. و همچنین دارم درمورد تبدیل متن به گفتار و برعکس فارسی هم تحقیق میکنم و امیدوارم بتونم به زودی راه حلی رو پیدا کنم. مطمئنن توی همین دوره واستون قرارش میدم اگه به نتیجه رسیدم. و مرسی از سوالت. قطعا ازش استفاده میکنم تا به جواب برسم. ولی من دسترسی به نظرات ندارم و اگه نظرت پاک شده، من بی تقصیرم.