ADVERTISEMENT

ADVERTISEMENT

બેંગ્લુરુ સ્થિત NYUના સ્નાતકોએ ઓપન-સોર્સ વૉઇસ AI મોડેલ લોન્ચ કર્યું

બે ૨૩ વર્ષીય ભારતીય સ્થાપકોએ માયા૧ લોન્ચ કર્યું, જે ગતિશીલ રીતે નવા અવાજો બનાવે છે અને વાસ્તવિક સમયમાં જવાબ આપે છે.

ધીમંત રેડ્ડી અને ભરત કુમાર / LinkedIn

ધીમંત રેડ્ડી અને ભરત કુમાર, બંને ૨૩ વર્ષના અને ન્યૂયોર્ક યુનિવર્સિટીના સ્નાતકો,એ તેમની બેંગલુરુ સ્થિત સ્ટાર્ટઅપ માયા રિસર્ચ દ્વારા ૪ નવેમ્બર ૨૦૨૫ના રોજ માયા૧ નામનું ઓપન-સોર્સ ટેક્સ્ટ-ટુ-સ્પીચ (TTS) મોડેલ લોન્ચ કર્યું છે, જે ઝડપથી વિશ્વની ટોચની વૉઇસ એઆઈ સિસ્ટમ્સમાંની એક બની ગયું છે.

આર્ટિફિશિયલ એનાલિસિસ સ્પીચ એરેના લીડરબોર્ડ અનુસાર, માયા૧ ઓપન-વેઇટ કેટેગરીમાં બીજા ક્રમે અને વૈશ્વિક સ્તરે વૉઇસ એઆઈ મોડેલ્સમાં ૨૦મા સ્થાને છે, જે ગૂગલ સહિત મોટી કંપનીઓની સિસ્ટમ્સ કરતાં આગળ છે. તે ૨૦થી વધુ ભાવનાઓને સપોર્ટ કરે છે, ઝીરો-શૉટ વૉઇસ ક્લોનિંગ સક્ષમ બનાવે છે અને એક જ જીપીયુ પર ૧૦૦ મિલિસેકન્ડથી ઓછી વિલંબતા સાથે કાર્ય કરે છે.

આ મોડેલ ફ્રી ક્લાઉડ કમ્પ્યુટિંગ ક્રેડિટ્સનો ઉપયોગ કરીને તાલીમ આપવામાં આવ્યું છે અને અપાચે ૨.૦ લાઇસન્સ હેઠળ રિલીઝ કરવામાં આવ્યું છે. તે ત્રણ અબજ પેરામીટર્સ સાથે બનાવવામાં આવ્યું છે. તે લેખિત પ્રોમ્પ્ટ્સમાંથી કુદરતી, ભાવનાત્મક અભિવ્યક્ત વૉઇસ ઉત્પન્ન કરી શકે છે, જે ઇલેવનલેબ્સ અને ઓપનએઆઈ જેવી માલિકીવાળી સિસ્ટમ્સ સાથે સ્પર્ધા કરતી રીઅલ-ટાઇમ સ્પીચ જનરેશન ક્ષમતા ધરાવે છે.

માયા૧ની ડિઝાઇન વપરાશકર્તાઓને તેમની ઇચ્છિત વૉઇસનું વર્ણન કરવાની મંજૂરી આપે છે – જેમ કે “૪૦ વર્ષીય મહિલા, ગરમ સ્વર, ધીમી ગતિ” – અને સિસ્ટમ તેને તુરંત ઉત્પન્ન કરે છે. મોડેલની કાર્યક્ષમતા ન્યુરલ ઑડિયો કોડેક SNACના ઉપયોગથી આવે છે, જે ધ્વનિને નાના ડેટા ટોકન્સમાં સંકુચિત કરે છે જે ૨૪ કિલોહર્ટ્ઝ ઑડિયોમાં પુનઃનિર્માણ કરવામાં આવે છે.

મોટા ભાગની વ્યાપારી ટેક્સ્ટ-ટુ-સ્પીચ મોડેલ્સ પૂર્વ-રેકોર્ડેડ વૉઇસ પર આધારિત હોય છે, તેનાથી વિપરીત માયા૧ ગતિશીલ રીતે નવી વૉઇસ બનાવે છે અને રીઅલ ટાઇમમાં પ્રતિસાદ આપે છે. તે ટેક્સ્ટમાં સીધા જ ભાવના ટૅગ્સ જેમ કે <happy>, <sad> અથવા <excited>ને અર્થઘટન કરીને અનુરૂપ વૉકલ અભિવ્યક્તિઓ ઉત્પન્ન કરે છે, પ્રતીકાત્મક સંકેતોને બદલે.

અંગ્રેજી સ્પીચ કોર્પસ પર તાલીમ આપવામાં આવી છે જેમાં મોટા પાયે ઑનલાઇન ડેટા અને સ્ટુડિયો-ગુણવત્તાવાળા રેકોર્ડિંગ્સનો સમાવેશ થાય છે. માયા૧ની ફાઇન-ટ્યુનિંગમાં માનવ-લેબલવાળી ભાવનાત્મક અને સ્વરીય વેરિએશન્સનો સમાવેશ થયો છે. તેના વિકાસકર્તાઓ જણાવે છે કે મોડેલ vLLM ફ્રેમવર્ક સાથેના એકીકરણ દ્વારા રીઅલ-ટાઇમ આઉટપુટ હાંસલ કરે છે, જે કાર્યક્ષમ અનુમાન માટેનું ફ્રેમવર્ક છે, જે ડિજિટલ આસિસ્ટન્ટ્સ અને વાર્તા કહેવાના સાધનો જેવા એપ્લિકેશન્સ માટે નજીકના તાત્કાલિક પ્રતિસાદો સક્ષમ કરે છે.

આ મોડેલ હગિંગ ફેસ પર “maya-research/maya1” હેઠળ જાહેરમાં ઉપલબ્ધ છે અને માયા રિસર્ચની સત્તાવાર વેબસાઇટ mayaresearch.ai દ્વારા સીધું જ પરીક્ષણ કરી શકાય છે.

Comments

Related

ADVERTISEMENT

 

 

 

ADVERTISEMENT

 

 

E Paper

 

 

 

Video