தரவு சுரங்கத்தில் வகைப்படுத்தல்

வகைப்பாடு என்பது ஒரு தரவு செயலாக்க நுட்பமாகும், அது துல்லியமான கணிப்புக்கள் மற்றும் பகுப்பாய்வுகளுக்கு உதவுவதற்காக தரவு சேகரிப்புக்கு வகைகளை வழங்குகிறது. சில நேரங்களில் ஒரு முடிவு மரம் என்று அழைக்கப்படுவதோடு, மிகப்பெரிய தரவுதளங்களைப் பகுப்பாய்வு செய்வதற்கு வகைப்படுத்தப்படும் பல முறைகள் ஒன்றாகும்.

ஏன் வகைப்படுத்துதல்?

மிக பெரிய தரவுத்தளங்கள் "பெரிய தரவு" இன்றைய உலகில் நெறிமுறையாக மாறி வருகின்றன. பல டெராபைட் தரவு தரவுத்தளத்தை கற்பனை செய்து பாருங்கள் - ஒரு டெராபைட் என்பது தரவுகளின் ஒரு டிரில்லியன் பைட்டுகள் ஆகும்.

பேஸ்புக் தனியாக ஒவ்வொரு நாளும் 600 டெராபைட்டுகள் புதிய தரவை crunches (2014 வரை, இந்த கண்ணாடியை அறிக்கை கடந்த முறை). பெரிய தரவு முக்கிய சவால் அதை உணர எப்படி உள்ளது.

மற்றும் சுத்த அளவு மட்டும் பிரச்சனை இல்லை: பெரிய தரவு மேலும் மாறுபட்ட, கட்டமைக்கப்பட்ட மற்றும் வேகமாக மாறும் இருக்க முனைகிறது. ஆடியோ மற்றும் வீடியோ தரவு, சமூக ஊடக பதிவுகள், 3D தரவு அல்லது புவிசார் தரவு ஆகியவற்றைக் கருத்தில் கொள்ளுங்கள். இந்த வகையான தரவு எளிதில் வகைப்படுத்தப்படவில்லை அல்லது ஒழுங்கமைக்கப்படவில்லை.

இந்த சவாலை சந்திக்க, பயனுள்ள தகவல்களை பிரித்தெடுக்கும் ஒரு தானியங்கி முறைகளை உருவாக்கியுள்ளது, அவற்றுள் வகைப்பாடு .

எப்படி வகைப்பாடு வேலை செய்கிறது

டெக்-ஸ்பீக்கிற்கு மிகவும் தூரமாக நகரும் அபாயத்தில், வகைப்பாடு எவ்வாறு செயல்படுகிறது என்பதை விவாதிக்கலாம். ஒரு கேள்விக்கு பதிலளிக்கும், ஒரு முடிவை எடுப்பது, அல்லது நடத்தை முன்னறிவிப்பதற்கான ஒரு வகை வகைப்பாடு விதிகளை உருவாக்குவதே ஆகும். ஒரு தொடக்க பயிற்சி வகுப்பு உருவாக்கப்பட்டது, அது ஒரு சில குறிப்பிட்ட பண்புக்கூறுகளையும் அத்துடன் சாத்தியமான விளைவுகளையும் கொண்டிருக்கிறது.

பண்புக்கூறுகளின் தொகுப்பு அதன் முடிவை எவ்வாறு அடைகிறது என்பதை வகைப்படுத்துவதற்கான வழிமுறையின் வேலை ஆகும்.

காட்சி : ஒரு கிரெடிட் கார்டு நிறுவனம், கிரெடிட் கார்டு வாய்ப்பைப் பெறும் வாய்ப்பைத் தீர்மானிக்க முயல்கிறது.

இது பயிற்சி தரவுகளின் தொகுப்பாக இருக்கலாம்:

பயிற்சி தரவு
பெயர் வயது பாலினம் ஆண்டு வருமானம் கடன் அட்டை சலுகை
ஜான் டோ 25 எம் $ 39.500 இல்லை
ஜேன் டோ 56 எஃப் $ 125,000 ஆம்

"முன்கணிப்பு" பத்திகள் வயது , பாலினம் மற்றும் வருடாந்திர வருமானம் ஆகியவை "முன்கணிப்பு பண்புக்கூறு" கடன் அட்டை வழங்குநரின் மதிப்பை தீர்மானிக்கின்றன. ஒரு பயிற்சி தொகுப்பில், முன்கணிப்பு பண்பு அறியப்படுகிறது. முன்கணிப்பு அல்காரிதம் பின்னர் முன்கணிப்பு பண்பு எவ்வாறு அடைந்தது என்பதை தீர்மானிக்க முயற்சிக்கிறது: முன்கணிப்பாளர்களுக்கும் முடிவுக்கும் இடையில் என்ன உறவுகள் உள்ளன? இது ஒரு கணிப்பு விதிகள், பொதுவாக ஒரு IF / THEN அறிக்கையை உருவாக்கலாம், எடுத்துக்காட்டாக:

IF (வயது> 18 அல்லது வயது <75) மற்றும் வருடாந்திர வருமானம்> 40,000 THEN கடன் அட்டை சலுகை = ஆம்

வெளிப்படையாக, இது ஒரு எளிய எடுத்துக்காட்டு, மற்றும் படிமுறை இங்கே காட்டப்பட்டுள்ள இரு பதிவுகளை விட ஒரு பெரிய தரவு மாதிரி தேவைப்படும். மேலும், கற்பனையான விதிகள் மிகவும் சிக்கலானவையாக இருக்கும், பண்புக்கூறு விவரங்களை கைப்பற்ற துணை-விதிகள் உள்ளன.

அடுத்து, அல்காரிதம் தரவரிசைப்படுத்தப்பட்ட தரவுகளின் "கணிப்பு தொகுப்பு" வழங்கப்படுகிறது, ஆனால் இந்த தொகுப்பு கணிப்பு பண்புக்கூறு (அல்லது முடிவைக் கொண்டிருக்கவில்லை):

முன்னறிவிப்பு தரவு
பெயர் வயது பாலினம் ஆண்டு வருமானம் கடன் அட்டை சலுகை
ஜாக் ஃப்ரோஸ்ட் 42 எம் $ 88,000
மேரி முர்ரே 16 எஃப் $ 0

இந்த முன்கணிப்பு தரவு முன்கணிப்பு விதிகள் துல்லியம் மதிப்பிட உதவுகிறது, மற்றும் டெவலப்பர் பயனுள்ள மற்றும் பயனுள்ள கணிப்புகள் கருதுகிறது வரை விதிகள் பின்னர் tweaked.

வகைபிரித்தல் நாள் எடுத்துக்காட்டுகள் நாள்

வகைப்பாடு, மற்றும் பிற தரவு சுரங்க உத்திகள், நுகர்வோர் நம் நாள் முதல் நாள் அனுபவம் மிகவும் பின்னால் உள்ளது.

வானிலை கணிப்புகள் நாள் மழை, சன்னி அல்லது மேகமூட்டமாக இருக்கும் என்பதை புகாரளிக்க வகைப்படுத்தலாம். மருத்துவ தொழிலை முன்னறிவிப்பதற்காக மருத்துவ நிலைகள் சுகாதார நிலைகளை ஆராயலாம். ஒரு வகை வகைப்பாடு முறை, எளிய பாசியன், ஸ்பேம் மின்னஞ்சல்களை வகைப்படுத்த நிபந்தனை நிகழ்தகவை பயன்படுத்துகிறது. மோசடி கண்டறிதல் இருந்து தயாரிப்பு சலுகைகள், வகைப்பாடு ஒவ்வொரு நாளும் தரவு பகுப்பாய்வு மற்றும் கணிப்புகள் உற்பத்தி காட்சிகளை பின்னால் உள்ளது.